Kerninformationen

Datenextraktion aus Dokumenten – How To III

Team Konfuzio

Einheitliche Trainingsdaten: Theorie und Praxis

Nachdem Sie die Grundlagen in Anleitung 1 und Sektionen in Anleitung 2 kennengelernt haben, sollten Sie bereit sein, an Ihrem eigenen Projekt zu arbeiten. 

Typische Fragen unserer Kunden:

Wir haben schon viele Projekte unserer Kunden begleitet und die folgenden Fragen bekommen wir hierbei immer wieder gestellt: 

  • Wie muss der Trainingsdatensatz aussehen? 
  • Was genau soll ich markieren? 
  • Soll ich das Eurosymbol bei einem Geldbetrag mitlabeln? 
  • Soll ich ein im Dokument mehrfach genanntes Datum auch mehrfach labeln?
  • Soll ich bei Aufzählungen die Kommas mitlabeln? 

Durch die große Vielseitigkeit von Konfuzio sind viele Antworten abhängig vom Einzelfall. Ihre Fragen werden sicherlich zum Teil von diesen abweichen. Jedoch werden die meisten Fragen allein dadurch geklärt, dass Sie verstehen, wie unsere KI denkt und arbeitet. Anhand dieses Prinzips werden wir die Fragen hier beantworten.

Außerdem zeigen wir Ihnen praktische Tipps für den erfolgreichen Trainingsprozess.

Fragen & Antworten

Wie denkt die KI?

Die Konfuzio-KI arbeitet nicht regelbasiert, sondern ergebnisorientiert. Sie betrachtet die Trainingsdaten als gewünschtes Ergebnis und wird sich selbst Regeln aufstellen, um diese bei neuen Dokumenten anzuwenden und zu versuchen, ein entsprechendes Ergebnis zu erreichen. Damit sie hierbei klare Strukturen erkennen kann, sollte man auch beim manuellen Labeln klar strukturiert vorgehen. Irregularitäten, die für unser menschliches Gehirn keinen Unterschied machen, veranlassen die KI nach Regeln und Strukturen zu suchen, die es nicht gibt, wodurch es ihr schwerer fallen wird, die richtigen Entscheidungen zu treffen.

Wie muss der Trainingsdatensatz aussehen?

Je einheitlicher bzw. homogener die Dokumente untereinander sind, desto akkurater sind grundsätzlich die Ergebnisse. Optimal sind standardisierte oder normierte Dokumente. Dies ist meistens jedoch nicht der Fall und ist außerhalb der eigenen Kontrolle. Dies ist grundsätzlich kein Problem für Konfuzio, bedeutet aber, dass die Wichtigkeit der Qualität und Quantität der Trainingsdaten mit der Heterogenität der Dokumente zunimmt.

Was genau soll ich Labeln?

Die kurze Antwort: Labeln Sie das, was Sie später auslesen wollen, aber tun Sie dies einheitlich.

Soll ich Währungen bei Geldbeträgen mitlabeln?

Man sollte zum Beispiel bei Geldbeträgen die Währung (z. B. das Euro Symbol) entweder immer mitlabeln oder immer weglassen. Es ist es egal, für welche Art man sich entscheidet. Es ist wichtig, dass man dies in allen Dokumenten und auch innerhalb eines Dokumentes nur auf eine Art macht. Dies gilt natürlich auch für andere Einheiten wie kg, m2 etc. und andere zusammengesetzte Informationen.

Soll ich ein im Dokument mehrfach genanntes Datum auch mehrfach markieren?

Nehmen wir folgendes Beispiel. Es steht auf allen Seiten eines Dokumententyps oben rechts das Datum. Muss das Datum auf allen Seiten markiert werden? Bei einem Dokument mit vielen Seiten kann diese ziemlich aufwendig werden. Typischerweise wird dies im ersten Dokument noch gemacht, im zweiten Dokument wird das Datum dann nur auf den ersten 3-4 Seiten und im dritten Dokument nur noch auf der ersten Seite markiert. 

Hier tritt folgendes Problem auf. Die KI wird einen Grund suchen, warum das Datum auf der 5. Seite des ersten Dokumentes relevant war, aber das auf der zweiten Seite des dritten Dokumentes nicht. Da es hier aber keinen sinnvollen Grund gibt, wird die KI menschlich ausgedrückt “verwirrt”, was sich negativ auf die Ergebnisse auswirkt. 

Um dies zu verhindern, gilt wieder das Stichwort Einheitlichkeit! Entweder markieren Sie die sich wiederholende Information immer auf allen Seiten oder immer nur auf der ersten Seite.

Soll ich Satzzeichen mitlabeln?

Zur Einheitlichkeit ist wichtig, dass, wenn man einzelne Wörter aus Texten ausliest, Kommas, Punkte, Klammern und andere Satzzeichen nicht mitgelabelt werden. Man sollte immer nur den tatsächlichen Inhalt markieren, den man auch auslesen möchte. Satzzeichen kommen in der Regel aus dem Kontext des Satzbaus, sind aber auf Basis der Trainingsdaten eher arbiträr und somit nicht geeignet, zum Zwecke von Vorhersagen analysiert zu werden. Die KI wird sonst in der Zukunft z. B. nach einem Komma am Ende des einzulesenden Wortes suchen, selbst wenn es nichts mit der gesuchten Information zutun hat.


Tipps für den erfolgreichen Trainingsprozess

Nachdem Sie nun die Theorie dahinter verstehen, wie man durch Einheitlichkeit hochwertige Trainingsdaten erstellt, möchten wir Ihnen noch ein paar praktische Tipps, mit denen Sie diese Theorie auch in Ihr Projekt implementieren können, mitgeben.

Erstellen Sie einen Labeling Guide

Ein Labeling Guide ist ein Dokument, in dem sowohl grundsätzliche als auch spezielle Regeln für das Labeln eines Dokumententyps stehen. Hier wird beschrieben, was auf welche Art zu labeln ist und dies wird oft mit Screenshots unterlegt. In großen Projekten, an denen mehrere Personen am Labeln beteiligt waren, haben sich diese oft als notwendig herausgestellt. Das Ziel ist die oben beschriebene Einheitlichkeit die dadurch erreicht wird, dass alle Beteiligten sich an diese Vorgaben halten. Wenn mehrere Personen an den gleichen Dokumenten arbeiten, labeln diese die Dokumente nämlich oft auf unterschiedliche Weise. Bei simplen Dokumenten mit wenigen Personen reichen oft auch mündliche Absprachen. Für ein komplexes Projekt empfehlen wir ihnen jedoch unsere Vorlage. 

Kontaktieren Sie uns gerne über das Kontaktformular, um eine Vorlage zu erhalten.

Nutzen Sie die Vier-Augen-Methode

Überprüfen Sie Ihre Trainingsdaten. Fehler passieren selbst erfahrenen Anwendern. Zur Minimierung von Fehlern sollten Sie optimalerweise mindestens eine andere Person Ihre Annotationen auf Richtigkeit und Einheitlichkeit überprüfen. So können Leichtsinnsfehler und Abweichungen vom Labeling-Guide aufgedeckt und behoben werden. Insbesondere eine falsche Zuteilung der Sektionen kann die Qualität des KI-Modells deutlich herabsetzen. Wie man diese überprüft, sehen Sie in Anleitung 2

Zur effizienten Aufgabenverteilung bei der Überprüfung können Sie außerdem folgende Methode verwenden. Wenn Person 1 ein Dokument gelabelt hat, fügt sie dieses zum Preparation Data Set hinzu. Dadurch weiß Person 2, dass dieses zur Überprüfung bereit ist. Nachdem Person 2 das Dokument nach der Überprüfung zum Training Data Set hinzugefügt hat, wissen alle Beteiligten, dass es überprüft wurde.

Buchen Sie ein wöchentliches Check-In

Ein wöchentliches Meeting hilft Ihrem Team ein einheitliches Verständnis aufzubauen. Wir empfehlen vor diesem Meeting ein Retraining, siehe Schritt 6 in Anleitung 1. In diesem Meeting können Sie die Evaluation des neuesten Modells analysieren und automatisch mögliche Fehler in den Test- und Trainingsdaten erkennen und besprechen. Ein Konfuzio Experte kann wertvolle Tipps und Tricks direkt in das Meeting einbringen.


Noch Fragen? Wir arbeiten stetig daran, unsere Anleitungen zu verbessern, damit Sie möglichst schnell und einfach Konfuzio nutzen können. Bitte lassen Sie uns wissen, wenn Fragen offen geblieben sind, damit wir Ihnen die bestmögliche Lösung anbieten können. Danke!

Weitere Artikel

AI Random Forrest

Datenextraktion aus Dokumenten – How To I

So starten Sie Ihr Projekt mit Konfuzio Um die Grundlagen der Konfuzio-Plattform kennenzulernen, empfehlen wir Ihnen dieses Tutorial, in dem…

Zum Artikel
Einzelinformationen aus Dokumenten extrahieren

Datenextraktion aus Dokumenten – How To II

So optimieren Sie Ihr Projekt durch die Nutzung von Templates Nachdem Sie in der ersten Anleitung die Grundlagen kennenlernen konnten,…

Zum Artikel
Dokumentenklassifikation

Klassifikation von Dokumenten mit KI für Ihre Dokumentenverwaltung

Dokumentenverwaltung online implementieren In diesem Tutorial geht es um die Klassifikation von Dokumenten mit KI. Hierbei geht es im Gegensatz…

Zum Artikel

    Suchen Sie nach weiteren Informationen?

    Kontaktieren Sie uns direkt über das Formular.

    Arrow-up