Einzelinformationen aus Dokumenten extrahieren

Datenextraktion aus Dokumenten – How To II

Team Konfuzio

So optimieren Sie Ihr Projekt durch die Nutzung von Templates

Nachdem Sie in der ersten Anleitung die Grundlagen kennenlernen konnten, können wir nun einen Schritt weiter gehen. 

Wir verwenden auch in diesem Tutorial unseren Datensatz an Quittungen. Diesmal beschäftigen wir uns aber mit den aufgelisteten Einzelleistungen. Um diese sinnvoll zu labeln werden wir zum ersten mal Sektionen einsetzen. Hier ist es nämlich wichtig, dass wir der KI nicht nur beibringen welche Entitäten zu welchem Label gehören sondern auch in welcher Beziehung die Annotationen zueinander stehen. 

Wenn wir den Preis eines Produktes auslesen, ist diese Information nur sinnvoll wenn wir auch wissen zu welchem Produkt dieser Preis gehört. Das gleiche gilt für die Anzahl und alle anderen Informationen die wir auslesen wollen. Dementsprechend werden alle Annotationen die zu einem Produkt und somit zueinander gehören in einer Sektion gruppiert. 

In diesem Beispiel entsprechen die Sektionen inhaltlich den Produkten und auf der Ebene der Formatierung den Zeilen. Die Labels entsprechen inhaltlich den Eigenschaften der Produkte und auf der Ebene der Formatierung den Spalten. 

Somit werden allen relevanten Entitäten zwei Informationen zugeteilt, die Sektion und das Label. Dies wird in dem Bild durch die farbigen Markierungen verdeutlicht.

sektionen-und-labels

Dieses Prinzip benötigt man unter anderem für Listen und Tabellen. Wie Sie diese der KI beibringen, zeigen wir Ihnen anhand dieses Beispiels.


Schritt-für-Schritt-Anleitung

  1. Projekt erstellen

    Wir verwenden das gleiche Projekt wie in der ersten Anleitung. Falls Sie ein neues erstellen wollen, können Sie dort noch einmal nachsehen, wie man ein Projekt erstellt. 

  2. Erstellen neuer Labels

    Klicken Sie auf HOME > Labels > +Add und fügen Sie dort Ihre Labels hinzu.
    In unserem Beispiel sind das: “Anzahl”, “Bezeichnung”, “Einzelpreis”, “Zwischensumme” und “MwSt-Code”.

  3. Erstellen eines Templates

    Ein Template ist eine Gruppe von Labels, die in einem sachlogischen Zusammenhang stehen. Sie sind also die abstrakte Vorlage für die Sektionen. Klicken Sie auf HOME > Templates > +Add um ein neues Template zu erstellen. Benennen Sie Ihr Template (Hier: “Einzelleistungen”). Wählen Sie das zugehörige Projekt aus (Hier: “Quittungen”). Aktivieren Sie das Häkchen bei “Has multiple Sections”. Klicken Sie daraufhin “Save and continue editing” um zum nächsten Schritt zu gelangen. Hier können Sie die eben erstellen Labels über die Pfeiltasten zum Template hinzufügen. Klicken Sie auf “Save”, um das Template zu speichern.

  4. Erstellen von Trainingsdaten

    Sektionen sind Gruppen von zusammengehörigen Informationen in einem Dokument. Sie sind die konkreten Manifestationen der Templates. In unserem Beispiel enthält die erste Sektion alle Informationen des ersten Produktes, also die oberste Zeile bzw. die erste Einzelleistung der Quittung.
    Zum Labeln der ersten Sektion erstellen wir eine Annotation, die zur ersten Sektion gehört. Nachdem wir auf die richtige Entität geklickt haben, können wir in der Annotationsleiste auf der rechten Seite anhand von zwei Reitern die Eigenschaften der Annotation bestimmen. Im oberen Reiter wählt man das Template aus, welches der Sektion entspricht und im unteren das Label, welches der Entität zugeordnet werden soll.
    Wir wählen oben “Einzelleistung (New)” und unten “Anzahl” aus. Daraufhin labeln wir den Rest der Sektion, wobei die erste Sektion nun als “Einzelleistung” angezeigt wird. Dies wiederholen wir für die nächsten Sektionen. Diese werden im Reiter dann nummeriert von oben nach unten aufgelistet. Um eine zusätzliche Sektion zu erstellen, wählt man “Einzelleistung (New)”.

    Diesen Prozess wiederholen wir für alle Trainingsdokumente. Erstellen Sie Ihre Trainingsdaten unserem Beispiel entsprechend. Aufgrund der Vielfältigkeit des Anwendungsbereiches können Unterschiede auftreten. Sektionen müssen beispielsweise nicht immer Zeilen entsprechen.

  5. Überprüfen der Trainingsdaten

    Sie können die Richtigkeit der Labels überprüfen, da diese über den Annotationen angezeigt werden. Für den Lernerfolg der KI ist es jedoch genauso wichtig, dass Sie überprüfen, ob die Labels den richtigen Sektionen zugeteilt sind. Hierfür können Sie Folgendes tun: 
    Wählen Sie oben rechts in der Annotationsleiste bei Filter im Reiter “Sections” die erste Sektion aus (Hier: “Einzelleistung”). Nun sollten nur noch die Labels der ersten Sektion zu sehen sein. Meist kann man schon auf einen Blick erkennen, ob diese korrekt sind (Hier: Ob alle Label in einer Zeile sind). Falls Sie einen Fehler erkennen, können Sie über “Edit” in der Annotationsleiste diesen Fehler beheben. (Tipp: Diese Methode sollten Sie auch beim Überprüfen der Ergebnisse der KI nutzen.)

  6. Ergebnisse evaluieren und Feedback geben

    Wie Sie Ihre Dokumente in einen Trainings- und Testdatensatz aufteilen und die KI Trainieren sehen Sie in der ersten Anleitung. Dort wird auch gezeigt, wie man der KI Feedback gibt.

  7. Ergebnisse exportieren

    Wie Sie Ihre Daten exportieren und diese herunterladen, sehen Sie ebenfalls in der ersten Anleitung


Noch Fragen? Wir arbeiten stetig daran, unsere Anleitungen zu verbessern, damit Sie möglichst schnell und einfach Konfuzio nutzen können. Bitte lassen Sie uns wissen, wenn Fragen offen geblieben sind, damit wir Ihnen die bestmögliche Lösung anbieten können. Danke!

Weitere Artikel

AI Random Forrest

Datenextraktion aus Dokumenten – How To I

So starten Sie Ihr Projekt mit Konfuzio Um die Grundlagen der Konfuzio-Plattform kennenzulernen, empfehlen wir Ihnen dieses Tutorial, in dem…

Zum Artikel
Dokumentenklassifikation

Klassifikation von Dokumenten mit KI für Ihre Dokumentenverwaltung

Dokumentenverwaltung online implementieren In diesem Tutorial geht es um die Klassifikation von Dokumenten mit KI. Hierbei geht es im Gegensatz…

Zum Artikel
Kerninformationen

Datenextraktion aus Dokumenten – How To III

Einheitliche Trainingsdaten: Theorie und Praxis Nachdem Sie die Grundlagen in Anleitung 1 und Sektionen in Anleitung 2 kennengelernt haben, sollten…

Zum Artikel

    Suchen Sie nach weiteren Informationen?

    Kontaktieren Sie uns direkt über das Formular.

    Arrow-up