Document Understanding: Techniken zum Verstehen von Dokumenten

in

am

Document Understanding ist ein Bereich, der eine Reihe von Techniken und Technologien umfasst, die darauf abzielen, Informationen aus unstrukturierten Dokumenten zu extrahieren und sie in strukturierte Daten umzuwandeln. Computer Vision und Natural Language Processing (NLP) sind zwar wichtige Komponenten des Document Understandings, aber es ist ein eigenständiger Bereich, der eine Kombination aus beiden erfordert.

Computer Vision konzentriert sich auf die visuellen Aspekte eines Dokuments, wie Bilder und Layout, und verwendet Algorithmen, um Informationen aus diesen Elementen zu extrahieren. NLP hingegen befasst sich mit den linguistischen Aspekten eines Dokuments und verwendet Techniken wie Texterkennung und Stimmungsanalyse zur Verarbeitung des Textinhalts.

Obwohl sowohl Computer Vision als auch NLP in ihren jeweiligen Bereichen effektiv sein können, können sie allein kein vollständiges Verständnis eines Dokuments liefern. So kann ein Dokument beispielsweise Bilder enthalten, die wichtige Informationen vermitteln, während der Textinhalt begrenzt oder irrelevant sein kann. In solchen Fällen ist eine Kombination aus Computer Vision und NLP unerlässlich, um ein umfassendes Verständnis des Dokuments zu erlangen.

Document Understanding Definition

Document Understanding – Definition

Unter Document Understanding versteht man den lernenden Prozess der Extraktion und Konvertierung aussagekräftiger Informationen aus unstrukturierten oder semi-strukturierten Dokumenten in strukturierte Daten zur Analyse und Nutzung. Dieser Prozess wird durch Technologien unterstützt, die maschinelles Lernen, NLP und Computer Vision oder auch traditionelle OCR nutzen, um die Informationsextraktion zu automatisieren.

In der heutigen Zeit bieten diverse Anbieter unterschiedliche Arten von KI an. Dies können z. B. Computer Vision NLP (natural language understanding) oder auch einfache Formen von Machine Learning sein. 

Dabei stellt sich die Frage: Warum ist eine Dokumenten KI, die ein gewisses Dokumentenverständnis (Dokument Understanding) mit sich bringt, viel schwieriger zu implementieren als die einfachen Computer Vision oder NLPers, die rein die optische oder die semantische Komponente von Informationen berücksichtigen?

Die einfache Antwort ist, dass eine Document-Understanding-AI, also eine KI, die Dokumente verstehen kann, in zwei Dimensionen arbeiten muss. Diese häufig auch als Hybrid AI benannte KI kombiniert semantische und optische Informationen, um Dokumente wie Menschen zu verstehen, abzutippen oder auch inhaltlich zu verarbeiten.

3 verschiedene Papiersymbole auf grünem Hintergrund

Was würde passieren am Beispiel einer Rechnung

Nehmen wir eine Rechnung eines Lieferanten, die Informationen über die gekauften Produkte oder Dienstleistungen, den geschuldeten Gesamtbetrag und das Fälligkeitsdatum der Zahlung enthält. In diesem Szenario spielen sowohl Computer Vision als auch NLP AI eine wichtige Rolle beim Verstehen von Dokumenten.

Mit Hilfe von Computer Vision AI lassen sich Informationen wie Rechnungsnummer, Datum, Name und Adresse des Lieferanten erkennen und extrahieren. Sie kann auch verwendet werden, um das visuelle Layout der Rechnung zu verarbeiten, z. B. um Tabellen und Spalten zu identifizieren und die relevanten Daten zu extrahieren.

Die Computer Vision allein reicht nicht aus, um die Rechnung vollständig zu verstehen. Sie kann zum Beispiel nicht die spezifischen Produkte oder Dienstleistungen extrahieren, die gekauft wurden, oder die Preisinformationen, die mit jedem Artikel verbunden sind. Hier kommt NLP-KI ins Spiel.

Mit NLP-KI können Informationen wie die Namen der gekauften Produkte oder Dienstleistungen, die Mengen und die Preise ermittelt und extrahiert werden. Sie kann auch verwendet werden, um die Beschreibung und die Spezifikationen der einzelnen Artikel zu verarbeiten und relevante Informationen wie die Maßeinheit, den Steuersatz und etwaige Rabatte zu extrahieren.

Zusammenfassend lässt sich sagen, dass eine Rechnung eine Kombination aus Computer Vision und NLP-KI erfordert, um ein umfassendes Verständnis des Dokuments zu ermöglichen. Während Computer Vision AI für die Identifizierung und Extraktion von Informationen über das visuelle Layout unerlässlich ist, ist NLP AI für die Verarbeitung und Extraktion der detaillierten Informationen im Textinhalt notwendig. Ohne beide Komponenten können die in der Rechnung enthaltenen Informationen nicht vollständig verstanden und genutzt werden.

Welche Dokumente können ausgelesen werden?

Es ist wichtig zu wissen, dass es der KI leichter fällt, strukturierte Dokumente auszulesen als unstrukturierte. Auf einem Personalausweis erkennen Sie ja auch die gesuchte Information sofort, während Sie bei AGB’s zunächst danach suchen müssen.

Im besten Fall ist die Document AI trainierbar und lernt kontinuierlich, wo sie welche Informationen auf dem Dokumententyp findet.

Beim Auslesen von strukturierten, semi-strukturierten und unstrukturierten Dokumenten gibt es verschiedene Ansätze:

  • Normierte Dokumente sind z. B. Personalausweise oder Fahrzeugscheine. Man könnte denken, dass ein einfacher regelbasierter Ansatz ausreicht. Die Informationen sind jedoch nicht  so leicht korrekt identifizierbar. Man könnte annehmen, dass sie immer am selben Ort stehen. Dies ist aber nicht der Fall, gerade wenn Dokumente zuvor gefaltet waren oder frei Hand mit dem Smartphone fotografiert wurden und verzerrt oder rotiert sind.
  • Semi-strukturierte Dokumente enthalten zwar dieselben Informationen, diese sind aber immer an unterschiedlichen Orten im Dokument zu finden. KI Modelle erlernen die Fähigkeiten, die gesuchte Information anhand von Schlüsselwörtern, z. B. “Telefonnummer”, welches auf einer beliebigen Seite an einer beliebigen Stelle aufzufinden ist.
  • Unstrukturierte Dokumente enthalten gesuchte Informationen an einer beliebigen Stelle und ohne Schlüsselwörter. Hier kommt die Lernfähigkeit der KI zum Einsatz. Bringen Sie der KI bei, welche Begriffe und Informationen relevant sind, kann sie diese mit den nächsten Dokumenten bereits selbständig herausfiltern.

Neben einfachen Zahlen und Wörtern kann die Document AI bei entsprechendem Training auch Checkboxes und Tabellen erfassen.

Wie funktioniert Document Understanding?

Mithilfe von RPA entsteht ein Document Understanding Roboter. In einer entsprechenden Software wird der Workflow aufgebaut und kann dabei z. B. so aussehen:

  1. Taxonomie erstellen: Taxonomie bezeichnet ein Klassifizierungsmodell. Im Taxonomy Manager müssen Sie zuerst einen Dokumententyp definieren und die auszulesenden Felder klassifizieren (z. B. Rechnungsnummer, Rechnungssumme und -datum). Das besondere die Taxonomie ist bei Konfuzio frei konfigurierbar und dadurch besonders flexibel auf alle Typen von Dokumenten und Sprachen anbassbar.
  2. Dokument digitalisieren: Mit Hilfe einer OCR Software können Sie das vorher definierte Dokument digitalisieren und in eine Textform bringen, die für den Roboter lesbar ist.
  3. Klassifizieren: Durch die Keywords ordnet der Roboter das digitalisierte Dokument einer im Taxonomy Manager definierten Dokumentenklasse zu.
  4. Extrahieren: Wenn die KI identifiziert hat, um welche Dokumentenart es sich handelt, werden die Daten aus den einzelnen Feldern ausgelesen. Dabei kommen regelbasierte oder modellbasierte Ansätze zur Anwendung.
  5. Validieren: Bei Bedarf können Mitarbeitenden die Ergebnisse des Extrahierens in der Validation Station angezeigt werden. Dort können sie die ausgelesenen Werte kontrollieren und wenn nötig korrigieren. Dieses Feedback durch einen Menschen, häufig auch human-in-the-loop genannt, bietet der KI die Möglichkeit zu lernen. 
  6. Exportieren: Zum Schluss werden die Daten in verschiedene Systeme exportiert. Das können z. B. SAP Systeme, aber auch Excel-Tabellen sein.
Use Case Konfuzio Document Understanding

Document Understanding in der Praxis mit Konfuzio

Document Understanding in der Praxis anwenden zu können, ist ein Gamechanger. Warum und wie Sie das Document Understanding nutzen können, erfahren Sie am Beispiel des folgenden Use Cases.

Beispiel: Separate KI für die Bild und Textverarbeitung von Nachrichten 

Um das Ganze an einem Beispiel zu erläutern, beginnen wir mit der einfachen Frage:

Warum erkennt eine KI einen Eishockeyspieler besser als einen Gehaltsnachweis?

Eishockey Zeitungsartikel

Wie man in dem Bild sieht, ist ein Foto über einem Nachrichtenartikel dargestellt und dieser Nachrichtenartikel zeigt die Information zu einem Bild und separat das Bild eines Eishockeyspielers.

Benutzen wir die erste Dimension dieser Informationen aus dem Artikel und verarbeiten den Text mit einer NLP-Komponente. Diese NLP-Komponente wurde nicht spezifisch für den Anwendungsfall konzipiert, kann jedoch bereits schon sogenannte Entities auslesen, das sind z. B. Personen, Orte, Organisationen oder auch Unternehmen.

Zudem kann man die optische Komponente des Beitrags analysieren und findet so z. B. heraus, dass verschiedene Segmentierungen einer einzelnen Information gefunden werden können. Das können z. B. die Decke, die Wand oder auch die Person einzeln sein, ohne hierbei den Kontext berücksichtigen zu können – nämlich dass es ein Eishockeyspieler in einem Stadion ist.

Beide KIs – Computer Vision und Named Entity Modelle – haben ihre Berechtigung. Eine Kombination aus diesen ist jedoch nicht einfach möglich, um Dokumente verarbeiten zu können. 

Aus diesem Grund wurde die Software Konfuzio geschaffen, um sowohl die semantische als auch die optische Komponente zur Verarbeitung von Informationen im Geschäftskontext, also innerhalb des Dokuments, zu ermöglichen.

Document Understanding durch Hybride KI bei Gehaltsnachweisen

Gehaltsnachweis KI Document Understanding
Felder aus Muster-Gehaltsnachweis werden durch KI ausgelesen

Wenn Sie den Gehaltsnachweis mit dem reinen Artikel aus der Zeitung vergleichen, sehen Sie sofort, dass der Gehaltsnachweis mehrere Ebenen an Informationen in einem 2-D-Kontext trotzdem semantisch korrekt repräsentieren kann.

Ein Beispiel: 

Die tabellenartige Struktur bei den Bruttobezügen des Gehaltsnachweises bietet Informationen darüber, ob ein Bruttobezug einer einmaligen Auszahlung entspricht oder ob diese Bruttobezüge eine regelmäßige Vergütung des Arbeitnehmers darstellen. Gerade diese Information ist bei der Aufarbeitung der Einkommenssituation eines potenziellen Kreditnehmers durchaus relevant.

Darum reicht die regelbasierte Informationsextraktion nicht aus

Um diese Information auszulesen, haben Anbieter, die nur OCR, NLP oder IDP Solutions anbieten, immer den Nachteil, dass diese regelbasiert arbeiten und so z. B. bei falsch orientierten Scans oder bei schief eingescannten Dokumenten fehlerhafte Informationen zeigen. 

Meistens liegen Daten nicht in einer der passenden Formen vor und es gibt keine Reihenfolge der Daten. Sie sind in unstrukturierter Form vorhanden. 

Es gibt keine spezifische Technik oder Prozedur, um Daten aus unstrukturierten PDFs zu extrahieren, da die Daten willkürlich gespeichert werden und es davon abhängt, welche Art von Daten Sie aus PDFs extrahieren möchten.

Regelbasierte Tools arbeiten mit der Lokalisation von Zieldatenpunkten im Dokument. Anhand dieses Kontextes wird das Dokument dann nach den final wichtigen Werten durchsucht.

Der Nachteil ist: Kaum besteht eine leichte Abänderung des Formats, funktioniert diese Vorgehensweise nicht mehr. Sind Sie nun ein Unternehmen, das mit 60 verschiedenen Dienstleistern in 10 verschiedenen Ländern arbeitet, können Sie davon ausgehen, dass Ihr regelbasiertes Tool schnell an seine Grenzen kommen wird.

Natürlich könnte man zu bedenken geben, dass durch umfassende Trainingsdaten auch Machine Learning Modelle, Computer Vision Modelle oder NLP Modelle so trainiert werden können, dass sie auf diese besonderen Eigenschaften eines Dokuments eingehen. 

Schwierig ist hierbei jedoch, dass die Anzahl der Trainingsdokumente in dem fachlichen Kontext meist stark begrenzt ist und somit nicht Tausende von Trainingsdokumenten zur Verfügung gestellt werden können, um eine solche Dokumenten KI zu trainieren.

Wie Sie sehen, bietet die rein regel- und layout basierte Informationsextraktion aus Dokumenten einen ersten Ansatz und hat auch ihre Berechtigung durch verschiedene Anbieter im Markt. Die rein KI-basierte informationsextraktion ist häufig begrenzt durch die Anzahl von Trainingsdokumenten, die, wenn sie zu gering bereitgestellt werden, selbst die KI-basierte Extraktion nur zu einem sehr geringen Genauigkeitsgrad ermöglichen.

Konfuzio 3 Symbole Document Understanding

Mind your neighbours: Document Understanding von Konfuzio

Der Ansatz von Konfuzio funktioniert auf eine andere Weise: die Informationen werden sowohl aus der Semantik des Dokuments (z. B. Formulierung, Sprache, Form oder Ankerwörter) gewonnen und diese Informationen werden mit der Positionierung des Textes auf einer Seite verbunden, z. B. steht das Wort in einer Tabelle oder in einem Fließtext. 

Daher auch der Titel “Mind your neighbors” – anhand der umliegenden Informationen, der “Nachbarn” kann die KI zuverlässig anhand von eindimensionalen und 2D-Informationen Inhalte erkennen und zuordnen.

Mehr dazu, wie die Kombination von Modellen, die eindimensional denken und auf dem Fließtext basieren mit 2D Informationen des Textes funktioniert, erfahren Sie unter dem Begriff Segmentation

So haben Sie die Möglichkeit, eine Textinformation nicht nur im semantischen Kontext, wie es ein NER-Modell extrahieren würde, zu berücksichtigen, sondern zusätzlich Informationen aufzunehmen, die durch die Orientierung und Positionierung des Textes in einem Dokument vorhanden sind.

So könnte z. B. unter dem Namen des Angestellten in statistisch häufiger Anzahl die Hausnummer oder die Straße stehen.

Die KI kombiniert neueste NER-Forschung zusammen mit der Computer Vision Forschung und erschafft damit ein umfassendes Dokumentenverständnis, da innerhalb der KI die typisch optischen Komponenten ohne eine layout basierte fixierte Extraktion umsetzen und erlernen können. Gleichzeitig berücksichtigt die KI den semantischen Kontext, der durch eine eindimensionale Repräsentation der Informationen zugänglich wird. Diese KI wird auch Document AI genannt.

Mehr Informationen zum Document Understanding von Konfuzio finden Sie auf der Webseite.

Welche Vorteile bietet Document Understanding?

Vor allem dort, wo große Mengen an Dokumenten verarbeitet werden, bringt Document Understanding einen enormen Mehrwert. 

Folgende Vorteile hat die Verwendung von Document Understanding im Unternehmen:

  • Automatisierte Verarbeitung großer Mengen an Dokumenten
  • Reduzierte Fehlerquote
  • Zeit- und Kostenersparnisse
  • Wegfallen von repetitiven Aufgaben für Mitarbeitende
  • Steigerung der Produktivität der Mitarbeitenden
  • Erhöhte Zufriedenheit der Mitarbeitenden

Fazit: Document Understanding muss sinnvoll eingesetzt werden

Wollen Sie die Vorteile einer KI, die Document Understanding beherrscht, nutzen, müssen Sie die passende Software finden. Denn nicht jede OCR oder IDP Software ist hierfür geeignet.

Haben Sie regelmäßig mit anspruchsvollen Dokumenten wie Gehaltsnachweisen oder komplizierten Tabellen zu tun, ist eine passende Software, die Ihnen das Document Understanding smart erleichtert, die Investition, die Ihr Unternehmen effizienter macht.

Müssen Sie zu Beginn noch etwas Zeit in das Training der KI stecken, können Sie, sobald diese soweit ist, von ihrer Arbeit profitieren und Ihre komplizierten Dokumente schnell, einfach und korrekt von der KI auslesen lassen. 

Somit haben Sie einen zeitaufwendigen, fehleranfälligen Prozess smart automatisiert und können die gewonnene Zeit für andere Aufgaben einsetzen.

Mehr zum Thema finden Sie hier:

Nutzen Sie in Ihrem Unternehmen bereits Document Understanding? Schreiben Sie mir Ihre Meinung zum Thema oder weitere Fragen gerne in die Kommentare!


Ihr Feedback erhalte ich direkt per E-Mail







    de_DEDE