Amazon Textract und Konfuzio DVUI

Amazon Textract und Konfuzio DVUI – Datenextraktion ohne Training

Elizaveta Ezhergina

Möchten Sie einen Weg finden, um schnell Informationen aus einem beliebigen Dokument zu extrahieren, ohne vorher ein Modell trainieren zu müssen? Dafür gibt es eine Lösung:

Verwenden Sie den integrierten Amazon Textract, der auf dem Marktplatz von Konfuzio erhältlich ist und in Kombination mit der Document Validation UI (DVUI) eine effiziente Verarbeitung von Dokumenten und die Visualisierung oder Änderung der Ergebnisse ermöglicht.

Zusammen mit der Document Validation UI (DVUI) von Konfuzio ermöglicht er eine effiziente Verarbeitung von Dokumenten und die Visualisierung oder Änderung Ihrer Ergebnisse. In diesem Blogpost schreiben wir über Amazon Textract und seine Funktionalität sowie über mögliche Wege, diese durch die Integration von Konfuzio zu erweitern.

Außerdem beleuchten wir in diesem Kontext Amazon A2I näher, stellen einen Vergleich mit der DVUI von Konfuzio her und geben Ihnen hilfreiche Tipps an die Hand, wie Sie die Integration von Amazon Textract mit Konfuzio auf dem Marktplatz sinnvoll nutzen.

Was ist Amazon Textract?

Amazon Textract ist eine von Amazon Web Services (AWS) entwickelte Technologie. Sie extrahiert textuelle und strukturierte Daten aus sämtlichen Dokumentenarten. Zu den Informationen, die AWS verarbeiten kann, zählen Texte, Tabellendaten, Formulardaten, OMR (Optical Mark Recognition), Handschrift und Unterschriften. Wenn ein Benutzer seine API aufruft, werden die Ergebnisse der Dokumentenverarbeitung in Form eines verschachtelten JSON mit hierarchischen Beziehungen zwischen den extrahierten Objekten, wie z. B. Schlüssel-Wert-Paaren, präsentiert.

Amazon Textract und Konfuzio – Die Integration

Amazon Textract ist an sich ein leistungsfähiges Tool. Doch in Verbindung mit Konfuzio entfaltet diese Technologie noch mehr Leistung, was die Anwendung auf ein insgesamt höheres Level bringt. Es ist möglich, einen API-Aufruf an Textract zu richten und dadurch eine Verwendung als benutzerdefinierte Extraktions-KI in einem Wrapper sowie eine Dokumentenverarbeitungspipeline auf Konfuzio zu erstellen.

Textract verwendet die zurück vermittelten Daten, um Anmerkungen in den verarbeiteten Dokumenten zu erzeugen. Diese Beifügungen werden anschließend in logischen Gruppen von sogenannten Key-Value Annotation Sets gruppiert. Wenn Formulare mehrere Optionen zur Auswahl anbieten, folgt eine Kennzeichnung der Optionen mit den Bezeichnungen „Selected“ und „NotSelected“. Typische Beispiele für solche Gruppen sind:

  • Schlüssel: Name
  • Wert: Erika
  • Schlüssel: Familienstand
  • Ausgewählt: Alleinstehend
  • NichtAusgewählt: Verheiratet
  • NichtAusgewählt: Geschieden

Tabellendaten werden in der Regel in einem einzigen Anmerkungssatz für die in der Tabelle enthaltenen Werte gruppiert. Ist ein Dokument verarbeitet und mit Anmerkungen versehen, kann ein Benutzer die DVUI aufrufen, um die Korrektheit der Anmerkungen zu überprüfen und möglicherweise neue Anmerkungen hinzuzufügen – falls Informationen fehlen.

Amazon verfügt auch über eine Schnittstelle zur Validierung der automatischen Annotationen namens A2I, welche wir uns im nächsten Abschnitt beide näher ansehen.

Konfuzio DVUI vs. Amazon A2I – Ein Vergleich

Um die Korrektheit von Anmerkungen zu überprüfen oder die Dokumente vor der Annotation zu bearbeiten – zum Beispiel um ein gestapeltes Dokument, das aus mehreren Unterdokumenten besteht, aufzuteilen – muss der Benutzer auf eine Validierungsschnittstelle zugreifen. Sowohl Konfuzio als auch Amazon stellen für diesen Zweck eigene Entwicklungen bereit. Schauen wir uns an, welche Gemeinsamkeiten und Unterschiede diese aufweisen.

FeatureAmazon A2IKonfuzio DVUI
Human-in-the-loop
Zugänglichkeit für externe Annotatoren✔*
Verarbeitung verschiedener Datentypen und Aufgaben
Anzeige von mehreren Annotationen unterschiedlicher Beschriftungsgruppen
Hinzufügen neuer Annotationen während der Fahrt
Änderung von Dokumenten (Teilen, Drehen, Umordnen)
Möglichkeit der Integration in kundenspezifische Lösungen
* vorausgesetzt, der Benutzer hat Zugriff

Wie aus obiger Tabelle hervorgeht, verfügt Amazon A2I über Funktionen, die es ermöglichen, flexibel mit verschiedenen Arten von verarbeiteten Daten oder Aufgaben für die menschlichen Validatoren umzugehen. Konfuzio DVUI besitzt einzigartige Funktionen, die es ermöglichen, am besten mit der Annotation von Dokumenten zu arbeiten.

Mögliche Anwendungsfälle

Amazon Textract Konfuzio Use Cases

Die Integration von Amazon Textract und Konfuzio ist auf alle Arten von Dokumenten anwendbar.

Die kombinierte Lösung von Amazon Textract und Konfuzio

Folgende Sprachen werden nach aktuellem Stand (09/2023) unterstützt:

  • Englisch
  • Deutsch
  • Spanisch
  • Französisch
  • Italienisch
  • Türkisch

United States als Nachfragegebiet für Amazon Textract und Konfuzio DVUI

Werfen wir einen Blick auf eines der größten Nachfragefelder für die Dokumentenverarbeitung: den US-Markt. Derzeit gibt es mehrere Hauptgruppen von Dokumenten, mit denen Unternehmen und Privatpersonen täglich zu tun haben. Dazu gehören vor allem:

  • Rechnungen und Quittungen
  • Steuern
  • Verträge
  • Kontoauszüge und Transaktionen
  • Dokumente im Zusammenhang mit dem Gesundheitswesen und Versicherungen
  • Fahrzeugbezogene Formulare

Alle diese Dokumente sind potenzielle Anwendungsfälle für die Integration von Amazon Textract und Konfuzio, da die Automatisierung der Arbeit mit diesen Schriftstücken die Verarbeitung im Vergleich zur manuellen Bearbeitung enorm beschleunigt.

Gängige Formulare mit Automatisierungseignung

Zu einigen der gängigsten Formulare, die für eine Automatisierung geeignet sind, zählen:

  • CMS 40B: Antrag auf Einschreibung in Medicare
  • CMS R-285: Antrag auf Informationen zu Altersvorsorgeleistungen
  • IRS-Formular 4506-C: Steuerformular
  • Medicare Versicherungskarten-ID
  • CMS-1500: Krankenversicherungsantrag
  • CMS-100: Antrag auf Beschäftigung
  • W3 & W4 Formulare: Steuererklärungen

So funktioniert Amazon Textract mit Konfuzio  – Ein Beispiel

Dieses Praxisbeispiel verdeutlicht, wie Amazon Textract in der Kombination mit Konfuzio funktioniert, wie der Anwender Zugang erhält und die Integration testet.

Sehen wir uns ein Dokument von Amazon Textract näher an. Es enthält sowohl Text und Kontrollkästchen als auch Tabellen. Das Dokument ist bereits in Konfuzio integriert und befindet sich in der Verarbeitung. Unser Standarddokument ist eine Quittung eines Internet-Providers. Es enthält alle drei Datentypen.

Amazon Textract Sample Document
Amazon Textract Sample Document 2

Nach der abgeschlossenen Verarbeitung stellen wir fest, dass alle drei Datentypen korrekt annotiert wurden:

Amazon Textract Konfuzio
Amazon Textract Konfuzio 2

Die Erklärung des Beispiels

  • Schwarze Felder: Diese stellen die Schlüssel-Wert-Paare von Textdaten dar.
  • Rote Felder: Diese stehen für Tabellendaten.
  • Gründe Felder: Diese markieren OMR-Kontrollkästchen und Formulardaten.

Möchten Sie die Kombination von Amazon Textract und Konfuzio selbst ausprobieren? Die Integration ist derzeit auf dem Konfuzio Marktplatz verfügbar.

Um sie zu nutzen, müssen Sie ein Konto auf app.konfuzio.com einrichten und Zugang zum Forms-Listing beantragen. Unsere Experten setzten sich nach erfolgreich gestelltem Zugriffsantrag mit Ihnen in Verbindung.

Fazit

Amazon Textract ist leicht integrierbar und wird im Idealfall gemeinsam mit Konfuzio und seiner DVUI verwendet, um eine schnelle und präzise Datenextraktion ohne vorherige Schulung der Modelle zu erreichen. Sie haben die Möglichkeit, die Integration auf dem Konfuzio Marktplatz zu testen und die Extraktion von Dokumenten jeglicher Art selbst auszuprobieren. Amazon Textract verarbeitet problemlos Text- und Tabellendaten sowie Formulare und Kontrollkästchen – und Sie können die Ergebnisse über die Konfuzio DVUI validieren.

Sie haben Fragen rund um Amazon Textract oder Document Validation UI von Konfuzio? Kontaktieren Sie uns jederzeit über das Kontaktformular.

Über uns

0 Kommentare

Schreiben Sie einen Kommentar

Weitere Artikel

KYC Dokumente: Wie Banken Kundendaten effizient verarbeiten

Wenn Kunden früher ein Bankkonto eröffnen wollten, gab es nur einen Weg: Sie gingen zu ihrer Bank, füllten die entsprechenden…

Zum Artikel
Was ist Document Layout Analysis?

Deep Dive Document Layout Analysis mit High-Tech-Tools

Document Layout Analysis bildet die Brücke zwischen unstrukturierten Daten und ihrer sinnvollen Nutzung, indem sie strukturierte Informationen extrahiert und dabei…

Zum Artikel

Texterkennung dank Online-OCR Lösungen effizient nutzen

Es ist kein allzu typisches Bild mehr, aber es gibt sie noch: die Bankkunden, die einen Überweisungsträger ausfüllen und bei…

Zum Artikel

    Arrow-up
    Navigation