Möchten Sie einen Weg finden, um schnell Informationen aus einem beliebigen Dokument zu extrahieren, ohne vorher ein Modell trainieren zu müssen? Dafür gibt es eine Lösung:
Verwenden Sie den integrierten Amazon Textract, der auf dem Marktplatz von Konfuzio erhältlich ist und in Kombination mit der Document Validation UI (DVUI) eine effiziente Verarbeitung von Dokumenten und die Visualisierung oder Änderung der Ergebnisse ermöglicht.
Zusammen mit der Document Validation UI (DVUI) von Konfuzio ermöglicht er eine effiziente Verarbeitung von Dokumenten und die Visualisierung oder Änderung Ihrer Ergebnisse. In diesem Blogpost schreiben wir über Amazon Textract und seine Funktionalität sowie über mögliche Wege, diese durch die Integration von Konfuzio zu erweitern.
Außerdem beleuchten wir in diesem Kontext Amazon A2I näher, stellen einen Vergleich mit der DVUI von Konfuzio her und geben Ihnen hilfreiche Tipps an die Hand, wie Sie die Integration von Amazon Textract mit Konfuzio auf dem Marktplatz sinnvoll nutzen.
Dieser Artikel wurde auf Deutsch verfasst und redaktionell überprüft. Weitere Sprachen stehen als automatische Übersetzung zur Verfügung. Wir freuen uns über Feedback am Ende des Artikels.
Was ist Amazon Textract?
Amazon Textract ist eine von Amazon Web Services (AWS) entwickelte Technologie. Sie extrahiert textuelle und strukturierte Daten aus sämtlichen Dokumentenarten. Zu den Informationen, die AWS verarbeiten kann, zählen Texte, Tabellendaten, Formulardaten, OMR (Optical Mark Recognition), Handschrift und Unterschriften. Wenn ein Benutzer seine API aufruft, werden die Ergebnisse der Dokumentenverarbeitung in Form eines verschachtelten JSON mit hierarchischen Beziehungen zwischen den extrahierten Objekten, wie z. B. Schlüssel-Wert-Paaren, präsentiert.
Amazon Textract und Konfuzio – Die Integration
Amazon Textract ist an sich ein leistungsfähiges Tool. Doch in Verbindung mit Konfuzio entfaltet diese Technologie noch mehr Leistung, was die Anwendung auf ein insgesamt höheres Level bringt. Es ist möglich, einen API-Aufruf an Textract zu richten und dadurch eine Verwendung als benutzerdefinierte Extraktions-KI in einem Wrapper sowie eine Dokumentenverarbeitungspipeline auf Konfuzio zu erstellen.
Textract verwendet die zurück vermittelten Daten, um Anmerkungen in den verarbeiteten Dokumenten zu erzeugen. Diese Beifügungen werden anschließend in logischen Gruppen von sogenannten Key-Value Annotation Sets gruppiert. Wenn Formulare mehrere Optionen zur Auswahl anbieten, folgt eine Kennzeichnung der Optionen mit den Bezeichnungen „Selected“ und „NotSelected“. Typische Beispiele für solche Gruppen sind:
- Schlüssel: Name
- Wert: Erika
- Schlüssel: Familienstand
- Ausgewählt: Alleinstehend
- NichtAusgewählt: Verheiratet
- NichtAusgewählt: Geschieden
Tabellendaten werden in der Regel in einem einzigen Anmerkungssatz für die in der Tabelle enthaltenen Werte gruppiert. Ist ein Dokument verarbeitet und mit Anmerkungen versehen, kann ein Benutzer die DVUI aufrufen, um die Korrektheit der Anmerkungen zu überprüfen und möglicherweise neue Anmerkungen hinzuzufügen – falls Informationen fehlen.
Amazon verfügt auch über eine Schnittstelle zur Validierung der automatischen Annotationen namens A2I, welche wir uns im nächsten Abschnitt beide näher ansehen.
Konfuzio DVUI vs. Amazon A2I – Ein Vergleich
Um die Korrektheit von Anmerkungen zu überprüfen oder die Dokumente vor der Annotation zu bearbeiten – zum Beispiel um ein gestapeltes Dokument, das aus mehreren Unterdokumenten besteht, aufzuteilen – muss der Benutzer auf eine Validierungsschnittstelle zugreifen. Sowohl Konfuzio als auch Amazon stellen für diesen Zweck eigene Entwicklungen bereit. Schauen wir uns an, welche Gemeinsamkeiten und Unterschiede diese aufweisen.
Feature | Amazon A2I | Konfuzio DVUI |
---|---|---|
Human-in-the-loop | ✔ | ✔ |
Zugänglichkeit für externe Annotatoren | ✔ | ✔* |
Verarbeitung verschiedener Datentypen und Aufgaben | ✔ | ✖ |
Anzeige von mehreren Annotationen unterschiedlicher Beschriftungsgruppen | ✖ | ✔ |
Hinzufügen neuer Annotationen während der Fahrt | ✖ | ✔ |
Änderung von Dokumenten (Teilen, Drehen, Umordnen) | ✖ | ✔ |
Möglichkeit der Integration in kundenspezifische Lösungen | ✔ | ✔ |
Wie aus obiger Tabelle hervorgeht, verfügt Amazon A2I über Funktionen, die es ermöglichen, flexibel mit verschiedenen Arten von verarbeiteten Daten oder Aufgaben für die menschlichen Validatoren umzugehen. Konfuzio DVUI besitzt einzigartige Funktionen, die es ermöglichen, am besten mit der Annotation von Dokumenten zu arbeiten.
Mögliche Anwendungsfälle

Die Integration von Amazon Textract und Konfuzio ist auf alle Arten von Dokumenten anwendbar.
Die kombinierte Lösung von Amazon Textract und Konfuzio
Folgende Sprachen werden nach aktuellem Stand (09/2023) unterstützt:
- Englisch
- Deutsch
- Spanisch
- Französisch
- Italienisch
- Türkisch
United States als Nachfragegebiet für Amazon Textract und Konfuzio DVUI
Werfen wir einen Blick auf eines der größten Nachfragefelder für die Dokumentenverarbeitung: den US-Markt. Derzeit gibt es mehrere Hauptgruppen von Dokumenten, mit denen Unternehmen und Privatpersonen täglich zu tun haben. Dazu gehören vor allem:
- Rechnungen und Quittungen
- Steuern
- Verträge
- Kontoauszüge und Transaktionen
- Dokumente im Zusammenhang mit dem Gesundheitswesen und Versicherungen
- Fahrzeugbezogene Formulare
Alle diese Dokumente sind potenzielle Anwendungsfälle für die Integration von Amazon Textract und Konfuzio, da die Automatisierung der Arbeit mit diesen Schriftstücken die Verarbeitung im Vergleich zur manuellen Bearbeitung enorm beschleunigt.
Gängige Formulare mit Automatisierungseignung
Zu einigen der gängigsten Formulare, die für eine Automatisierung geeignet sind, zählen:
- CMS 40B: Antrag auf Einschreibung in Medicare
- CMS R-285: Antrag auf Informationen zu Altersvorsorgeleistungen
- IRS-Formular 4506-C: Steuerformular
- Medicare Versicherungskarten-ID
- CMS-1500: Krankenversicherungsantrag
- CMS-100: Antrag auf Beschäftigung
- W3 & W4 Formulare: Steuererklärungen
So funktioniert Amazon Textract mit Konfuzio – Ein Beispiel
Dieses Praxisbeispiel verdeutlicht, wie Amazon Textract in der Kombination mit Konfuzio funktioniert, wie der Anwender Zugang erhält und die Integration testet.
Sehen wir uns ein Dokument von Amazon Textract näher an. Es enthält sowohl Text und Kontrollkästchen als auch Tabellen. Das Dokument ist bereits in Konfuzio integriert und befindet sich in der Verarbeitung. Unser Standarddokument ist eine Quittung eines Internet-Providers. Es enthält alle drei Datentypen.


Nach der abgeschlossenen Verarbeitung stellen wir fest, dass alle drei Datentypen korrekt annotiert wurden:


Die Erklärung des Beispiels
- Schwarze Felder: Diese stellen die Schlüssel-Wert-Paare von Textdaten dar.
- Rote Felder: Diese stehen für Tabellendaten.
- Gründe Felder: Diese markieren OMR-Kontrollkästchen und Formulardaten.
Möchten Sie die Kombination von Amazon Textract und Konfuzio selbst ausprobieren? Die Integration ist derzeit auf dem Konfuzio Marktplatz verfügbar.
Um sie zu nutzen, müssen Sie ein Konto auf app.konfuzio.com einrichten und Zugang zum Forms-Listing beantragen. Unsere Experten setzten sich nach erfolgreich gestelltem Zugriffsantrag mit Ihnen in Verbindung.
Fazit
Amazon Textract ist leicht integrierbar und wird im Idealfall gemeinsam mit Konfuzio und seiner DVUI verwendet, um eine schnelle und präzise Datenextraktion ohne vorherige Schulung der Modelle zu erreichen. Sie haben die Möglichkeit, die Integration auf dem Konfuzio Marktplatz zu testen und die Extraktion von Dokumenten jeglicher Art selbst auszuprobieren. Amazon Textract verarbeitet problemlos Text- und Tabellendaten sowie Formulare und Kontrollkästchen – und Sie können die Ergebnisse über die Konfuzio DVUI validieren.
Sie haben Fragen rund um Amazon Textract oder Document Validation UI von Konfuzio? Kontaktieren Sie uns jederzeit über das Kontaktformular.
Schreiben Sie einen Kommentar