Donut Deep Dive – Document Understanding

Donut, das von Kim et al. (2021) in ihrem Paper „OCR-free Document Understanding Transformer (Donut)“ vorgestellt wurde, ist ein einzigartiger Ansatz für die Verarbeitung von Dokumentenbildern, der sich nicht auf die optische Zeichenerkennung (OCR) stützt. Das Modell ist so konzipiert, dass es effizient in verschiedenen Sprachen funktioniert und rechnerisch günstiger ist als herkömmliche OCR-basierte Verfahren.

In diesem Artikel werden wir einen tieferen Einblick in die Architektur von Donut, seine Komponenten und seine Leistung in realen Anwendungen geben.

Document Understanding Transformer
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., Yim, J., … & Park, S. (2022, October). Ocr-free document understanding transformer. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXVIII (pp. 498-517). Cham: Springer Nature Switzerland. (Page 2)

Im DONUT-Paper präsentieren die Forscher eine Methode, um ein kombiniertes Seh- und Sprachmodell (self contained E2E Modell) zu trainieren, das eine Art von KI ist, die menschenähnlichen Visual Noisy Documents verstehen und strukturierte Daten erzeugen kann. Sie verwenden eine Trainingsstrategie namens Teacher-Forcing, was bedeutet, dass sie der KI während des Lernens die richtigen Antworten geben, anstatt sie auf der Grundlage ihrer vorherigen Versuche raten zu lassen.

Wenn die KI tatsächlich getestet wird, erhält sie einen Prompt, der ein kurzes Stück Text ist, das der KI hilft, zu entscheiden, was sie generieren soll. Die Forscher haben spezielle Tokens (ähnlich wie Markierungen) für verschiedene Aufgaben hinzugefügt, um es der KI leichter zu machen, zu verstehen, was sie tun muss.

Um den Prozess zu veranschaulichen, stellen Sie sich vor, Sie bringen einem Kind bei, eine Geschichte zu schreiben. Teacher-Forcing wäre, als würden Sie ihnen eine Gliederung oder eine Liste von Schlüsselpunkten geben, die in die Geschichte aufgenommen werden sollen, während der Prompt ein Satz oder eine Idee ist, der ihre kreativen Säfte zum Fließen bringt.

Nachdem die KI eine Antwort generiert hat, konvertieren die Forscher die Ausgabe in ein strukturiertes Format namens JSON, das eine übliche Methode zur Darstellung und Organisation von Daten ist. Sie verwenden spezielle Tokens (ähnlich wie Markierungen), um den Anfang und das Ende jedes Informationsstücks in der Ausgabe anzuzeigen. Wenn die Ausgabe der KI nicht korrekt strukturiert ist, betrachten sie dieses bestimmte Informationsstück als verloren.

Structured Output from noisy scanned documents
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., Yim, J., … & Park, S. (2022, October). Ocr-free document understanding transformer. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXVIII (pp. 498-517). Cham: Springer Nature Switzerland. (Page 2)

Insgesamt beschreibt das DONUT-Paper eine Methode zum Trainieren und Testen eines Sprachmodells mit Teacher-Forcing, Prompts und einem strukturierten Ausgabeformat, um es der KI zu erleichtern, menschenähnlichen Visual Noisy Documents zu verstehen und zu generieren.

Das Konfuzio-Team hat sich mit dem Donut Document Understanding-Modell von Kim et al. 2021 beschäftigt, da es sich um eine vielversprechende Methode zur automatischen Verarbeitung von Dokumenten handelt. Das Modell nutzt eine neuartige Methode der Datenrepräsentation, die es ermöglicht, die Beziehungen zwischen verschiedenen Elementen in einem Dokument auf eine präzisere und effektivere Weise zu erfassen. Darüber hinaus zeigt das Modell vielversprechende Ergebnisse in Bezug auf die Klassifizierung und Extraktion von Informationen aus Dokumenten, was es zu einem vielversprechenden Ansatz für die Entwicklung von automatisierten Dokumentverarbeitungslösungen macht.

Architektur und Komponenten

Die wichtigsten Komponenten der Donut-Architektur sind der Encoder, der für die Verarbeitung visueller Daten zuständig ist, und der Decoder, der Textdaten verarbeitet. Das Modell arbeitet in zwei Hauptstufen:

Encoding: In dieser Phase verarbeitet der Kodierer das Eingabebild und wandelt es in Einbettungen um. Einbettungen sind numerische Werte, die visuelle, textuelle oder andere Arten von Daten darstellen. Dieser Prozess ermöglicht es dem Modell, die visuellen Informationen des Dokuments in ein maschinenlesbares Format umzuwandeln.

Decoding: Der Dekodierer nimmt die vom Kodierer erzeugten Einbettungen und erzeugt autoregressiv Text auf der Grundlage der Ausgabe des Kodierers. Bei dem autoregressiven Prozess verwendet der Decoder zuvor generierte Wörter als Kontext, um das nächste Wort zu generieren. Mit diesem Ansatz kann das Modell eine textuelle Darstellung des Eingabebildes erzeugen, ohne auf OCR zurückzugreifen.

Leistung und Beschränkungen

Donut 🍩 demonstration for `cord-v2` task
Cord v2 donut model document understanding json output

Trotz seines innovativen Ansatzes war die Leistung von Donut in bestimmten Anwendungen nicht besonders überzeugend. Bei Tests mit zwei Instanzen des Modells (der Standardinstanz und einer mit dem CORD-Quittungsdatensatz feinabgestimmten Version) wurde der Erfolg daran gemessen, wie genau die Ground-Truth-Annotationen extrahiert wurden. Leider lag die Gesamtpräzision für die getesteten Kategorien nie über 10 %.

Einige der bei diesen Tests festgestellten Einschränkungen und Nachteile sind:

Unzureichende sprachunabhängige Fähigkeiten: Obwohl Donut für den Einsatz in verschiedenen Sprachen konzipiert wurde, war seine Leistung bei der Verarbeitung deutscher und englischer Daten suboptimal. In einigen Fällen enthielt der generierte Text sogar nicht zusammenhängende chinesische Zeichen.

Geringe Verarbeitungsgeschwindigkeit: Selbst bei der Ausführung auf einem Grafikprozessor war die Verarbeitungsgeschwindigkeit des Modells relativ langsam, was seine praktische Anwendbarkeit in realen Szenarien beeinträchtigen könnte.

Zukünftige Richtungen und Verbesserungen

Angesichts dieser Einschränkungen untersuchen die Forscher derzeit die Möglichkeit einer Feinabstimmung des Donut-Modells für bestimmte Datensätze, um seine Leistung zu verbessern. Ziel ist es, eine sprachunabhängigere und effizientere Version des Modells zu entwickeln, die verschiedene Dokumentenbilder besser verstehen und verarbeiten kann.

Bei der Feinabstimmung werden die Parameter des Modells so angepasst, dass sie besser zum Zieldatensatz passen, wodurch ein spezielleres, auf die jeweilige Aufgabe zugeschnittenes Modell entsteht. Durch die Feinabstimmung von Donut auf die gewünschten Daten hoffen die Forscher, eine bessere Extraktionsgenauigkeit und Gesamtleistung zu erreichen.

Zusammenfassung

Zusammenfassend lässt sich sagen, dass Donut einen neuen Ansatz für die Verarbeitung von Dokumentenbildern darstellt, da es nicht mehr auf OCR angewiesen ist. Obwohl die derzeitige Leistung in einigen Anwendungen nicht zufriedenstellend war, ist das Potenzial für Verbesserungen durch Feinabstimmung und weitere Forschung vielversprechend. Wenn sich die Technologie weiterentwickelt und anpasst, könnte Donut zu einem wertvollen Werkzeug für die sprachunabhängige und rechnerisch effiziente Verarbeitung von Dokumentenbildern werden.

«
»
Avatar von Elizaveta Ezhergina

Neueste Artikel