Deep Dive Document Layout Analysis mit High-Tech-Tools

Document Layout Analysis bildet die Brücke zwischen unstrukturierten Daten und ihrer sinnvollen Nutzung, indem sie strukturierte Informationen extrahiert und dabei das Layout der ursprünglichen Dokumente berücksichtigt.

Von der Entschlüsselung komplexer Zeitschriften und Zeitungsformate bis hin zur Verarbeitung technischer Handbücher kann die Document Layout Analysis dabei helfen, verborgene Datensätze hervorzuheben.

Dokumente effizient zu analysieren und zu strukturieren ist ein Schlüsselfaktor in zahlreichen Bereichen – von der Automatisierung administrativer Aufgaben bis zur Verbesserung der Informationszugänglichkeit.

In diesem Artikel führen wir Sie durch das Labyrinth von Document Layout Analsis, LayoutParser und DocLayNet und erklären die Hintergründe.

Klärung und Erläuterung des Konzepts „Document Layout“

Unter Document Layout versteht man die räumliche Anordnung und das Design von Inhalten auf einer Seite oder in einem digitalen Dokument.

Dies umfasst Elemente wie Textblöcke, Überschriften, Bilder, Diagramme, Tabellen und andere grafische Komponenten. Das Layout eines Dokuments beeinflusst maßgeblich, wie die Informationen präsentiert und vom Leser wahrgenommen werden.

Document Layout Analysis umfasst die Erkennung und Interpretation visueller und räumlicher Informationen in Dokumenten, um eine tiefgreifende Verständnis der Struktur und Bedeutung eines Dokuments zu erreichen.

Bedeutende Faktoren des Document Layouts und deren Einfluss auf die Textinterpretation

Es gibt eine Reihe von Faktoren, die das Layout eines Dokuments bestimmen und die Textinterpretation beeinflussen. Dazu gehören die Position und Größe der Textblöcke, die Anordnung von Bildern und Grafiken, die Verwendung von Farben und Schriftarten sowie die hierarchische Struktur der Informationen. Ein gut gestaltetes Document Layout leitet den Blick des Lesers, betont wichtige Punkte und verbessert das Verständnis des Inhalts.

Zum Beispiel können Überschriften und Unterüberschriften dazu beitragen, den Text in überschaubare Abschnitte zu unterteilen und die Struktur des Dokuments zu verdeutlichen. Bilder und Diagramme können Informationen visuell darstellen und die Textinterpretation erleichtern. Farben können dazu verwendet werden, um bestimmte Bereiche hervorzuheben oder unterschiedliche Informationskategorien zu kennzeichnen. In der Document Layout Analysis werden diese und andere Faktoren analysiert, um ein umfassendes Bild der Struktur und Bedeutung eines Dokuments zu erhalten.

Ansätze für Document Layout Analysis

An dieser Stelle fassen wir typische Ansätze, die in dem Document Layout Analsis von Fachleuten verwendet werden zusammen:

  1. Synthetischer Datensatz und Modellensemble: Ein Ansatz besteht darin, einen synthetischen Bilddatensatz zu erstellen und Ensemblemodelle wie YOLOv8 und DINO für die Layout-Prognose zu verwenden. Um die Leistung zu verbessern, wird ein zusätzliches Klassifikationsmodell geschult, um Proben in Dokumentenkategorien zu kategorisieren. Modelle werden mit dem Tree-Structured Parzen Estimator (TPE) optimiert und die Ergebnisse werden mit der Weighted Boxes Fusion (WBF) kombiniert.
  2. Bildaugmentation und Objekterkennung: Ein anderer Ansatz stützt sich auf Bildaugmentationstechniken wie Skalierungs- und Mosaikmethoden und trainiert Objekterkennungsmodelle wie YOLOv5 und YOLOv8 für die Layout-Prognose. Die endgültigen Vorhersagen sind ein Ensemble aus mehreren Detektoren für eine überlegene Leistung.
  3. Maskenprognose: Zudem haben diverse Experten bereits Modelle wie MaskDINO verwendet, die einen Maskenprognosezweig einführen, um eine bessere Ausrichtung der Merkmale zwischen Erkennung und Segmentierung zu erreichen. Die Inferenz erfolgt dann mit der Weighted Boxes Fusion (WBF) Technik auf mehreren Skalen des gleichen Eingangsbildes.
  4. Verwendung von vortrainierten Modellen: Ein weiterer Ansatz ist die Verwendung von vortrainierten Modellen wie VSR und LayoutLMv3. Die Vorhersageergebnisse beider Modelle werden in der Inferenzphase zusammengeführt.
  5. Training von Variationen bestehender Modelle: Fachleute haben verschiedene Versionen von Cascade Mask R-CNN Modellen trainiert, basierend auf einem DiT-Backbone, und Vorhersageergebnisse unter Verwendung verschiedener Modelle fusioniert.
  6. Baseline-Ansatz: Das YOLOv5-Modell bietet ein einfaches Basismodell. Das Modell kann von Grund auf mit Standard-Einstellungen trainiert werden und Standard-Augmentationstechniken wie Mosaik, Skalierung, Flippen, Rotation, Mix-Up und Bildstufen verbessern die Ergebnisse.

Was ist der sogenannte LayoutParser?

LayoutParser ist eine Python-Bibliothek, die eine breite Palette von vortrainierten Deep-Learning-Modellen zur Verfügung stellt, um das Layout eines Dokumentenbildes zu erkennen. Diese Bibliothek verwendet modernste maschinelle Lernmodelle, um eine detaillierte und genaue Analyse des Dokumentenlayouts zu ermöglichen.

Der Vorteil von LayoutParser besteht darin, dass es wirklich einfach zu implementieren ist. Tatsächlich benötigen Sie nur wenige Codezeilen, um das Layout Ihres Dokumentenbildes zu erfassen. Die genauen Schritte dazu werden wir im nächsten Abschnitt besprechen.

Mit LayoutParser können Sie von vortrainierten Deep-Learning-Modellen profitieren, die auf verschiedenen Datensätzen geschult wurden. Dazu gehören unter anderem PubLayNet, HJDataset, PrimaLayout, Newspaper Navigator und TableBank. Diese Modelle wurden speziell darauf trainiert, komplexe Layoutstrukturen zu erkennen und zu interpretieren, was eine genaue und effiziente Dokumentenlayout-Analyse ermöglicht.

Falls das Layout Ihres Dokumentenbildes Ähnlichkeiten mit einem der oben genannten Datensätze aufweist, dann werden Sie mit LayoutParser erhebliche Vorteile haben. Es ermöglicht nicht nur eine effiziente Layouterkennung, sondern auch eine tiefgehende Analyse und Verständnis des Dokumenteninhalts.

Darüber hinaus bietet LayoutParser die Flexibilität, angepasste Modelle zu erstellen und zu trainieren, um spezifischen Anforderungen gerecht zu werden. Damit ist es ein leistungsfähiges und anpassbares Werkzeug für die Document Layout Analysis.

Vergleich und Abgrenzung zwischen Layout Parser und Layoutparser

Ein Layout Parser ist ein Anwendungsbereich, um die Struktur und das Layout von Dokumenten zu analysieren. So können Textblöcke, Tabellen, Bilder und andere Elemente innerhalb eines Dokuments identifiziert und klassifiziert werden. Die Anwendungsfelder reichen von der Datenextraktion und Informationsrückgewinnung bis hin zur automatisierten Dokumentenverarbeitung.

Der Begriff LayoutParser bezieht sich auf ein Python-basiertes Document Layout Analysis Tool. Es bietet Funktionen zur Erkennung und Klassifizierung von Text- und Nicht-Textelementen, zur Segmentierung von Seiten und zur Erstellung von Layoutdiagrammen. Layoutparser kann in einer Vielzahl von Bereichen eingesetzt werden, einschließlich Textmining, Datenvisualisierung und maschinellem Lernen.

Praxisorientierte Anwendungsfälle und Beispiele für den Einsatz dieser Tools

Beide Tools können zum Beispiel in der automatisierten Dokumentenverarbeitung eingesetzt werden, um Informationen aus einer großen Anzahl von Dokumenten schnell und effizient zu extrahieren. Dies kann in Bereichen wie dem Rechnungswesen, dem Personalwesen oder dem Kundenmanagement von großem Nutzen sein.

Ein weiteres Anwendungsgebiet ist die Datenextraktion und Informationsrückgewinnung. Mit diesen Tools können Sie strukturierte Daten aus unstrukturierten Dokumenten extrahieren, was zum Beispiel in der wissenschaftlichen Forschung oder bei der Erstellung von Berichten und Analysen nützlich sein kann.

Darüber hinaus können diese Tools in den Bereichen Textmining und zur vorbereitenden Datenvisualisierung eingesetzt werden. Sie können dabei helfen Informationen in Dokumenten so aufzubereiten, um Muster und Trends in großen Textmengen zu identifizieren. Dies kann in einer Vielzahl von Bereichen, von der Marktanalyse bis zur Sozialforschung, von Nutzen sein.

Was ist DocLayNet?

DocLayNet ist ein von Menschen annotiertes Dokumentlayout-Segmentierungsdatensatz, der 80.863 Seiten aus lediglich sechs wesentlichen Dokumententypen in englischer Sprache enthält. Dieser umfangreiche Datensatz wurde von gut ausgebildeten Experten von Hand annotiert, was ihn zu einem Goldstandard in der Layout-Segmentierung durch menschliche Erkennung und Interpretation jedes Seitenlayouts macht.

Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A. S., & Staar, P. (2022, August). Doclaynet: A large human-annotated dataset for document-layout segmentation. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 3743-3751).
Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A. S., & Staar, P. (2022, August). Doclaynet: A large human-annotated dataset for document-layout segmentation. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 3743-3751).

DocLayNet bietet eine Seiten-für-Seiten Layout-Segmentierung Grundwahrheit mit Hilfe von Bounding-Boxes für 11 unterschiedliche Klassenlabels auf 80.863 einzigartigen Seiten aus 6 Dokumentenkategorien. Es hat einige einzigartige Merkmale im Vergleich zu verwandten Arbeiten wie PubLayNet oder DocBank:

  • Menschliche Annotation: Wie bereits erwähnt, wurde DocLayNet von gut ausgebildeten Experten von Hand annotiert. Dies gewährleistet eine sehr hohe Genauigkeit in den Annotationen.
  • Große Layout-Variabilität: DocLayNet enthält diverse und komplexe Layouts aus einer Vielzahl von öffentlichen Quellen in den Bereichen Finanzen, Wissenschaft, Patente, Ausschreibungen, Gesetzestexte und Handbücher.
  • Detailliertes Labels-Set: DocLayNet definiert 11 Klassenlabels, um Layoutmerkmale in hoher Detailgenauigkeit zu unterscheiden.
  • Redundante Annotationen: Ein Teil der Seiten in DocLayNet sind doppelt oder dreifach annotiert, was es ermöglicht, die Annotation-Unsicherheit zu schätzen und eine Obergrenze für die erreichbare Vorhersagegenauigkeit mit ML-Modellen zu ermitteln.
  • Vordefinierte Trainings-, Test- und Validierungssets: DocLayNet stellt festgelegte Sets für jedes zur Verfügung, um eine proportionale Repräsentation der Klassenlabels sicherzustellen und das Austreten von einzigartigen Layoutstilen über die Sets hinweg zu vermeiden.

Details zum DocLayNet Datensatz

Der DocLayNet-Datensatz ist auf Hugging Face unter ds4sd/DocLayNet verfügbar.

Der Datensatz enthält vier Arten von Datenressourcen: PNG-Bilder aller Seiten, die auf quadratische 1025 x 1025px verkleinert wurden, Bounding-Box-Annotationen im COCO-Format für jedes PNG-Bild, einzelne PDF-Seiten, die jedem PNG-Bild entsprechen, und eine JSON-Datei, die jeder PDF-Seite entspricht und die digitalen Textzellen mit Koordinaten und Inhalt liefert.

Der DocLayNet Datensatz hat jedoch Grenzen. So kann z. B. die ist die abgebildete Bedienungsanleitung nicht Bestandteil des DocLayNet Datensatzes. Sofern Sie den Datensatz erweitern möchten, bieten wir hierfür die passenden Services und Tool.

Kontaktieren Sie uns gerne über das Kontaktformular.

Auer, C., Nassar, A., Lysak, M., Dolfi, M., Livathinos, N., & Staar, P. (2023). ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents. arXiv preprint arXiv:2305.14962.
Auer, C., Nassar, A., Lysak, M., Dolfi, M., Livathinos, N., & Staar, P. (2023). ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents. arXiv preprint arXiv:2305.14962.

Weitere Details zu DocLayNet, einschließlich der Struktur des Datensatzes, des Datenformats und der COCO-Annotationen, finden Sie im offiziellen Readme des Projekts.

Für weitere technische Einzelheiten und eine umfassende Analyse von DocLayNet verweisen wir auf die dazugehörige wissenschaftliche Arbeit: „DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis“ (KDD 2022). Diese Arbeit ist unter folgendem Link auf ArXiv verfügbar: https://arxiv.org/abs/2206.01062.

DocLayNet ist in der Lage, eine Vielzahl von Elementen zu identifizieren, einschließlich Textblöcken, Überschriften, Bildern, Tabellen und anderen visuellen Komponenten. Darüber hinaus kann es die räumlichen Beziehungen zwischen diesen Elementen analysieren und eine strukturierte Repräsentation des Dokumentenlayouts erstellen.

Einsatz von DocLayNet in der Document Layout Analysis

Im Kontext der Document Layout Analysis hat DocLayNet einen bedeutenden Wert. Es ermöglicht es Algorithmen zu trainieren, die Dokumentenlayouts besser verstehen, was die Effizienz und Genauigkeit der Datenextraktion und Informationsrückgewinnung erheblich verbessern kann.

Human Annotated Datasets als Schatztruhe der Daten

Human Annotated Datasets, also von Menschen annotierte Datensätze, sind eine wertvolle Ressource in vielen Bereichen des Maschinellen Lernens und der Künstlichen Intelligenz. Sie bestehen aus Rohdaten, die von Menschen überprüft und mit zusätzlichen Informationen oder „Annotationen“ versehen wurden. Diese Annotationen können eine Vielzahl von Informationen enthalten, wie z.B. Kategorien, Labels, Tags oder sonstige Beschreibungen, die den Daten zusätzlichen Kontext oder Bedeutung verleihen. Human Annotated Datasets dienen oft als Trainingsdaten für maschinelle Lernalgorithmen, die darauf abzielen, Muster in Daten zu erkennen und Vorhersagen zu treffen.

Warum Human Annotated Datasets für die Document Layout Analysis unentbehrlich sind

In der Document Layout Analysis spielen Human Annotated Datasets eine entscheidende Rolle. Sie ermöglichen es maschinellen Lernalgorithmen, die Komplexität und Vielfalt von Dokumentlayouts zu verstehen und zu lernen, wie man verschiedene Elemente innerhalb eines Dokuments identifiziert und interpretiert. Ohne diese von Menschen annotierten Trainingsdaten wäre es für Maschinelles Lernen Modelle schwierig, genaue und zuverlässige Vorhersagen zu treffen.

Praxisbeispiele für den Nutzen von Human Annotated Datasets anhand von FUNSD-Daten

Ein gutes Beispiel für den Nutzen von Human Annotated Datasets in der Document Layout Analysis ist der FUNSD (Form Understanding in Noisy Scanned Documents) Datensatz. Dieser Datensatz besteht aus gescannten Dokumenten, die von Menschen mit Annotationen versehen wurden, die verschiedene Elemente wie Textblöcke, Überschriften, Labels und Antworten identifizieren.

Durch das Training mit dem FUNSD-Datensatz können maschinelle Lernmodelle lernen, wie man diese Elemente in ähnlichen Dokumenten identifiziert und wie man die Beziehungen zwischen ihnen interpretiert. In der Praxis kann dies beispielsweise bei der Automatisierung der Formularverarbeitung eingesetzt werden, wo maschinenlernenbasierte Modelle gescannte Formulare analysieren, wichtige Informationen extrahieren und diese Informationen für weitere Verarbeitung oder Analyse bereitstellen.

Fazit

In diesem Artikel wurde eine umfassende Untersuchung der Document Layout Analysis durchgeführt. Dabei wurde hervorgehoben, dass das Layout eines Dokuments eine wesentliche Rolle bei der Interpretation des Textes spielt. Die Analysewerkzeuge Layout Parser und Layoutparser wurden ausführlich erörtert, wobei ihre spezifischen Eigenschaften und Anwendungsmöglichkeiten im Detail beleuchtet wurden. Ferner wurden die fortschrittlichen Technologien DocLayNet und DocNN vorgestellt, deren Fähigkeiten und Anwendungsgebiete für die Document Layout Analysis von Bedeutung sind. Zuletzt wurde die entscheidende Rolle von Human Annotated Datasets in der Document Layout Analysis diskutiert, wobei der Fokus insbesondere auf den FUNSD-Datensatz gelegt wurde.

Aufkommende Trends und Fortschritte in der Document Layout Analysis

Es gibt bemerkenswerte Trends und Fortschritte in der Document Layout Analysis, die hervorzuheben sind. Die kontinuierliche Entwicklung im Bereich der Künstlichen Intelligenz und des Maschinellen Lernens verspricht weitere Verbesserungen bei der Analyse von Dokumentenlayouts. Man kann erwarten, dass insbesondere in den Bereichen automatisierte Dokumentenverarbeitung, Textmining und Datenvisualisierung erhebliche Fortschritte erzielt werden. Darüber hinaus ist absehbar, dass der Zugang zu Human Annotated Datasets weiter zunehmen wird, was die Entwicklung und Verbesserung von Modellen für die Document Layout Analysis begünstigt.

Abschließende Bemerkungen und Einladung zum Austausch

Dieser Artikel sollte einen detaillierten Überblick über die Welt der Document Layout Analysis bieten. Es ist zu erkennen, dass diese Technologien das Potenzial haben, die Art und Weise, wie Dokumentenverarbeitung und -analyse durchgeführt werden, grundlegend zu verändern.

Wir ermutigen Sie, Ihre Gedanken, Fragen oder Erfahrungen mit diesen Technologien zu teilen. Ihre Einsichten sind wertvoll, um das Verständnis und die Entwicklung dieser Technologien zu fördern. Wir sind an einem sachlichen und informativen Austausch interessiert.

Gerne adaptieren wir die neueste Forschung für Ihren Anwendungsfall und können Ihnen fertige Umgebungen schaffen, um Künstliche Intelligenz auch auf Ihren Servern oder Ihrer Cloud zu betreiben.

Weitere Quellen

Bakkali, S., Ming, Z., Coustaty, M., Rusiñol, M., & Terrades, O. R. (2022). VLCDoC: Vision-language contrastive pre-training model for cross-modal document classification. arXiv preprint arXiv:2205.12029.

Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A. S., & Staar, P. (2022, August). Doclaynet: A large human-annotated dataset for document-layout segmentation. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 3743-3751).

Huang, Y., Lv, T., Cui, L., Lu, Y., & Wei, F. (2022, October). Layoutlmv3: Pre-training for document ai with unified text and image masking. In Proceedings of the 30th ACM International Conference on Multimedia (pp. 4083-4091).

Jaume, G., Ekenel, H. K., & Thiran, J. P. (2019, September). Funsd: A dataset for form understanding in noisy scanned documents. In 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW) (Vol. 2, pp. 1-6).

Li, J., Xu, Y., Lv, T., Cui, L., Zhang, C., & Wei, F. (2022, October). Dit: Self-supervised pre-training for document image transformer. In Proceedings of the 30th ACM International Conference on Multimedia (pp. 3530-3539).

Shen, Z., Zhang, R., Dell, M., Lee, B. C. G., Carlson, J., & Li, W. (2021). Layoutparser: A unified toolkit for deep learning based document image analysis. In Document Analysis and Recognition–ICDAR 2021: 16th International Conference, Lausanne, Switzerland, September 5–10, 2021, Proceedings, Part I 16 (pp. 131-146). Springer International Publishing.

Yu, Y., Li, Y., Zhang, C., Zhang, X., Guo, Z., Qin, X. & Wang, J. (2023). StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training. arXiv preprint arXiv:2303.00289.

«
»
Avatar von Mohamed Dhiab

Neueste Artikel