Document Layout Analysis fait le lien entre les données non structurées et leur utilisation judicieuse en extrayant des informations structurées tout en tenant compte de la mise en page des documents originaux.
Du décryptage de magazines et de formats de journaux complexes au traitement de manuels techniques, l'analyse de la mise en page des documents peut aider à mettre en évidence des ensembles de données cachés.
Analyser et structurer efficacement les documents est un facteur clé dans de nombreux domaines, de l'automatisation des tâches administratives à l'amélioration de l'accessibilité des informations.
Dans cet article, nous vous guidons à travers le labyrinthe de Document Layout Analsis, LayoutParser et DocLayNet et vous expliquons les tenants et les aboutissants.
Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.
Clarification et explication du concept de "Document Layout".
Par Document Layout, on entend la disposition spatiale et le design des contenus sur une page ou dans un document numérique.
Cela comprend des éléments tels que les blocs de texte, les titres, les images, les diagrammes, les tableaux et autres composants graphiques. La mise en page d'un document a une influence déterminante sur la manière dont les informations sont présentées et perçues par le lecteur.
L'analyse de la mise en page des documents comprend la reconnaissance et l'interprétation des informations visuelles et spatiales dans les documents afin de parvenir à une compréhension approfondie de la structure et de la signification d'un document.
Les facteurs importants de la mise en page du document et leur influence sur l'interprétation du texte
Il existe un certain nombre de facteurs qui déterminent la mise en page d'un document et influencent l'interprétation du texte. Il s'agit notamment de la position et de la taille des blocs de texte, de la disposition des images et des graphiques, de l'utilisation des couleurs et des polices de caractères et de la structure hiérarchique des informations. Une mise en page de document bien conçue guide le regard du lecteur, souligne les points importants et améliore la compréhension du contenu.
Par exemple, les titres et les sous-titres peuvent aider à diviser le texte en sections faciles à gérer et à clarifier la structure du document. Les images et les diagrammes peuvent représenter visuellement les informations et faciliter l'interprétation du texte. Les couleurs peuvent être utilisées pour mettre en évidence certaines zones ou pour indiquer différentes catégories d'informations. Dans l'analyse de la mise en page du document, ces facteurs et d'autres sont analysés afin d'obtenir une image globale de la structure et de la signification d'un document.
Approches de l'analyse de la mise en page des documents
Nous résumons ici les approches typiques utilisées par les professionnels dans le Document Layout Analsis :
- Ensemble de données synthétiques et ensemble de modèles : une approche consiste à créer un ensemble de données d'images synthétiques et à utiliser des modèles d'ensemble tels que YOLOv8 et DINO pour la prédiction de la disposition. Pour améliorer les performances, un modèle de classification supplémentaire est enseigné afin de catégoriser les échantillons dans des catégories de documents. Les modèles sont optimisés avec le Tree-Structured Parzen Estimator (TPE) et les résultats sont combinés avec la Weighted Boxes Fusion (WBF).
- Augmentation de l'image et reconnaissance d'objets : une autre approche s'appuie sur des techniques d'augmentation de l'image telles que les méthodes de mise à l'échelle et de mosaïque et entraîne des modèles de reconnaissance d'objets tels que YOLOv5 et YOLOv8 pour la prédiction de la disposition. Les prédictions finales sont un ensemble de plusieurs détecteurs pour une performance supérieure.
- Prédiction de masques : en outre, divers experts ont déjà utilisé des modèles tels que MaskDINO, qui introduisent une branche de prédiction de masques afin d'obtenir un meilleur alignement des caractéristiques entre la reconnaissance et la segmentation. L'inférence est alors réalisée à l'aide de la technique Weighted Boxes Fusion (WBF) sur plusieurs échelles de la même image d'entrée.
- l'utilisation de modèles pré-entraînés : Une autre approche consiste à utiliser des modèles pré-entraînés tels que VSR et Mise en pageLMv3. Les résultats de prédiction des deux modèles sont combinés lors de la phase d'inférence.
- Entraînement de variations de modèles existants : des spécialistes ont entraîné différentes versions de modèles Cascade Mask R-CNN, basées sur un backbone DiT, et ont fusionné les résultats de prédiction en utilisant différents modèles.
- Approche de base : le modèle YOLOv5 offre un modèle de base simple. Le modèle peut être entraîné à partir de zéro avec des paramètres standard et les techniques d'enrichissement standard telles que la mosaïque, le redimensionnement, le flipping, la rotation, le mix-up et les niveaux d'image améliorent les résultats.
Qu'est-ce que ce que l'on appelle l'analyseur de mise en page ?
LayoutParser est une bibliothèque Python qui fournit un large éventail de modèles d'apprentissage en profondeur pré-entraînés pour reconnaître la mise en page de l'image d'un document. Cette bibliothèque utilise des modèles d'apprentissage automatique de pointe pour permettre une analyse détaillée et précise de la mise en page du document.
L'avantage de LayoutParser est qu'il est vraiment facile à mettre en œuvre. En effet, quelques lignes de code suffisent pour capturer la mise en page de l'image de votre document. Nous verrons les étapes exactes de cette opération dans la section suivante.
LayoutParser vous permet de profiter de modèles d'apprentissage en profondeur pré-entrainés et formés sur différents jeux de données. Il s'agit entre autres de PubLayNet, HJDataset, PrimaLayout, Newspaper Navigator et TableBank. Ces modèles ont été spécialement entraînés à reconnaître et à interpréter des structures de mise en page complexes, ce qui permet une analyse précise et efficace de la mise en page des documents.
Si la mise en page de l'image de votre document présente des similitudes avec l'un des ensembles de données mentionnés ci-dessus, LayoutParser vous apportera des avantages considérables. Il permet non seulement une reconnaissance efficace de la mise en page, mais aussi une analyse et une compréhension approfondies du contenu du document.
En outre, LayoutParser offre la flexibilité de créer et d'entraîner des modèles personnalisés afin de répondre à des besoins spécifiques. Il s'agit donc d'un outil puissant et adaptable pour l'analyse de la mise en page de documents.
Comparaison et délimitation entre l'analyseur de mise en page et l'analyseur de mise en page
Un analyseur de mise en page est un domaine d'application permettant d'analyser la structure et la mise en page des documents. Il est ainsi possible d'identifier et de classer des blocs de texte, des tableaux, des images et d'autres éléments au sein d'un document. Les domaines d'application vont de l'extraction de données et de la récupération d'informations au traitement automatisé de documents.
Le terme LayoutParser fait référence à un outil d'analyse de mise en page de documents basé sur Python. Il offre des fonctions de reconnaissance et de classification des éléments textuels et non textuels, de segmentation des pages et de création de diagrammes de mise en page. Layoutparser peut être utilisé dans une grande variété de domaines, y compris l'exploration de texte, la visualisation de données et l'apprentissage automatique.
Cas d'application pratiques et exemples d'utilisation de ces outils
Ces deux outils peuvent par exemple être utilisés dans le traitement automatisé des documents afin d'extraire rapidement et efficacement des informations d'un grand nombre de documents. Cela peut s'avérer très utile dans des domaines tels que la comptabilité, les ressources humaines ou la gestion de la clientèle.
Un autre domaine d'application est l'extraction de données et la récupération d'informations. Ces outils permettent d'extraire des données structurées de documents non structurés, ce qui peut être utile par exemple dans le cadre de la recherche scientifique ou de la création de rapports et d'analyses.
En outre, ces outils peuvent être utilisés dans les domaines de l'exploration de texte et de la visualisation préparatoire de données. Ils peuvent aider à préparer les informations dans les documents de manière à identifier des modèles et des tendances dans de grandes quantités de texte. Cela peut être utile dans de nombreux domaines, de l'analyse de marché à la recherche sociale.
Qu'est-ce que DocLayNet ?
DocLayNet est un ensemble de données de segmentation de mise en page de documents annotées par l'homme, qui contient 80 863 pages de seulement six types de documents essentiels en anglais. Ce vaste ensemble de données a été annoté à la main par des experts bien formés, ce qui en fait un étalon-or de la segmentation de la mise en page par reconnaissance et interprétation humaines de chaque mise en page.

DocLayNet offre une vérité fondamentale de mise en page page par page à l'aide de bounding boxes pour 11 étiquettes de classe différentes sur 80.863 pages uniques de 6 catégories de documents. Il présente quelques caractéristiques uniques par rapport à des travaux apparentés tels que PubLayNet ou DocBank :
- Annotation humaine : comme nous l'avons déjà mentionné, DocLayNet a été annoté à la main par des experts bien formés. Cela garantit une très grande précision dans les Annotations.
- Grande variabilité de mise en page : DocLayNet contient des mises en page diverses et complexes provenant d'un grand nombre de sources publiques dans les domaines de la finance, de la science, des brevets, des appels d'offres, des textes de loi et des manuels.
- Ensemble de labels détaillés : DocLayNet définit 11 labels de classe pour distinguer les caractéristiques de mise en page avec un haut niveau de détail.
- Annotations redondantes : Une partie des pages de DocLayNet sont annotées deux ou trois fois, ce qui permet d'estimer l'incertitude de l'annotation et de déterminer une limite supérieure pour la précision de prédiction pouvant être atteinte avec des modèles ML.
- Ensembles de formation, de test et de validation prédéfinis : DocLayNet fournit des ensembles définis pour chaque afin de garantir une représentation proportionnelle des étiquettes de classe et d'éviter la fuite de styles de mise en page uniques à travers les ensembles.
Détails de l'ensemble de données DocLayNet
Le jeu de données DocLayNet est disponible sur Hugging Face sous ds4sd/DocLayNet.
L'ensemble de données contient quatre types de ressources de données : des images PNG de toutes les pages, réduites à des dimensions carrées de 1025 x 1025px, des annotations bounding box au format COCO pour chaque image PNG, des pages PDF individuelles correspondant à chaque image PNG et un fichier JSON correspondant à chaque page PDF et fournissant les cellules de texte numérique avec leurs coordonnées et leur contenu.
Le jeu de données DocLayNet a toutefois ses limites. Par exemple, le mode d'emploi illustré ne fait pas partie du jeu de données DocLayNet. Si vous souhaitez élargir le jeu de données, nous vous proposons les services et les outils adéquats.
N'hésitez pas à nous contacter via le formulaire de contact.

Vous trouverez plus de détails sur DocLayNet, y compris la structure du jeu de données, le format des données et les annotations COCO, dans le readme officiel du projet.
Pour plus de détails techniques et une analyse complète de DocLayNet, nous vous renvoyons au travail scientifique correspondant : "DocLayNet : A Large Human-Annotated Dataset for Document-Layout Analysis" (KDD 2022). Ce travail est disponible sur ArXiv sous le lien suivant : https://arxiv.org/abs/2206.01062.
DocLayNet est capable d'identifier un grand nombre d'éléments, y compris les blocs de texte, les titres, les images, les tableaux et autres composants visuels. Il peut en outre analyser les relations spatiales entre ces éléments et créer une représentation structurée de la mise en page du document.
Utilisation de DocLayNet dans l'analyse de la mise en page des documents
Dans le contexte de l'analyse de la mise en page des documents, DocLayNet a une valeur significative. Il permet d'entraîner des algorithmes qui comprennent mieux les mises en page de documents, ce qui peut améliorer considérablement l'efficacité et la précision de l'extraction de données et de la récupération d'informations.
Les Human Annotated Datasets comme coffre aux trésors des données
Jeux de données annotés par l'hommeLes données annotées par des humains sont une ressource précieuse dans de nombreux domaines de l'apprentissage automatique et de l'intelligence artificielle. Ils se composent de données brutes qui ont été vérifiées par des humains et auxquelles ont été ajoutées des informations supplémentaires ou "annotations". Ces annotations peuvent contenir une grande variété d'informations, telles que des catégories, des étiquettes, des balises ou d'autres descriptions qui ajoutent du contexte ou de la signification aux données. Les ensembles de données annotés par l'homme servent souvent de données d'entraînement pour les algorithmes d'apprentissage automatique qui visent à identifier des modèles dans les données et à faire des prédictions.
Pourquoi les Human Annotated Datasets sont indispensables à l'analyse de la mise en page des documents
Dans l'analyse de la mise en page des documents, les Human Annotated Datasets jouent un rôle crucial. Elles permettent aux algorithmes d'apprentissage automatique de comprendre la complexité et la diversité des mises en page de documents et d'apprendre à identifier et à interpréter différents éléments au sein d'un document. Sans ces données d'apprentissage annotées par des humains, il serait difficile pour les modèles d'apprentissage automatique de faire des prédictions précises et fiables.
Exemples pratiques de l'utilité des Human Annotated Datasets à l'aide des données du FUNSD
Un bon exemple de l'utilité des Human Annotated Datasets dans l'analyse de la mise en page des documents est le FUNSD (Form Understanding in Noisy Scanned Documents) Ensemble de données. Cet ensemble de données est constitué de documents numérisés auxquels des personnes ont ajouté des annotations identifiant différents éléments tels que des blocs de texte, des titres, des étiquettes et des réponses.
En s'entraînant avec l'ensemble de données FUNSD, les modèles d'apprentissage automatique peuvent apprendre à identifier ces éléments dans des documents similaires et à interpréter les relations entre eux. Dans la pratique, cela peut être utilisé par exemple pour l'automatisation du traitement des formulaires, où les modèles d'apprentissage automatique analysent les formulaires numérisés, extraient les informations importantes et fournissent ces informations pour un traitement ou une analyse ultérieurs.
Conclusion
Dans cet article, une étude approfondie de l'analyse de la mise en page des documents a été réalisée. L'accent a été mis sur le fait que la mise en page d'un document joue un rôle essentiel dans l'interprétation du texte. Les outils d'analyse Layout Parser et Layout Parser ont été examinés en détail, avec leurs caractéristiques spécifiques et leurs possibilités d'application. Les technologies avancées DocLayNet et DocNN, dont les capacités et les domaines d'application sont importants pour l'analyse de la mise en page des documents, ont également été présentées. Enfin, le rôle crucial des Human Annotated Datasets dans l'analyse de la mise en page des documents a été discuté, en mettant l'accent sur le jeu de données FUNSD.
Tendances émergentes et progrès dans l'analyse de la mise en page des documents
Il y a des tendances et des progrès remarquables dans l'analyse de la mise en page des documents qui méritent d'être soulignés. Le développement continu dans le domaine de l'intelligence artificielle et de l'apprentissage automatique promet de nouvelles améliorations dans l'analyse de la mise en page des documents. On peut s'attendre à ce que des progrès considérables soient réalisés, en particulier dans les domaines du traitement automatisé des documents, de l'exploration de texte et de la visualisation des données. En outre, on peut s'attendre à ce que l'accès aux ensembles de données annotées par l'homme continue à augmenter, ce qui favorisera le développement et l'amélioration des modèles d'analyse de la mise en page des documents.
Remarques finales et invitation à l'échange
Cet article avait pour but de fournir une vue d'ensemble détaillée du monde de l'analyse de la mise en page des documents. Il faut reconnaître que ces technologies ont le potentiel de changer radicalement la manière dont le traitement et l'analyse des documents sont effectués.
Nous vous encourageons à partager vos réflexions, vos questions ou vos expériences sur ces technologies. Vos points de vue sont précieux pour faire avancer la compréhension et le développement de ces technologies. Nous sommes intéressés par un échange objectif et informatif.
Nous nous ferons un plaisir d'adapter les dernières recherches à votre cas d'application et de créer des environnements prêts à l'emploi pour appliquer l'intelligence artificielle à votre entreprise. serveurs ou votre cloud de l'entreprise.
Autres sources
Bakkali, S., Ming, Z., Coustaty, M., Rusiñol, M., & Terrades, O. R. (2022). VLCDoC : Vision-language contrastive pre-training model for cross-modal document classification. arXiv preprint arXiv:2205.12029.
Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A. S., & Staar, P. (2022, août). Doclaynet, un réseau de données : Un grand jeu de données annoté par l'homme pour la segmentation de la mise en page des documents. In Actes de la 28e conférence ACM SIGKDD sur la découverte de connaissances et l'exploration de données (pp. 3743-3751).
Huang, Y., Lv, T., Cui, L., Lu, Y., & Wei, F. (2022, octobre). Layoutlmv3 : Pré-formation pour document ai avec texte unifié et masquage d'image. Dans Actes de la 30e Conférence internationale ACM sur le multimédia (pp. 4083-4091).
Jaume, G., Ekenel, H. K., & Thiran, J. P. (2019, septembre). Funsd : Un ensemble de données pour la compréhension des formes dans les documents numérisés bruyants. In 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW) (Vol. 2, pp. 1-6).
Li, J., Xu, Y., Lv, T., Cui, L., Zhang, C., & Wei, F. (2022, octobre). Dit : Pré-formation auto-supervisée pour la transformation d'images de documents. In Actes de la 30e Conférence internationale ACM sur le multimédia (pp. 3530-3539).
Shen, Z., Zhang, R., Dell, M., Lee, B. C. G., Carlson, J., & Li, W. (2021). Layoutparser : Un toolkit unifié pour l'analyse d'images de documents basée sur l'apprentissage profond. In Analyse et reconnaissance de documents-ICDAR 2021 : 16e Conférence internationale, Lausanne, Suisse, 5-10 septembre 2021, Actes, Partie I 16 (pp. 131-146). Springer International Publishing.
Yu, Y., Li, Y., Zhang, C., Zhang, X., Guo, Z., Qin, X. & Wang, J. (2023). StrucTexTv2 : Prédiction visuelle-textuelle masquée pour la pré-formation d'images de documents. arXiv preprint arXiv:2303.00289.