Análisis en profundidad del diseño de documentos con herramientas de alta tecnología

El análisis del diseño de los documentos tiende un puente entre los datos no estructurados y su uso significativo extrayendo información estructurada y respetando al mismo tiempo el diseño de los documentos originales.

Desde la descodificación de complejos formatos de revistas y periódicos hasta el tratamiento de manuales técnicos, el análisis de la disposición de documentos puede ayudar a sacar a la luz registros ocultos.

Analizar y estructurar documentos de forma eficaz es un factor clave en numerosos ámbitos: desde la automatización de tareas administrativas hasta la mejora de la accesibilidad de la información.

En este artículo le guiaremos a través del laberinto de Document Layout Analsis, LayoutParser y DocLayNet y le explicaremos los antecedentes.

Aclaración y explicación del concepto "Diseño del documento

La maquetación de documentos es la disposición espacial y el diseño del contenido en una página o en un documento digital.

Incluye elementos como bloques de texto, títulos, imágenes, diagramas, tablas y otros componentes gráficos. La maquetación de un documento influye notablemente en cómo se presenta la información y cómo la percibe el lector.

El análisis de la disposición de los documentos consiste en reconocer e interpretar la información visual y espacial de los documentos para comprender en profundidad su estructura y significado.

Factores significativos de la presentación de un documento y su influencia en la interpretación del texto

Hay una serie de factores que determinan la maquetación de un documento e influyen en la interpretación del texto. Entre ellos están la posición y el tamaño de los bloques de texto, la disposición de imágenes y gráficos, el uso de colores y tipos de letra y la estructura jerárquica de la información. Un documento bien maquetado guía la mirada del lector, resalta los puntos importantes y mejora la comprensión del contenido.

Por ejemplo, los títulos y subtítulos pueden ayudar a dividir el texto en secciones manejables y aclarar la estructura del documento. Las imágenes y diagramas pueden presentar la información visualmente y facilitar la interpretación del texto. Los colores pueden utilizarse para resaltar determinadas áreas o indicar distintas categorías de información. En el análisis de la disposición de los documentos, se analizan estos y otros factores para obtener una imagen completa de la estructura y el significado de un documento.

Enfoques para el análisis del diseño de documentos

A continuación resumimos los enfoques típicos utilizados por los profesionales en el análisis de la maquetación de documentos:

  1. Conjunto de datos sintéticos y conjunto de modelos: Un enfoque consiste en crear un conjunto de datos de imágenes sintéticas y utilizar modelos de conjunto como YOLOv8 y DINO para la predicción del diseño. Para mejorar el rendimiento, se entrena un modelo de clasificación adicional para clasificar las muestras en categorías de documentos. Los modelos se optimizan con el estimador de Parzen estructurado en árbol (TPE) y los resultados se combinan con la fusión de cajas ponderadas (WBF).
  2. Aumento de la imagen y detección de objetos: Otro enfoque se basa en técnicas de aumento de la imagen, como los métodos de escalado y mosaico, y entrena modelos de detección de objetos, como YOLOv5 y YOLOv8, para la predicción del trazado. Las predicciones finales son un conjunto de múltiples detectores para un rendimiento superior.
  3. Predicción de máscaras: Además, varios expertos ya han utilizado modelos como MaskDINO que introducen una rama de predicción de máscaras para lograr una mejor alineación de características entre la detección y la segmentación. A continuación, la inferencia se realiza mediante la técnica de fusión de cajas ponderadas (WBF) en múltiples escalas de la misma imagen de entrada.
  4. Uso de modelos preentrenados: Otro enfoque consiste en utilizar modelos preentrenados, como VSR y DiseñoLMv3. Los resultados de predicción de ambos modelos se fusionan en la fase de inferencia.
  5. Entrenamiento de variaciones de los modelos existentes: los expertos han entrenado diferentes versiones de los modelos R-CNN Cascade Mask, basados en una columna vertebral DiT, y han fusionado los resultados de las predicciones utilizando diferentes modelos.
  6. Enfoque de referencia: el modelo YOLOv5 proporciona un modelo de referencia sencillo. El modelo se puede entrenar desde cero con los ajustes predeterminados y las técnicas de aumento estándar, como mosaico, escalado, volteo, rotación, mezcla y niveles de imagen, mejoran los resultados.

¿Qué es el llamado LayoutParser?

LayoutParser es una biblioteca de Python que proporciona una amplia gama de modelos de aprendizaje profundo preentrenados para reconocer la disposición de la imagen de un documento. Esta biblioteca utiliza modelos de aprendizaje automático de última generación para proporcionar un análisis detallado y preciso de la disposición de los documentos.

La ventaja de LayoutParser es que es realmente fácil de implementar. De hecho, sólo necesitas unas pocas líneas de código para capturar el diseño de la imagen de tu documento. Discutiremos los pasos exactos para hacerlo en la siguiente sección.

Con LayoutParser, puede beneficiarse de modelos de aprendizaje profundo preentrenados que se han entrenado en varios conjuntos de datos. Entre ellos se incluyen PubLayNet, HJDataset, PrimaLayout, Newspaper Navigator y TableBank. Estos modelos se han entrenado específicamente para reconocer e interpretar estructuras de diseño complejas, lo que permite un análisis de diseño de documentos preciso y eficiente.

Si el diseño de la imagen de su documento tiene similitudes con alguno de los conjuntos de datos anteriores, entonces tendrá importantes ventajas con LayoutParser. No solo permite un reconocimiento eficiente del diseño, sino también un análisis en profundidad y la comprensión del contenido del documento.

Además, LayoutParser ofrece la flexibilidad de crear y entrenar modelos personalizados para satisfacer requisitos específicos. Esto lo convierte en una herramienta potente y personalizable para el análisis del diseño de documentos.

Comparación y diferenciación entre el analizador sintáctico y el analizador de diseño

Un analizador sintáctico de diseño es un área de aplicación que permite analizar la estructura y el diseño de los documentos. Así, se pueden identificar y clasificar bloques de texto, tablas, imágenes y otros elementos dentro de un documento. Los campos de aplicación abarcan desde la extracción de datos y la recuperación de información hasta el tratamiento automatizado de documentos.

El término LayoutParser hace referencia a una herramienta de análisis de diseño de documentos basada en Python. Proporciona funciones para reconocer y clasificar elementos textuales y no textuales, segmentar páginas y crear diagramas de disposición. LayoutParser puede utilizarse en diversos ámbitos, como la minería de textos, la visualización de datos y el aprendizaje automático.

Casos prácticos y ejemplos de uso de estas herramientas

Ambas herramientas pueden utilizarse en el tratamiento automatizado de documentos, por ejemplo, para extraer información de un gran número de documentos de forma rápida y eficaz. Esto puede ser muy beneficioso en ámbitos como la contabilidad, los recursos humanos o la gestión de clientes.

Otro campo de aplicación es la extracción de datos y la recuperación de información. Con estas herramientas se pueden extraer datos estructurados de documentos no estructurados, lo que puede ser útil, por ejemplo, en la investigación científica o a la hora de crear informes y análisis.

Además, estas herramientas pueden utilizarse en los ámbitos de la minería de textos y la visualización preliminar de datos. Pueden ayudar a preparar la información de los documentos para identificar patrones y tendencias en grandes cantidades de texto. Esto puede ser útil en diversos campos, desde el análisis de mercados a la investigación social.

¿Qué es DocLayNet?

DocLayNet es un conjunto de datos de segmentación de diseños de documentos anotados por humanos que contiene 80.863 páginas de sólo seis tipos principales de documentos en inglés. Este extenso conjunto de datos ha sido anotado a mano por expertos bien formados, lo que lo convierte en un estándar de oro en segmentación de diseños mediante el reconocimiento y la interpretación humanos de cada diseño de página.

Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A. S., & Staar, P. (2022, agosto). Doclaynet: A large human-annotated dataset for document-layout segmentation. En Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 3743-3751).
Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A. S., & Staar, P. (2022, agosto). Doclaynet: A large human-annotated dataset for document-layout segmentation. En Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 3743-3751).

DocLayNet proporciona una segmentación página por página mediante cuadros delimitadores para 11 etiquetas de clase diferentes en 80.863 páginas únicas de 6 categorías de documentos. Presenta algunas características únicas en comparación con otros trabajos relacionados, como PubLayNet o DocBank:

  • Anotación humana: como ya se ha mencionado, DocLayNet fue anotado a mano por expertos bien formados. Esto garantiza un alto nivel de precisión en las anotaciones.
  • Amplia variabilidad de diseños: DocLayNet contiene diseños diversos y complejos procedentes de una gran variedad de fuentes públicas de los ámbitos de las finanzas, la ciencia, las patentes, las licitaciones, los textos jurídicos y los manuales.
  • Conjunto de etiquetas detalladas: DocLayNet define 11 etiquetas de clase para distinguir las características de diseño con gran detalle.
  • Anotaciones redundantes: Una parte de las páginas de DocLayNet tienen anotaciones dobles o triples, lo que permite estimar la incertidumbre de las anotaciones y establecer un límite superior para la precisión de predicción alcanzable con modelos ML.
  • Conjuntos predefinidos de entrenamiento, prueba y validación: DocLayNet proporciona conjuntos fijos para cada uno de ellos con el fin de garantizar una representación proporcional de las etiquetas de clase y evitar la filtración de estilos de diseño únicos entre conjuntos.

Detalles del registro DocLayNet

El conjunto de datos DocLayNet está disponible en Hugging Face bajo ds4sd/DocLayNet.

El conjunto de datos contiene cuatro tipos de recursos de datos: imágenes PNG de todas las páginas redimensionadas a un cuadrado de 1025 x 1025px, anotaciones del cuadro delimitador en formato COCO para cada imagen PNG, páginas PDF individuales correspondientes a cada imagen PNG y un archivo JSON correspondiente a cada página PDF que proporciona las celdas de texto digital con coordenadas y contenido.

Sin embargo, el conjunto de datos DocLayNet tiene limitaciones. Por ejemplo, las instrucciones de uso que se muestran no forman parte del conjunto de datos DocLayNet. Si desea ampliar el conjunto de datos, le ofrecemos los servicios y herramientas adecuados.

No dude en ponerse en contacto con nosotros a través del formulario de contacto.

Auer, C., Nassar, A., Lysak, M., Dolfi, M., Livathinos, N., & Staar, P. (2023). ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents. arXiv preprint arXiv:2305.14962.
Auer, C., Nassar, A., Lysak, M., Dolfi, M., Livathinos, N., & Staar, P. (2023). ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents. arXiv preprint arXiv:2305.14962.

Para más detalles sobre DocLayNet, incluida la estructura del conjunto de datos, el formato de los datos y las anotaciones COCO, consulte el readme oficial del proyecto.

Para más detalles técnicos y un análisis exhaustivo de DocLayNet, remitimos al artículo científico relacionado: "DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis" (KDD 2022). Este trabajo está disponible en el siguiente enlace de ArXiv: https://arxiv.org/abs/2206.01062.

DocLayNet es capaz de identificar diversos elementos, como bloques de texto, encabezados, imágenes, tablas y otros componentes visuales. También puede analizar las relaciones espaciales entre estos elementos y crear una representación estructurada de la disposición del documento.

Uso de DocLayNet en el análisis del diseño de documentos

En el contexto del análisis de la disposición de documentos, DocLayNet tiene un valor significativo. Permite entrenar algoritmos para que comprendan mejor la disposición de los documentos, lo que puede mejorar notablemente la eficacia y precisión de la extracción de datos y la recuperación de información.

Los conjuntos de datos con anotaciones humanas son un tesoro de información

Conjuntos de datos con anotaciones humanases decir, conjuntos de datos anotados por humanos, son un recurso valioso en muchas áreas del aprendizaje automático y la inteligencia artificial. Consisten en datos brutos que han sido revisados por humanos y a los que se ha dotado de información adicional o "anotaciones". Estas anotaciones pueden incluir información diversa, como categorías, etiquetas u otras descripciones que añaden contexto o significado a los datos. Los conjuntos de datos con anotaciones humanas suelen servir como datos de entrenamiento para algoritmos de aprendizaje automático cuyo objetivo es reconocer patrones en los datos y hacer predicciones.

Por qué los conjuntos de datos con anotaciones humanas son indispensables para el análisis del diseño de documentos

Los conjuntos de datos con anotaciones humanas desempeñan un papel crucial en el análisis del diseño de documentos. Permiten a los algoritmos de aprendizaje automático comprender la complejidad y diversidad de los diseños de documentos y aprender a identificar e interpretar los distintos elementos de un documento. Sin estos conjuntos de datos de entrenamiento anotados por humanos, sería difícil que los modelos de aprendizaje automático hicieran predicciones precisas y fiables.

Ejemplos prácticos de las ventajas de los conjuntos de datos con anotaciones humanas basados en datos FUNSD

Un buen ejemplo de la utilidad de los conjuntos de datos con anotaciones humanas en el análisis del diseño de documentos es el FUNSD (Comprensión de formas en documentos escaneados con ruido). Este conjunto de datos consta de documentos escaneados que han sido anotados por humanos para identificar diversos elementos como bloques de texto, encabezados, etiquetas y respuestas.

Al entrenarse con el conjunto de datos FUNSD, los modelos de aprendizaje automático pueden aprender a identificar estos elementos en documentos similares y a interpretar las relaciones entre ellos. En la práctica, esto puede utilizarse, por ejemplo, en la automatización del procesamiento de formularios, donde los modelos basados en el aprendizaje automático analizan los formularios escaneados, extraen la información importante y la ponen a disposición para su posterior procesamiento o análisis.

Conclusión

En este artículo se realiza un estudio exhaustivo del análisis de la maquetación de documentos. Se hizo hincapié en que la maquetación de un documento desempeña un papel esencial en la interpretación del texto. Se analizaron en detalle las herramientas de análisis Layout Parser y Layout Parser, destacando sus características específicas y sus posibles aplicaciones. Además, se presentaron las tecnologías avanzadas DocLayNet y DocNN, cuyas capacidades y áreas de aplicación son relevantes para el Análisis del Diseño de Documentos. Por último, se debatió el papel crucial de los conjuntos de datos anotados por humanos en el análisis del diseño de documentos, con especial atención al conjunto de datos FUNSD.

Nuevas tendencias y avances en el análisis del diseño de documentos

Hay tendencias y avances notables en el análisis del diseño de documentos que merece la pena destacar. El desarrollo continuo en el campo de la inteligencia artificial y el aprendizaje automático promete nuevas mejoras en el análisis de la disposición de los documentos. Cabe esperar avances significativos en los ámbitos del tratamiento automatizado de documentos, la minería de textos y la visualización de datos, en particular. Además, es previsible que siga aumentando el acceso a conjuntos de datos anotados por humanos, lo que favorecerá el desarrollo y la mejora de los modelos de análisis de la disposición de los documentos.

Observaciones finales e invitación al intercambio

Este artículo debería ofrecer una visión detallada del mundo del análisis del diseño de documentos. Se puede ver que estas tecnologías tienen el potencial de cambiar fundamentalmente la forma de procesar y analizar los documentos.

Le animamos a compartir sus ideas, preguntas o experiencias con estas tecnologías. Sus ideas son valiosas para avanzar en la comprensión y el desarrollo de estas tecnologías. Nos interesa un intercambio informativo y basado en hechos.

Estaremos encantados de adaptar las últimas investigaciones a su aplicación y podemos crear entornos listos para que aplique la inteligencia artificial a su empresa. Servidores o su nube para operar.

Más fuentes

Bakkali, S., Ming, Z., Coustaty, M., Rusiñol, M., & Terrades, O. R. (2022). VLCDoC: Vision-language contrastive pre-training model for cross-modal document classification. arXiv preprint arXiv:2205.12029.

Pfitzmann, B., Auer, C., Dolfi, M., Nassar, A. S., & Staar, P. (2022, agosto). Doclaynet: A large human-annotated dataset for document-layout segmentation. En Actas de la 28ª Conferencia ACM SIGKDD sobre Descubrimiento de Conocimientos y Minería de Datos (pp. 3743-3751).

Huang, Y., Lv, T., Cui, L., Lu, Y., & Wei, F. (2022, octubre). Layoutlmv3: Pre-training for document ai with unified text and image masking. En Actas de la 30ª Conferencia Internacional ACM sobre Multimedia (pp. 4083-4091).

Jaume, G., Ekenel, H. K., & Thiran, J. P. (2019, septiembre). Funsd: Un conjunto de datos para la comprensión de formas en documentos escaneados ruidosos. En 2019 International Conference on Document Analysis and Recognition Workshops (ICDARW) (Vol. 2, pp. 1-6).

Li, J., Xu, Y., Lv, T., Cui, L., Zhang, C., & Wei, F. (2022, octubre). Dit: Self-supervised pre-training for document image transformer. En Actas de la 30ª Conferencia Internacional ACM sobre Multimedia (pp. 3530-3539).

Shen, Z., Zhang, R., Dell, M., Lee, B. C. G., Carlson, J., & Li, W. (2021). Layout parser: A unified toolkit for deep learning based document image analysis. En Análisis y reconocimiento de documentos-ICDAR 2021: 16ª Conferencia Internacional, Lausana, Suiza, 5-10 de septiembre de 2021, Actas, Parte I 16 (pp. 131-146). Springer International Publishing.

Yu, Y., Li, Y., Zhang, C., Zhang, X., Guo, Z., Qin, X. & Wang, J. (2023). StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training. arXiv preprint arXiv:2303.00289.

"
"
Avatar de Mohamed Dhiab

Últimos artículos