Donut Deep Dive - Comprensión de documentos

Donut, introducido por Kim et al. (2021) en su artículo "OCR-free Document Understanding Transformer (Donut)", es un enfoque único para el procesamiento de imágenes de documentos que no depende del reconocimiento óptico de caracteres (OCR). El modelo está diseñado para funcionar eficientemente en diferentes idiomas y es computacionalmente más barato que los métodos tradicionales basados en OCR.

En este artículo profundizaremos en la arquitectura de Donut, sus componentes y su rendimiento en aplicaciones reales.

Documento Comprender el transformador
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., Yim, J., ... & Park, S. (2022, octubre). Transformador de comprensión de documentos sin Ocr. En Computer Vision-ECCV 2022: 17th European Conference, Tel Aviv, Israel, 23-27 de octubre de 2022, Actas, Parte XXVIII (pp. 498-517). Cham: Springer Nature Suiza. (Página 2)

En el documento DONUT, los investigadores presentan un método para entrenar un modelo combinado de visión y habla (modelo autónomo E2E), que es un tipo de IA que puede entrenar a personas similares a los humanos. Documentos con ruido visual comprender y generar datos estructurados. Utilizan una estrategia de formación denominada forzamiento del profesor, que consiste en dar a la IA las respuestas correctas a medida que aprende, en lugar de dejarla adivinar basándose en sus intentos anteriores.

Cuando la IA se pone a prueba, recibe una indicación, que es un breve fragmento de texto que ayuda a la IA a decidir qué debe generar. Los investigadores han añadido fichas especiales (parecidas a marcadores) para las distintas tareas, con el fin de que la IA entienda mejor lo que tiene que hacer.

Para ilustrar el proceso, imagine que está enseñando a un niño a escribir un cuento. Forzar al profesor sería como darle un esquema o una lista de puntos clave que debe incluir en la historia, mientras que el estímulo es una frase o una idea que hace fluir su creatividad.

Después de que la IA genere una respuesta, los investigadores convierten el resultado en un formato estructurado llamado JSONque es un método habitual de representación y organización de datos. Utilizan fichas especiales (parecidas a marcadores) para indicar el principio y el final de cada dato. Si el resultado de la IA no está estructurado correctamente, se considera que esa información se ha perdido.

Salida estructurada de documentos escaneados ruidosos
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., Yim, J., ... & Park, S. (2022, octubre). Transformador de comprensión de documentos sin Ocr. En Computer Vision-ECCV 2022: 17th European Conference, Tel Aviv, Israel, 23-27 de octubre de 2022, Actas, Parte XXVIII (pp. 498-517). Cham: Springer Nature Suiza. (Página 2)

En general, el documento DONUT describe un método para entrenar y probar un modelo lingüístico con forzamiento por parte del profesor, instrucciones y un formato de salida estructurado para facilitar a la IA la comprensión del lenguaje humano. Documentos con ruido visual comprender y generar.

El equipo Konfuzio ha estado trabajando en el modelo Donut Document Understanding de Kim et al. 2021, ya que es un método prometedor para el procesamiento automático de documentos. El modelo utiliza un método novedoso de representación de datos que permite captar de forma más precisa y eficaz las relaciones entre los distintos elementos de un documento. Además, el modelo muestra resultados prometedores en términos de clasificación y extracción de información de los documentos, lo que lo convierte en un enfoque prometedor para el desarrollo de soluciones de procesamiento automático de documentos.

Arquitectura y componentes

Los principales componentes de la arquitectura donut son el codificador, que se encarga de procesar los datos visuales, y el descodificador, que procesa los datos de texto. El modelo funciona en dos etapas principales:

CodificaciónEn esta fase, el codificador procesa la imagen de entrada y la convierte en incrustaciones. Las incrustaciones son valores numéricos que representan datos visuales, textuales o de otro tipo. Este proceso permite al modelo convertir la información visual del documento en un formato legible por la máquina.

DescodificaciónEl descodificador toma las incrustaciones generadas por el codificador y genera texto de forma autorregresiva a partir de los resultados del codificador. En el proceso autorregresivo, el descodificador utiliza las palabras generadas anteriormente como contexto para generar la palabra siguiente. Con este enfoque, el modelo puede generar una representación textual de la imagen de entrada sin recurrir al OCR.

Prestaciones y limitaciones

Donut 🍩 demostración para la tarea `cord-v2`.
Cord v2 donut model document understanding json output

A pesar de su enfoque innovador, el rendimiento de Donut no fue especialmente convincente en determinadas aplicaciones. En las pruebas realizadas con dos instancias del modelo (la instancia por defecto y una versión perfeccionada con el conjunto de datos de recibos CORD), el éxito se midió en función de la precisión con la que se extraían las anotaciones de la verdad sobre el terreno. Por desgracia, la precisión global de las categorías probadas nunca superó los 10 %.

Algunas de las limitaciones y desventajas identificadas en estas pruebas son:

Capacidades independientes del idioma insuficientes: Aunque Donut se diseñó para trabajar en distintos idiomas, su rendimiento no fue óptimo al procesar datos en alemán e inglés. En algunos casos, el texto generado contenía incluso caracteres chinos no relacionados.

Baja velocidad de procesamiento: incluso cuando se ejecutaba en una GPU, la velocidad de procesamiento del modelo era relativamente lenta, lo que podía afectar a su viabilidad en escenarios del mundo real.

Orientaciones futuras y mejoras

Dadas estas limitaciones, los investigadores estudian actualmente la posibilidad de ajustar el modelo donut a conjuntos de datos específicos para mejorar su rendimiento. El objetivo es desarrollar una versión del modelo más eficiente e independiente del idioma que pueda comprender y procesar mejor distintas imágenes de documentos.

El ajuste consiste en modificar los parámetros del modelo para que se adapte mejor al conjunto de datos de destino, lo que da lugar a un modelo más especializado y adaptado a la tarea en cuestión. Al ajustar Donut a los datos deseados, los investigadores esperan conseguir una mayor precisión en la extracción y un mejor rendimiento general.

Resumen

En resumen, Donut representa un nuevo enfoque del tratamiento de imágenes de documentos, pues ya no depende del OCR. Aunque el rendimiento actual en algunas aplicaciones no ha sido satisfactorio, el potencial de mejora a través de la puesta a punto y de nuevas investigaciones es prometedor. A medida que la tecnología evolucione y se adapte, Donut podría convertirse en una valiosa herramienta para el tratamiento de imágenes de documentos independiente del idioma y eficiente desde el punto de vista computacional.

"
"
Avatar de Elizaveta Ezhergina

Últimos artículos