donut document compréhension

Donut Deep Dive - Document Understanding

Elizaveta Ezhergina

Donut, présenté par Kim et al. (2021) dans leur document "OCR-free Document Understanding Transformer (Donut)", est une approche unique du traitement des images de documents qui ne s'appuie pas sur la reconnaissance optique de caractères (ROC). Le modèle est conçu pour fonctionner efficacement dans différentes langues et est moins coûteux en termes de calcul que les méthodes traditionnelles basées sur l'OCR.

Dans cet article, nous allons donner un aperçu plus approfondi de l'architecture de Donut, de ses composants et de ses performances dans des applications réelles.

Document Understanding Transformer
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., Yim, J., ... & Park, S. (2022, Octobre). Transformateur de compréhension de document sans Ocr. Dans Computer Vision-ECCV 2022 : 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXVIII (pp. 498-517). Cham : Springer Nature Switzerland. (Page 2)

Dans le document DONUT, les chercheurs présentent une méthode d'entraînement d'un modèle combiné de vision et de parole (self contained E2E model), qui est un type d'IA qui ressemble à l'humain. Documents visuels bruyants comprendre et générer des données structurées. Ils utilisent une stratégie de formation appelée Teacher-Forcing, ce qui signifie qu'ils donnent à l'IA les bonnes réponses pendant l'apprentissage, au lieu de la laisser deviner sur la base de ses essais précédents.

Lorsque l'IA est effectivement testée, elle reçoit une invite qui est un court morceau de texte qui aide l'IA à décider ce qu'elle doit générer. Les chercheurs ont ajouté des jetons spéciaux (similaires à des marqueurs) pour différentes tâches afin de permettre à l'IA de comprendre plus facilement ce qu'elle doit faire.

Pour illustrer le processus, imaginez que vous apprenez à un enfant à écrire une histoire. Teacher-Forcing serait comme si vous leur donniez un plan ou une liste de points clés à inclure dans l'histoire, tandis que le prompteur est une phrase ou une idée qui fait couler leur jus créatif.

Une fois que l'IA a généré une réponse, les chercheurs convertissent la sortie dans un format structuré appelé JSONqui est une méthode courante de représentation et d'organisation des données. Ils utilisent des jetons spéciaux (similaires à des marqueurs) pour indiquer le début et la fin de chaque élément d'information dans la sortie. Si la sortie de l'IA n'est pas correctement structurée, ils considèrent ce morceau d'information particulier comme perdu.

Sortie structurée de documents numérisés bruyants
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., Yim, J., ... & Park, S. (2022, Octobre). Transformateur de compréhension de document sans Ocr. Dans Computer Vision-ECCV 2022 : 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXVIII (pp. 498-517). Cham : Springer Nature Switzerland. (Page 2)

Dans l'ensemble, le document DONUT décrit une méthode d'apprentissage et de test d'un modèle de langage avec forçage par l'enseignant, messages-guides et format de sortie structuré, afin de faciliter l'apprentissage par l'IA de langues similaires à celles de l'homme. Documents visuels bruyants de comprendre et de générer

L'équipe Konfuzio s'est intéressée au modèle Donut Document Understanding de Kim et al. 2021, car il s'agit d'une méthode prometteuse pour le traitement automatique des documents. Le modèle utilise une nouvelle méthode de représentation des données qui permet d'appréhender les relations entre les différents éléments d'un document de manière plus précise et plus efficace. En outre, le modèle présente des résultats prometteurs en termes de classification et d'extraction d'informations à partir de documents, ce qui en fait une approche prometteuse pour le développement de solutions de traitement automatisé de documents.

Architecture et composants

Les principaux composants de l'architecture Donut sont l'encodeur, qui est chargé de traiter les données visuelles, et le décodeur, qui traite les données textuelles. Le modèle fonctionne en deux étapes principales :

EncodageAu cours de cette phase, l'encodeur traite l'image d'entrée et la convertit en données intégrées. Les encarts sont des valeurs numériques qui représentent des données visuelles, textuelles ou d'autres types de données. Ce processus permet au modèle de convertir les informations visuelles du document en un format lisible par une machine.

Décodage: Le décodeur prend les enchâssements générés par l'encodeur et génère du texte de manière autorégressive sur la base de la sortie de l'encodeur. Dans le processus autorégressif, le décodeur utilise les mots précédemment générés comme contexte pour générer le mot suivant. Cette approche permet au modèle de générer une représentation textuelle de l'image d'entrée sans avoir recours à l'OCR.

Performance et restrictions

Donut 🍩 démonstration pour `cord-v2` tâche
Cord v2 donut model document understanding json output

Malgré son approche innovante, les performances de Donut n'ont pas été particulièrement convaincantes dans certaines applications. Lors de tests effectués avec deux instances du modèle (l'instance standard et une version finement ajustée avec l'ensemble de données de quittance CORD), le succès a été mesuré en fonction de la précision avec laquelle les annotations Ground Truth ont été extraites. Malheureusement, la précision globale pour les catégories testées n'a jamais dépassé 10 %.

Voici quelques-unes des limites et des inconvénients constatés lors de ces tests :

Capacités indépendantes de la langue insuffisantes : Bien que Donut ait été conçu pour être utilisé dans différentes langues, ses performances n'étaient pas optimales lorsqu'il s'agissait de traiter des données en allemand et en anglais. Dans certains cas, le texte généré contenait même des caractères chinois non contigus.

Faible vitesse de traitement : même lorsqu'il était exécuté sur un GPU, la vitesse de traitement du modèle était relativement lente, ce qui pourrait nuire à son applicabilité pratique dans des scénarios réels.

Orientations et améliorations futures

Compte tenu de ces limites, les chercheurs étudient actuellement la possibilité d'affiner le modèle Donut pour certains ensembles de données afin d'améliorer ses performances. L'objectif est de développer une version du modèle plus indépendante de la langue et plus efficace, capable de mieux comprendre et de traiter différentes images de documents.

Le réglage fin consiste à ajuster les paramètres du modèle pour qu'ils correspondent mieux à l'ensemble de données cible, ce qui permet d'obtenir un modèle plus spécifique, adapté à la tâche à accomplir. En affinant Donut en fonction des données souhaitées, les chercheurs espèrent obtenir une meilleure précision d'extraction et une meilleure performance globale.

Résumé

En résumé, Donut représente une nouvelle approche du traitement des images de documents, car il ne dépend plus de l'OCR. Bien que les performances actuelles n'aient pas été satisfaisantes dans certaines applications, le potentiel d'amélioration par un réglage fin et des recherches supplémentaires est prometteur. Au fur et à mesure que la technologie évolue et s'adapte, Donut pourrait devenir un outil précieux pour le traitement des images de documents, indépendamment de la langue et de manière efficace sur le plan informatique.

À propos de moi

Autres grands articles

3 alternatives Docker Desktop pour 2023

Même si la technologie des conteneurs existe depuis longtemps, ce n'est que depuis le lancement de Docker en 2013 qu'elle est...

Lire l'article

6 outils ETL gratuits et open source pour les entreprises

Clients, collaborateurs, produits et systèmes internes - les entreprises collectent aujourd'hui d'énormes quantités de données dans tous leurs processus commerciaux. Pour en tirer une valeur...

Lire l'article

L'IA et l'homme : une coopération gagnante

Les progrès de l'intelligence artificielle continuent de progresser rapidement et placent notre société face à de profonds changements structurels. Ainsi, il est...

Lire l'article
Arrow-up