Différents outils documentaires avant l'ordinateur portable avec la main

Document Understanding : Techniques de compréhension des documents

Janina Horn

Le Document Understanding est un domaine qui englobe un ensemble de techniques et de technologies visant à extraire des informations de documents non structurés et à les convertir en données structurées. Bien que la vision par ordinateur et le traitement du langage naturel (NLP) soient des composantes importantes de la compréhension de documents, il s'agit d'un domaine à part entière, qui nécessite une combinaison des deux.

Vision par ordinateur se concentre sur les aspects visuels d'un document, tels que les images et la mise en page, et utilise des algorithmes pour extraire des informations de ces éléments. PNL en revanche, s'occupe des aspects linguistiques d'un document et utilise des techniques telles que la reconnaissance de texte et l'analyse de la voix pour traiter le contenu du texte.

Bien que la vision par ordinateur et la PNL puissent toutes deux être efficaces dans leurs domaines respectifs, elles ne peuvent pas, à elles seules, fournir une compréhension complète d'un document. Par exemple, un document peut contenir des images qui transmettent des informations importantes, alors que le contenu textuel peut être limité ou non pertinent. Dans de tels cas, une combinaison de la vision par ordinateur et de la PNL est indispensable pour obtenir une compréhension complète du document.

Document Understanding Définition

Compréhension des documents - Définition

Par Document Understanding, on entend le processus d'apprentissage permettant d'extraire et de convertir des informations significatives de documents non structurés ou semi-structurés en données structurées à des fins d'analyse et d'utilisation. Ce processus est soutenu par des technologies qui utilisent l'apprentissage automatique, la PNL et la vision par ordinateur ou encore l'OCR traditionnel pour automatiser l'extraction d'informations.

Aujourd'hui, divers fournisseurs proposent différents types d'IA. Il peut s'agir par exemple de la vision par ordinateur NLP (natural language understanding) ou de formes simples de machine learning. 

Une question se pose alors : pourquoi une IA documentaire, qui apporte une certaine compréhension des documents (Dokument Understanding), est-elle beaucoup plus difficile à mettre en œuvre que les simples Computer Vision ou NLPers, qui prennent en compte uniquement la composante visuelle ou sémantique des informations ?

La réponse simple est qu'une IA de compréhension de documents, c'est-à-dire une IA capable de comprendre des documents, doit travailler dans deux dimensions. Cette IA, souvent appelée IA hybride, combine des informations sémantiques et optiques pour comprendre, taper ou même traiter le contenu des documents comme les humains.

3 symboles différents en papier sur fond vert

Que se passerait-il si l'on prenait l'exemple d'une facture

Prenons une facture d'un fournisseur qui contient des informations sur les produits ou services achetés, le montant total dû et la date d'échéance du paiement. Dans ce scénario, tant la vision par ordinateur que l'IA NLP jouent un rôle important dans la compréhension des documents.

L'IA de vision artificielle permet de reconnaître et d'extraire des informations telles que le numéro de facture, la date, le nom et l'adresse du fournisseur. Elle peut également être utilisée pour traiter la présentation visuelle de la facture, par exemple pour identifier les tableaux et les colonnes et en extraire les données pertinentes.

La vision par ordinateur ne suffit pas à elle seule pour comprendre entièrement la facture. Elle ne peut pas, par exemple, extraire les produits ou services spécifiques qui ont été achetés ou les informations de prix associées à chaque article. C'est là que l'IA NLP entre en jeu.

L'IA NLP permet de déterminer et d'extraire des informations telles que les noms des produits ou services achetés, les quantités et les prix. Elle peut également être utilisée pour traiter la description et les spécifications de chaque article et extraire des informations pertinentes telles que l'unité de mesure, le taux de taxe et les éventuelles remises.

En résumé, une facture nécessite une combinaison de vision par ordinateur et d'IA NLP afin de permettre une compréhension globale du document. Alors que la vision par ordinateur AI est indispensable pour identifier et extraire les informations sur la mise en page visuelle, l'AI NLP est nécessaire pour traiter et extraire les informations détaillées dans le contenu du texte. Sans ces deux composants, les informations contenues dans la facture ne peuvent pas être entièrement comprises et utilisées.

Quels documents peuvent être lus ?

Il est important de savoir qu'il est plus facile pour l'IA de lire des documents structurés que des documents non structurés. Sur une carte d'identité, vous reconnaissez immédiatement l'information recherchée, alors que sur des conditions générales, vous devez d'abord la chercher.

Dans le meilleur des cas, la Document AI peut être entraînée et apprend en permanence où elle trouve quelles informations sur le type de document.

Il existe différentes approches pour la lecture de documents structurés, semi-structurés et non structurés :

  • Documents normalisés sont par exemple les cartes d'identité ou les cartes grises. On pourrait penser qu'une simple approche basée sur des règles suffirait. Cependant, les informations ne sont pas si facilement identifiables correctement. On pourrait supposer qu'elles se trouvent toujours au même endroit. Or, ce n'est pas le cas, notamment lorsque les documents ont été pliés auparavant ou photographiés à main levée avec un smartphone et qu'ils sont déformés ou tournés.
  • Documents semi-structurés contiennent certes les mêmes informations, mais celles-ci se trouvent toujours à des endroits différents du document. Les modèles d'IA acquièrent la capacité de trouver l'information recherchée à l'aide de mots-clés, par exemple "numéro de téléphone", qui se trouve n'importe où sur n'importe quelle page.
  • Documents non structurés contiennent des informations recherchées à n'importe quel endroit et sans mots-clés. C'est là que la capacité d'apprentissage de l'IA entre en jeu. Si vous apprenez à l'IA quels sont les termes et les informations pertinents, elle pourra les filtrer d'elle-même dès les prochains documents.

Outre les chiffres et les mots simples, Document AI peut également saisir des cases à cocher et des tableaux si elle est entraînée.

Comment fonctionne Document Understanding ?

Un robot de compréhension des documents est créé à l'aide de la RPA. Le flux de travail est mis en place dans un logiciel approprié et peut par exemple ressembler à ceci :

  1. Créer une taxonomie : La taxonomie désigne un modèle de classification. Dans le gestionnaire de taxonomie, vous devez d'abord définir un type de document et classifier les champs à lire (par ex. numéro de facture, montant et date de la facture). La particularité de la taxonomie est qu'elle est librement configurable chez Konfuzio et qu'elle peut donc être adaptée de manière particulièrement flexible à tous les types de documents et de langues.
  2. Numériser un document : A l'aide d'un Logiciel OCR permet de numériser le document préalablement défini et de le transformer en un texte lisible par le robot.
  3. Classifier : Grâce aux mots-clés, le robot attribue le document numérisé à une classe de documents définie dans le Taxonomy Manager.
  4. L'extraction : Une fois que l'IA a identifié de quel type de document il s'agit, les données sont extraites des différents champs. Des approches basées sur des règles ou des modèles sont utilisées à cet effet.
  5. La validation : Si nécessaire, les collaborateurs peuvent afficher les résultats de l'extraction dans la station de validation. Ils peuvent y contrôler les valeurs extraites et les corriger si nécessaire. Ce feedback par un être humain, souvent appelé human-in-the-loop, offre à l'IA la possibilité d'apprendre. 
  6. Exporter les données : Pour finir, les données sont exportées vers différents systèmes. Il peut s'agir par exemple de systèmes SAP, mais aussi de feuilles de calcul Excel.
Cas d'utilisation Konfuzio Compréhension du document

Document Understanding en pratique avec Konfuzio

Pouvoir utiliser le Document Understanding dans la pratique est un gamechanger. Vous découvrirez pourquoi et comment vous pouvez utiliser le Document Understanding à l'exemple du cas d'utilisation suivant.

Exemple : IA séparée pour le traitement des images et du texte des messages 

Pour illustrer tout cela par un exemple, commençons par la question simple :

Pourquoi une IA reconnaît-elle mieux un joueur de hockey sur glace qu'un bulletin de salaire ?

Articles de journaux sur le hockey sur glace

Comme on peut le voir sur l'image, une photo est représentée au-dessus d'un article d'actualité et cet article d'actualité affiche les informations relatives à une image et, séparément, l'image d'un joueur de hockey sur glace.

Utilisons la première dimension de ces informations de l'article et traitons le Texte avec un composant NLP. Ce composant NLP n'a pas été conçu spécifiquement pour le cas d'application, mais il peut déjà lire ce que l'on appelle des entités, c'est-à-dire des personnes, des lieux, des organisations ou encore des entreprises.

De plus, il est possible de composant optique Il peut par exemple découvrir qu'il est possible de trouver différentes segmentations d'une seule information. Il peut s'agir par exemple du plafond, du mur ou même de la personne, sans pouvoir tenir compte du contexte - à savoir qu'il s'agit d'un joueur de hockey sur glace dans un stade.

Les deux IA - vision par ordinateur et modèles d'entités nommées - ont leur raison d'être. Cependant, il n'est pas facile de les combiner pour pouvoir traiter des documents. 

C'est pourquoi le logiciel Konfuzio a été créé pour permettre à la fois la composante sémantique et la composante visuelle de traiter les informations dans le contexte commercial, c'est-à-dire au sein du document.

Comprendre les documents grâce à l'IA hybride pour les bulletins de paie

Bulletin de salaire KI Document Understanding
Les champs du modèle de bulletin de paie sont lus par l'IA

Si vous comparez le bulletin de paie à un simple article de journal, vous verrez immédiatement que le bulletin de paie peut tout de même représenter correctement, d'un point de vue sémantique, plusieurs niveaux d'informations dans un contexte en 2D.

Un exemple : 

La structure sous forme de tableau des rémunérations brutes du bulletin de paie permet de savoir si une rémunération brute correspond à un paiement unique ou si cette rémunération brute constitue une rémunération régulière du salarié. Cette information est justement tout à fait pertinente lors de l'élaboration de la situation des revenus d'un emprunteur potentiel.

C'est pourquoi l'extraction d'informations basée sur des règles ne suffit pas

Pour lire ces informations, les fournisseurs qui ne proposent que des solutions OCR, NLP ou IDP présentent toujours l'inconvénient de travailler sur la base de règles et d'afficher ainsi des informations erronées, par exemple en cas de numérisation mal orientée ou de documents numérisés de travers. 

La plupart du temps, les données n'existent pas sous une des formes appropriées et il n'y a pas d'ordre dans les données. Elles sont présentes sous une forme non structurée. 

Il n'existe pas de technique ou de procédure spécifique pour extraire des données de PDF non structurés, car les données sont stockées de manière aléatoire et cela dépend du type de données que vous souhaitez extraire des PDF.

Les outils basés sur des règles fonctionnent en localisant les points de données cibles dans le document. En fonction de ce contexte, le document est ensuite parcouru à la recherche des valeurs finalement importantes.

L'inconvénient Dès qu'il y a une légère modification du format, cette approche ne fonctionne plus. Si vous êtes une entreprise qui travaille avec 60 prestataires de services différents dans 10 pays différents, vous pouvez vous attendre à ce que votre outil basé sur des règles atteigne rapidement ses limites.

Bien sûr, on pourrait faire remarquer que grâce à des données d'entraînement complètes, les modèles d'apprentissage automatique, les modèles de vision par ordinateur ou les modèles NLP peuvent être entraînés de manière à répondre à ces caractéristiques particulières d'un document. 

La difficulté réside toutefois dans le fait que le nombre de documents de formation est généralement très limité dans le contexte professionnel et qu'il n'est donc pas possible de mettre à disposition des milliers de documents de formation pour entraîner une telle IA documentaire.

Comme vous pouvez le constater, l'extraction d'informations à partir de documents basée uniquement sur des règles et des mises en page offre une première approche et est également justifiée par différents fournisseurs sur le marché. L'extraction d'informations basée uniquement sur l'IA est souvent limitée par le nombre de documents d'entraînement qui, s'ils sont trop peu nombreux, ne permettent même pas l'extraction basée sur l'IA, sauf à un niveau de précision très faible.

Konfuzio 3 Symboles Compréhension du document

Mind your neighbours : Document Understanding de Konfuzio

L'approche de Konfuzio fonctionne d'une manière différente : les informations sont tirées à la fois de la sémantique du document (par exemple, la formulation, la langue, la forme ou les mots d'ancrage) et ces informations sont liées au positionnement du texte sur une page, par exemple, le mot est dans un tableau ou dans un texte courant. 

D'où le titre "Mind your neighbors" - à l'aide des informations environnantes, des "voisins", l'IA peut reconnaître et attribuer des contenus de manière fiable à l'aide d'informations unidimensionnelles et 2D.

Pour en savoir plus sur la manière dont fonctionne la combinaison des modèles qui pensent de manière unidimensionnelle et se basent sur le texte courant avec les informations 2D du texte, voir le terme Segmentation

Vous avez ainsi la possibilité de prendre en compte une information textuelle non seulement dans son contexte sémantique, comme le ferait l'extraction d'un modèle NER, mais aussi d'inclure en plus des informations présentes dans un document grâce à l'orientation et au positionnement du texte.

Par exemple, le numéro de la maison ou la rue pourraient figurer sous le nom de l'employé, en nombre statistiquement fréquent.

L'IA combine les recherches les plus récentes en matière de NER et de vision par ordinateur, créant ainsi une compréhension globale des documents, car les composants optiques typiques peuvent être mis en œuvre et appris au sein de l'IA sans une extraction fixe basée sur layout. En même temps, l'IA tient compte du contexte sémantique, qui devient accessible par une représentation unidimensionnelle des informations. Cette IA est également appelée Document AI est appelé

Plus d'informations sur le Document Understanding de Konfuzio se trouvent sur le site web.

Quels sont les avantages de Document Understanding ?

Document Understanding apporte une énorme valeur ajoutée, surtout là où de grandes quantités de documents sont traitées. 

L'utilisation de Document Understanding dans l'entreprise présente les avantages suivants :

  • Traitement automatisé de gros volumes de documents
  • Réduction du taux d'erreur
  • Gain de temps et d'argent
  • Suppression des tâches répétitives pour les employés
  • Augmentation de la productivité des collaborateurs
  • Augmentation de la satisfaction des collaborateurs

Conclusion : Document Understanding doit être utilisé à bon escient

Si vous voulez profiter des avantages d'une IA qui maîtrise le Document Understanding, vous devez trouver le logiciel adéquat. En effet, tous les logiciels OCR ou IDP ne sont pas adaptés à cet effet.

Si vous avez régulièrement affaire à des documents exigeants tels que des bulletins de paie ou des tableaux compliqués, un logiciel adapté, qui facilite la compréhension des documents de manière intelligente, est l'investissement qui rendra votre entreprise plus efficace.

Si vous devez consacrer un peu de temps à la formation de l'IA au début, vous pourrez profiter de son travail dès qu'elle sera prête et lui faire lire vos documents compliqués rapidement, facilement et correctement. 

Vous avez ainsi automatisé intelligemment un processus chronophage et sujet aux erreurs, et vous pouvez consacrer le temps gagné à d'autres tâches.

Pour en savoir plus sur le sujet, cliquez ici :

Utilisez-vous déjà Document Understanding dans votre entreprise ? N'hésitez pas à me donner votre avis sur le sujet ou à me poser d'autres questions dans les commentaires !

À propos de nous

Autres grands articles

Modèles commerciaux basés sur les données - Opportunités et mise en œuvre réussie

Les données : le "nouveau pétrole" de l'ère numérique. Cette métaphore, malgré ses faiblesses, met en évidence le potentiel de création de valeur qu'offrent les données. Elles...

Lire l'article

Travail agile - aborder Scrum, Kanban et autres de manière plus efficace avec l'IA

Pour répondre aux exigences du marché et aux attentes des clients en constante évolution, les entreprises doivent constamment réévaluer leurs processus et leurs produits. Une...

Lire l'article

Prompts pour l'IA - Définition et exemples pour ChatGPT & Midjourney

Les modèles d'IA comme ChatGPT et Midjourney ont changé de manière décisive la génération d'idées et de contenu. Certes, des modèles d'IA existaient déjà auparavant,...

Lire l'article
Arrow-up