Troncs d'arbres empilés

Extraction de données à partir de documents - How To II

Maximilien Schneider

Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.

Comment optimiser votre projet grâce à l'utilisation de templates

Une fois que vous avez cliqué sur premier guide ont pu apprendre les bases, nous pouvons maintenant aller un peu plus loin. 

Dans ce tutoriel, nous utilisons également notre ensemble de données de reçus. Mais cette fois-ci, nous nous intéressons aux prestations individuelles listées. Pour la première fois, nous allons utiliser des sections afin de les étiqueter de manière pertinente. Il est en effet important que nous apprenions à l'IA non seulement quelles entités appartiennent à quel label, mais aussi quelle est la relation entre les annotations. 

Lorsque nous lisons le prix d'un produit, cette information n'a de sens que si nous savons à quel produit ce prix correspond. Il en va de même pour la quantité et toutes les autres informations que nous voulons lire. En conséquence, toutes les annotations qui appartiennent à un produit et donc à un autre sont regroupées dans une section. 

Dans cet exemple, les sections correspondent aux produits au niveau du contenu et aux lignes au niveau du formatage. Les étiquettes correspondent aux propriétés des produits et aux colonnes au niveau du formatage. 

Ainsi, deux informations sont attribuées à toutes les entités pertinentes, la section et l'étiquette. Cela est illustré dans l'image par les marques de couleur.

sections-et-labels

Ce principe est nécessaire, entre autres, pour les listes et les tableaux. Nous vous montrons à l'aide de cet exemple comment les enseigner à l'IA.


Instructions pas à pas

  1. Créer un projet

    Nous utilisons le même projet que dans la première Instructions. Si vous souhaitez en créer un nouveau, vous pouvez y voir à nouveau comment créer un projet. 

  2. Création de nouveaux labels

    Cliquez sur HOME > Labels > +Add et ajoutez-y vos labels.
    Dans notre exemple, il s'agit de : "Quantité", "Désignation", "Prix unitaire", "Sous-total" et "Code TVA".

  3. Création d'un modèle

    Un modèle est un groupe de labels qui ont un rapport logique avec le sujet. Ils sont donc le modèle abstrait des sections. Cliquez sur HOME > Templates > +Add pour créer un nouveau modèle. Donnez un nom à votre modèle (Ici : "Prestations individuelles"). Sélectionnez le projet correspondant (Ici : "Reçus"). Activez la case à cocher "Has multiple Sections". Cliquez ensuite sur "Save and continue editing" pour passer à l'étape suivante. Ici, vous pouvez ajouter les labels que vous venez de créer au modèle à l'aide des touches fléchées. Cliquez sur "Save" pour enregistrer le modèle.

  4. Création de données d'entraînement

    Les sections sont des groupes d'informations connexes dans un document. Elles sont les manifestations concrètes des templates. Dans notre exemple, la première section contient toutes les informations du premier produit, c'est-à-dire la ligne supérieure ou la première prestation individuelle de la quittance.
    Pour étiqueter la première section, nous créons une annotation qui appartient à la première section. Après avoir cliqué sur la bonne entité, nous pouvons définir les propriétés de l'annotation dans la barre d'annotation sur le côté droit à l'aide de deux onglets. Dans l'onglet supérieur, on choisit le modèle qui correspond à la section et dans l'onglet inférieur, on choisit le label qui doit être attribué à l'entité.
    Nous sélectionnons en haut "Performance individuelle (New)" et en bas "Nombre". Nous étiquetons ensuite le reste de la section, la première section étant désormais affichée comme "Prestation unique". Nous répétons cette opération pour les sections suivantes. Celles-ci sont ensuite numérotées de haut en bas dans l'onglet. Pour créer une section supplémentaire, on choisit "Prestation unique (New)".

    Nous répétons ce processus pour tous les documents de formation. Créez vos données de formation en suivant notre exemple. En raison de la diversité du domaine d'application, des différences peuvent apparaître. Par exemple, les sections ne doivent pas toujours correspondre à des lignes.

  5. Vérifier les données de formation

    Vous pouvez vérifier si les labels sont corrects, car ils sont affichés au-dessus des annotations. Cependant, il est tout aussi important pour le succès de l'apprentissage de l'IA que vous vérifiiez si les labels sont attribués aux bonnes sections. Pour cela, vous pouvez faire ce qui suit : 
    Sélectionnez en haut à droite de la barre d'annotation, sous Filtre, dans l'onglet "Sections", la première section (ici : "Performance individuelle"). Il ne devrait plus y avoir que les labels de la première section. La plupart du temps, on peut déjà voir d'un coup d'œil si ceux-ci sont corrects (Ici : si tous les labels sont sur une même ligne). Si vous constatez une erreur, vous pouvez la corriger en cliquant sur "Edit" dans la barre d'annotation. (Conseil : vous devriez également utiliser cette méthode lorsque vous vérifiez les résultats de l'IA).

  6. Évaluer les résultats et donner un feedback

    Pour savoir comment diviser vos documents en un ensemble de données d'entraînement et de test et comment entraîner l'IA, consultez le premier guide. Vous y verrez également comment donner un feedback à l'IA.

  7. Exporter les résultats

    Pour savoir comment exporter vos données et les télécharger, consultez également le premier mode d'emploi


Vous avez encore des questions ? Nous travaillons constamment à l'amélioration de nos instructions afin que vous puissiez utiliser Konfuzio le plus rapidement et le plus facilement possible. N'hésitez pas à nous faire savoir si vous avez des questions, afin que nous puissions vous offrir la meilleure solution possible. Merci !

À propos de moi

Autres grands articles

Konfuzio Logo

PDFTron vs Konfuzio - L'ultime épreuve de force des outils

PDFtron (Apryse) et Konfuzio proposent tous deux des solutions logicielles de haute qualité pour le traitement numérique des documents. Quelle offre pour les besoins de votre...

Lire l'article
Différentes épices sur cuillère

Classification des documents avec l'IA pour votre gestion documentaire

Implémenter la gestion de documents en ligne Ce tutoriel porte sur la classification de documents avec l'IA. Il s'agit ici, contrairement à...

Lire l'article
Trou de branche dans un tronc d'arbre

Extraction de données à partir de documents - How To III

Des données d'entraînement cohérentes : Théorie et pratique Après avoir appris les bases dans le guide 1 et les sections dans le guide 2, vous devriez...

Lire l'article
Arrow-up