Instructions 1

Extraction de données à partir de documents - How To I

Maximilien Schneider

Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.

Comment démarrer votre projet avec Konfuzio

Pour connaître les bases de la Plateforme Konfuzio nous vous recommandons ce tutoriel, dans lequel vous apprendrez à entraîner votre propre IA en quelques minutes, avec seulement 5 documents. Pour ce faire, vous pouvez regarder la vidéo suivante ou suivre les instructions pas à pas ci-dessous. Vidéo regarder sur YouTube.


 


Documents IA - Guide pas à pas

 

  1. Créer un nouveau projet

    Cliquez sur HOME > Projects > Ajouter un projet + pour créer un nouveau projet. Donnez un nom à votre projet. Dans notre exemple, il s'appelle "Reçus". Enregistrez le projet en cliquant sur "Save". Vous pouvez ajouter des utilisateurs supplémentaires à votre projet en passant par HOME > Project Invitations > "Invitations". Ajouter + inviter.

  2. Création d'un label

    Cliquez sur HOME > Labels > Ajouter une étiquette + pour créer un label. Donnez un nom à votre label. Dans notre exemple, il s'appelle "Montant brut". Ajoutez-le à votre projet via l'onglet (ici : "Quittances") et cliquez sur "Save". 

    Cliquer sur HOME >. Modèles pour accéder aux templates. Cliquez sur le modèle qui porte le nom de votre projet (ici : "Quittances"). Ajoutez le label créé au modèle en le faisant passer de "available Labels" à "chosen Labels" à l'aide des boutons fléchés. Enregistrez en cliquant sur "Save". Vous apprendrez dans le prochain tutoriel comment utiliser les templates pour extraire des documents complexes.

  3. Téléchargement des documents

    Cliquez sur DOCUMENTS. Par glisser-déposer ou via la fenêtre du navigateur, vous pouvez télécharger ici vos fichiers locaux. Cliquez sur le bouton Reload pour recharger la page après le téléchargement. Le processus d'OCR commence alors. Selon la taille du fichier, cela peut prendre un moment. Nous téléchargeons maintenant 9 reçus (5 documents de formation et 4 documents de test).

  4. Étiquetage

    Dès que le processus d'OCR est terminé, vous pouvez accéder à votre document via "Smartview". L'OCR aura classé les informations de votre document en entités. Les "entités" sont des mots ou des informations individuels encadrés par des lignes en pointillés. Lorsque vous cliquez dessus, leur arrière-plan se colore en vert. Les "annotations" sont des informations pertinentes dans un document qui doivent être consultées ou utilisées. Ce sont des entités auxquelles une étiquette a été attribuée, soit manuellement par un humain, soit automatiquement par l'IA. Utilisez notre lasso si vous souhaitez attribuer plusieurs entités à un label. Pour ce faire, maintenez le curseur de la souris enfoncé et faites glisser le lasso rouge qui apparaît sur les entités que vous souhaitez marquer.
    Cliquez sur une entité que vous souhaitez marquer (ici, par exemple, "48,60"). Sur le côté droit, dans la barre d'annotation, vous voyez que le contenu de l'entité est lu par OCR. Cliquez sur "Save" pour attribuer à l'entité le label créé (ici : "Montant brut") et le transformer ainsi en une annotation.

    Dans un projet plus compliqué, il faudrait maintenant choisir de quel type de modèle il s'agit et dans quelle section du document il se trouve. C'est à cela que sert l'onglet supérieur. Cependant, ce tutoriel ne traite que des bases, c'est pourquoi vous n'avez ici qu'un seul label à choisir.

    Répétez l'étape 4 pour tous les documents téléchargés. Utilisez les flèches pour passer d'un document à l'autre.

  5. Répartition entre données de formation et données de test

    Une fois que tous les documents ont été étiquetés, on peut maintenant les diviser en données de formation et données de test. 

    L'ensemble de données de formation contient des documents étiquetés manuellement, sur la base desquels l'IA apprend à étiqueter elle-même les documents. L'ensemble de données de test contient également des documents étiquetés manuellement. Dans ce cas, l'IA tente de les étiqueter sur la base des connaissances apprises à l'aide de l'ensemble de données de formation. Par la suite, les étiquettes créées par l'IA sont utilisées. Annotations avec ceux créés par des humains et analysés statistiquement. 

    Dans la vue des documents, vous pouvez maintenant cocher la case à gauche des noms de fichiers pour sélectionner les documents. Dans notre exemple, nous sélectionnons 5 documents et choisissons l'action "Add to training data set" en bas de l'onglet Action et cliquons sur "Go". Ensuite, nous sélectionnons les 4 autres documents et répétons l'étape mais avec l'action "Add to test data set". 

  6. Commencer le réentraînement et évaluer les résultats

    Cliquez sur HOME > "Aperçu". Projets. Cherchez votre projet et marquez-le d'une coche. Dans l'onglet Action, sélectionnez "Retrain AI model" et cliquez sur Go. Une bannière avec la mention "AI model re-training was started. This may take up to 24 hours." apparaît. Dans un petit projet comme le présent projet d'exemple, il devrait être entraîné au bout de quelques minutes seulement. 

    Pour vérifier si le modèle d'IA nouvellement entraîné est prêt, cliquez sur HOME > Modèles AI. Les résultats de l'évaluation quantitative sur la base des données du test y sont répertoriés.

  7. Donner un feedback

    Téléchargez un nouveau document comme décrit à l'étape 3. Cliquez sur "Smartview" après qu'il ait passé le processus d'OCR. Ici, vous pouvez réviser les annotations produites par l'IA. Confirmez les propositions correctes en cliquant sur la coche verte et rejetez les incorrectes en les supprimant avec le "X" rouge. Ajoutez également les annotations manquantes. 

    Vous pouvez maintenant ajouter ce document à l'ensemble de données de formation comme à l'étape 5 afin de l'augmenter et d'améliorer ainsi le modèle d'IA ou vous pouvez exporter les informations. Si vous n'obtenez aucun résultat ou de très mauvais résultats, vérifiez que vous avez tout fait correctement aux étapes 4 à 6 ou augmentez le nombre de vos documents de formation.

  8. Exportez vos résultats

    Sélectionnez par une coche les documents dont vous souhaitez télécharger les données. Si vous sélectionnez ici plusieurs documents, ils seront regroupés dans un fichier CSV. Dans l'onglet Action, sélectionnez l'action "get human revised data as a csv file" et cliquez sur "go". Le téléchargement du fichier CSV devrait démarrer automatiquement. Vous pouvez utiliser les fichiers CSV avec des tableurs tels que Microsoft Excel, Google Sheets, etc.


Vous avez encore des questions ? Nous travaillons constamment à l'amélioration de nos instructions afin que vous puissiez utiliser Konfuzio le plus rapidement et le plus facilement possible. N'hésitez pas à nous faire savoir si vous avez des questions, afin que nous puissions vous offrir la meilleure solution possible. Merci !

Photo de Brandon Montrone de Pexels

À propos de moi

Autres grands articles

Trou de branche dans un tronc d'arbre

Extraction de données à partir de documents - How To III

Des données d'entraînement cohérentes : Théorie et pratique Après avoir appris les bases dans le guide 1 et les sections dans le guide 2, vous devriez...

Lire l'article
Troncs d'arbres empilés

Extraction de données à partir de documents - How To II

Comment optimiser votre projet grâce à l'utilisation de templates Après avoir appris les bases dans le premier guide,...

Lire l'article
Différentes épices sur cuillère

Classification des documents avec l'IA pour votre gestion documentaire

Implémenter la gestion de documents en ligne Ce tutoriel porte sur la classification de documents avec l'IA. Il s'agit ici, contrairement à...

Lire l'article

    Arrow-up

    Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.

    Navigation