Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.
Comment démarrer votre projet avec Konfuzio
Pour connaître les bases de la Plateforme Konfuzio nous vous recommandons ce tutoriel, dans lequel vous apprendrez à entraîner votre propre IA en quelques minutes, avec seulement 5 documents. Pour ce faire, vous pouvez regarder la vidéo suivante ou suivre les instructions pas à pas ci-dessous. Vidéo regarder sur YouTube.
Documents IA - Guide pas à pas
- Créer un nouveau projet
Cliquez sur HOME > Projects > Ajouter un projet + pour créer un nouveau projet. Donnez un nom à votre projet. Dans notre exemple, il s'appelle "Reçus". Enregistrez le projet en cliquant sur "Save". Vous pouvez ajouter des utilisateurs supplémentaires à votre projet en passant par HOME > Project Invitations > "Invitations". Ajouter + inviter.
- Création d'un label
Cliquez sur HOME > Labels > Ajouter une étiquette + pour créer un label. Donnez un nom à votre label. Dans notre exemple, il s'appelle "Montant brut". Ajoutez-le à votre projet via l'onglet (ici : "Quittances") et cliquez sur "Save".
Cliquer sur HOME >. Modèles pour accéder aux templates. Cliquez sur le modèle qui porte le nom de votre projet (ici : "Quittances"). Ajoutez le label créé au modèle en le faisant passer de "available Labels" à "chosen Labels" à l'aide des boutons fléchés. Enregistrez en cliquant sur "Save". Vous apprendrez dans le prochain tutoriel comment utiliser les templates pour extraire des documents complexes. - Téléchargement des documents
Cliquez sur DOCUMENTS. Par glisser-déposer ou via la fenêtre du navigateur, vous pouvez télécharger ici vos fichiers locaux. Cliquez sur le bouton Reload pour recharger la page après le téléchargement. Le processus d'OCR commence alors. Selon la taille du fichier, cela peut prendre un moment. Nous téléchargeons maintenant 9 reçus (5 documents de formation et 4 documents de test).
- Étiquetage
Dès que le processus d'OCR est terminé, vous pouvez accéder à votre document via "Smartview". L'OCR aura classé les informations de votre document en entités. Les "entités" sont des mots ou des informations individuels encadrés par des lignes en pointillés. Lorsque vous cliquez dessus, leur arrière-plan se colore en vert. Les "annotations" sont des informations pertinentes dans un document qui doivent être consultées ou utilisées. Ce sont des entités auxquelles une étiquette a été attribuée, soit manuellement par un humain, soit automatiquement par l'IA. Utilisez notre lasso si vous souhaitez attribuer plusieurs entités à un label. Pour ce faire, maintenez le curseur de la souris enfoncé et faites glisser le lasso rouge qui apparaît sur les entités que vous souhaitez marquer.
Cliquez sur une entité que vous souhaitez marquer (ici, par exemple, "48,60"). Sur le côté droit, dans la barre d'annotation, vous voyez que le contenu de l'entité est lu par OCR. Cliquez sur "Save" pour attribuer à l'entité le label créé (ici : "Montant brut") et le transformer ainsi en une annotation.
Dans un projet plus compliqué, il faudrait maintenant choisir de quel type de modèle il s'agit et dans quelle section du document il se trouve. C'est à cela que sert l'onglet supérieur. Cependant, ce tutoriel ne traite que des bases, c'est pourquoi vous n'avez ici qu'un seul label à choisir.
Répétez l'étape 4 pour tous les documents téléchargés. Utilisez les flèches pour passer d'un document à l'autre. - Répartition entre données de formation et données de test
Une fois que tous les documents ont été étiquetés, on peut maintenant les diviser en données de formation et données de test.
L'ensemble de données de formation contient des documents étiquetés manuellement, sur la base desquels l'IA apprend à étiqueter elle-même les documents. L'ensemble de données de test contient également des documents étiquetés manuellement. Dans ce cas, l'IA tente de les étiqueter sur la base des connaissances apprises à l'aide de l'ensemble de données de formation. Par la suite, les étiquettes créées par l'IA sont utilisées. Annotations avec ceux créés par des humains et analysés statistiquement.
Dans la vue des documents, vous pouvez maintenant cocher la case à gauche des noms de fichiers pour sélectionner les documents. Dans notre exemple, nous sélectionnons 5 documents et choisissons l'action "Add to training data set" en bas de l'onglet Action et cliquons sur "Go". Ensuite, nous sélectionnons les 4 autres documents et répétons l'étape mais avec l'action "Add to test data set". - Commencer le réentraînement et évaluer les résultats
Cliquez sur HOME > "Aperçu". Projets. Cherchez votre projet et marquez-le d'une coche. Dans l'onglet Action, sélectionnez "Retrain AI model" et cliquez sur Go. Une bannière avec la mention "AI model re-training was started. This may take up to 24 hours." apparaît. Dans un petit projet comme le présent projet d'exemple, il devrait être entraîné au bout de quelques minutes seulement.
Pour vérifier si le modèle d'IA nouvellement entraîné est prêt, cliquez sur HOME > Modèles AI. Les résultats de l'évaluation quantitative sur la base des données du test y sont répertoriés. - Donner un feedback
Téléchargez un nouveau document comme décrit à l'étape 3. Cliquez sur "Smartview" après qu'il ait passé le processus d'OCR. Ici, vous pouvez réviser les annotations produites par l'IA. Confirmez les propositions correctes en cliquant sur la coche verte et rejetez les incorrectes en les supprimant avec le "X" rouge. Ajoutez également les annotations manquantes.
Vous pouvez maintenant ajouter ce document à l'ensemble de données de formation comme à l'étape 5 afin de l'augmenter et d'améliorer ainsi le modèle d'IA ou vous pouvez exporter les informations. Si vous n'obtenez aucun résultat ou de très mauvais résultats, vérifiez que vous avez tout fait correctement aux étapes 4 à 6 ou augmentez le nombre de vos documents de formation. - Exportez vos résultats
Sélectionnez par une coche les documents dont vous souhaitez télécharger les données. Si vous sélectionnez ici plusieurs documents, ils seront regroupés dans un fichier CSV. Dans l'onglet Action, sélectionnez l'action "get human revised data as a csv file" et cliquez sur "go". Le téléchargement du fichier CSV devrait démarrer automatiquement. Vous pouvez utiliser les fichiers CSV avec des tableurs tels que Microsoft Excel, Google Sheets, etc.
Vous avez encore des questions ? Nous travaillons constamment à l'amélioration de nos instructions afin que vous puissiez utiliser Konfuzio le plus rapidement et le plus facilement possible. N'hésitez pas à nous faire savoir si vous avez des questions, afin que nous puissions vous offrir la meilleure solution possible. Merci !
Photo de Brandon Montrone de Pexels
À propos de moi
-
Je suis un détective numérique, un éclaireur dans la transformation numérique. D'un œil critique, je scrute les promesses des innovations pour démêler le vrai du faux. Mes valeurs ? L'objectivité dans le battage médiatique, la transparence dans la complexité et un œil toujours en alerte sur les monstruosités de la numérisation. J'invite chacun à se joindre à moi dans cette quête. A chaque clic, nous dévoilons un peu plus de la réalité qui se cache derrière les déclarations mirobolantes des vendeurs.