Extraction de données à partir de documents - How To III

Données de formation uniformes : Théorie et pratique

Après avoir appris les bases en Instructions 1 et des sections en Instructions 2 vous devez être prêt à travailler sur votre propre projet. 

Questions typiques de nos clients :

Nous avons déjà accompagné de nombreux projets de nos clients et les questions suivantes nous sont régulièrement posées : 

  • À quoi doit ressembler l'ensemble des données de formation ? 
  • Que dois-je marquer exactement ? 
  • Dois-je inclure le symbole de l'euro dans le libellé d'une somme d'argent ? 
  • Dois-je étiqueter plusieurs fois une date mentionnée plusieurs fois dans le document ?
  • Dois-je inclure les virgules dans les énumérations ? 

En raison de la grande polyvalence de Konfuzio, de nombreuses réponses dépendent de chaque cas particulier. Vos questions seront certainement en partie différentes de celles-ci. Cependant, la plupart des questions seront résolues par le simple fait de comprendre comment notre IA pense et fonctionne. C'est sur la base de ce principe que nous allons répondre aux questions ici.

De plus, nous vous montrons des exemples pratiques Conseils pour un processus d'entraînement réussi.

Questions et réponses

Comment l'IA pense-t-elle ?

L'IA Konfuzio ne travaille pas sur la base de règles, mais sur la base de résultats. Elle considère les données d'apprentissage comme le résultat souhaité et va établir elle-même des règles pour les appliquer à de nouveaux documents et tenter d'obtenir un résultat correspondant. Pour qu'elle puisse reconnaître des structures claires à cet égard, il convient également de procéder de manière clairement structurée lors de l'étiquetage manuel. Les irrégularités qui ne font pas de différence pour notre cerveau humain incitent l'IA à rechercher des règles et des structures qui n'existent pas, ce qui lui rendra la tâche plus difficile pour prendre les bonnes décisions.

À quoi doit ressembler l'ensemble des données de formation ?

Plus les documents sont uniformes ou homogènes entre eux, plus les résultats sont en principe précis. L'idéal est d'avoir des documents standardisés ou normalisés. Cependant, ce n'est généralement pas le cas et cela échappe à tout contrôle. Ce n'est en principe pas un problème pour Konfuzio, mais cela signifie que l'importance de la qualité et de la quantité des données d'entraînement augmente avec l'hétérogénéité des documents.

Que dois-je étiqueter exactement ?

La réponse courte : étiquetez ce que vous voulez lire plus tard, mais faites-le de manière cohérente.

Dois-je inclure les devises dans les montants monétaires ?

Par exemple, pour les sommes d'argent, la devise (par exemple le symbole de l'euro) devrait être soit toujours incluse dans l'étiquette, soit toujours omise. Peu importe pour quelle manière on opte. Il est important de ne le faire que d'une seule manière dans tous les documents et même au sein d'un document. Cela vaut bien sûr aussi pour d'autres unités comme le kg, le m2, etc. et d'autres informations composées.

Dois-je marquer plusieurs fois une date mentionnée plusieurs fois dans le document ?

Prenons l'exemple suivant. La date figure en haut à droite de toutes les pages d'un type de document. Faut-il marquer la date sur toutes les pages ? Dans le cas d'un document comportant de nombreuses pages, cela peut être assez fastidieux. Typiquement, on le fait encore dans le premier document, puis dans le deuxième document, la date n'est marquée que sur les 3-4 premières pages et dans le troisième document, uniquement sur la première page. 

Le problème suivant se pose ici. L'IA va chercher une raison pour laquelle la date de la cinquième page du premier document était pertinente, mais pas celle de la deuxième page du troisième document. Mais comme il n'y a pas de raison pertinente ici, l'IA est "confuse" en termes humains, ce qui a un effet négatif sur les résultats. 

Pour éviter cela, le mot-clé est à nouveau l'uniformité ! Soit vous marquez toujours les informations répétitives sur toutes les pages, soit vous les marquez toujours uniquement sur la première page.

Dois-je ajouter des signes de ponctuation ?

Par souci de cohérence, il est important que les virgules, points, parenthèses et autres signes de ponctuation ne soient pas marqués lors de la lecture de mots isolés dans un texte. Il faut toujours marquer uniquement le contenu réel que l'on souhaite lire. Les signes de ponctuation proviennent généralement du contexte de la construction de la phrase, mais sont plutôt arbitraires sur la base des données d'entraînement et ne sont donc pas appropriés pour être analysés à des fins de prédiction. Sinon, l'IA cherchera à l'avenir, par exemple, une virgule à la fin du mot à lire, même si elle n'a rien à voir avec l'information recherchée.


Conseils pour un processus de formation réussi

Maintenant que vous avez compris la théorie qui sous-tend la création de données d'entraînement de qualité grâce à l'uniformité, nous aimerions vous donner quelques conseils pratiques qui vous permettront de mettre en œuvre cette théorie dans votre projet.

Créer un guide d'étiquetage

Un guide d'étiquetage est un document qui contient des règles de base et des règles spécifiques pour l'étiquetage d'un type de document. Il décrit ce qui doit être étiqueté et de quelle manière, et est souvent accompagné de captures d'écran. Dans les grands projets où plusieurs personnes ont participé à l'étiquetage, celles-ci se sont souvent avérées nécessaires. L'objectif est d'obtenir l'homogénéité décrite ci-dessus en faisant en sorte que toutes les personnes concernées respectent ces consignes. En effet, lorsque plusieurs personnes travaillent sur les mêmes documents, elles les étiquettent souvent de différentes manières. Pour les documents simples impliquant peu de personnes, des accords oraux suffisent souvent. Pour un projet complexe, nous vous recommandons toutefois d'utiliser notre modèle. 

N'hésitez pas à nous contacter via le Formulaire de contactpour obtenir un modèle.

Utilisez la méthode des quatre yeux

Vérifiez vos données de formation. Les erreurs arrivent même aux utilisateurs expérimentés. Pour minimiser les erreurs, l'idéal est qu'au moins une autre personne vérifie l'exactitude et la cohérence de vos annotations. Ainsi, les erreurs d'imprudence et les écarts par rapport au guide d'étiquetage peuvent être détectés et corrigés. En particulier, une mauvaise attribution des sections peut réduire considérablement la qualité du modèle d'IA. Pour savoir comment les vérifier, voir Instructions 2

Pour une répartition efficace des tâches lors de la vérification, vous pouvez également utiliser la méthode suivante. Lorsque la personne 1 a étiqueté un document, elle l'ajoute au Preparation Data Set. Ainsi, la personne 2 sait que le document est prêt à être vérifié. Une fois que la personne 2 a ajouté le document à l'ensemble de données de formation après la vérification, toutes les personnes concernées savent que le document a été vérifié.

Réserver un check-in hebdomadaire

Une réunion hebdomadaire aide votre équipe à construire une compréhension commune. Nous vous recommandons de suivre une formation avant cette réunion, voir Étape 6 du guide 1. Cette réunion permet d'analyser l'évaluation du dernier modèle et d'identifier et de discuter automatiquement des erreurs possibles dans les données de test et de formation. Un expert Konfuzio peut apporter de précieux conseils et astuces directement lors de la réunion.


Vous avez encore des questions ? Nous travaillons constamment à l'amélioration de nos instructions afin que vous puissiez utiliser Konfuzio le plus rapidement et le plus facilement possible. N'hésitez pas à nous faire savoir si vous avez des questions, afin que nous puissions vous offrir la meilleure solution possible. Merci !

"
"
Avatar de Maximilian Schneider

Derniers articles