Konfuzio Labeling Tool- Extraire des données d'images et de PDFs

Christoph Schleicher

En tant que data scientist ou annotation manager, vous êtes peut-être confronté au problème suivant : vous souhaitez extraire des données spécifiques d'une masse de PDF ou d'autres documents ou générer des données granulaires pour l'entraînement de l'IA optique ou sémantique. Un outil d'étiquetage peut cibler et extraire des entités sémantiques telles que "prix", "vendeur" ou "taxe". Avec Konfuzio, il est possible de combiner de telles applications NLP (Natural Language Processing) avec l'étiquetage CV (Computer Vision) d'images. Qu'il s'agisse de reçus, de contrats, de documents financiers ou de factures, etc : Extraction automatisée des données via l'IA augmentera l'efficacité et la productivité de votre entreprise pour une fraction de son coût.

Cette performance étonnante n'est toutefois pas possible sans annotation de texte. L'analyse de documents structurés comme FacturesL'étiquetage de reçus et de contrats est une tâche plus compliquée, même pour les IA modernes. Pour ce faire, vous avez besoin d'un outil d'étiquetage qui permet à l'utilisateur d'étiqueter et d'extraire de manière ciblée des zones individuelles d'un document. Konfuzio propose un outil d'étiquetage tout-en-un pour l'extraction de données à partir de textes et d'images.

Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.

Model-centric vs. data-centric

Si vous avez travaillé sur des projets de science des données, vous connaissez peut-être certaines des étapes de la création d'un modèle ML typique. Jusqu'à présent, celles-ci se présentaient comme suit :

  • Collecte de données
  • Nettoyer les données
  • essayer plusieurs modèles
  • Réglage des paramètres du modèle
  • Transfert vers la production
  • Surveiller le modèle

L'accent a été mis sur les troisième et quatrième étapes. Les modèles ML étaient au premier plan. La science des données consacrait peu ou pas de temps à la partie "données". Dans l'"approche centrée sur le modèle", les progrès en matière de stockage et de puissance de calcul ont permis de développer les algorithmes modernes. La partie la plus fondamentale du processus a alors été négligée : les données elles-mêmes.

Les données pour les algorithmes ML sont comme la nourriture pour nous, les humains. Nous devons donc fournir à nos algorithmes des données de la meilleure qualité possible afin d'obtenir les meilleures performances. L'approche centrée sur les données se concentre en premier lieu sur la fourniture de données de qualité. Cela signifie que nous devons non seulement nous concentrer sur le choix des algorithmes, mais aussi consacrer du temps à la collecte et à l'annotation des données, à la correction des données mal étiquetées, à l'extension des données et à la mise à l'échelle de ce type de processus. Ces tâches sont maîtrisées grâce aux outils d'annotation et d'étiquetage de Konfuzio.

Qu'est-ce qu'un outil d'annotation ?

Vous avez peut-être déjà utilisé un traducteur en ligne comme Google Translate ou Deepl. De telles applications utilisent PNL (Natural Language Processing). Cette technologie d'IA aide les machines à comprendre le langage humain afin de permettre, par exemple, des traductions ou une vérification automatique de l'orthographe. Le NLP est largement utilisé pour la recherche d'informations dans des textes non structurés. Cependant, l'analyse de documents structurés tels que les factures, les reçus et les contrats est un peu plus compliquée.

Premièrement, il n'y a pas beaucoup de contexte dans l'environnement des domaines d'un document que nous voulons extraire. Les entités individuelles d'un document, comme le prix, le vendeur ou la taxe, sont généralement seules et sans autre texte dans leur environnement direct. Cela serait pourtant utile pour l'entraînement à un modèle NLP. Deuxièmement, la mise en page des documents change souvent d'une facture à l'autre. Par conséquent, la PNL traditionnelle fonctionne mal avec les documents structurés.

Comme la plupart des reçus et des factures sont scannés ou au format PDF, nous avons besoin d'un outil d'étiquetage qui permet le parsing OCR et les annotations (Annotations) directement sur les PDF natifs et les images. Une annotation se réfère à un caractère, un mot ou un paragraphe extrait d'un document. Vous entraînez ainsi l'IA à extraire correctement ses documents. OCR signifie "reconnaissance optique de caractères". Cette technologie permet à un ordinateur de reconnaître et d'extraire du texte. Malheureusement, la plupart des outils d'étiquetage qui prennent en charge les commentaires OCR sont soit exorbitants, soit incomplets, ce qui vous oblige à effectuer l'étape OCR en externe avant l'annotation. Avec Konfuzio, cependant, vous obtenez une solution tout-en-un.

L'outil d'étiquetage de Konfuzio - la solution de bout en bout

Konfuzio offre une solution de bout en bout qui vous permet d'annoter directement des fichiers PDF natifs, des images numérisées ou des images provenant de votre smartphone, sans perdre les informations relatives à la mise en page du document. Après tout, lors de l'extraction de factures, par exemple, l'ordre du texte et les informations spatiales sont tout aussi importants. Tout ce que vous avez à faire, c'est de télécharger directement votre PDF, JPG ou PNG et de commencer à l'annoter. À l'aide d'une technologie OCR de pointe, Konfuzio analyse le texte ou l'écriture de vos documents et extrait tous les tokens avec leur cadre de délimitation. Konfuzio est votre outil tout-en-un pour le traitement automatique des documents. Vous n'avez pas besoin d'applications supplémentaires.

Comment annoter des PDF et autres documents avec l'outil d'annotation Konfuzio

  1. Fournir les bons outils à l'équipe d'étiquetage des données

    L'outil d'étiquetage de données Konfuzio offre une solution adaptée aussi bien aux textes qu'aux images. Lorsqu'il s'agit d'étiqueter des ensembles de données provenant de différentes sources ou dans différents formats, une solution d'étiquetage de données qui prend en charge tous les différents formats de fichiers peut faciliter le travail des étiqueteurs de données.
    Outre les fonctions de vos outils d'annotation de données, ceux-ci doivent également disposer d'une interface utilisateur optimisée et intuitive. C'est la seule façon de conserver une vue d'ensemble dans différents contextes de données.

  2. Créer une annotation

    Vous pouvez créer une annotation en cliquant sur une zone rectangulaire et en faisant glisser le curseur dessus. Lorsque vous enregistrez l'annotation, Konfuzio reconnaît le texte à l'intérieur du champ sélectionné.
    Si vous cliquez à nouveau sur Modifier, vous verrez le cadre rouge avec lequel vous avez sélectionné le texte, que vous pouvez déplacer et redimensionner. Si vous sélectionnez une zone qui ne contient pas de texte, la boîte rouge représente ce que l'on appelle la Bounding Box, qui est utilisée pour l'entraînement à l'IA. Si vous préférez un contrôle plus fin de la sélection, vous pouvez également créer une annotation en cliquant individuellement sur les mots que vous souhaitez sélectionner. Si vous cliquez à nouveau sur "Modifier", vous verrez la boîte rouge qui a été utilisée pour sélectionner le texte et que vous pouvez déplacer et redimensionner.créer une annotation avec l'outil d'étiquetage

  3. Étiqueter les annotations.

    Une fois l'annotation créée, cliquez sur "Annotations". Vous y verrez toutes les annotations regroupées. Si vous cliquez sur l'annotation, vous serez redirigé vers le document et l'annotation que vous venez de créer. Vous pouvez également cliquer sur le lien vers le label. Dans l'exemple suivant, chaque annotation du libellé "Date de modification" est désignée comme une valeur de date. Après avoir enregistré le libellé, vous pouvez voir un aperçu du résultat sur la page des annotations.Normaliser les annotations et les labels avec l'outil de labellisation

  4. Automatiser le processus d'annotation

    Une fois qu'une IA d'extraction a été entraînée et évaluée, elle crée des annotations dans tous les documents associés à l'ensemble de données de test et d'entraînement. Cela est particulièrement utile si vous avez omis d'annoter des informations dans un document, mais que vous l'avez fait dans d'autres documents.
    Une fois que l'annotation est créée, elle a le statut "Feedback requis". Si vous voyez une case verte ou une croix rouge, vous pouvez donner un feedback, voir 1. Au sein d'un document, vous pouvez utiliser le filtre pour voir toutes les annotations qui nécessitent un feedback humain, voir 2.annotations automatisées dans les PDF avec un outil d'étiquetage

Konfuzio - votre outil tout-en-un pour l'extraction de données

Grâce à l'interface conviviale Konfuzio API permet d'entraîner des modèles NLP sans grand effort. Il n'est pas nécessaire de traiter préalablement leurs images avec des API externes ou d'ajouter des règles de pré-annotation. L'utilisateur télécharge simplement ses documents, les annote et les exporte.

Vos avantages :

  • L'étiquetage NER : identifier et étiqueter les informations clés dans les textes
  • Image et Document Classification : attribuer des catégories aux documents et aux images pour faciliter leur gestion, leur recherche, leur filtrage ou leur analyse.
  • Bounding Box Image Labeling : Identifier et localiser des objets dans des images.
  • Gestion des utilisateurs : importante pour les données extrêmement sensibles et les grandes équipes dans les entreprises réglementées. Peut être exploitée en tant qu'installation SaaS ou sur site.
  • Unique : Konfuzio combine le visuel et le sémantique dans une UI (interface utilisateur). Pour CV (vision par ordinateur) et PNL (Natural Language Processing), vous n'avez désormais plus besoin d'outils séparés.
Image Box Labeling
Qu'est-ce que l'étiquetage des données ?

L'étiquetage des données identifie et attribue aux données brutes (images, fichiers texte, vidéos, etc.) une ou plusieurs étiquettes significatives et informatives. Cela crée un contexte pour qu'une IA (intelligence artificielle) puisse en tirer des enseignements. Les étiquettes peuvent par exemple indiquer si une facture contient des informations telles que "date", "prix" ou "vendeur". L'étiquetage des données est également nécessaire pour une multitude d'autres cas d'application, notamment le traitement du langage naturel et la reconnaissance vocale.

Pourquoi l'étiquetage des données est-il important pour votre entreprise ?

L'adaptation à vos besoins commerciaux vous donne un avantage sur vos concurrents. Un outil d'étiquetage rend cela possible en améliorant la prise de décision automatisée. En automatisant l'extraction de vos données, vous n'avez besoin que d'un minimum d'intervention humaine pour prendre des décisions importantes. 

Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur est un domaine de l'intelligence artificielle (IA) qui permet aux ordinateurs et aux systèmes d'obtenir des informations pertinentes à partir d'images numériques, de vidéos et d'autres entrées visuelles - et de prendre des mesures ou de faire des recommandations sur la base de ces informations. Si l'IA permet aux ordinateurs de penser, la vision par ordinateur leur permet de voir, d'observer et de comprendre.

Qu'est-ce que le traitement du langage naturel (NLP) ?

Le Natural Language Processing (NLP) tente de saisir le langage naturel et de le traiter par ordinateur à l'aide de règles et d'algorithmes. Le NLP utilise pour cela différentes méthodes et résultats issus des sciences linguistiques et les combine avec l'informatique moderne et l'intelligence artificielle. L'objectif est de créer une communication aussi large que possible entre l'homme et l'ordinateur par le biais du langage. Il devrait ainsi être possible de commander et d'utiliser des machines et des applications par la voix.

À propos de moi

Autres grands articles

réseau neuronal

La rétropropagation : la clé de l'entraînement des réseaux neuronaux

Afin d'améliorer la précision des réseaux neuronaux artificiels, la rétropropagation est l'une des principales méthodes d'apprentissage supervisé. Elle est mathématiquement basée sur le...

Lire l'article
NotebookLM

Actualités : L'application d'IA NotebookLM présentée par Google

Pendant deux mois, les personnes intéressées par l'IA ont attendu la phase de test du "Project Tailwind" de Google - une application d'organisation...

Lire l'article
Cyber-attaques macOS

Cyber-attaques sur macOS - Un logiciel antivirus supplémentaire est-il nécessaire ?

Les cyber-attaques ont un énorme potentiel de dommages. Elles mettent en péril l'existence même des entreprises et, lorsqu'elles s'attaquent à des infrastructures critiques comme les hôpitaux...

Lire l'article
Arrow-up