Clause de non-responsabilité : Konfuzio.com offre une alternative commerciale, SLA inclus, aux outils open source présentés ici.
Quel est l'outil d'annotation le plus adapté à votre prochain projet de Natural Language Processing pour permettre l'annotation de documents ?
Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.
Annotations dans les documents PDF pour la PNL et la vision par ordinateur
De nombreux outils d'annotation sont disponibles gratuitement. Un récent Article en présente plusieurs dizaines. Nous complétons cet article scientifique par les exigences dans le contexte de l'entreprise en matière d'outils pour les annotations PNL. Dans la deuxième section, nous jetons un regard pratique sur quelques-uns des outils disponibles.
Annotations dans différents formats de données
Un Articles d'actualité sur le piratage décrit la grande complexité du traitement des PDF. Les 700 commentaires en dessous reflètent l'intérêt pour les documents PDF en tant que base de données pour la formation PNL. Pour en savoir plus sur "What's so hard about PDF text extraction ?", voir ici un bon aperçu. On peut résumer en disant qu'il est difficile pour les utilisateurs en entreprise d'accéder au texte des PDF ou aux images pour s'entraîner aux modèles PNL.
Contexte par des relations d'annotations
Dans le monde des affaires, seule la compréhension des interdépendances permet d'obtenir une valeur ajoutée grâce à la PNL. D'un point de vue professionnel, il ne suffit souvent pas de reconnaître le prénom ou le nom d'une personne. Le contexte de cette personne doit être annoté et appris plus tard par la PNL. Ainsi, pour la compréhension technique, il est important de savoir s'il s'agit du prénom du vendeur ou de l'acheteur.
Annotation de documents en équipe
Dans les entreprises, différentes personnes contribuent à un ensemble de données de qualité. Déjà lors de la saisie des données, différents services ou personnes mettent généralement des données à disposition. De même, lors de l'annotation dans le projet NLP, différents utilisateurs aident les experts NLP à créer les données NLP. Les utilisateurs expérimentés doivent vérifier l'annotation des utilisateurs moins expérimentés. Les annotateurs expérimentés doivent être en mesure de réviser les annotations des utilisateurs moins expérimentés. Ce processus peut améliorer la qualité des données et accélérer l'apprentissage organisationnel.
Annotation automatisée dans les documents
Une fois qu'un expert s'est formé à un modèle NLP, les annotateurs devraient l'utiliser pour gagner du temps. Les annotateurs devraient utiliser le modèle pour générer automatiquement de nouvelles annotations. Au lieu de créer de nouvelles annotations, ils devraient les vérifier. Les annotations automatisées aident les annotateurs à rester concentrés et à annoter davantage de données brutes. Les annotations suggérées réduisent le temps de traitement des données brutes, car les personnes ont corrigé les mauvaises annotations plus rapidement qu'elles n'ont ajouté d'annotations manquantes. Même avec des modèles moins précis, les data scientists aident à créer manuellement de bons ensembles de données.
Utiliser les caractéristiques visuelles pour améliorer la PNL
Contrairement aux tweets, la position du texte au sein d'un document commercial contient des informations. Par exemple, les numéros de téléphone des personnes à contacter sont généralement indiqués dans le coin supérieur droit. L'outil d'annotation devrait pouvoir convertir chaque séquence de texte en une boîte de délimitation et un numéro de page. Les positions visuelles complètent les fonctions NLP et augmentent la précision du modèle.
Outils d'annotation NLP gratuits en 2023
Les outils suivants sont gratuits, basés sur un navigateur et installables. Ces outils d'annotation gratuits ont déjà fait leurs preuves auprès de nombreux data scientists. Chez Konfuzio, nous avons un grand respect pour les développeurs qui ont créé ces outils. Néanmoins, nous allons remettre en question ces outils sur la base des besoins des utilisateurs en entreprise. Nous avons testé tous les outils après leur installation et leur configuration.
rôti
L'outil brat est basé sur un navigateur et permet d'annoter des fichiers texte. Il met en évidence les relations entre les annotations. La configuration permet de marquer les annotations d'une grande complexité à l'intérieur du texte. Lors du téléchargement du fichier texte, le texte perd son format, du moins dans l'interface. De même, l'annotation de texte sur plus d'une ligne entraîne souvent des erreurs. L'outil brat est disponible sous la licence du MIT sur son propre site web. Page d'accueil à télécharger.
Doccano
Doccano est un outil d'annotation basé sur un navigateur qui permet de catégoriser, de traduire et d'annoter des séquences. L'installation via Docker permet une Déploiement. Doccano est sur GitHub disponible sous la licence du MIT. Actuellement, seule l'annotation de fichiers texte est possible. Il n'est pas possible de regrouper des annotations individuelles. Il est possible d'ajouter des annotations automatiquement via l'API. Malheureusement, les utilisateurs ne peuvent pas filtrer les annotations automatisées par rapport aux annotations révisées. Cela rend le contrôle manuel des annotations créées automatiquement quasiment impossible.
INCEPTION
En tant que successeur de WebAnno INCEpTION offre une solution sophistiquée mais complexe. Issu de la recherche scientifique, cet outil offre une Documentation et une Démonstration en direct. Pour héberger des données confidentielles, l'application peut être configurée sur un serveur dédié. INCEpTION utilise la licence Open-Source Apache License v2.0. Le traitement des PDF semble être possible via PDF.js semble être possible. Malheureusement, lors de cette conversion de texte avec la visionneuse PDF, la mise en page est perdue dans le texte. Selon la documentation, les annotations ne peuvent pas être créées automatiquement.
PDFAnno
Dans le but de permettre à l'utilisateur d'annoter des PDF, cet outil propose une interface web. Un seul utilisateur à la fois peut créer une annotation dans un document. La collaboration avec d'autres n'est possible que par l'importation ou l'exportation des données. L'outil s'appuie sur PDF.js pour représenter le PDF. Étant donné que PDF.js charge l'ensemble du PDF avant de commencer le traitement, l'annotation de grands PDF entraîne de longs temps de chargement. Le site Projet GitHub (licence MIT) est archivé.
Vous trouverez tous les outils d'annotation ici.
Annotations NLP dans les documents avec Konfuzio





Les outils d'annotation gratuits sont excellents et se concentrent généralement sur l'utilisateur final individuel, par exemple un data scientist travaillant seul sur un projet NLP. Dans le contexte de l'entreprise, les fonctions de ces outils ne reflètent les besoins que de manière très hétérogène. C'est ce qui nous a incités à développer Konfuzio en 2018. Notre objectif est de permettre aux entreprises de créer des modèles NLP rapidement, sur n'importe quelle source de données et de manière collaborative. Nous sommes également heureux d'enregistrer des revues pour d'autres outils. Notre outil d'annotation de documents combine la couche visuelle et le texte.
Konfuzio Modules :
- Konfuzio ServeurLe serveur Konfuzio offre un service web pour le traitement des documents. Les résultats du processus de traitement des documents sont mis à disposition au format JSON via des services API REST multi-tenant. L'application différencie ici les utilisateurs en fonction de leurs rôles et offre la possibilité de configurer les autorisations Create, Read, Update et Delete (CRUD). Code source fermé, voir Documentation.
- Konfuzio Python SDKKonfuzio Software Development Kit (Konfuzio SDK) est une collection d'outils de programmation et de bibliothèques de programmes qui sert au développement de logiciels. Il aide les développeurs de logiciels à créer des applications basées dessus et ainsi des processus documentaires personnalisés pour la classification, Extraction et de segmenter les documents. Lien vers le Git Repository de GitHub.
- Konfuzio Document Validation UI: L'interface utilisateur Document Validation UI est une interface intuitive destinée à faciliter la navigation des utilisateurs du serveur Konfuzio à travers les différentes étapes liées à la vérification des informations extraites d'un document donné. Lien vers le Git Repository de GitHub.
- Konfuzio Helm Chart : Le Konfuzio Helm Chart fournit la configuration nécessaire au fonctionnement du serveur Konfuzio pour l'installer, l'exploiter, le mettre à jour et le faire évoluer sur Kubernetes. Lien vers le dépôt Git.
Fonction | rôti | Doccano | INCEPTION | PDFanno | Konfuzio |
Formats de données | ✗ | ✗ | ✓ | ✓ | ✓ |
Contexte | ✓ | ✗ | ✓ | ✗ | ✓ |
Team-First | ✗ | ✓ | ✓ | ✗ | ✓ |
Automatisation | ✗ | le cas échéant | ✗ | ✗ | ✓ |
Caractéristiques visuelles | ✗ | ✗ | ✗ | ✗ | ✓ |
Gratuit | ✓ | ✓ | ✓ | ✓ | ✗ |