Différentes épices sur cuillère

Classification des documents avec l'IA pour votre gestion documentaire

Maximilien Schneider

Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.

Mettre en place une gestion de documents en ligne

Ce tutoriel porte sur la classification de documents avec l'IA. Contrairement au tutoriel 1, 2 ou 3 Il ne s'agit pas d'extraire des informations d'un document, mais de classer automatiquement les documents dans certaines catégories prédéfinies. Cela peut être utilisé pour le classement et l'optimisation de la gestion des documents et des tâches de back office. 

Comme toujours, nous vous montrons à l'aide d'un exemple pratique comment implémenter cela en ligne dans un projet d'IA de votre gestion de documents. Nous utilisons à nouveau des reçus. Comme dans le tutoriel 1 et 2 nous obtenons nos documents à partir d'un ensemble de données publiques auquel vous avez accès. ici peuvent y accéder. Notre objectif est de classer les reçus dans cinq secteurs (café, restaurant, hôtel, vente au détail et transport public). Sans créer de règles, l'IA apprend, à partir d'exemples, à quel secteur appartient un nouveau ticket de caisse.

Dans cette documentation, certains éléments sont marqués comme bêta. Si l'une de ces fonctions n'est pas encore utilisable, contactez-nous via notre Formulaire de contact. Notre support s'occupe immédiatement de votre problème et ce, bien entendu, gratuitement.


Entraîner l'IA à catégoriser ou à indexer des documents

  1. Créer un projet

    Vous pouvez créer un nouveau projet ou utiliser un projet existant. Si vous souhaitez en créer un nouveau, vous pouvez le faire dans Tutoriel 1 revoir comment créer un projet.

  2. Créer des modèles par défaut

    Pour chaque catégorie de documents, il faut maintenant un modèle par défaut. Il s'agit d'un modèle qui n'est pas subordonné à un "Parent Default Template". Vous créez ce modèle via HOME > Templates > ADD DEFAULT TEMPLATE+. Ici, il vous suffit de saisir le nom de votre catégorie (ici : "Café", "Restaurant", "Hotel", "Retail" et "Public Transport") et de sélectionner votre projet. Si, comme nous, vous souhaitez créer plusieurs templates par défaut, vous devez le faire à nouveau via l'affichage des templates et le bouton ADD DEFAULT TEMPLATE+.

  3. Création de données d'entraînement

    Cliquez maintenant sur DOCUMENTS pour accéder à la vue des documents. Ici, vous pouvez utiliser vos documents existants ou en télécharger de nouveaux. L'entraînement de l'IA est particulièrement facile si le nom du fichier indique à quelle catégorie appartient le document. Nous montrons maintenant à l'IA quels documents appartiennent à quelle catégorie. Pour ce faire, nous sélectionnons la catégorie correspondante dans l'onglet correspondant des documents dans la colonne "CATEGORY TEMPLATE" et cliquons en bas à droite sur le bouton "Save". Il est possible d'attribuer la catégorie correspondante à tous les documents d'une page et de cliquer finalement sur "Save" pour tous. Cette procédure n'est possible que si les documents ne se trouvent pas dans l'ensemble de données de formation, de test ou de préparation. Si c'est le cas, vous devez d'abord supprimer les documents de l'ensemble de données à l'aide de l'action "Remove from dataset", puis leur attribuer une catégorie. Une fois que vous avez terminé cette étape, ajoutez à nouveau les documents à l'ensemble de données de formation.
    Pour obtenir des résultats de qualité, adaptés au traitement en noir, il faut disposer d'au moins 50 documents par catégorie. Avec nos 5 catégories, nous utilisons donc un jeu de données d'entraînement composé de 250 documents. Vous pouvez ajouter d'autres fichiers à l'ensemble de données de test afin d'évaluer ultérieurement le modèle d'IA (bêta). Il est très important que les documents ne se chevauchent en aucun cas. Si vous avez un fichier contenant plusieurs catégories de documents, il est essentiel de les diviser et de les télécharger individuellement afin de leur attribuer une catégorie.

  4. Activer le réentraînement

    Vous activez le réentraînement en passant par HOME > Projets. Sélectionnez ici votre projet et choisissez l'action "Retrain category ai model" dans l'onglet Action et cliquez ensuite sur "Go".
    L'IA se contentera désormais de rechercher des modèles, des points communs et des différences entre les catégories sur la base de la classification. Pour en savoir plus, consultez notre article sur les aspects techniques de la classification.

  5. Test

    Pour voir si votre Catégorie Modèle AI est entraîné, cliquez sur HOME> "Category ai model". Ici, vous pouvez également voir une évaluation statistique de votre modèle d'intelligence artificielle (bêta). En outre, vous pouvez simplement télécharger de nouveaux documents à titre de test pour voir s'ils sont correctement classés. Dans ce cas, l'IA devrait déjà afficher automatiquement la catégorie correcte dans la colonne "CATEGORY TEMPLATE". Dans notre projet, l'IA devrait par exemple classer automatiquement une facture d'hôtel téléchargée dans la catégorie "Hôtel".

  6. Exportation

    L'utilisation de la classification peut être intégrée de diverses manières dans la gestion des connaissances de votre entreprise.
    D'une part, cela vous permet de gérer vos documents en ligne en filtrant par catégorie sur le côté droit de la vue des documents. Il est ainsi très facile d'exporter uniquement le contenu d'une certaine catégorie de documents, par exemple.
    De plus, la catégorie est également affichée dans l'exportation CSV. Cela donne, si vous exportez par exemple les données de tous les documents, un répertoire de fichiers triés par catégories pour votre gestion de documents avec Excel. Bien entendu, vous pouvez également intégrer la classification dans vos systèmes existants (par ex. de SAP) par le biais d'une intégration API et l'adapter à votre système. Gestion des entrées de l'adapter à vos besoins. Cela permet d'organiser le classement correct de vos documents et recèle un grand potentiel pour vos activités de back office.


Vous avez encore des questions ? Nous travaillons constamment à l'amélioration de nos instructions afin que vous puissiez utiliser Konfuzio le plus rapidement et le plus facilement possible. N'hésitez pas à nous faire savoir si vous avez des questions, afin que nous puissions vous offrir la meilleure solution possible. Merci !

Photo de Karolina Grabowska de Pexels

À propos de moi

Autres grands articles

Instructions 1

Extraction de données à partir de documents - How To I

Comment démarrer votre projet avec Konfuzio Pour apprendre les bases de la plateforme Konfuzio, nous vous recommandons ce tutoriel,...

Lire l'article
Capture bon de livraison OCR

L'OCR pour les bons de livraison automatise l'extraction des données par scanner

Grâce à l'IA documentaire et à l'OCR, vous pouvez extraire automatiquement toutes les informations contenues dans un bon de livraison. Une interface utilisateur qui permet de...

Lire l'article
Konfuzio Logo

PDFTron vs Konfuzio - L'ultime épreuve de force des outils

PDFtron (Apryse) et Konfuzio proposent tous deux des solutions logicielles de haute qualité pour le traitement numérique des documents. Quelle offre pour les besoins de votre...

Lire l'article

    Arrow-up

    Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.

    Navigation