deepdoctection - Un framework open-source pour l'IA documentaire

Deepdoctection est une bibliothèque Python qui orchestre les tâches d'extraction de documents et d'analyse de la mise en page des documents à l'aide de modèles d'apprentissage en profondeur.

Deepdoctection se concentre sur les applications et est fait pour ceux qui veulent programmer des solutions réelles aux problèmes liés à l'extraction de documents à partir de PDF ou de scans dans différents formats d'image.

Sites web vs. documents et scans comme supports d'information

Supposons que vous souhaitiez évaluer les avis sur un site web. Avec un peu d'expérience en programmation, vous pouvez créer en peu de temps des études complètes telles que des analyses de sentiment.

Supposons maintenant que vous souhaitiez à nouveau évaluer les commentaires des clients. Mais cette fois, les informations sont disponibles dans des formulaires scannés. Peut-être que les formulaires ne sont pas tous identiques et que certains ont été remplis à la main. Dans ce cas, vous devrez consacrer beaucoup plus de temps à la réalisation de vos objectifs.

Mais quelle est la grande différence ?

Dans la mesure où vous souhaitez obtenir vos informations à partir de pages web, vous devez obtenir vos données par webcrawling et les préparer de manière à ce qu'il ne reste de la représentation HTML brute que les informations dont vous avez besoin pour votre analyse. Jusqu'à ce point, une approche basée sur des règles est suffisante.

Mais passons maintenant aux formulaires : Vous avez peut-être déjà un document numérisé, mais ce document stocke son contenu sous forme de pixels, c'est-à-dire de milliers et de milliers de chiffres compris entre 0 et 255. Ici, vous pouvez créer une Moteur d'OCR et vous obtiendrez une combinaison de mots et de coordonnées.

Le vrai travail commence maintenant, car vous devez encore donner une structure au formulaire. Par exemple, il faut définir la structure : Comment reconnaître les entités dans le formulaire ? Quels sont les blocs de mots qui vont ensemble ? Quelles sont les structures, comme par exemple les tableaux ou les paragraphes ?

Pour aborder de tels problèmes, vous avez besoin d'un ensemble d'outils. D'une part, l'intelligence artificielle peut apporter une aide, mais d'autre part, l'intelligence artificielle doit être orchestrée pour être efficace dans son ensemble.

deepdoctection - Pipelines pour Document AI

deepdoctection est un framework open source basé sur Python qui vous aide à extraire des informations de documents. Vous trouverez le Code source sur Github.

deepdoctection

Utilisation de l'image et du texte

Contrairement aux cadres de traitement du langage naturel courants, deepdoctection offre la possibilité de créer des pipelines dans lesquels il est possible d'utiliser des modèles multimodaux qui lisent non seulement des informations textuelles mais aussi des images. Cela comprend Informations sur la position des mots et des segments de texte ou l'image entière. Il s'est en effet avéré que, notamment pour les documents issus du monde professionnel quotidien (formulaires, rapports, présentations), les modèles d'IA qui tiennent compte des informations visuelles fonctionnent mieux pour l'extraction. Il s'agit notamment de la Famille LayoutLM, un groupe de modèles développés par Microsoft.

Avec deepdoctection, vous pouvez utiliser ces modèles en interaction avec l'OCR pour la classification de documents ou la Extraction d'entités essayer.

YouTube

En chargeant la vidéo, vous acceptez la déclaration de confidentialité de YouTube.
En savoir plus

Charger la vidéo

Analyse de la mise en page et extraction de tableaux

De plus, deepdoctection offre la possibilité de Modèles pour l'analyse de la mise en page des documents de la structure. Ils sont extrêmement utiles pour structurer le document en zones spécifiques, telles que des tableaux, des figures ou des éléments de liste.

Les tableaux peuvent également être reconstruits et extraits sous forme de fichier csv ou même de structure HTML. Vous pouvez utiliser Deepdoctection tester facilement en ligne.

Démonstration en direct

OCR

OCR est une technologie clé pour le traitement intelligent de documents et permet en premier lieu l'extraction de texte à partir de formats optiques comme le PDF. Pour cela, deepdoctection offre la possibilité d'utiliser différents frameworks OCR. Parmi eux, le plus connu des frameworks open source TesseractIl existe également le DocTr, plus moderne, qui fournit des résultats plus précis pour de nombreux cas d'utilisation.

Entraînement et évaluation de modèles

Aucun modèle ne fonctionne pour tous les cas d'utilisation. Mais il est possible d'améliorer considérablement la précision en entraînant les modèles sur vos propres données. deepdoctection propose des scripts d'entraînement préconfigurés pour différents modèles de base, de sorte que vous n'avez pas à chercher laborieusement un réglage approprié. Avant de pouvoir utiliser un modèle de manière productive, il faut l'évaluer pour voir si les résultats de prédiction sont suffisamment précis sur des données qui n'ont pas encore été vues.

Pour cela, deepdoctection propose des métriques et des outils d'évaluation que vous pouvez utiliser pour évaluer pleinement la capacité de prévision de votre modèle. En outre, deepdoctection offre la possibilité de créer et d'enregistrer vos propres ensembles de données. Cela facilite l'entraînement des modèles de base et offre en outre la possibilité de combiner plusieurs ensembles de données.

Modèles de base open source

Dans l'ensemble, divers modèles de base provenant de différentes bibliothèques open source de haute qualité peuvent être utilisés à l'aide de deepdoctection. L'exécution de plusieurs modèles d'IA en un seul appel est le point fort du framework. C'est actuellement l'un des principaux besoins des entreprises. Dans ce contexte, il est judicieux de s'intéresser à certains modèles d'IA open source. En voici une sélection dans les différents domaines d'application du traitement de documents.

Vision

DiT - Document Image Transformer est un modèle pré-entraîné et auto-contrôlé qui fonctionne avec de grandes images de texte sans étiquette. 

BEiT - Ce Vision Transformer est basé sur le modèle linguistique BERT de Google et a pu, pour la première fois, surpasser les modèles entraînés et surveillés grâce à un pré-entraînement auto-contrôlé.

Langue

Donut - OCR-free Document Understanding Transformer obtient des résultats impressionnants en matière de compréhension de documents et d'extraction de texte - sans qu'il soit nécessaire de recourir à l'OCR.

UniLM - Ce modèle linguistique pré-entraîné de Microsoft peut être adapté au moyen d'un réglage fin, tant pour le traitement que pour la génération de la parole.

Multimodal

LayoutXLM - Ce développement multimodal de Mise en pageLM pour l'analyse de documents multilingues prend en compte le texte, la mise en page et les informations sur les images - avec des performances supérieures à celles des modèles précédents à la pointe de la technologie.

DocLLM - En tant qu'extension des Large Language Models classiques, DocLLM convient au traitement multimodal de la structure spatiale de la mise en page.

D'autres outils de traitement de documents intelligents spécifiques au PDF sont par exemple

Exigences de l'entreprise en matière d'architecture d'IA

Avec ces possibilités en croissance rapide et le nombre de modèles disponibles pour l'IA documentaire, les exigences techniques des grandes entreprises ont également augmenté. Aux premiers jours des Large Language Models, il semblait d'abord prévisible que les organisations pourraient entraîner en permanence leurs propres modèles en fonction de leurs données et besoins individuels. Le nombre de solutions utilisables et déployées a toutefois atteint une dimension dans laquelle cette approche perd sa rentabilité. 60% des entreprises utilisent une multitude de modèles, tels que Rapport de Menlo sur l'IA d'entreprise. La majeure partie de la disposition à payer ne se rapporte donc pas à la formation, mais à l'inférence AI, c'est-à-dire à l'utilisation standardisée de divers modèles AI.

C'est là que deepdoctection se trouve confronté à certains défis, malgré toute la robustesse et la flexibilité dont il fait preuve. Malgré des scripts de formation et d'évaluation préconfigurés, l'utilisation d'un framework open source n'est souvent pas suffisante pour les entreprises. Dans ce cas, il est nécessaire de disposer de ressources supplémentaires pour réduire les coûts de développement tout en garantissant des normes de sécurité élevées. La possibilité de développer soi-même et l'intégration d'autres modèles font également partie des demandes fréquentes. Les entreprises ont donc tout intérêt à rechercher une plate-forme sûre et flexible pour l'exploitation du framework et/ou l'intégration d'autres modèles.

Enterprise AI pour deepdoctection et autres modèles de base

deepdoctection peut être exploité à l'aide de Konfuzio, une plateforme pour l'IA d'entreprise. Cela permet de mettre en œuvre rapidement des cas d'utilisation individuels et de tester de nouveaux modèles dans des cycles d'itération courts. Il en résulte divers avantages:

  • Utilisation optimale des modèles d'IA - deepdoctection permet également d'orchestrer les modèles d'IA disponibles - dans un environnement logiciel adapté. En outre, tout autre modèle open source, par exemple ceux mentionnés ci-dessus, peut être utilisé avec une disponibilité constante.
  • Moins d'efforts de développement - Grâce à une interface fournie ainsi qu'à une API, un SDK et une base de données propres, l'effort général de développement est considérablement réduit. 
  • Fonctionnalité du marché - Au-delà de l'utilisation des modèles présentés, de nombreux modèles d'IA pré-entrainés, spécifiques au secteur et directement opérationnels sont disponibles. Vous pouvez ici effectuer des tests sans engagement.
  • Gestion des utilisateurs - Dans les grandes organisations, les politiques de protection des données et de gouvernance peuvent être plus complexes. Konfuzio soutient la mise en œuvre avec une gestion des utilisateurs sophistiquée qui permet d'attribuer des droits d'accès individuels.
  • Sécurité d'entreprise - Confuzio est exploité avec des normes de sécurité élevées sur des serveurs situés en Allemagne. Une possibilité très utilisée est en outre le fonctionnement sur site, de sorte qu'aucune donnée ne quitte les serveurs de l'entreprise.

Document AI dans le SDK Python de Confuzio

Confucius permet le Télécharger sa propre IA, extraction individuelle d'informations et bien d'autres choses encore. Un kit de développement logiciel préfabriqué est disponible à cet effet.

Voici comment procéder si vous souhaitez utiliser deepdoctection ou différents modèles de Document AI via le SDK Python - en prenant l'exemple d'une Extraction AI :

  1. L'installation de konfuzio_sdk
!pip install konfuzio-sdk
  1. Les paquets nécessaires peuvent être importés de la manière suivante.
import os
import sys
import konfuzio_sdk
from konfuzio_sdk.data import Project
from konfuzio_sdk.trainer.information_extraction import RFExtractionAI
from konfuzio_sdk.tokenizer.regex import WhitespaceTokenizer
from konfuzio_sdk.api import upload_ai_model
  1. Ensuite, on passe à l'initialisation du projet
from tests.variables import OFFLINE_PROJECT, TEST_DOCUMENT_ID
project = Project(id_=None, project_folder=OFFLINE_PROJECT)
  1. Définition de la catégorie correspondante.
category = project.get_category_by_id(63)
  1. Initialisation du pipeline de formation. La catégorie RFExtraction est interchangeable.
pipeline = RFExtractionAI(use_separate_labels=True)
pipeline.category = catégorie
  1. Pour l'évaluation ultérieure, test_documents est nécessaire en tant qu'attribut du pipeline. 
pipeline.test_documents = category.test_documents()
  1. Voici comment interroger les documents de la catégorie définie :
documents = category.documents()
  1. Appliquez le pipeline aux documents.
pipeline.fit(documents)
  1. Ensuite, l'extraction à partir de nouveaux PDF ainsi que de fichiers téléchargés est possible.
text = "..."
document = category.create_document(texte, filename="test.pdf")
pipeline.process_document(document)
annotations = document.annotations()

La deeptoctection ainsi que les modèles de base propres ou esquissés ci-dessus peuvent être téléchargés sur Konfuzio au moyen du SDK Python via la fonction upload_ai_model.

Conclusion

Deepdoctection, en tant que framework open source dans le domaine de l'IA documentaire, montre un grand potentiel pour l'orchestration de modèles d'IA. Il permet un traitement efficace des informations grâce à l'intégration d'analyses de texte et d'images, ce qui est particulièrement pertinent pour le traitement de documents réels tels que les formulaires et les rapports. La combinaison de différents modèles de deep learning et de techniques OCR souligne la flexibilité et l'adaptabilité du framework. Malgré ces possibilités étendues, deepdoctection connaît également certaines limites, notamment en ce qui concerne les exigences des entreprises et la garantie de la protection des données et de la sécurité.

La coopération avec des plateformes telles que Konfuzio peut résoudre ces défis en simplifiant le développement et en accélérant l'application des modèles. En outre, de nombreuses autres possibilités d'intégration de modèles sont disponibles via le SDK Python, afin d'obtenir des résultats optimaux même pour des cas d'utilisation individuels très complexes.

Vous souhaitez exploiter deepdoctection, les modèles d'IA présentés ici ou vos propres modèles dans un environnement d'entreprise sécurisé ? N'hésitez pas à nous contacter. Nous nous ferons un plaisir de vous aider.








    À propos de l'auteur de deepdoctection

    Janis Meyer

    Le Dr Janis Meyer travaille depuis de nombreuses années en tant qu'ingénieur indépendant en Machine Learning et conseiller d'entreprise.

    Le déclencheur pour s'occuper de Document AI Il s'est occupé d'un projet qui consistait à extraire des indicateurs spécifiques des rapports financiers.

    Il a développé deepdoctection pour créer de nouveaux modèles d'apprentissage automatique dans des cycles d'itération courts, afin de résoudre des problèmes d'IA documentaire dans le domaine de l'informatique. Pipelines d'intégrer.

    Janis Meyer conseille les clients finaux et les exploitants de plateformes en matière d'introduction et d'innovation dans le domaine de l'automatisation intelligente. Cela comprend le conseil général, ainsi que le suivi de projet, de mise en œuvre, de test et de production.

    "
    "
    Avatar de Maximilian Schneider

    Derniers articles