Bounding Box dans un conteneur

Identification de la Bounding Box pour la segmentation des pages et l'OCR

Elizaveta Ezhergina

Les réseaux de propositions de régions (RPN), également connus sous le nom de modèles d'IA de Bounding Box, deviennent de plus en plus importants dans le domaine de l'IA documentaire, car ils améliorent considérablement l'efficacité et la précision de l'extraction d'informations.

Dans ce billet de blog, nous nous penchons sur la question de savoir pourquoi les modèles d'IA bounding box sont indispensables à l'IA documentaire, nous présentons cinq travaux de recherche récents et nous démontrons les possibilités offertes par le SDK Konfuzio pour l'extraction de données et les bounding boxes pour l'entraînement de vos modèles.

Qu'est-ce que les "bounding boxes" ?

Les bounding boxes sont des rectangles imaginaires utilisés dans le traitement d'images pour la reconnaissance d'objets et la détection de collisions. Les annotateurs de données dessinent ces rectangles autour des objets clés dans les images et définissent les coordonnées X et Y afin d'aider les algorithmes d'apprentissage automatique à trouver efficacement les chemins de collision. Pour obtenir de meilleurs taux de prédiction, plusieurs bounding boxes et méthodes d'enrichissement des données sont utilisées conjointement.

Bounding Box OCR
Voir la documentation sur dev.konfuzio.com

Les paramètres importants qui définissent une bounding box sont la classe (type d'objet), (X0, Y0) et (X1, Y1) pour les coins supérieur gauche et inférieur droit, (X1, Y1) pour le centre, la largeur, la hauteur et la confiance (probabilité de l'objet dans la boîte). Deux conventions principales sont utilisées pour indiquer une bounding box : Les coordonnées X et Y des points supérieur gauche et inférieur droit ou les coordonnées X et Y du centre avec la largeur et la hauteur. Les bounding boxes sont des méthodes d'annotation d'images efficaces et peu coûteuses.

Impact des bounding boxes sur l'IA documentaire

L'IA des documents comprend différentes tâches telles que l'OCR, l'extraction de texte et la classification des informations, de sorte que les modèles d'IA bounding box font partie intégrante du processus. Les boîtes frontières présentent plusieurs avantages :

  1. Localisation précise du texte : les bounding boxes permettent de localiser précisément les éléments de texte au sein d'un document, ce qui est essentiel pour une extraction et une classification correctes.
  2. Traitement complexe de la mise en page : les documents présentent souvent des mises en page compliquées avec plusieurs colonnes, tableaux et images. Les modèles d'IA Bounding Box segmentent efficacement ces éléments et permettent une extraction plus précise des données.
  3. Amélioration des performances de l'OCR : les modèles d'IA de Bounding Box améliorent les performances de l'OCR en se concentrant sur des zones d'intérêt spécifiques, en réduisant le nombre de faux positifs et en augmentant la précision de la reconnaissance.
  4. Amélioration de l'extraction des données : les modèles d'IA bounding box facilitent l'extraction des données pertinentes des documents en identifiant et en segmentant des éléments de texte spécifiques tels que les noms, les dates et les adresses.
  5. Évolutivité : les modèles d'IA de Bounding Box étant basés sur des techniques d'apprentissage en profondeur, ils peuvent être adaptés à des types de documents nouveaux et différents avec un minimum d'interventions manuelles, ce qui les rend hautement évolutifs pour des applications d'IA documentaire à grande échelle.

Ensembles de données d'annotation pour les modèles d'apprentissage automatique

Les jeux de données annotés jouent un rôle essentiel dans le développement de modèles d'apprentissage automatique, en particulier pour les tâches basées sur des images. En fournissant des images annotées avec des boîtes de délimitation (bounding boxes) entourant les objets d'intérêt, les développeurs peuvent créer des ensembles de données complets qui aident les modèles à reconnaître les modèles et les associations entre les classes d'objets et les caractéristiques. Ces ensembles de données constituent la base de l'entraînement de différents modèles d'apprentissage en profondeur, y compris les réseaux neuronaux pour la reconnaissance et la classification d'objets.

Réseaux neuronaux et applications de vision par ordinateur

Les réseaux neuronaux, en particulier les modèles d'apprentissage profond tels que les réseaux neuronaux convolutionnels (CNN), ont révolutionné les applications de vision par ordinateur. L'objectif de ces applications est d'apprendre aux machines à interpréter et à comprendre les informations visuelles du monde. En apprenant automatiquement des caractéristiques et des modèles à partir d'images, ces modèles rendent la création manuelle de caractéristiques superflue. En utilisant des bounding boxes annotées pendant le processus d'apprentissage, les réseaux neuronaux peuvent apprendre efficacement à localiser et à identifier des objets dans des images, ce qui conduit à des progrès significatifs dans l'IA documentaire et d'autres domaines de la vision par ordinateur.

Intégrer les bounding boxes dans les modèles de reconnaissance d'objets

L'intégration des bounding boxes dans les modèles de reconnaissance d'objets tels que YOLO, SSD et Faster R-CNN est essentielle pour leur apprentissage. Ces modèles utilisent des ensembles de données annotés contenant des bounding boxes pour apprendre à prédire les positions et les classes d'objets dans les images. Au cours du processus d'entraînement, les modèles de reconnaissance d'objets utilisent ces annotations pour optimiser leurs paramètres, ce qui se traduit par une meilleure précision de prédiction. Une fois entraînés, ces modèles peuvent générer des bounding boxes autour d'objets dans de nouvelles images non vues, permettant ainsi une extraction d'informations efficace et précise dans différentes applications, y compris Document AI.

Fichiers d'images et de documents

Jeux de données d'images

De nombreux ensembles de données d'images et de documents peuvent être utilisés pour l'entraînement de modèles neuronaux de traitement d'images, notamment

  1. COCO (Common Objects in Context) : Un ensemble de données largement utilisé qui contient 330.000 images avec des annotations pour 80 classes d'objets et qui se concentre sur la reconnaissance d'objets, la segmentation et les tâches d'étiquetage.
  2. Pascal VOC : un ensemble de données populaire pour la reconnaissance et la segmentation d'objets, comprenant 11.530 images annotées pour 20 classes d'objets.
  3. Images ouvertes : Un vaste ensemble de données comprenant 9 millions d'images et d'annotations pour plus de 600 classes d'objets, adapté aux tâches de reconnaissance d'objets, de segmentation et de reconnaissance de relations visuelles.
  4. ADE20K : un ensemble de données pour l'analyse de scènes contenant 20 210 images avec des annotations pour 150 classes d'objets utiles pour les tâches de segmentation sémantique.

Fichiers de documents

  1. RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing) : Un ensemble de données contenant 400.000 images de documents en niveaux de gris avec des annotations pour 16 catégories de documents, adapté aux tâches de classification de documents.
  2. ICDAR (International Conference on Document Analysis and Recognition) : Une série d'ensembles de données publiés en relation avec la conférence ICDAR et axés sur des tâches telles que la reconnaissance de texte, la reconnaissance et la segmentation dans les images de documents.
  3. PubLayNet : un vaste ensemble de données contenant plus de 360.000 images de documents et des annotations pour cinq éléments de mise en page courants (texte, titre, liste, tableau et illustration), conçu pour l'analyse et la segmentation des mises en page de documents.
  4. FUNSD (Form Understanding in Noisy Scanned Documents) : Un ensemble de données de 199 formulaires numérisés avec des annotations pour des tâches de compréhension de formulaire, y compris la reconnaissance de texte, l'extraction de paires clé-valeur et la segmentation de champs de formulaire.
  5. DocBank : un vaste ensemble de données contenant 500.000 images de documents annotées selon 13 catégories et des informations à grain fin au niveau du jeton, conçu pour l'analyse de la mise en page des documents et l'extraction d'informations.

Ces ensembles de données couvrent différents aspects du traitement des images et des documents, fournissant une base solide pour l'entraînement des modèles de vision neuronale dans diverses tâches de vision par ordinateur et d'IA documentaire.

Documents de recherche sur les modèles d'IA de Bounding Box

  1. "EfficientDet : Scalable and Efficient Object Detection" par Mingxing Tan, Ruoming Pang et Quoc V. Le.
  2. "Cascade R-CNN : High-Quality Object Detection and Instance Segmentation" par Zhaowei Cai et Nuno Vasconcelos.
  3. "YOLOv4 : vitesse et précision optimales de la reconnaissance des objets" par Alexey Bochkovskiy, Chien-Yao Wang et Hong-Yuan Mark Liao.
  4. "FCOS : Fully Convolutional One-Stage Object Detection" par Zhi Tian, Chunhua Shen, et Hao Chen.
  5. "DETR : End-to-End Object Detection with Transformers" par Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov et Sergey Zagoruyko.

Konfuzio SDK - Formation à la récupération de données et à la bounding box

Le site Konfuzio SDK offre une solution complète pour récupérer des données et des bounding boxes à partir de documents, ce qui vous permet d'entraîner efficacement vos modèles. Les principales fonctionnalités du Konfuzio SDK sont les suivantes :

  1. Extraction de données : le SDK permet d'extraire du texte, des images, des tableaux et d'autres éléments de documents avec une grande précision.
  2. Création de bounding boxes : elle permet de créer des bounding boxes précises autour des éléments de texte et facilite ainsi l'extraction et la classification précises des données.
  3. Formation de modèles personnalisés : le SDK prend en charge la formation de modèles personnalisés à l'aide de vos données étiquetées, garantissant ainsi de meilleures performances et une meilleure adaptabilité à votre cas d'utilisation spécifique.
  4. Intégration avec les frameworks courants : le SDK Konfuzio s'intègre de manière transparente avec les frameworks d'apprentissage profond courants tels que TensorFlow et PyTorch, ce qui vous permet de profiter des dernières recherches et techniques.
  5. Amélioration continue : le SDK permet d'améliorer continuellement vos modèles grâce à l'apprentissage actif, garantissant ainsi que votre système d'IA pour documents reste à jour et répond à l'évolution des besoins.

Défis et perspectives d'avenir pour la prédiction de la bounding box

Les modèles d'IA bounding box ont transformé le domaine de l'IA pour les documents en offrant des fonctions de segmentation de pages précises et efficaces. Les recherches les plus récentes montrent les progrès continus dans ce domaine.

Malgré des progrès considérables dans la prédiction des bounding boxes et leurs applications dans l'IA pour les documents, des défis subsistent. L'un de ces défis est la prédiction précise des bounding boxes pour des objets très confus ou qui se chevauchent. En outre, les performances des modèles de reconnaissance d'objets dépendent fortement de la qualité et de la quantité des ensembles de données annotés.

Comme la demande de systèmes d'IA plus précis et plus efficaces pour les documents augmente, les recherches futures se concentreront probablement sur la manière de relever ces défis en développant des techniques innovantes pour améliorer la prédiction de la bounding box, en utilisant l'apprentissage non supervisé ou semi-supervisé et en créant des ensembles de données plus variés et plus vastes à des fins de formation.

De nouvelles techniques, telles que le "few-shot learning" et le "transfer learning", sont prometteuses pour réduire la dépendance vis-à-vis de grands ensembles de données annotés ou pour apprendre en continu à partir du feedback humain, voir notre article Homme dans la boucle. Ces approches peuvent contribuer à réduire la charge des annotations manuelles et permettent aux modèles de mieux généraliser à travers différents types de documents et de mises en page.

En outre, l'intégration des techniques de traitement du langage naturel (NLP) avec les modèles d'IA de Bounding Box peut contribuer à améliorer la compréhension du contexte et de la sémantique dans les documents. Cette synergie peut conduire à une extraction et à une classification plus intelligentes des informations, permettant ainsi aux systèmes d'IA documentaire de mieux comprendre et traiter les documents complexes.

Un autre domaine de recherche qui contribuera probablement au développement des modèles d'IA bounding box est le perfectionnement des techniques d'optimisation matérielle et logicielle. Étant donné que les modèles d'apprentissage profond deviennent de plus en plus complexes et nécessitent de plus en plus de calculs, il sera essentiel d'améliorer l'efficacité des prédicteurs de bounding box. Les innovations dans le domaine du matériel, telles que les processeurs graphiques et les puces d'IA spécialisées, ainsi que les optimisations logicielles et les avancées algorithmiques, joueront un rôle important dans le progrès continu de Document AI.

En résumé, l'avenir de l'IA documentaire semble prometteur, car les chercheurs et les développeurs continuent de repousser les limites de ce qui est possible avec les modèles d'IA bounding box et les techniques connexes. Au fur et à mesure que ces technologies se développent, nous pouvons nous attendre à des systèmes d'IA documentaire encore plus précis, efficaces et adaptables, capables de gérer un large éventail de tâches et de défis dans différents secteurs et domaines.

À propos de moi

Autres grands articles

Guide complet de Jupyter Notebook sur macOS

Guide complet de Jupyter Notebook sur macOS

Jupyter Notebook est un outil populaire parmi les scientifiques de données et les chercheurs en raison de son environnement Python interactif. Dans ce tutoriel, nous allons examiner...

Lire l'article

Comment trouver le bon fournisseur Intelligent Document Processing

En fait, l'automatisation des tâches manuelles est une vieille histoire. Au 18e siècle déjà, les entreprises utilisaient des dispositifs mécaniques pour les tâches répétitives...

Lire l'article
zero trust photo de couverture

Zero Trust : redéfinissez la sécurité du réseau 

Le modèle Zero Trust est considéré comme une approche pionnière de la sécurité des réseaux. Contrairement à...

Lire l'article
Arrow-up