De nos jours, de nombreuses technologies font naturellement partie de notre quotidien. Les vidéos sont automatiquement embellies. Les boutiques en ligne savent avant nous ce que nous voulons acheter. Une image, comme le JPG ou le PNG, ou un fichier PDF d'un menu grec suffit pour une traduction automatique. Nous partons du principe qu'il s'agit d'intelligence artificielle, avec une grande puissance de calcul. Ils ne sont remis en question que lorsque quelque chose ne fonctionne pas comme nous l'imaginons. Mais les ordinateurs ne sont pas plus intelligents que les algorithmes et les données que nous leur fournissons.
Et c'est là qu'intervient JSON, une structure qui rend le traitement possible. S'il ne s'agit que de transmettre les PDF dans un format pratique, l'utilisation de JSON pour la sérialisation du fichier PDF binaire est suffisante. Voici un aperçu clair ici. Mais qu'en est-il lorsque les données doivent être extraites des PDF de manière structurée pour pouvoir ensuite être traitées ? C'est ce que nous expliquons plus en détail dans cet article.
Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.
Qu'est-ce que JSON exactement ?
JSON est l'abréviation de Notation d'objet JavaScript. Il offre un format clair pour stocker des données structurées. Les données structurées sont par exemple les données personnelles sur un formulaire de demande. Ou encore la liste des plats et des boissons sur un menu. À l'origine, les développeurs utilisaient JSON pour transmettre des données dans les systèmes informatiques. Les données que les utilisateurs saisissent dans une application mobile en sont un exemple. Pour les transmettre au serveur, le programme traduit les données au format JSON. L'avantage ici est que les fichiers JSON sont également lisibles par les humains. Avant l'utilisation de JSON, les fichiers XML étaient utilisés à cet effet. Mais ceux-ci sont plus difficiles à lire et nécessitent beaucoup plus d'espace mémoire et donc de temps de transmission.
Regardons un exemple. Supposons un fichier PDF qui contient les données de cette image.

Le PDF contient des données personnelles dans différentes catégories. Les données et les catégories du fichier peuvent être structurées de la manière suivante lors de la conversion en JSON :
{
"Attorney" :
{
"Name" : "John Doe & Jane Doe",
"First Name" : null,
"Address" :
{
"Street Number" : "1234",
"Street Name" : "ABC Street",
"City" : "San Francisco",
"State" : "CA"
"ZIP Code" : "94102"
}
"Telephone No" : "415-123-4567",
"E-Mail" : "[email protected]",
"Fax-No" : null
}
}
La structure du format JSON peut être structurée à volonté en fonction des exigences. Tous les champs peuvent être représentés. Même les tableaux complexes peuvent être facilement représentés grâce à l'imbrication. Des valeurs vides sont possibles et il est possible de définir des textes ou des chiffres. La complexité de la conversion survient lorsque les données ne proviennent plus d'un formulaire en ligne, mais d'un PDF.
Pourquoi ne pas utiliser XML ou HTML pour la conversion des PDF ?
XML offre également la possibilité de représenter les structures complexes. De gros efforts ont été faits pour formaliser ces structures par le biais de schémas et de définitions XML. Mais cela n'a rien changé au fait que les fichiers transmis contiennent beaucoup d'informations redondantes. Une partie significative de la transmission est constituée de la structure XML et non des données lues.
Le HTML est, à y regarder de plus près, également un format XML. De plus, le HTML n'a pas été conçu pour l'échange de données. Au lieu de cela, il sert exclusivement à définir la mise en page des pages web. HTML structure les pages, permet l'intégration d'informations graphiques ou de fonctions interactives via des langages de script ou des bibliothèques comme JavaScript ou Vue.JS. Utiliser HTML pour l'échange de données, c'est comme manger de la soupe avec des baguettes : c'est possible mais fastidieux.
Comment fonctionne la conversion PDF en JSON ?
Les fichiers PDF peuvent contenir une forme clairement définie. C'est ce que nous voyons par exemple dans les formulaires officiels, par exemple de l'état civil ou de l'administration fiscale. Mais il existe également de nombreux formats libres. Les lettres contiennent typiquement une adresse, une date ou éventuellement des informations bancaires. Le format, l'écriture, la position ou l'exhaustivité peuvent toutefois varier considérablement.
Pour les deux formats PDF, la reconnaissance de texte (OCR) est utilisée. Il reconnaît les caractères et les convertit en textes que l'ordinateur peut lire. Il est déjà important de choisir le bon logiciel pour éviter les erreurs dès la première étape. Le numéro de téléphone est-il correctement reconnu ? Les inscriptions manuscrites peuvent-elles être reconnues ? Y a-t-il des taches ou des impressions difficiles à lire ? Des algorithmes sophistiqués, soutenus par des Intelligence artificielleLes outils d'aide à la décision, tels que les logiciels, permettent de contourner ces obstacles.
Convertir des structures PDF connues
Pour les PDF dans des formats connus, l'algorithme peut alors déjà reconnaître le contexte grâce à la position du texte reconnu. L'algorithme identifie ainsi le nom, l'adresse, etc. et peut directement convertir ces informations en une structure JSON. Il existe pour cela un modèle, un format prédéfini dans lequel les données trouvées sont inscrites. Le programme peut également identifier rapidement les données manquantes.
Convertir des PDF complexes en JSON
Les fichiers PDF avec des contenus complexes ou des structures inconnues nécessitent plus d'intelligence. La catégorisation ne peut plus se faire par saisie manuelle. Au lieu de cela, une approche basée sur l'intelligence artificielle est nécessaire. L'algorithme est entraîné pour une classe de documents, par exemple FacturesIl apprend ainsi à reconnaître les informations pertinentes. Il apprend à partir de nombreux exemples PDF à quoi peut ressembler une adresse ou des informations bancaires. Il apprend qu'une date peut avoir différents formats (18 janvier 2023, 18-01-2023 ou 2023/01/18). C'est ainsi que des catégories apparaissent dans le réseau d'IA, qui peuvent ensuite être transférées au format JSON. On peut en outre implémenter une logique de repli si l'IA n'est pas encore en mesure d'identifier certaines catégories avec certitude.
Utiliser Python pour convertir le PDF en JSON
Pour le traitement, il existe différentes bibliothèques, produits et fournisseurs qui proposent une très bonne reconnaissance de texte et un support de l'IA. Un langage de programmation très populaire pour gérer les capacités, entraîner les algorithmes d'IA et convertir les fichiers d'entrée en JSON est Python. Python est un langage de script simple mais puissant. Depuis longtemps, Python est largement utilisé, notamment dans les applications d'intelligence artificielle. Grâce à la grande disponibilité de bibliothèques de programmation spécialement conçues pour Python, l'intégration des algorithmes de conversion est extrêmement simple.
Sur Konfuzio un exemple simple d'entraînement de l'IA en Python (Dans l'extrait) ressemble à ceci :
project = Project(id_=None, project_folder=OFFLINE_PROJECT)
category = project.get_category_by_id(63)
pipeline = RFExtractionAI(use_separate_labels=True)
pipeline.category = catégorie
pipeline.test_documents = category.test_documents()
...
evaluation = pipeline.evaluate_full()
pipeline_path = pipeline.save(output_dir=project.model_folder)
Pas à pas du PDF au format JSON
Le processus de conversion de PDF en JSON peut être résumé ainsi :
- L'entraînement de l'IA
Il faut d'abord configurer l'application et, surtout, l'intelligence artificielle du système. être formé aux formats de documents pertinentsn. Cela signifie que des exemples de documents sont chargés dans l'application et que le système apprend ainsi à reconnaître quelles informations sont pertinentes et comment les trouver.
- Le téléchargement du fichier PDF
Une fois la formation réussie, l'interface permettant le téléchargement est mise en place. Il peut s'agir par exemple d'une application mobile ou d'un site web. Des processus automatiques peuvent également être mis en place, par exemple pour examiner les e-mails entrants à la recherche de PDF. Le système les télécharge ensuite automatiquement sur le serveur de traitement.
- Extraction des données
L'application commence alors automatiquement, avec l'aide de l'IA, à reconnaître les champs de données appris et à les convertir sous forme de texte dans le format JSON défini au préalable. Les documents qui n'étaient pas lisibles ou dont les résultats étaient très incertains sont marqués et peuvent être décodés par l'analyse humaine. L'IA continue d'apprendre avec chaque document.
- Traitement du fichier JSON
En règle générale, le fichier JSON complet n'est pas traité manuellement. Au lieu de cela, il sert à d'autres systèmes à la suite du traitement, afin d'utiliser les données lues de manière automatisée pour des analyses, des processus commerciaux ou des mises à jour de la base de données.
Plus de détails et un guide pas à pas Instructions avec des exemples de code se trouve ici.
Le guide montre également que le choix du fournisseur dépend de la qualité des fonctions, mais aussi de l'utilisabilité. Les fonctions doivent être bien documentées, même pour les débutants, afin que les performances puissent être réellement exploitées.
L'image globale compte
Un autre avantage de la conversion de PDF en JSON est sa grande compatibilité avec d'autres applications. Presque tous les fournisseurs d'applications de données permettent le traitement de JSON. Ainsi, on ne dépend pas d'un seul fournisseur dans la chaîne de traitement. Le site autre traitement des données lues peut être repris par des solutions cloud ou des applications locales, par exemple pour écrire les informations dans les bonnes bases de données, convertir des tableaux en fichiers Excel, générer automatiquement des lettres de réponse ou effectuer des virements. L'entreprise peut ainsi toujours choisir les meilleurs produits et solutions pour chaque étape de travail (best-of-need) et peut également remplacer à l'avenir certains composants sans devoir investir dans une infrastructure entièrement nouvelle.
Il existe une grande variété d'outils qui se chargent de cette tâche. En bref, il s'agit d'utiliser les outils les plus intelligents possibles (intelligence artificielle) afin d'augmenter le traitement grâce à un faible nombre d'erreurs. Cela nécessite également un bon entraînement de l'IA. Pour en savoir plus, consultez cet article.
Il existe également de bonnes solutions pour la conversion (retour) en PDF. On utilise ici des modèles de mise en page. Ceux-ci définissent l'aspect du fichier résultant. Un programme de conversion insère ensuite les données disponibles au format JSON dans ce modèle et génère un nouveau fichier PDF.
Cela peut également être réalisé avec d'autres formats de fichiers (par ex. Word ou Excel).
D'une manière générale, les méthodes modernes Programmes OCR lire tous les formats contenant des informations textuelles sous forme d'images et les convertir en JSON. Outre le PDF, il s'agit également de formats d'image tels que TIFF, PNG ou JPEG.
Il est important que la compression du fichier image ne soit pas trop forte. Cela permet d'éviter les artefacts artificiels et les caractères mal interprétés. Les fichiers générés par les scanners de documents ont en général une résolution et une qualité suffisantes. Avec les solutions OCR actuelles, même les photos prises sur des appareils mobiles sont suffisantes pour une analyse correcte. La qualité de la reconnaissance de texte augmente alors également le succès de la conversion en JSON.
- Informations sur la sérialisation de PDF à l'aide de JSON : https://wikis.ec.europa.eu/download/attachments/36701338/Mooney-Binary-Encodings.pdf?version=1&modificationDate=1633696451409&api=v2
- Définition détaillée de JSON : https://www.w3schools.com/js/js_json_intro.asp
- Aperçu du XML par w3schools : https://www.w3schools.com/xml/xml_whatis.asp
Schreibe einen Kommentar