Depuis de nombreuses années, le format de fichier PDF s'est établi comme standard pour la distribution numérique de documents. Chaque appareil, qu'il s'agisse d'un PC, d'un smartphone ou d'une tablette, est en mesure de lire les PDF. Les visionneuses ont été gratuites dès le début. Cela a massivement contribué à leur large diffusion.
Le format est également en constante évolution, par exemple pour pouvoir remplir des formulaires ou apposer des signatures. Les problèmes commencent toutefois lorsque l'on souhaite traiter les informations au sein du document PDF. Le copier-coller manuel fonctionne rarement, car le texte est souvent enregistré sous forme d'image, sans parler de l'aspect temporel. Les fournisseurs ont abordé cette problématique de différentes manières afin que la conversion PDF vers texte puisse être effectuée de manière structurée, automatisée et intelligente. Nous allons examiner ces processus de plus près.
Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.
Contexte de la conversion de texte en PDF
Quand on parle de conversion de PDF en texte, on fait généralement référence au processus par lequel les convertisseurs extraient automatiquement le contenu textuel d'un document PDF et le convertissent en un format texte modifiable. Cela peut être utile si l'on souhaite traiter le texte d'un document PDF ou l'utiliser dans une autre application. Il existe de nombreux outils et services qui automatisent ce processus et facilitent la conversion de PDF en texte.
Certains de ces outils permettent également de conserver des éléments de mise en page ou de formatage spécifiques, tels que des tableaux ou des paragraphes, afin de s'assurer que le texte est reproduit aussi fidèlement que possible dans la nouvelle application. La conversion de PDF en texte peut également être utile si l'on souhaite extraire le texte d'un document PDF numérisé dans lequel les caractères ne sont présents que sous forme d'informations d'image. Pour cela, on utilise des technologies OCR (Optical Character Recognition) qui interprètent les informations de l'image et génèrent le texte.
En fonction des possibilités de l'utilisateur et des objectifs de la conversion d'un PDF en texte, Konfuzio propose différentes possibilités d'extraction du texte (par ex. sous forme de fichier TXT ou Word). Voici un aperçu de ces possibilités :
- Le processus manuelPour les conversions occasionnelles, les fichiers PDF peuvent être téléchargés manuellement sur des plateformes de conversion afin de récupérer le texte lu sous forme de téléchargement et de le traiter individuellement.
- Par interface de programmation (API)Pour les volumes de documents plus importants, des processus efficaces d'automatisation des conversions de PDF en texte peuvent être créés avec un peu de programmation grâce à des API flexibles.
- Via les bibliothèques de programmesLa fonctionnalité de conversion est disponible directement dans le code source de l'application via les bibliothèques de programmes. Les offres pour le langage de programmation Python sont très appréciées à cet égard.
Variante 1 - Instructions pour le processus manuel
- Ouvre un convertisseur public de PDF en texte. Ceux-ci permettent souvent des conversions gratuites.
- Suis les instructions de la plate-forme pour télécharger ton propre fichier PDF de ton ordinateur local vers la plate-forme.
- Après avoir téléchargé le fichier PDF, la plate-forme génère le texte pur, généralement encore non structuré. Le texte est soit disponible dans un champ de texte sur le site web pour être copié. Ou bien l'application a généré un fichier texte à télécharger.
- Copie le texte du fichier généré ou de la page web directement dans le TextView de la plateforme Konfuzio.
- Applique ici simplement des labels (annotations) directement sur les données encore non structurées afin d'entraîner l'intelligence artificielle à la forme spécifique des données.
Variante 2 - Instructions pour le PDF vers texte par API
Cette variante présuppose des connaissances en programmation. En outre, il faut avoir une idée claire des catégories de documents que l'on peut attendre, afin que le traitement ultérieur des textes après la conversion soit aussi efficace que possible.
- Le document est chargé sur le serveur par une commande API. Pour cela, on indique la catégorie et le projet correspondant (Essaye ici)
- Dès que le téléchargement a réussi, le document apparaît dans l'interface de l'administrateur Konfuzio, déjà attribué à la bonne catégorie.
- Les informations textuelles ont alors déjà été extraites du PDF par Konfuzio et sont à la disposition du programme (Essaye ici)
- Le fichier peut maintenant être ouvert via l'interface administrateur afin d'attribuer des annotations aux informations textuelles pour les catégoriser. Avec une IA entraînée, cette étape est également automatisée.
Une vidéo très claire présente une introduction complète au travail avec l'API. ici.
Variante 3 - Instructions pour l'utilisation du SDK Python
Pour les développeurs déjà familiarisés avec Python, l'utilisation du Konfuzio Python SDK comme bibliothèque de code pour l'intégration rapide des fonctionnalités de conversion et de traitement est particulièrement simple. L'intégration des appels à l'API y est déjà mise en œuvre de manière conviviale. Il est très puissant, mais nous nous concentrerons ici sur la conversion de PDF en texte.
- S'il s'agit de la première utilisation des fonctionnalités du SDK, le développeur doit d'abord le télécharger et l'installer sur son propre environnement de développement. (En savoir plus ici)
- Importe la bibliothèque de programmes SDK dans ton propre code source :
from konfuzio_sdk.data import Project
- Le document PDF à charger doit pouvoir être trouvé par le programme. Il peut se trouver en ligne ou sur le disque dur local. Le fichier est ouvert et les données binaires sont stockées temporairement pour être traitées dans l'environnement cible.
- L'étape suivante consiste à configurer la commande upload_file_konfuzio_api de Konfuzio avec les paramètres nécessaires (nom de fichier, ID du projet, statut) et à l'exécuter.
- Dès que le téléchargement est terminé, la plateforme a déjà converti le PDF en texte par OCR. Celui-ci peut être lu facilement via l'objet project.
Le code ressemble à ceci dans l'aperçu :
from konfuzio_sdk.data import Project
project = Project(id_=11957)
from pathlib import chemin
import requests
filename = Path('energiezertifikat.pdf')
url = 'https://www.energieausweis-online-erstellen.de/app/uploads/2016/09/muster-bedarfsausweis.pdf'
response = requests.get(url)
print(response.status_code)
response = requests.get(url, stream=True)
if response.status_code == 200 :
with open(filename, 'wb') as pdf_object :
pdf_object.write(response.content)
print(f'{filename} was successfully saved!')
from konfuzio_sdk.api import upload_file_konfuzio_api
request = upload_file_konfuzio_api(filename, project_id=project.id_, dataset_status=2)
project.get(update=True)
[document.status for document in project.documents]
project.documents[-1].text
Le traitement des images se déroule de manière très similaire. De nombreux autres exemples et instructions pour l'utilisation du Konfuzio Python SDK peuvent être consultés ici.
Texte extrait et que faire ?
Comme le montrent les exemples, il ne suffit pas de convertir les documents. Ce n'est que lorsque le texte peut être réutilisé qu'il y a une valeur ajoutée à l'effort de conversion. Avec Konfuzio, il est possible d'étiqueter manuellement des types de données (la date du Facture ou le numéro de compte). Mais ce n'est que la toute première étape. Car en arrière-plan se trouve l'intelligence artificielle qui analyse tous les nouveaux documents. Les étiquettes manuelles servent de matériel d'entraînement pour l'IA. Elle prend rapidement le relais et est de plus en plus en mesure d'identifier et de classer les données au sein des textes. Elle peut apprendre différents types de documents. Ainsi, même de grandes quantités de documents sont rapidement analysées, les données sont structurées et les informations sont préparées pour une utilisation ultérieure. Ainsi, les données des fichiers PDF peuvent être intégrées dans les processus commerciaux suivants avec un effort manuel nettement réduit et traitées de manière automatisée être.