Guide du Tesseract (1) - Installation, configuration et formation

Le Tesseract est une Moteur de reconnaissance optique des caractères (OCR)Le logiciel est issu de HP Labs et a été publié en 2005 en tant que projet open source. En 2006, Google a repris le développement et n'a cessé depuis de fournir des améliorations et des mises à jour. Aujourd'hui, Tesseract est devenu un moteur d'OCR très répandu qui prend en charge plus de 100 langues.

Par rapport aux logiciels OCR propriétaires, Tesseract offre non seulement une OCR gratuit moteur, mais aussi la possibilité d'améliorer en permanence la qualité de la reconnaissance de texte par des le feedback humain d'améliorer la qualité de la détection. C'est même souvent nécessaire, car l'installation conventionnelle de l'outil ne permet pas d'obtenir une qualité optimale lors de la détection.

Dans notre guide Tesseract en deux parties, nous expliquons comment fonctionne le logiciel et comment l'utiliser au mieux. Dans la première partie, nous vous montrons comment installer, configurer et former correctement l'outil.

Dans la deuxième partie, que vous ICI vous apprendrez à quoi il faut faire attention lors de l'utilisation de Tesseract OCR et quelles sont les meilleures pratiques à suivre.

1. fonctionnement du Tesseract

tesseract

Tesseract travaille en plusieurs étapes pour extraire le texte des images. Tout d'abord, il effectue un prétraitement de l'image afin d'optimiser la qualité pour la reconnaissance de texte. Ensuite, Tesseract OCR segmente l'image en blocs de texte, lignes et mots et analyse la structure du texte.

Au cours de la phase de prétraitement Leptonica en jeu, également une Bibliothèque open sourcequi est responsable du traitement et de la manipulation des images. Avec Leptonica, les images sont optimisées en réduisant le bruit, en normalisant les couleurs et en ajustant l'échelle afin d'augmenter l'efficacité de l'apprentissage automatique de Tesseract. En dehors de cela, Leptonica ne s'occupe pas de la reconnaissance et de l'extraction de texte, qui relèvent de la compétence exclusive de Tesseract.

Lors de la phase de reconnaissance, l'outil utilise l'apprentissage automatique pour identifier les caractères dans les images. Depuis la version 4.0, le logiciel a mis l'accent sur les réseaux de mémoire à long terme (LSTM) afin d'améliorer encore la précision de la reconnaissance. Enfin, l'outil effectue un post-traitement afin de corriger les caractères mal reconnus et de générer le résultat textuel final.

exemple de tesseract

2. domaines d'application du Tesseract

Tesseract OCR trouve son application dans différents domaines où la conversion de documents numérisés, d'images ou de PDFs en texte modifiable est nécessaire. Voici quelques-uns des cas d'utilisation les plus courants :

  • Automatisation de la saisie des données et Extraction de texte
  • Numérisation de livres et de matériel d'archives
  • Reconnaissance de texte sur les cartes de visite et les formulaires
  • Reconnaissance automatique de textes dans les images
  • Reconnaissance des plaques d'immatriculation et des panneaux de signalisation
  • Reconnaissance de texte avec Tesseract sur les appareils mobiles et les services web

Tesseract est un moteur d'OCR polyvalent et puissant qui peut être utilisé aussi bien par les développeurs que par les utilisateurs finaux. Il offre une base solide pour les projets OCR et peut être adapté à des besoins spécifiques.

installation de tesseract

3. installation et configuration de Tesseract

Grâce à ses réseaux neuronaux avancés, Tesseract atteint un nouveau niveau de reconnaissance de texte. Voici comment installer et configurer correctement ce logiciel open source :

3.1 Configuration requise

Tesseract OCR peut être installé sur différentes plates-formes. Pour que le moteur fonctionne efficacement et sans problème, certaines exigences du système doivent être remplies. Il s'agit notamment d'un processeur dual core de 2 GHz au minimum et de 2 Go de RAM.

Pour traiter de grandes quantités de texte, il est toutefois recommandé d'utiliser un processeur quadricœur ou supérieur et au moins 4 Go de RAM.

En principe, on peut dire que plus la capacité de mémoire du système est importante, plus le processus de traitement est rapide. Cela est particulièrement vrai lors de la création d'OCR pour des livres entiers ou des fichiers texte plus volumineux.

3.2 Installation sur différentes plates-formes

Vous pouvez installer Tesseract OCR sur Windows, macOS et Linux. Si vous avez des questions ou des problèmes pendant l'installation, vous pouvez consulter la documentation officielle du logiciel.

3.2.1 Installer le Tesseract sur Windows

L'installation sur Windows est simple et rapide. Après avoir téléchargé la dernière version, vous pouvez lancer le programme d'installation qui installe automatiquement les dépendances (dependencies) comme Leptonica et Brew.

Pendant l'installation, vous pouvez personnaliser les paramètres. Nous vous recommandons de sélectionner tous les composants nécessaires, en particulier les données linguistiques. Les données linguistiques permettent une reconnaissance optimale du texte avec le logiciel Tesseract. Pour l'installation, vous avez besoin d'au moins Windows 7.

3.2.2 Installer Tesseract sur macOS

Pour installer Tesseract sur macOS, vous avez besoin d'au moins la version 10.7.5. Comme pour Windows, vous devriez installer les modules de langue dont vous avez besoin pendant l'installation. Toutefois, si vous n'avez pas choisi cette option, vous pourrez le faire plus tard. Il vous suffira alors d'installer manuellement les modules de langue dans le répertoire que vous avez sélectionné lors de l'installation de l'outil.

3.2.3 Installer Tesseract sur Linux

L'installation du moteur d'OCR Tesseract sur les systèmes Linux est un peu plus complexe que sur Windows et macOS. Pour cela, il faut d'abord télécharger et installer les paquets nécessaires. Ceux-ci varient en fonction de la distribution Linux, mais la plupart des distributions nécessitent le paquet "tesseract-ocr". Pour installer ce paquet, vous pouvez utiliser la commande suivante :

sudo apt-get install tesseract-ocr

Certaines distributions peuvent également nécessiter le paquet "tesseract-ocr-all" pour installer tous les supports linguistiques.

Après l'installation des paquets, Tesseract OCR peut être lancé. Vous pouvez à tout moment installer des modules linguistiques supplémentaires pour étendre le logiciel. Pour cela, vous pouvez soit télécharger les modules manuellement, soit les installer via le système de gestion des paquets de la distribution Linux utilisée. Par exemple, pour installer le module linguistique pour l'allemand, vous pouvez utiliser la commande suivante :

sudo apt-get install tesseract-ocr-deu

Pour utiliser l'interface graphique de Tesseract sous Linux, vous devez généralement l'installer à partir du paquet "tesseract-ocr" :

sudo apt-get install tesseract-ocr

Après l'installation, l'interface graphique peut être lancée en saisissant la commande "tesseract_gui" dans la ligne de commande.

3.3 Configuration des variables d'environnement

Pour exécuter correctement Tesseract Solutions sur un système d'exploitation, vous devez configurer les variables d'environnement en conséquence. Celles-ci aident l'outil à trouver les ressources et les fichiers dont il a besoin et à y accéder.

Par exemple, pour Windows, vous devez inclure le répertoire où se trouve le répertoire d'installation de Tesseract dans la variable PATH de la variable d'environnement.

Ainsi, le logiciel Tesseract peut accéder aux fichiers nécessaires, quel que soit le dossier dans lequel ils sont placés. Des étapes similaires doivent être suivies pour macOS et Linux. Ici aussi, il est nécessaire de spécifier les répertoires dans lesquels les fichiers du logiciel sont stockés.

Francesco Piscani montre dans la vidéo suivante comment l'installation et la configuration du logiciel fonctionnent sous Linux :

4. formation du Tesseract

Même le meilleur moteur d'OCR n'est bon que dans la mesure où sa base de données l'est aussi. Alors que les fonctions standard de Tesseract permettent d'effectuer rapidement des tâches OCR simples, le logiciel a besoin d'une formation pour des cas d'application spécifiques. Ceci est essentiel pour obtenir des résultats optimaux.

Pour améliorer les performances de l'outil, vous devez adapter les modèles OCR à des cas d'utilisation spécifiques. Ce processus est appelé formation. Il comprend généralement la création de données de formation, le réglage fin des modèles OCR existants ainsi que l'évaluation et la mesure des performances. Ce n'est qu'après cela que l'outil est en mesure de lire sans erreur les données de documents plus complexes, comme celui présenté ci-dessous.

tesseract documents ocr

4.1 Création de données d'entraînement

Pour former le logiciel Tesseract, vous avez besoin d'une collection suffisamment grande d'images ou de documents d'exemple. Ces données doivent être déjà annotées.

Pour effectuer le plus rapidement possible l'annotation (fastidieuse) des données, vous pouvez recourir à différents outils. Ceux-ci permettent d'automatiser - ou du moins d'accélérer - le processus.

Un exemple de ce type d'outil est le programme Lios. Il s'agit d'un outil open source spécialement conçu pour la sortie de textes reconnus par OCR. Il peut aider à créer des données d'entraînement en annotant automatiquement, ce qui réduit la charge de travail.

Autres Données de formation Tesseract peuvent en outre être téléchargés via GitHub.

Une autre option pour obtenir des données de formation est d'utiliser des modèles pour améliorer vos besoins en matière d'extraction de données. Par exemple, vous pouvez utiliser des modèles existants qui sont similaires à vos structures de données souhaitées pour créer les données de formation correspondantes pour Tesseract OCR. Il s'agit généralement d'une méthode plus rapide et moins coûteuse que la création manuelle de données d'entraînement.

4.2 Fine-tuning de modèles existants

Pour adapter les modèles existants à des cas d'application spécifiques, il convient de les soumettre à une mise au point fine.

Le réglage fin consiste à entraîner des modèles existants avec des données supplémentaires afin d'améliorer les performances du moteur d'OCR Tesseract pour une tâche spécifique.

Il est important de noter que le réglage fin n'est efficace que si les données d'entraînement supplémentaires sont pertinentes pour la tâche spécifique.

Pour le réglage fin, vous devez préparer deux types de fichiers :

  1. le fichier Tesseract-Traineddata
  2. le fichier de points de contrôle LSTM

Le fichier Traineddata contient les données utilisées par Tesseract pendant l'entraînement pour reconnaître les lettres, les mots et les caractères. Le fichier LSTM-Checkpoint contient les informations utilisées par le modèle LSTM pour faire ses prédictions.

Pour extraire un modèle LSTM d'un modèle standard et le préparer pour le fine tuning, suivez les étapes suivantes :

  1. Charger le modèle standard dans Tesseract.

  2. Extraire le modèle LSTM du modèle standard.

  3. Modifier le modèle LSTM pour l'adapter à la tâche spécifique pour laquelle le réglage fin est effectué.

  4. Entraînez le modèle ajusté avec les données d'entraînement supplémentaires et enregistrez les Model Checkpoints.

Les Model Checkpoints sont des résultats intermédiaires de l'entraînement qui sont régulièrement enregistrés pendant le Fine-Tuning.

Ces checkpoints sont importants car ils enregistrent un modèle actuel avec les données d'entraînement les plus récentes. Si l'entraînement est interrompu, le modèle peut être repris avec le dernier checkpoint enregistré.

Une fois que le modèle finement ajusté a été créé, vous pouvez l'utiliser dans l'application ROC. Il est toutefois important de veiller à ce que l'ensemble de formation reflète la pratique qu'il s'agit de reconnaître.

4.3 Évaluation et mesure des performances

L'évaluation et la mesure des performances sont une étape importante pour s'assurer que le moteur d'OCR Tesseract offre la précision et la fiabilité attendues. Pour y parvenir, différents indicateurs sont utilisés pour évaluer les performances de l'OCR.

L'un des indicateurs les plus importants est la précision de lecture. Elle est généralement exprimée en pourcentage et mesure la proportion de caractères correctement reconnus par rapport à l'ensemble des caractères à reconnaître.

En outre, d'autres indicateurs tels que

  • le taux d'erreur,
  • les signes mal reconnus,
  • la vitesse d'exécution et
  • la précision pour les différentes polices et langues

doivent être mesurées. Il est important de prendre en compte les performances attendues dans des conditions d'utilisation réelles et de les comparer à d'autres moteurs ou méthodes d'OCR.

Pour mesurer les performances, vous pouvez utiliser différents outils et techniques, comme par exemple

  • des ensembles de données de test standardisés,
  • une vérification manuelle des résultats,
  • des analyses statistiques ou
  • apprentissage automatique.

Le choix de la méthode dépend de l'application spécifique et des ressources disponibles. Notez toutefois que plusieurs facteurs influencent les performances de l'OCR. Il s'agit notamment de la qualité de l'image, de la police de caractères, de la langue ainsi que de la mise en page et du format du document.

Existe-t-il une alternative au Tesseract ?

Oui, il y en a plusieurs Alternatives au Tesseract-OCR (reconnaissance optique des caractères). En voici quelques-uns :

Abbyy FineReaderCe logiciel OCR offre une grande précision dans la reconnaissance de texte et convient particulièrement bien à la numérisation de livres et de documents. Il prend en charge un grand nombre de langues et dispose de puissantes fonctions d'analyse de la mise en page.

Amazon TextractIl s'agit d'un service d'Amazon Web Services qui offre des fonctions OCR. Il peut non seulement extraire du texte de documents, mais aussi reconnaître des formulaires et des tableaux.

Google Cloud Vision OCRCe service fait partie de Google Cloud Platform et peut reconnaître du texte dans une multitude de langues et de polices.

Veuillez noter que certaines de ces alternatives sont payantes et que leur coût et leurs fonctionnalités peuvent être différents de ceux de Tesseract. Il est toujours important de prendre en compte vos besoins spécifiques avant de choisir une solution OCR.

Guide Tesseract Partie 2 : Utilisation, optimisation des résultats et meilleures pratiques

Lisez maintenant le deuxième partie de notre guide complet. Nous y montrons comment utiliser le logiciel dans la pratique et comment améliorer les résultats fournis. Nous y donnons des conseils de bonnes pratiques qui vous permettront d'obtenir efficacement les résultats dont vous avez besoin.

FAQ

Qu'est-ce que le Tesseract ?

Tesseract est un moteur de reconnaissance optique de caractères de Google. Ce logiciel open source permet de reconnaître et d'extraire du texte à partir d'images et de documents numérisés. Tesseract est l'un des moteurs d'OCR les plus puissants et prend en charge plus de 100 langues.

Comment fonctionne le Tesseract ?

Tesseract extrait le texte des images en plusieurs étapes : Tout d'abord, il optimise la qualité de l'image en la binarisant, en réduisant le bruit et en la mettant à l'échelle. Ensuite, Tesseract segmente l'image en blocs de texte, lignes et mots, afin d'analyser la structure du texte. Lors de la phase de reconnaissance, Tesseract identifie les caractères à l'aide de l'apprentissage automatique, notamment les réseaux de mémoire à court terme (LSTM). Enfin, il corrige les caractères mal identifiés et génère le résultat final du texte.

Quels sont les domaines d'application de Tesseract OCR ?

Tesseract OCR est utilisé par exemple dans l'automatisation de la saisie de données, la numérisation de livres et de matériel d'archivage, la reconnaissance de texte sur des cartes de visite et des formulaires et la traduction automatique de textes en images. Les entreprises des secteurs de la finance et de la santé, entre autres, utilisent cette technologie.

"
"
Avatar de Jan Schäfer

Derniers articles