Bingo des buzzwords : quand les termes techniques échouent

Aujourd'hui, nous adoptons le point de vue de Dan Lucarini, qui, en tant qu'analyste de premier plan pour l'IDP (Intelligent Document Processing), estime que la diversité terminologique dans notre domaine crée plus de confusion qu'elle n'apporte d'avantages. Cependant, comme c'est souvent le cas, il y a deux côtés à une médaille.

Je soupçonne cette salade de mots marketing d'être une conséquence de la FOMO (peur de manquer) massive qui infecte la C-suite.

Dan Lucarini, Documents, contenus, fichiers, enregistrements, données semi-structurées ou non structurées : les étiquettes ont-elles vraiment de l'importance ?

Tout d'abord, il est important de souligner que nous comprenons parfaitement les préoccupations de Dan. Il fait valoir que les termes que nous utilisons pour décrire les types de données que nous traitons - qu'il s'agisse de "documents", de "contenu", de "fichiers", d'"enregistrements", "données semi-structurées" ou "données non structurées". - créent de la confusion et n'ont finalement que peu d'importance. Ce point de vue est compréhensible.

Mais le problème, selon Dan, survient lorsque ces termes sont utilisés de manière inculte et inflationniste. Le jargon de l'industrie, lorsqu'il est utilisé à mauvais escient ou de manière excessive, peut devenir des mots à la mode qui créent la confusion et diluent l'intention initiale des termes.

Nous sommes en partie d'accord. Il est toutefois important de garder à l'esprit que les termes techniques existent souvent pour une bonne raison dans le domaine scientifique et technique. Ils permettent une communication précise et claire entre experts. Toutefois, lorsqu'ils sont sortis de leur contexte d'origine et utilisés de manière inflationniste, ils peuvent effectivement devenir une sorte de "bingo des mots à la mode", dans lequel la véritable signification des termes est perdue.

Explication profane : l'OCR et sa représentation par certaines entreprises

Reconnaissance optique des caractères (OCR) est en fait une technologie qui permet aux ordinateurs de "lire" un texte imprimé ou manuscrit à partir d'images ou de documents imprimés.

Imaginez que vous ayez la photo d'un panneau sur lequel il est écrit "ouvert de 9h à 18h". Vous pourriez Tesseract OCR pour numériser ce texte.

Voici la commande que vous pourriez taper sur votre ligne de commande pour utiliser Tesseract, voir Guide d'installation(en supposant que l'image s'appelle "schild.jpg") :

tesseract bouclier.jpg output

Cette commande dit à Tesseract de prendre l'image "bouclier.jpg" et d'écrire le texte reconnu dans un fichier appelé "output.txt".

Si vous ouvrez ensuite le fichier "output.txt" qui en résulte, vous pourriez voir le texte suivant :

Ouvert de 9h à 18h

Il s'agit maintenant d'un texte 'brut' que vous pouvez continuer à traiter, en partie la position optique des lettres est renvoyée en plus du texte brut, voir BoundingBox. Mais n'oubliez pas que Tesseract (ou tout autre logiciel OCR) ne reconnaît pas automatiquement qu'il s'agit d'heures d'ouverture ou que "9h à 18h" représente des moments spécifiques de la journée. De telles interprétations et analyses vont au-delà des fonctions de base de l'OCR pur.

Mais l'OCR est vite devenu la solution miracle

C'est la fonction de base de l'OCR. Aux premiers jours de la technologie, il s'agissait déjà d'un exploit considérable, car il permettait d'éviter une grande partie du travail manuel et de traiter et de rechercher des textes sous forme numérique.

Cependant, au fil du temps, certaines entreprises ont considérablement élargi la présentation de l'OCR et l'ont commercialisée comme une sorte de solution miracle à une multitude de défis en matière de gestion des données et des documents. Elles ont présenté l'"OCR" comme une solution à des tâches telles que l'extraction de données, l'analyse de texte, la catégorisation automatique de documents et bien d'autres.

En réalité, cependant, bon nombre de ces fonctionnalités avancées ne font pas vraiment partie de la technologie OCR elle-même, mais sont le résultat de l'intégration de l'OCR avec d'autres technologies telles que l'intelligence artificielle, l'apprentissage machine ou Traitement du langage naturel. Ainsi, même les modèles les plus récents, comme ceux de Mise en pageLM, R-CNN ou Pegasus toujours l'OCR comme base.

Des recherches récentes laissent entrevoir la possibilité de se passer complètement de l'OCR en tant que technologie faisant le lien entre l'image et le traitement de texte, voir Papier DONUT.

S'il ne fait aucun doute que ces solutions avancées sont précieuses et peuvent offrir des avantages considérables, il est important de se rappeler que l'"OCR" en soi n'est qu'une pièce du puzzle. Il permet aux machines de "voir" et de reconnaître le texte, mais les fonctionnalités supplémentaires souvent commercialisées sous le terme "OCR" nécessitent des technologies et des compétences supplémentaires.

Avons-nous encore besoin de termes techniques ?

Quel que soit le contenu que vous envoyez, l'IA le décompose en éléments de texte, de mise en page, d'image, de comptage de pages, etc. qui peuvent être lus par la machine.

Dan Lucarini, Documents, contenus, fichiers, enregistrements, données semi-structurées ou non structurées : les étiquettes ont-elles vraiment de l'importance ?

J'apprécie beaucoup l'explication un peu exagérée de Dan. Nous devons toutefois le contredire sur un point précis. Notamment son témoignage : Premièrement, le GPT et les autres LLM de base ne se soucient pas de l'étiquette générique que nous utilisons pour le 'truc' que nous lui avons donné à comprendre et à analyser. Un modèle d'IA ne fait pas la différence entre un document/contenu/données/fichier 'structuré', 'semi-structuré' ou 'non structuré' ; c'est une façon humaine de catégoriser nos trucs. Quoi que vous lui envoyiez, l'IA le décompose tout en composants digestes pour la machine, à savoir texte, mise en page, image, numéro de page, etc.

Il est vrai que Large Language Models (LLMs) comme GPT-3 peuvent traiter le contenu à un niveau très basique, mais ils ne sont pas capables à eux seuls d'effectuer des tâches complexes telles que la segmentation des pages ou un traitement profond et contextuel du texte. Les LLM sont des outils puissants, mais ils ne sont pas la seule solution pour tous les types de traitement de documents.

Choisir des mots clairs sans pour autant simplifier !

Diverses recherches, notamment dans le domaine de la segmentation des pages, ont montré que la meilleure qualité de traitement est actuellement obtenue par le découpage contextuel des documents. Cela signifie que le modèle tient compte non seulement du texte lui-même, mais aussi de la structure et de la mise en page du document. L'utilisation du contexte visuel aide à mieux comprendre et à mieux traiter le document. Par exemple, un tableau dans un document n'est pas seulement une accumulation de texte courant, mais un bloc d'informations clairement structuré qui doit être interprété d'une certaine manière.

Même les LLM les plus récents peuvent bénéficier d'un traitement contextuel. Les informations purement textuelles traitées par un LLM peuvent être considérablement améliorées par des informations contextuelles telles que "ce texte se trouve dans un tableau". La compréhension du contexte peut conduire le modèle à interpréter le texte d'une manière plus proche de l'interprétation humaine.

Dans l'ensemble, nous ne devrions donc pas sous-estimer l'importance des concepts spécialisés. Ils ne sont pas seulement une caractéristique humaine, mais peuvent également contribuer à rendre les modèles d'IA plus efficaces et plus précis. Le traitement de documents "structurés", "semi-structurés" ou "non structurés" peut tout à fait être différent et donner des résultats différents. Cela dépend de la méthode exacte utilisée pour le traitement. Différentes approches sont appropriées en fonction du scénario d'application et des exigences spécifiques.

Conclusion

La solution consiste peut-être à supprimer complètement les termes techniques, mais plutôt à les utiliser de manière plus consciente et avec plus de soin. L'éducation et la compréhension sont ici des mots clés. Il est de notre responsabilité, en tant qu'experts, de veiller à ce que nous n'utilisions pas seulement les bons termes, mais que nous transmettions également la signification qui se cache derrière ces termes.

Bien que nous appréciions la critique de Dan sur l'utilisation excessive de termes techniques, nous pensons que la proposition de laisser l'IA se charger entièrement de la répartition des connaissances et du contexte est problématique. Après tout, en tant qu'experts, il est de notre devoir de rendre compréhensibles des concepts complexes tout en restant précis et scientifiquement corrects.

Évitons le bingo des mots à la mode. Seuls les termes techniques utilisés en connaissance de cause créent du savoir et restent porteurs de sens. De cette manière, nous pouvons garantir que notre communication dans le secteur est non seulement précise, mais aussi compréhensible.

Mais notre rédaction a certainement aussi utilisé l'un ou l'autre mot trop souvent et ne l'a pas défini précisément. Pour autant que vous remarquiez quelque chose, contactez-nous et on corrige un éventuel buzzword.

"
"
Avatar de Maximilian Schneider

Derniers articles