LLMs multimodaux - Au-delà des limites de la langue

Peu de temps après le triomphe des grands modèles linguistiques, une autre percée décisive a été réalisée dans le domaine de l'intelligence artificielle : Les grands modèles linguistiques multimodaux présentés l'année dernière sont en mesure de traiter des éléments visuels en plus du texte. On se rapproche ainsi encore un peu plus de l'IA générale dont on a souvent rêvé.

L'apprentissage profond multimodal joue un rôle clé dans ce domaine. En tant que spécialité encore jeune du Machine Learning, il obtient déjà des résultats impressionnants dans la reconnaissance d'objets ainsi que dans l'analyse de la parole et des images. Cela offre de nombreuses opportunités, notamment dans le domaine du traitement intelligent des documents. Entre-temps, il est possible de prévoir ce qui est effectivement possible, mais aussi où se situent les nouvelles limites.

Une autre dimension de l'IA générative

C'était auparavant encore la norme courante : pour résoudre diverses tâches du traitement automatique du langage (TAL), on utilise des Large Language Models (LLM) pré-entrainés avec un réglage fin spécifique au domaine. La capacité de base à reconnaître des relations complexes dans le langage humain provient de l'analyse d'immenses quantités de textes dans le cadre d'un processus d'apprentissage non supervisé. Les possibilités qui en résultent en matière d'analyse, de génération, de traduction et de résumé de texte ont en tout cas suffi à bouleverser le secteur de la technologie - il suffit de penser à ChatGPT. Toutefois, elles ne modélisent qu'une seule dimension, certes très importante, de la perception humaine.

Les LLM multimodaux surmontent cette limite en complétant les capacités des modèles traditionnels par le traitement d'informations multimodales. Il s'agit par exemple d'images, mais aussi de formats audio et vidéo. Ils sont ainsi en mesure de résoudre des tâches nettement plus complètes et, dans de nombreux cas, n'ont même pas besoin d'être spécialement adaptés à cet effet. La combinaison avec des modèles de vision, souvent nécessaire jusqu'à présent, pourrait ainsi perdre beaucoup de son importance. Dans l'ensemble, on constate ici une percée importante, qui se traduit par les avancées fondamentales suivantes :

  • Approche de la perception humaine par le traitement centralisé de différents types d'informations
  • Une plus grande convivialité et une interaction plus flexible grâce à des éléments visuels
  • Résolution de tâches inédites sans réglage fin séparé
  • Pas de limitation au domaine d'application du traitement du langage naturel
format des données et images
L'éventail des formats pris en charge pourrait encore s'élargir.

Comment fonctionnent les LLM multimodaux ?

Les LLM multimodaux continuent en principe d'utiliser l'architecture Transformer présentée par Google en 2017. Dans le cas des Développements des années précédentes a déjà montré que des extensions et des réinterprétations complètes sont possibles. Cela concerne en particulier le choix des données d'entraînement et des méthodes d'apprentissage - comme c'est le cas ici.

Apprentissage profond multimodal

Cette forme particulière de Machine et Apprentissage profond se concentre sur le développement d'algorithmes spécifiques dont la combinaison permet de traiter différents types de données. Cela se fait toujours en utilisant des réseaux neuronaux qui, en raison de leur profondeur, peuvent également traiter un contenu d'information particulièrement élevé, comme c'est le cas pour les contenus visuels. Cela permet également d'intensifier le processus d'apprentissage. Le deep learning multimodal permet donc non seulement de traiter des entrées diversifiées, mais aussi d'augmenter la vitesse et la performance. L'un des plus grands défis réside toutefois dans la mise à disposition des quantités de données nécessaires à cet effet.

Remplacement du "fine tuning" classique

En outre, de nouvelles méthodes sont utilisées par rapport aux paradigmes précédents, telles que l'"instruction tuning". Il s'agit d'un réglage fin des LLM pré-entraînés. pour toute une série de tâches - différemment de ce qui se faisait auparavant. Il en résulte une applicabilité nettement plus générale. Ainsi, les modèles correspondants sont également préparés à des tâches jusqu'alors inconnues, sans qu'un entraînement supervisé supplémentaire ou d'innombrables invites ne soient nécessaires.

Modèle de langage finetuned
Source : Les modèles linguistiques affinés sont des apprenants zéro-coup

La polyvalence des données traversées est extrêmement importante pour ce processus. Les mécanismes d'encodage correspondants sont responsables, en plus de la parole, du traitement des contenus image et vidéo. Le modèle apprend ainsi à reconnaître les relations entre le texte et les autres formes de contenu. Il peut donc réagir à une entrée visuelle par des explications ou des interprétations linguistiques.

L'aperçu de la première étude sur ce sujet (A Survey on Multimodal Large Language Models, Yin, Fu et al., 2023) laisse entrevoir un grand potentiel pour un domaine d'application de l'IA largement répandu. Cela n'a pas échappé à la recherche qui a suivi : Avec DocLLM une extension des language models traditionnels a été développée, qui peut être utilisée pour la communication multimodale. Compréhension du document qui intègre en premier lieu la structure spatiale de la mise en page. Ces approches ouvrent de nouvelles possibilités.

open-source mllm
Entre-temps, il existe diverses démonstrations open source qui se rapprochent des capacités des produits phares du commerce.

Gamechanger pour le traitement intelligent des documents

Le traitement automatisé de documents commerciaux est un processus complexe, mais l'intelligence artificielle permet de le représenter de mieux en mieux. Les Large Language Models jouent jusqu'à présent un rôle particulièrement important dans le traitement automatique du texte contenu. La grande difficulté : les documents se présentent souvent sous forme optique et nécessitent donc d'abord d'autres techniques telles que Reconnaissance optique des caractères. Il en va de même pour la saisie des informations relatives à la mise en page, qui était jusqu'à présent le plus souvent effectuée par le biais d'un logiciel. Vision par ordinateur est utilisé. Les LLM multimodaux ont le potentiel d'apporter une simplification globale. Les capacités suivantes y contribuent :

  • Générer une sortie sur la base d'une entrée visuelle, par ex. résumer le contenu d'un document commercial ou d'une image téléchargé(e)
  • Analyse de nouveaux types de documents sans réglage fin supplémentaire
  • Fonctions de requête, par ex. nommer sur demande les éléments de coûts d'une facture
  • analyse de documents et sortie des données dans différents formats, par exemple JSON
  • Multilinguisme sans traduction séparée, p. ex. analyser un document en anglais et répondre à des questions à son sujet en allemand

L'analyse des documents est accélérée

Par rapport aux logiciels IDP basés sur les grands modèles linguistiques traditionnels, les LLM multimodaux permettent d'accélérer considérablement les processus. Cela commence dès l'implémentation, qui prend moins de temps en raison de la réduction des coûts de formation. L'économie d'applications commerciales hautement spécialisées, qui devaient jusqu'à présent être intégrées pour l'applicabilité individuelle des modèles, y contribue également. À cela s'ajoute l'amélioration des performances, qui ont été mises à l'échelle à chaque génération de grands modèles d'IA. Parallèlement, les développeurs ont veillé à une utilisation plus intuitive, ce qui permet d'éviter les erreurs et les boucles de correction qui s'étendent lors du traitement ultérieur.

L'alternative - Comment DocumentGPT lit les documents

Dans la recherche d'alternatives au célèbre Google Text Bot Bard, il est logique de s'intéresser à ChatGPT et au nouveau LLM multimodal GPT-4 d'OpenAI. En 2023, le modèle réagissait encore souvent à une entrée visuelle (p. ex. une carte d'identité) par des messages d'erreur tels que "Sorry, I cannot help with that". Entre-temps, l'objet est certes reconnu, mais l'extraction des données de la carte d'identité reste infructueuse. En outre, certaines limites sont évoquées, qui tournent autour de la précision pour les documents et objets spécialisés, par exemple dans le domaine médical. En outre, il manque un accès spécialisé aux archives professionnelles qui permette une utilisation productive dans les entreprises.

Ou pas ? DocumentGPT est une technologie d'IA de Konfuzio qui permet l'extraction optique d'étiquettes et de marquages. Un traitement vocal est ensuite possible via l'API GPT-4 grâce à la dernière version du LLM d'OpenAI. L'accès aux fonctionnalités multimodales par API n'est pas autorisé. C'est pourquoi les fonctionnalités OCR visuelles de Confuzio sont nécessaires pour extraire les données et les envoyer ensuite uniquement pour le traitement vocal. De l'autre côté, les API et SDK de Confucius permettent une intégration transparente dans les flux de travail existants, surmontant ainsi les obstacles actuels.

Testez DocumentGPT sur la Place de marché Confuzio et voyez par vous-même. Sur app.konfuzio.com, vous pouvez vous inscrire gratuitement et demander un accès à ce puissant modèle d'IA.

DocumentGPT
DocumentGPT réussit là où ChatGPT a échoué jusqu'à présent.

Limites des LLM multimodaux

Chaque progrès technologique repousse les limites du possible, mais ne les supprime pas totalement. Les nouveaux modèles d'IA, en particulier, présentent certes souvent une applicabilité plus généralisée, mais il n'est pas rare que cela se fasse au détriment d'erreurs et de faiblesses dans certains domaines. Les premiers tests des modèles révèlent les limites sur lesquelles la recherche pourrait se concentrer dans un avenir proche :

Faible précision des données : L'extraction erronée de données peut avoir des conséquences gênantes pour les entreprises.

Hallucinations : L'obtention de données qui ne sont pas du tout présentes dans un document n'est pas moins problématique.

Erreur de calcul : Les anciens Large Language Models avaient même parfois du mal avec les opérations arithmétiques de base. Cependant, les documents financiers importants ne laissent que peu de place à l'erreur.

Manque de spécialisation : Le site L'applicabilité plus généralisée ne peut pas encore surpasser les modèles finement ajustés dans tous les domaines.

Traitement d'images à haute résolution : Une étude actuelle suggère que les LLM multimodaux échouent encore actuellement à analyser les informations d'images en haute résolution.

Solutions possibles

Même si le statut expérimental des grands modèles linguistiques multimodaux actuels ne permet guère, jusqu'à présent, de trouver des solutions intégrées aux faiblesses existantes, des stratégies complémentaires sont déjà prévisibles. L'idée de base d'optimiser les performances des modèles d'IA n'est finalement pas nouvelle. Ainsi, les approches suivantes pourraient par exemple aider à obtenir de bons résultats dans le traitement de documents et de textes, même avec le niveau de développement actuel :

L'homme dans la boucle est un concept précieux qui permet à la fois de prévenir les erreurs et d'améliorer les performances futures du modèle grâce à des annotations. Pour cela, une boucle de feedback est régulièrement organisée par les membres humains de l'équipe. Pour plus d'informations, voir cet article de blog.

Systèmes experts peuvent remplacer cette logique humaine dans la recherche d'erreurs en étant programmés sur un enchaînement d'étapes d'investigation et de principes d'action.

Il en résulte Modèles hybrides, qui permettent un haut degré d'automatisation malgré la vulnérabilité aux erreurs du modèle linguistique sous-jacent.

Il est donc particulièrement important d'appliquer une Logique d'entrepriseLe système de validation est une couche de validation qui est implémentée de différentes manières - par l'homme ou la machine - autour du nouveau système.

Modèles complémentaires comme DocLLM peuvent ajouter des capacités aux MLLM existants afin de résoudre, du moins en partie, les problèmes existants. Un autre exemple actuel est Monkey, qui s'occupe des limites en cas de résolution d'image trop élevée.

Pour ne pas perdre la vue d'ensemble de ces concepts, l'introduction d'une solution tout-en-un s'impose : Konfuzio est une plateforme de traitement intelligent des documents qui combine les principes de la logique commerciale ainsi que de grands modèles linguistiques comme interface entre l'homme et l'IA. L'utilisation flexible de technologies telles que la vision par ordinateur ou la reconnaissance optique de caractères a été optimisée au fil des ans et s'adapte à tout moment aux derniers développements (multimodaux).

Conclusion

Grâce à leur capacité à traiter des contenus multimodaux et à les combiner avec du texte, les Large Language Models ont atteint une nouvelle dimension de l'IA générative. Cela conduit à surmonter les limites qui s'étendaient jusqu'à présent de manière tranchée autour du domaine du Natural Language Processing. Les LLM multimodaux ne sont pas seulement capables de comprendre des images et des vidéos, mais offrent également une plus grande flexibilité dans le traitement du langage. Cela est possible grâce à de nouvelles méthodes telles que l'"instruction tuning", qui ne se limite pas à des tâches individuelles et rend ainsi dans de nombreux cas un entraînement ultérieur supervisé superflu.

Cette innovation offre un potentiel particulièrement important pour le traitement intelligent des documents. Celui-ci dépendait auparavant fortement de réglages fins et de la combinaison avec des applications commerciales spécialisées et des modèles de vision. Les LLM multimodaux ne peuvent toutefois pas encore remplacer complètement cette approche. Pour éviter les imprécisions et les erreurs, des mécanismes de validation distincts sont toujours nécessaires. Le reste n'est qu'une question de temps, à laquelle répondront bientôt les développements déjà en cours.

Vous souhaitez en savoir plus sur les possibilités offertes aux entreprises par les LLM multimodaux ? N'hésitez pas à prendre contact avec Contact à nous.

"
"
Avatar de Tim Filzinger

Derniers articles