NLP Models - Développement rapide des génies du langage artificiel

Si l'intelligence artificielle bouleverse depuis quelques années les technologies de l'information et les médias, c'est principalement grâce aux développements dans un domaine particulier de la technologie : le traitement du langage naturel (NLP) révolutionne la manière dont l'homme et la machine communiquent. La génération de textes cohérents basée sur l'IA n'est qu'une des possibilités insoupçonnées que même les spécialistes commencent à peine à comprendre. Une chronologie des modèles NLP les plus importants donne des informations sur le passé, le présent et l'avenir du traitement automatique du langage.

Que sont les modèles PNL ?

La PNL signifie Traitement du langage naturel et décrit les techniques d'IA qui traitent le langage naturel. Les domaines d'application les plus courants sont l'analyse, l'interprétation, le résumé, la traduction et la génération de texte. Mais le traitement algorithmique des entrées parlées devient également une discipline de plus en plus importante de ce domaine de l'intelligence artificielle. Le langage humain étant truffé d'irrégularités, d'ambiguïtés et d'influences humoristiques et émotionnelles, la PNL nécessite des modèles d'IA complexes, appelés modèles PNL, qui continuent toutefois à se développer rapidement. Frontières se heurtent.

Les modèles NLP constituent le cœur des systèmes et applications d'IA correspondants. La plupart du temps, ils sont basés sur des réseaux neuronaux artificiels. Il s'agit de groupements de nœuds d'entrée et de sortie (neurones) reliés entre eux, qui peuvent être décrits mathématiquement comme une fonction récursive. Comme les signaux d'entrée sont transmis par le réseau, un pré-entraînement des modèles PNL modernes est possible à l'aide de grandes quantités de texte. Le réajustement ultérieur des neurones pour des tâches spécifiques est appelé "fine tuning". On utilise alors des ensembles de données plus petits qui correspondent aux subtilités du nouveau type de tâche. Il est désormais possible d'en résoudre un grand nombre.

modèle de réseau neuronal simple pour nlp
Représentation simplifiée d'un réseau neuronal

Comment fonctionne le Natural Language Processing ?

La diversité du langage humain n'a d'égale que la diversité des approches visant à le rendre compréhensible pour les algorithmes. Voici quelques stratégies particulièrement pertinentes :

  1. Segmentation des phrases

    En divisant les phrases en segments plus petits, il est possible de catégoriser plus facilement les parties de phrases. Celles-ci peuvent ainsi être représentées mathématiquement et les algorithmes peuvent mieux saisir le contexte respectif.

  2. Analyse syntaxique

    Un regard sur les fonctions syntaxiques et les relations des mots (par ex. sujet, objet, prédicat) permet de tirer des conclusions sur leur signification. Les relations correctement attribuées dans les données d'apprentissage constituent la base. Un modèle NLP courant est Word2vec.

  3. Analyse sémantique :

    De même, des entités et des rapports sémantiques tels que synonyme ou antonyme peuvent donner des indications sur le sens exact d'un mot.

  4. Analyse de l'humeur :

    Des catégorisations telles que "négatif", "positif" ou "neutre" permettent de prendre des décisions ou des mesures judicieuses. Cela est utile, par exemple, pour analyser les commentaires des clients.

Les techniques concrètes utilisées à cet effet sont par exemple la vectorisation, l'analyse syntaxique, les classificateurs ou les Désambiguïsation du sens des mots. Souvent, ces approches ne permettent pas à elles seules une compréhension complète du texte. Dans de nombreux cas, elles sont donc combinées - soit par plusieurs modèles PNL, soit par des modèles particulièrement polyvalents.

Chronologie des principaux modèles PNL

En fait, le Natural Language Processing trouve son origine dès les années 1950 : dans le cadre d'une expérience menée par l'université de Georgetown en collaboration avec IBM, des chercheurs sont parvenus à traduire automatiquement plus de 60 phrases russes en anglais. Par la suite, la nouvelle technologie est restée longtemps en deçà des attentes. Dans les années 1990, l'association avec des algorithmes de machine learning tels que Arbres de décision à une plus grande applicabilité - mais seulement pour des tâches individuelles. Les modèles PNL ne font vraiment parler d'eux que depuis quelques années. Comment cela s'explique-t-il ?

La naissance des transformateurs

Les transformateurs sont une forme particulière de modèles NLP, dont l'architecture spéciale a été présentée pour la première fois par Google en 2017. Elle est basée sur une Intégrer-pour la vectorisation des séquences d'entrée ainsi que les encodeurs et décodeurs placés derrière. Les modules Attention jouent également un rôle particulièrement important (voir le titre de l'article "Attention-Module").Attention Is All You Need"). Ils permettent de calculer les corrélations entre les unités saisies, ce qui facilite la détermination des relations et des contextes des mots.

Le mécanisme d'attention s'inspire des processus inconscients de la perception du langage humain, par lesquels les mots, indépendamment de leur ordre, acquièrent un poids particulier dans la signification de la phrase. De ce fait, les transformateurs sont plus proches des modèles purement séquentiels tels que LSTM ou Seq2seq sont supérieurs. Il en va de même pour les modèles d'intégration existants comme Word2vec. La particularité des transformateurs est donc qu'ils peuvent, grâce à leur architecture polyvalente, assumer les tâches de divers modèles NLP et même les surpasser.

Architecture d'un modèle de langage de transformation
Architecture du transformateur. Source : Attention Is All You Need

ELMo

La prochaine percée dans le traitement du langage naturel en 2018 n'était pas encore un représentant des transformateurs, mais a influencé le développement d'un candidat correspondant. Embeddings from Language Models (ELMo) utilise des représentations de mots et prend en compte des facteurs complexes tels que la syntaxe et la sémantique, ainsi que diverses variations de contexte. Ces dernières sont déterminées par le modèle linguistique à partir des mots environnants et sont donc particulièrement sensibles aux subtilités linguistiques. C'est également en raison de son vaste pré-entraînement avec plus d'un milliard de mots qu'ELMo est rapidement devenu le state of the art pour de nombreuses tâches NLP.

Architecture :

  • Réseau neuronal convolutif (CNN)
  • Modèle linguistique bidirectionnel à deux couches
  • modules LSTM montés en série
  • 93,6 millions Paramètres

compétences : Traductions, résumés de textes, réponses à des questions, analyse de l'humeur.

GPT-1

En 2018, le premier Transformateur génératif pré-traité d'OpenAI a suscité une grande attention dans les milieux spécialisés. En réaction directe à l'architecture Transformer présentée par Google, le concept a été étendu au pré-apprentissage génératif. Contrairement à ce qui se faisait jusqu'à présent, le modèle NLP a été soumis à une unprocessus d'apprentissage supervisé. Le kit de formation était composé du texte de plus de 11000 livres. Cela devait permettre à GPT de comprendre des contextes plus longs et de produire plus facilement ses propres passages de texte. C'est dans cette capacité que réside de loin la plus grande innovation par rapport aux modèles linguistiques précédents. GPT-1 a été le point de départ d'une course sans précédent vers une performance NLP toujours meilleure grâce à Transformer.

Architecture :

  • Modèle de décodeur de transformateur
  • 117 millions de paramètres
  • 12 Couche 
  • Suppression de la partie encodeur proposée par Google

compétences : Générer et compléter un texte cohérent, traduire, répondre aux questions.

BERT

Bien entendu, Google a également dû présenter son propre modèle de transformateur la même année : BERT (Bidirectional Encoder Representations from Transformers) applique une approche d'apprentissage bidirectionnelle, de sorte qu'une compréhension plus approfondie du contexte est possible que lors du passage unilatéral de séquences. On constate ici l'influence d'ELMo sur les développements de transformateurs. Mais pour que cette méthode puisse être appliquée à d'autres modèles PNL, les chercheurs ont également mis au point une nouvelle technique, baptisée Modélisation linguistique masquée (MLM) de l'industrie. BERT a ainsi donné naissance à toute une famille de modèles linguistiques particulièrement performants, qui ont même été implémentés dans la recherche Google. 

Architecture : 

  • Modèle de codeur transformateur
  • couche de classification supplémentaire (pour MLM)
  • BERTbase : 12 couches, 110 millions de paramètres
  • BERTlarge : 24 couches, 340 millions de paramètres

compétences : Saisie de longs contextes, résumé et génération de texte, prédiction de mots.

GPT-4

En 2023, OpenAI peut se targuer d'avoir développé toute une série de modèles GPT, qui ont été rendus accessibles au public avec ChatGPT. Ils ont surpassé leurs prédécesseurs en termes de complexité, de quantité de texte utilisée pour le pré-apprentissage et, finalement, de performance dans diverses tâches NLP. Le GPT-3 avait déjà fait l'objet d'un pré-entraînement à partir de 570 Go de texte et pouvait se baser sur 175 milliards de paramètres. GPT-4 représente une nouvelle amélioration significative, mais se distingue surtout par sa capacité à traiter également des images. Ce qui a commencé comme un pur bot de texte ouvre maintenant, sous la forme d'un Large Multimodal Model, une ère de transformateurs aux compétences élargies. La génération de textes volumineux, cohérents et absolument convaincants est en revanche devenue depuis longtemps une évidence.

Architecture : OpenAI a gardé secrète la structure exacte du Language Model jusqu'à présent - probablement parce qu'il peut être répliqué, comme le disent les experts Dylan Patel et Gerald Wong analyser. Ils s'attendent à ce que des modèles NLP aussi puissants soient bientôt proposés par des concurrents tels que Meta et consorts. On estime que le GPT-4 compte environ 1,6 billion de paramètres répartis sur 120 couches, soit une échelle 10 fois plus grande que le GPT-3.

compétences : Analyse de texte, résumé et traduction de texte, génération de texte cohérent en quelques secondes, réponses de type humain, génération de code, création de site web à partir de croquis, analyse de graphiques, réponse à des questions sur des images.

performance de GPT-4 et GPT-3.5 dans les tâches NLP
Comparaison des performances de GPT-4 et GPT-3.5 dans différentes tâches NLP. Source : OpenAI

PaLM 2

Depuis mai 2023, le robot texte Bard de Google n'est plus basé sur le Large Language Model LaMDA, mais sur PaLM 2. Ce modèle à la pointe de la technologie est doté de nouvelles fonctionnalités étendues pour le codage, la prise en charge de Google Workspace et le raisonnement logique. L'ensemble de formation utilisé comprend de grandes quantités de textes issus de travaux scientifiques et de sites web. En outre, le multilinguisme a été amélioré et comprend désormais plus de 100 langues. PaLM 2 est disponible en quatre tailles différentes, en fonction du terminal utilisé. Dans l'ensemble, il est clair que Google mise sur des implémentations aussi adaptées que possible à la vie quotidienne, afin de garantir une large utilisation. Les NLP Models sont ainsi arrivés au cœur de l'applicabilité générale.

Architecture : Transformer, sinon peu connu. Une nette augmentation par rapport aux 540 milliards de paramètres de son prédécesseur est probable.

compétences : Autres Amélioration dans la plupart des tâches PNL, programmation, multilinguisme, logique, implémentations Google.

Conclusion et perspectives

Depuis quelques années, le Natural Language Processing représente l'une des technologies d'IA les plus importantes en raison des nouvelles possibilités de traitement automatique du langage. Cela concerne en particulier la génération et la traduction de texte. La présentation de l'architecture Transformer par Google en 2017 a constitué une percée extrêmement importante dans cette direction, qui a rapidement connu une mise en œuvre technique réussie avec des modèles linguistiques tels que GPT-1 et BERT, associés à l'approche bidirectionnelle d'ELMo. En outre, l'utilisation de méthodes d'apprentissage non supervisées contribue à l'augmentation exponentielle du volume d'entraînement, de la complexité et de la performance des modèles suivants. En raison de leur valeur ajoutée croissante, les coûts d'entraînement ne jouent souvent plus qu'un rôle secondaire. Il est donc très probable que ces tendances se poursuivent.

technologie au fil du temps appliquée aux modèles linguistiques

D'autres développements se concentrent également sur l'élimination des erreurs et des faiblesses des modèles linguistiques. Celles-ci se situent par exemple dans les domaines de l'actualité, de la logique et de l'arithmétique. Une solution possible à certains problèmes serait l'utilisation automatisée d'applications externes comme Metas Toolformer. Outre les applications de plus en plus courantes, des domaines d'application plus spécialisés sont également prévisibles. Par exemple, Med-PaLM 2 est déjà testé à des fins médicales. Les transformateurs resteront la base technique dans un avenir prévisible. Il n'est toutefois pas exclu qu'ils doivent eux aussi céder la place à un nouveau type de modèle NLP.


Si vous souhaitez en savoir plus sur le traitement du langage naturel et la valeur ajoutée de cette technologie pour les entreprises, n'hésitez pas à utiliser le Formulaire de contact. Nos experts se feront un plaisir d'échanger avec vous.

"
"
Avatar de Tim Filzinger

Derniers articles