Topic Modeling - Fonctionnement, techniques et application

Chaque fois que de grandes quantités de données textuelles pertinentes apparaissent, la question se pose de savoir ce qu'elles contiennent en gros. Bien entendu, cette question peut être résolue non seulement par des lecteurs particulièrement assidus, mais aussi de manière automatisée. Une méthode d'apprentissage automatique souvent utilisée à cet effet est ce que l'on appelle le topic modeling. Sur la base de la fréquence des mots communs ou apparentés, il est ainsi possible d'estimer les thèmes contenus dans le texte. Un travail préparatoire important est ainsi réalisé, à l'aide duquel les humains ou les systèmes d'intelligence artificielle prennent des décisions fondées.

Qu'est-ce que la modélisation thématique ?

Un topic model est un modèle mathématique non supervisé qui traite les documents en entrée et génère une sortie de thèmes représentant statistiquement le contenu du texte. Le topic modeling est donc le procédé qui vise à obtenir ce résultat. Aujourd'hui, elle nécessite généralement des connaissances en Python et en Machine Learning ainsi que des bibliothèques comme Skikit-learn ou des logiciels spécifiques. En fait, la technique a trouvé son origine dès le début des années 1990 dans des méthodes sémantiques comme l'indexation sémantique latente (LSI). A l'époque, l'analyse de journaux et de littérature historiques était prévue. En raison de l'augmentation des formes de données numériques en relation avec l'apprentissage automatique, un développement constant a eu lieu, qui se poursuit encore aujourd'hui.

Bien que la modélisation thématique soit une approche assez particulière, il est désormais possible d'identifier un certain nombre de Tâches du traitement du langage naturel résoudre :

  • Classification des textes - En fonction des thèmes modélisés que le texte contient, certains labels ou catégorisations peuvent apparaître.
  • Résumés - Les thèmes les plus fréquents permettent en outre d'agréger des aperçus de contenu pertinents.
  • Recommandations - Sur la base des entrées, le Topic Modeling permet de proposer des documents pertinents contenant un texte similaire.
  • Clustering de texte - Selon le même principe, il est possible de créer des regroupements de documents au contenu apparenté.
  • Recherche de texte - Enfin, la qualité et la pertinence des fonctions de recherche peuvent également être optimisées.

Comment fonctionne la modélisation thématique ?

Le topic modeling englobe une multitude de méthodes statistiques, mais aussi graphiques, qui permettent d'extraire et de structurer certaines combinaisons de mots dans un texte. Une hypothèse de base fréquente est que certains thèmes ont une probabilité accrue de se référer à des mots similaires. L'identification de ces corrélations peut se faire de différentes manières, par exemple par le biais de la recherche de mots.

par exemple à l'aide de matrices, d'analyses sémantiques ou de la vectorisation, appelée Word Embeddings. Cette dernière méthode joue un rôle particulièrement important dans les méthodes actuelles telles que l'analyse des données. Word2vec jouent un rôle important. Outre les ressources techniques disponibles, le type de texte est également déterminant dans le choix. Les techniques suivantes ont une grande importance jusqu'à aujourd'hui.

Indexation sémantique latente (LSI)

Contrairement à de nombreuses méthodes plus récentes, LSI examine avant tout la sémantique des mots afin d'identifier les liens correspondants. Celles-ci ne reposent finalement pas seulement sur leur utilisation commune, mais aussi sur leur signification contextuelle. Pour décrypter cela, on fait appel à ce que l'on appelle le Décomposition en valeurs singulières le Fréquence en terms-est utilisée. L'espace sémantique, dans lequel les termes peuvent être représentés par des distances relationnelles, est ainsi réduit en dimension jusqu'à ce qu'il ne reste plus que des vecteurs propres. Cela facilite les calculs lors de la procédure d'extraction, c'est-à-dire la mesure des distances entre les vecteurs. Un Latent Semantic Indexing Model est ainsi particulièrement adapté aux textes très volumineux.

Allocation de Dirichlet Latent (LDA)

En tant que Réseau bayésien cette méthode est à classer parmi les modèles probabilistes génératifs et est appliquée aux documents depuis 2003. Les nœuds sont à considérer comme des variables aléatoires, tandis que les arêtes correspondent à des dépendances conditionnelles. Le texte est ainsi considéré comme une collection non structurée de mots qui sont attribués à des thèmes (latents). La sémantique n'est pas prise en compte, seule la distribution de probabilité est prise en compte, ce qui correspond à une question de base de la statistique bayésienne. L'utilisateur ou le Data Scientist détermine lui-même le nombre de thèmes à éditer - il correspond au nombre de Distributions multinomialesqui, pour chaque document, est composé d'une Distribution de Dirichlet sont tirés. Sur la base de ces principes, un output de thèmes est créé.

Unigram de modèle topique pour les données textuelles avec LDA
Le LDA permet de représenter des distributions d'unigrammes - ici pour trois mots et quatre thèmes.
Source : Allocation de Dirichlet latente (2003)

Factorisation de la matrice non négative (NMF)

La NMF est une autre méthode éprouvée de topic modeling qui approche les documents par une combinaison linéaire de thèmes, eux-mêmes considérés comme des combinaisons linéaires de mots. Les deux unités sont ici aussi représentées sous forme de vecteurs. La particularité est toutefois qu'elles sont optimisées en tenant compte à chaque fois d'une pondération. Cette méthode vise également une réduction dimensionnelle, la matrice utilisée ne contenant que des entrées non négatives. Une décomposition en deux matrices plus petites est effectuée : une pour le thème respectif et une pour la pondération. L'interprétation de ces dernières à l'aide de différentes métriques d'évaluation doit permettre d'obtenir les classifications les plus appropriées possibles pour les différents documents.

L'évolution de la modélisation des thèmes

Il est intéressant de noter que le topic modeling reste une méthode pertinente même après des décennies, ce qui est le cas dans le domaine du Processus de langage naturel est plutôt atypique. Dans le document "The Evolution of Topic Modeling" (2022), Rob Churchill et Lisa Singh ont analysé plus en détail l'ensemble du développement. Selon eux, la technique la plus ancienne est le LSI, et de nombreux développements semblent être motivés par l'avancée d'Internet. Le Hierarchical Dirichlet Process, une modification du LDA, a rendu superflue la saisie d'un nombre fixe de thèmes et a ainsi simplifié l'utilisation. À partir de 2010, le LDA en ligne a permis pour la première fois de traiter de manière appropriée des données en ligne à croissance exponentielle. En 2011, diverses spécialisations de Topic Modeling ont été effectuées en ce qui concerne les médias sociaux.

évolution des modèles thématiques et sémantiques
Source : L'évolution de la modélisation par thème

Un tournant décisif a été l'introduction de Word2VecUne méthode d'intégration particulièrement puissante a été mise en œuvre, par exemple pour les suggestions de mots dans la recherche Google. Par la suite, plusieurs tentatives ont été faites pour combiner différentes techniques afin de résoudre des cas d'application plus complexes. Ce sont surtout les embeddings combinés aux topic models qui se distinguent. De même, les Naissance des transformateurs n'a pas pu rationaliser complètement le topic modeling, mais a conduit à une utilisation commune - par exemple avec le BERT.

partie 2 de l'évolution du modèle thématique
Source : L'évolution de la modélisation par thème

La raison pour laquelle les techniques classiques continuent d'être utilisées est que les innovations étaient surtout orientées vers de nouveaux formats et cas d'utilisation non structurés. Les premiers scénarios d'utilisation comme l'analyse bibliographique ou le traitement de documents simples existent toujours. Des approches réussies telles que LDA et LSI sont toujours relativement faciles à utiliser et combinent en même temps des techniques modernes avec les vertus classiques de l'analyse sémantique et matricielle.

Domaines d'application

Uses Cases of Topic Modeling

Conformément à l'évolution présentée ci-dessus, les cas d'utilisation possibles de la modélisation thématique se sont différenciés. L'analyse de documents en fonction du thème qu'ils contiennent peut ouvrir des possibilités impressionnantes dans presque tous les secteurs, mais certaines d'entre elles attirent particulièrement l'attention :

Recherche

Les méthodes scientifiques telles que l'analyse de contenu sont toujours très demandées dans la recherche universitaire, par exemple dans les sciences de la communication ou d'autres sciences sociales. Dans ce domaine, les topic models permettent par exemple d'évaluer le discours médiatique sur un thème donné en identifiant d'autres sujets connexes. Cette approche est également utile dans le domaine médical : les chercheurs Porturas et Taylor (2021) de Yale ont analysé plus de 47.000 articles sur 40 ans de médecine d'urgence à l'aide de topic models. Ils ont ainsi pu constater que le thème des facteurs de risque, par exemple, est apparu significativement plus souvent au fil du temps - la recherche fondamentale a en revanche diminué.

Communication avec les clients

Les entreprises qui réussissent s'engagent dans la gestion des relations avec la clientèle, prennent au sérieux les suggestions et les commentaires et réagissent rapidement. Cependant, le tri et l'organisation du flot de messages entrants peuvent parfois s'avérer difficiles. Le site Classification est un cas typique de topic modeling et permet, sur la base des thèmes qu'il contient, de distinguer par exemple les messages d'erreur, les modifications de données ou les questions générales. Sur cette base, les messages peuvent être traités de manière ciblée par les services compétents. Un autre cas d'application est la lecture des enquêtes auprès des clients.

Intelligence économique

Dans de nombreux autres domaines de l'entreprise, le texte a également une valeur particulière en tant que format de données - dans les documents transactionnels et narratifs, y compris les rapports, les présentations, les contrats et les offres. Chaque thème récurrent et les mots qui s'y rapportent peuvent avoir une certaine fonction de tendance, qui est pertinente pour les prévisions et les décisions de l'entreprise. Dans ce sens, les modèles topiques constituent une base importante pour l'analyse des données en identifiant et en classant les corpus de textes pertinents. Pour des études détaillées, l'utilisation élargie de l'intelligence artificielle est toutefois aujourd'hui indispensable en raison de la grande complexité des processus et du mélange de nombreux formats non structurés.

Approches avancées de l'IA

Pour pouvoir traiter un texte de manière complète et automatisée, d'autres étapes de travail entrent aujourd'hui en ligne de compte dans la chaîne de processus avant et après une éventuelle utilisation de Topic Models. Cela concerne avant tout la génération et le traitement ultérieur des données. Konfuzio est le nom du logiciel documentaire basé sur l'IA qui permet de remédier à cette situation.

Reconnaissance optique de caractères (OCR)

La numérisation de processus jusqu'alors analogiques implique que le texte est souvent disponible dans des formats optiques comme le PDF. Sous cette forme, les mots qu'ils contiennent échappent à la saisie par un modèle topique. Grâce à une OCR de haute précision, Konfuzio convertit le contenu des documents dans des formats lisibles par la machine. Les données sont ensuite transmises via une interface web à l'endroit souhaité pour le traitement ultérieur - par exemple un environnement de développement pour la modélisation topique.

Traitement du langage naturel (NLP)

Si l'on veut traiter en détail les thèmes identifiés, on ne peut plus faire l'économie d'une PNL avancée et de modèles modernes basés sur l'architecture Transformer. De cette manière, Konfuzio peut indexer et comprendre des contenus complexes. Il est ainsi possible d'effectuer des analyses sophistiquées avec un contrôle élevé des données dans le cadre d'une infrastructure multicloud. En principe, l'utilisation de Topic Models peut aussi être complètement remplacée dans de nombreux cas par les approches NLP de Konfuzio. Pour les pipelines d'extraction individuels basés sur Python, il existe en outre un Kit de développement logiciel prêt.

Chat sur les documents

Souvent, l'utilisateur apporte aussi ses propres idées et cherche des réponses appropriées dans ses documents. Grâce à une interface de chat intégrée, il est possible de répondre aux questions des utilisateurs dans les environnements de travail habituels (par ex. Office), grâce à un modèle linguistique basé sur toutes les informations téléchargées. Cela révèle même des liens implicites qui ne reposent pas sur des combinaisons de mots explicites. Ainsi, des thèmes sont abordés que ni l'homme ni le Topic Model ne savaient nommer avec précision auparavant.

Plus d'informations

Conclusion

Le topic modeling est aujourd'hui encore une méthode pertinente d'apprentissage automatique, car la sortie automatisée de thèmes peut résoudre un grand nombre de tâches de traitement de la parole. Étant donné que dans la plupart des cas, seule la sémantique ou l'occurrence commune de mots est prise en compte, il s'agit d'une technique relativement simple à mettre en œuvre et efficace. Les formes classiques telles que l'indexation sémantique latente (LSI) sont encore pertinentes aujourd'hui pour les cas d'application appropriés. En raison de la numérisation croissante et de l'augmentation des formats en ligne, divers développements ont eu lieu. Entre-temps, des combinaisons avec des modèles linguistiques modernes sont également possibles. Dans un environnement commercial complexe, les Topic Models atteignent toutefois rapidement leurs limites. Il est alors recommandé de miser sur des logiciels d'intelligence artificielle plus performants, en complément ou en alternative.

Vous vous occupez du traitement de données textuelles volumineuses ? Envoyez-nous directement un message. Nos experts se feront un plaisir de vous montrer les possibilités que l'intelligence artificielle peut vous offrir.








    "
    "
    Avatar de Tim Filzinger

    Derniers articles