Topic Modeling – Funktion, Techniken und Anwendung

Wo immer große Mengen relevanter Textdaten auftauchen, stellt sich die Frage, was denn in etwa drin steht. Natürlich ist das nicht nur durch besonders fleißige Leser, sondern auch automatisiert lösbar. Eine oftmals dafür eingesetzte Methode des maschinellen Lernens ist das sogenannte Topic Modeling. Auf Basis der Häufigkeiten gemeinsam auftretender oder verwandter Wörter lassen sich damit die im Text enthaltenen Themen abschätzen. So ist wichtige Vorarbeit geleistet, mit deren Hilfe Menschen oder KI-Systeme fundierte Entscheidungen treffen.

Was ist Topic Modeling?

Bei einem Topic Model handelt es sich um ein unüberwachtes mathematisches Modell, das Dokumente als Input verarbeitet und einen Output an Themen generiert, der den Inhalt des Textes statistisch repräsentiert. Topic Modeling ist somit das Verfahren, das auf dieses Ergebnis abzielt. Heute sind dafür in der Regel Kenntnisse in Python und Machine Learning sowie Bibliotheken wie Skikit-learn oder spezielle Software notwendig. Eigentlich fand die Technik ihren Ursprung aber bereits Anfang der 1990er in semantischen Methoden wie Latent Semantic Indexing (LSI). Damals war zunächst die Analyse historischer Zeitungen und Literatur vorgesehen. Aufgrund der Zunahme digitaler Datenformen in Verbindung mit Machine Learning kam es jedoch zu einer stetigen Weiterentwicklung, die bis heute anhält.

Obwohl es sich bei Topic Modeling um einen eher speziellen Ansatz handelt, lässt sich inzwischen eine ganze Reihe von Aufgaben der natürlichen Sprachverarbeitung lösen:

  • Textklassifizierung – Abhängig von den modellierten Themen, die der Text enthält, können bestimmte Labels oder Kategorisierungen entstehen.
  • Zusammenfassungen – Die am häufigsten enthaltenen Themen ermöglichen außerdem eine Aggregation treffender Inhaltsübersichten.
  • Empfehlungen – Auf Basis von Eingaben erlaubt Topic Modeling Vorschläge relevanter Dokumente, die ähnlichen Text enthalten.
  • Text Clustering – Nach dem gleichen Prinzip lassen sich Gruppierungen inhaltlich verwandter Dokumente erstellen.
  • Textsuche – Nicht zuletzt kann auch die Qualität und Relevanz von Suchfunktionen optimiert werden.

Wie funktioniert Topic Modeling?

Topic Modeling umfasst eine Vielzahl statistischer, aber auch grafischer Methoden, die bestimmte Wortkombinationen aus Text extrahieren und strukturieren. Eine häufige Grundannahme ist, dass bestimmte Themen zu einer erhöhten Wahrscheinlichkeit auf ähnliche Wörter zurückgehen. Die Identifikation dieser Zusammenhänge kann auf ganz unterschiedlichen Wegen erfolgen, zum B

eispiel durch Matrizen, Semantikanalysen oder Vektorisierung, sogenannte Word Embeddings. Letztere Methode spielt vor allem bei aktuelleren Verfahren wie Word2vec eine wichtige Rolle. Bei der Auswahl ist neben den vorhandenen technischen Ressourcen auch die Textart maßgeblich. Folgende Techniken haben bis heute einen hohen Stellenwert.

Latent Semantic Indexing (LSI)

LSI untersucht im Kontrast zu vielen neueren Methoden vor allem die Semantik von Wörtern, um entsprechende Zusammenhänge zu identifizieren. Diese liegen schließlich nicht nur in der gemeinsamen Verwendung, sondern auch in ihrer inhaltlichen Bedeutung begründet. Um das zu entschlüsseln, kommt die sogenannte Singulärwertzerlegung der Termfrequenz-Matrix zum Einsatz. Der semantische Raum, in dem sich die Terme in relationalen Abständen darstellen lassen, wird dadurch dimensional reduziert, bis nur noch Eigenvektoren übrig bleiben. Das erleichtert die Berechnungen beim Retrieval-Verfahren, also die Messung der Vektor-Abstände. Damit ist ein Latent Semantic Indexing Model besonders für sehr umfangreichen Text geeignet.

Latent Dirichlet Allocation (LDA)

Als Bayessches Netz ist diese Methode den generativen probabilistischen Modellen zuzuordnen und wird seit 2003 auf Dokumente angewandt. Dabei sind die Knoten als Zufallsvariablen zu verstehen, während die Kanten bedingten Abhängigkeiten entsprechen. Text wird somit als unstrukturierte Sammlung der enthaltenen Wörter aufgefasst, die (latenten) Themen zugeordnet werden. Die Semantik findet dabei keine Berücksichtigung, sondern lediglich die Wahrscheinlichkeitsverteilung, die einer Grundfragestellung Bayesscher Statistik gleichkommt. Die Zahl der auszugebenden Themen legt der Nutzer bzw. Data Scientist selbst fest – sie entspricht der Anzahl der Multinomialverteilungen, die für jedes Dokument aus einer Dirichlet-Verteilung gezogen werden. Auf Basis dieser Prinzipien entsteht ein Output an Themen.

Topic model unigram for text data with LDA
Durch LDA sind Unigramm-Verteilungen darstellbar – hier für drei Wörter und vier Themen.
Quelle: Latent Dirichlet Allocation (2003)

Non-negative Matrix Factorization (NMF)

NMF ist eine weitere altbewährte Methode für Topic Modeling, die sich Dokumenten durch eine Linearkombination an Themen annähert und diese wiederum als Linearkombinationen der Wörter betrachtet. Beide Einheiten werden auch hier als Vektoren dargestellt. Besonderheit ist allerdings, dass sie jeweils unter Berücksichtigung einer Gewichtung optimiert werden. Auch diese Methode zielt auf eine dimensionelle Reduktion ab, wobei die verwendete Matrix ausschließlich nichtnegative Einträge enthält. Es erfolgt eine Zerlegung in zwei kleinere Matrizen: eine für das jeweilige Thema und eine für die Gewichtung. Durch deren Interpretation anhand verschiedener Evaluierungsmetriken sollen möglichst passende Zuordnungen für die einzelnen Dokumente entstehen.

Die Evolution der Themenmodellierung

Interessanterweise ist Topic Modeling auch nach Jahrzehnten noch eine relevante Methode, was im Bereich des Natural Language Processings eher untypisch ist. Im Paper “The Evolution of Topic Modeling” (2022) haben Rob Churchill und Lisa Singh die gesamte Entwicklung näher analysiert. Die älteste Technik ist demnach LSI, viele Weiterentwicklungen scheinen durch den Vormarsch des Internets motiviert. Durch Hierarchical Dirichlet Process, einer Modifizierung von LDA, wurde die Eingabe einer festgelegten Themenzahl überflüssig, die Nutzung somit vereinfacht. Mit Online LDA hatte man ab 2010 erstmals die Möglichkeit, angemessen mit exponentiell wachsenden Online-Daten umzugehen. 2011 fanden diverse Spezialisierungen von Topic Modeling hinsichtlich Social Media statt.

evolution of topic models and semantic
Quelle: The Evolution of Topic Modeling

Eine entscheidende Zäsur war die Einführung von Word2Vec, einer besonders leistungsstarken Embedding-Methode, die beispielsweise für Wortvorschläge in die Google-Suche implementiert wurde. Anschließend kam es zu einigen Kombinierungsversuchen verschiedener Techniken, um komplexere Anwendungsfälle zu lösen. Hier tun sich vor allem Embeddings in Verbindung mit Topic Models hervor. Auch die Geburtsstunde der Transformer konnte Topic Modeling nicht gänzlich wegrationalisieren, sondern führte zu gemeinsamer Nutzung – beispielsweise mit BERT.

part 2 of topic model evolution
Quelle: The Evolution of Topic Modeling

Als Grund für die anhaltende Verwendung der klassischen Techniken liegt nahe, dass Neuerungen vor allem an neuen, unstrukturierten Formaten und Anwendungsfällen orientiert waren. Die ersten Einsatzszenarien wie die Literaturanalyse oder die Verarbeitung einfacher Dokumente bestehen weiterhin. Dabei erfolgreiche Ansätze wie LDA und LSI sind dafür immer noch vergleichsweise einfach nutzbar und verbinden zugleich moderne Techniken mit klassischen Tugenden der Semantik- und Matrix Analyse.

Anwendungsgebiete

Uses Cases of Topic Modeling

Entsprechend der oben dargestellten Evolution hat eine Ausdifferenzierung möglicher Use Cases von Topic Modeling stattgefunden. Die Analyse von Dokumenten in Hinblick auf das enthaltene Thema kann in nahezu jeder Branche beeindruckende Möglichkeiten eröffnen, von denen einige jedoch besonders ins Auge fallen:

Forschung

Wissenschaftliche Methoden wie die Inhaltsanalyse sind in der universitären Forschung nach wie vor sehr gefragt, beispielsweise in Kommunikations- oder anderen Sozialwissenschaften. Hier lässt sich mit Topic Models beispielsweise der mediale Diskurs zu einem bestimmten Thema auswerten, indem weitere, damit zusammenhängende Themen identifiziert werden. Auch im medizinischen Bereich ist diese Herangehensweise nützlich: Die Forscher Porturas und Taylor (2021) aus Yale haben über 47.000 Artikel aus 40 Jahren Notfallmedizin mithilfe von Topic Models analysiert. Dadurch konnten sie feststellen, dass zum Beispiel das Thema Risikofaktoren über die Zeit signifikant häufiger aufgetaucht ist – Grundlagenforschung hat hingegen abgenommen.

Kundenkommunikation

Erfolgreiche Unternehmen kümmern sich engagiert um ihr Customer Relations Management, nehmen Anregungen sowie Feedback ernst und reagieren zeitnah. Allerdings kann es mitunter anspruchsvoll werden, die Flut an eingehenden Nachrichten zu sichten und zu organisieren. Die Klassifizierung ist ein typischer Fall für Topic Modeling und ermöglicht anhand enthaltener Themen z. B. die Unterscheidung von Fehlermitteilungen, Datenänderungen oder allgemeinen Fragen. Auf dieser Basis können die Mitteilungen gezielt von den zuständigen Abteilungen verarbeitet werden. Ein weiterer Anwendungsfall ist die Auslesung von Kundenbefragungen.

Business Intelligence

In vielen weiteren Unternehmensbereichen hat Text als Datenformat ebenfalls einen besonderen Wert – in transaktionalen wie narrativen Dokumenten – also auch in Berichten, Präsentationen, Verträgen und Angeboten. Jedes häufig wiederkehrende Thema sowie damit zusammenhängende Wörter können eine gewisse Trendfunktion innehaben, die für Prognosen und Unternehmensentscheidungen relevant ist. Topic Models bilden in diesem Sinne eine wichtige Basis für die Datenanalyse, indem sie relevante Textkorpora identifizieren und einordnen. Für detaillierte Untersuchungen ist heute bei hoher Prozesskomplexität und der Vermischung vieler unstrukturierter Formate allerdings der erweiterte Einsatz von Künstlicher Intelligenz unverzichtbar.

Weiterführende KI-Ansätze

Um Text vollumfänglich und automatisiert verarbeiten zu können, kommt es heute auf weitere Arbeitsschritte an, die sich in der Prozesskette vor und nach einem möglichen Einsatz von Topic Models befinden. Das betrifft vor allem die Generierung und Weiterverarbeitung der Daten. Konfuzio heißt die KI-basierte Dokumenten-Software, die hier Abhilfe schafft.

Optische Zeichenerkennung (OCR)

Die Digitalisierung bis dahin analoger Prozesse bringt es mit sich, dass Text häufig in optischen Formaten wie PDF vorliegt. In dieser Form entziehen sich die enthaltenen Wörter der Erfassung durch ein Topic Model. Mit hochpräziser OCR wandelt Konfuzio den Inhalt der Dokumente in maschinenlesbare Formate um. Über eine webbasierte Schnittstelle gelangen die Daten dann an den gewünschten Ort der Weiterverarbeitung – beispielsweise eine Entwicklungsumgebung für Topic Modeling.

Natural Language Processing (NLP)

Will man identifizierte Themen detailliert weiterverarbeiten, kommt man inzwischen um fortschrittliches NLP und zeitgemäße Modelle auf Basis der Transformer-Architektur nicht mehr herum. Auf diese Weise kann Konfuzio auch komplexe Inhalte indizieren und verstehen. So werden ausgefeilte Analysen bei hoher Datenkontrolle im Rahmen einer Multicloud-Infrastruktur möglich. Prinzipiell lässt sich der Einsatz von Topic Models in vielen Fällen durch die NLP-Ansätze von Konfuzio auch komplett ersetzen. Für individuelle Extraktions-Pipelines auf Basis von Python steht zudem ein Software Development Kit bereit.

Dokumenten-Chat

Oftmals bringt auch der Nutzer eigene Ideen mit und sucht nach dazu passenden Antworten in seinen Dokumenten. Über eine integrierte Chat-Schnittstelle sind innerhalb gewohnter Arbeitsumgebungen (z. B. Office) Nutzeranfragen möglich, die durch ein Sprachmodell auf Basis aller hochgeladenen Informationen beantwortet werden. Dabei offenbaren sich sogar implizite Zusammenhänge, die nicht auf expliziten Wortkombinationen basieren. So werden Themen aufgegriffen, die zuvor weder Mensch noch Topic Model genau zu benennen wussten.

Mehr Informationen

Fazit

Topic Modeling ist bis heute eine relevante Methode des maschinellen Lernens, weil die automatisierte Themenausgabe eine Vielzahl von Aufgaben der Sprachverarbeitung lösen kann. Da in den meisten Fällen lediglich auf Semantik bzw. auf das gemeinsame Auftreten von Wörtern geachtet wird, handelt es sich um eine vergleichsweise einfach einsetzbare und effektive Technik. Klassische Ausprägungen wie Latent Semantic Indexing (LSI) sind für geeignete Anwendungsfälle bis heute relevant. Aufgrund fortschreitender Digitalisierung und der Zunahmen an Online-Formaten haben diverse Weiterentwicklungen stattgefunden. Inzwischen sind auch Kombinationen mit modernen Sprachmodellen möglich. Im komplexen Geschäftsumfeld stoßen Topic Models allerdings schnell an ihre Grenzen. Hier empfiehlt es sich, ergänzend oder alternativ auf leistungsstärkere KI-Software zu setzen.

Beschäftigen Sie sich mit der Verarbeitung umfangreicher Textdaten? Schreiben Sie uns direkt eine Nachricht. Unsere Experten zeigen Ihnen gerne, welche Möglichkeiten Künstliche Intelligenz für Sie bereithält.








    «
    »
    Avatar von Tim Filzinger

    Neueste Artikel