Word2vec: Textanalyse durch Word Embedding

In der bewegten Welt der automatisierten Textanalyse stellt Word Embedding einen wichtigen Durchbruch dar. Durch die Umwandlung einzelner Wörter in numerische Vektoren wird Text dabei in eine algorithmisch verarbeitbare Form gebracht. Ein besonders beliebtes Modell ist Word2vec, das sich mit Kontext und Zusammenhang von Wörtern beschäftigt. Da inzwischen viele hochentwickelte Analyse-Techniken mit unterschiedlichen Stärken existieren, bietet sich die Nutzung einer flexiblen Laufzeitumgebung wie Konfuzio an. So kann Word2vec mit verschiedensten KI-Modellen für eine präzise und individuelle Textanalyse kombiniert werden.

Was ist Word2vec?

Word2vec ist eine KI-Technik, die durch die Umwandlung von Wörtern in numerische Vektoren eine algorithmische Textanalyse ermöglicht. Dieses Grundprinzip wird Word Embedding (auf Deutsch Worteinbettung) genannt und stellt ein probates Mittel dar, um Text in eine mathematisch erfassbare Form zu bringen. Es wird in verschiedenen Varianten für eine Reihe von Modellen genutzt, findet aber in Word2vec eine seiner beliebtesten Implementierungen. Dabei kommen in der Regel zweischichtige neuronale Netze zum Einsatz, die einen Input in Form von Textkorpora verarbeiten. Als Output erhält man ein Vektorenset, das von einem Deep Neural Network verstanden werden kann. Word2vec allein ermöglicht also kein vollumfängliches Textverständnis, sondern benötigt dafür das Zusammenspiel mit anderen Techniken, für die es den Text zunächst aufbereitet. Als Oberbegriff für diese Art der Sprachanalyse fungiert Natural Language Processing (NLP).

Beim Word Embedding konzentriert sich Word2vec besonders auf die Semantik und Beziehungen zwischen den Wörtern. Diese werden für das Netz durch ein überwachtes Lernverfahren erfassbar, bei dem große Textkorpora am Input Layer eingespeist werden. Grundannahme ist, dass ähnliche Wörter auch häufig in ähnlichem Zusammenhang verwendet werden, über den das Modell eine probabilistische Aussage auf Basis der Trainingsdaten trifft. Somit kann es beispielsweise Sätze vervollständigen, Synonyme bilden, Empfehlungen in Online-Shops geben oder Suchmaschinenvorschläge generieren. In diesem Umfeld hat Word2vec auch seinen Ursprung: Ein Forscherteam von Google hat die Technik entwickelt und 2013 eingeführt. Heute betrachten manche Fachleute sie bereits als veraltet. Im NLP-Umfeld erhalten für diese Art von Aufgaben inzwischen oft Transformer Modelle den Vorzug.

word embedding pre-training google
Eines der populärsten Word2vec-Modelle hat ein Pre-Training mit 100 Milliarden Wörtern aus Google News durchlaufen

Wie funktioniert Word Embedding?

Word Embedding ist eine wichtige Methode, um Text in eine mathematisch erfassbare Form zu bringen, und bildet die Grundlage für Word2vec. Aus einzelnen Wörtern entstehen dabei numerische Vektoren. Diese können durch Länge und Dimensionen deutlich mehr Informationen über ein Wort abbilden als einzelne Zahlen, mit denen in der Frühzeit von NLP noch gearbeitet wurde. Als erstes wird die Länge des Vektors festgelegt. Sie definiert den Umfang möglicher Kontextinformationen, die für das Wort abgebildet werden können. Das hängt auch von der Komplexität und Eindeutigkeit des Wortes bzw. möglicher Verwendbarkeit für unterschiedliche Kontexte ab. Je größer der Vektor, desto rechenintensiver wird auch die Weiterverarbeitung. Die Dimensionen von Vektoren werden üblicherweise durch übereinander geschriebene Nummern dargestellt. In typischen Beispielen sind das oft drei Stück, die den Vektor in einem Koordinatensystem im dreidimensionalen Raum abbildbar machen. In der Praxis können Word Embeddings jedoch hunderte oder gar tausende Dimensionen haben – abhängig vom Umfang des verwendeten Textkorpus’.

Word Embedding eignet sich gut, um Beziehungen zwischen Wörtern messbar zu machen. Wenn sich diese ähneln, sind sie auch im Vektorraum nah beieinander. Handelt es sich beispielsweise um die Wörter “Baum” und “Blume”, so stimmen sie in ihrem Pflanzendasein überein. Dieses Merkmal kann innerhalb der Vektoren in einer entsprechenden Dimension codiert sein. Je mehr davon sich gleichen, desto näher sind sich die Vektoren im Vektorraum und desto wahrscheinlicher werden die zugehörigen Wörter in einem ähnlichen Kontext verwendet – wie etwa beim Thema Bepflanzungen. Word Embedding Modelle nutzen zwar allesamt diese Prinzipien, aber unterscheiden sich in der technischen bzw. mathematischen Herangehensweise sowie ihrem Lernverfahren – und somit auch in ihren Stärken und Schwächen. GloVe beispielsweise, ein beliebter Konkurrent von Word2vec, basiert auf Matrixfaktorisierung zur Dimensionsreduktion. Word2vec hingegen nutzt dafür in der Regel die Grundarchitektur neuronaler Feedforward Netze. Doch auch dabei gibt es unterschiedliche Varianten.

word2vec model

2 Modell-Typen für Word2vec

Mit der Einführung von Word2vec hat das Forscherteam von Google direkt zwei konkrete Modelle vorgestellt, die auch bis heute am relevantesten geblieben sind. Sie unterscheiden sich in der  Funktionsweise der verwendeten neuronalen Netze. Daher liefern sie eine unterschiedliche Art von Output und können entsprechend für verschiedene Zwecke eingesetzt werden.

Das Continuous Bag-of-Words-Modell

Das hierbei verwendete neuronale Netz fokussiert sich besonders auf die syntaktischen Beziehungen von Wörtern, die es aus einer eingegebenen Wortgruppe herausarbeitet. Diese kann zwar in Form eines Satzes strukturiert sein, allerdings betrachtet das neuronale Netz die Wörter unabhängig von ihrer Reihenfolge. Es bildet “Bags of words” – am einfachsten sind Wortpaare – um das wichtigste Hauptwort zu ermitteln. Unter Berücksichtigung der umliegenden Kontextwörter, wird ein in den Kontext passendes Wort ausgegeben. Weil sowohl beim Training, als auch bei dieser Transferleistung die umliegende Syntax als Basisinformation dient, steht die Ausgabe oft in enger syntaktischer Beziehung zum Hauptwort, wenn sie nicht damit übereinstimmt. Man erhält beispielsweise eine andere Deklination davon oder ein eng verwandtes Wort. Das CBOW-Modell nutzt also den Kontext, um ein Zielwort zu bestimmen. Bei der zweiten Methode ist quasi das Gegenteil der Fall.

Das Continuous Skip-Gram-Modell

Dieses Modell gibt zu einem einzelnen Eingabewort mehrere Kontextwörter aus, zu denen eine semantische Beziehung besteht. Sowohl die Logik, als auch die Architektur des Netzes verhalten sich umgekehrt zu CBOW. Dessen Zielwort entspricht hier im Prinzip dem singulären Input, der nach der Eingabe auf eine verdeckte Neuronenschicht trifft. Dort wird der Vektor des Eingabeworts mit neuronalen Gewichten verrechnet, die anhand des Pre-Trainings justiert sind. Auf dieser Basis erhält man an der Ausgabeschicht des Netzes ein Ergebnis aus einigen Wörtern bzw. deren Vektoren, die inhaltlich in ähnlichen Zusammenhängen verwendet werden wie das Eingabewort. Prinzipiell ist das im Vergleich zu CBOW eine komplexere, aber auch vielseitiger nutzbare Leistung. Deutlich mehr Anwendungen nutzen daher das Skip-Gram-Modell.

Word2vec: Einordnung in den NLP-Kosmos

Als Teilgebiet von Künstlicher Intelligenz beschäftigt sich Natural Language Processing mit automatisierter Sprachanalyse. Dafür umfasst es eine große Zahl unterschiedlicher Techniken. Anhand von Word2vec kann man auch erkennen, warum das so ist: Das Modell ist sehr spezifisch in seiner Funktionsweise und daher auch in den Aufgaben, die es erfüllen kann. Mithilfe neuronaler Netze führt es ein vektorbasiertes Word Embedding durch und trifft letztlich Aussagen über Kontext und Beziehungen von Wörtern. Das mag für Suchmaschinen und Online-Shops sehr hilfreich sein, ist aber nur ein Baustein in der komplexen Welt der Sprachanalyse. Sie umfasst viele Teilbereiche wie Textklassifizierung, Semantikanalyse, Textzusammenfassung und mehr.

Beliebte Alternativen zu Word2vec sind Modelle wie ELMo, die zwar ein ähnliches Training durchlaufen, aber in der Lage sind, in Text von einem Wort auf das nächste zu schließen und frühere Kontexte beizubehalten. Mit Konfuzio muss man sich allerdings nicht auf eines dieser Modelle festlegen. Als Enterprise AI Lösung schafft es Konfuzio als einzige datenzentrierte IDP Software selbst heterogene Dokumente inklusive Mehrsprachigkeit durch die hochgradig flexible Wahl von KI zu automatisieren. In manchen Fällen bietet Word2vec für ein spezifisches Problem die schnellste Lösung und kann dafür in die Laufzeitumgebung integriert werden. Besonders für die Analyse komplexer Dokumente kann aber auch jedes andere KI-Modell seinen Teil beitragen. Ein wichtiger Grundpfeiler dafür sind heute Large Language Models (LLM), die auch bei Konfuzio Anwendung finden.

Large Language Models als neuer Taktgeber

LLMs sind große Sprachmodelle, die ein sehr umfangreiches Pre-Training mit immensen Textmengen durchlaufen haben und somit die Grundvoraussetzung zur Lösung verschiedenster NLP-Probleme mitbringen. Durch eine anschließende Feinabstimmung können LLMs prinzipiell die gleichen Aufgaben erledigen wie Word2vec – und dabei sogar bessere Ergebnisse erzielen. Allerdings kann man sie zudem auch für nahezu jeden anderen Teilbereich von NLP nutzen. Für das Fine-Tuning sind im Vergleich zum Pre-Training lediglich überschaubare domänenspezifische Datenmengen notwendig. Und doch können für jede Einzelaufgabe sogar branchenspezifisch passgenaue Lösungen erarbeitet werden. Konfuzio nutzt ein solches Fine-Tuning beispielsweise, um LLMs auf spezifische Dokumententypen wie Lieferscheine, Zahlungsavise oder Rechnungen abzustimmen. Die Kombination mit anderen NLP-Techniken wie Word2vec ermöglicht somit ein vollumfängliches Document Understanding, wobei die Genauigkeit der automatisierten Textanalyse stetig zunimmt.

word2vec scanned text

Das wohl bekannteste Beispiel eines LLMs ist ChatGPT. Es basiert auf einer modernen GPT-Architektur, die sich besonders durch ihre hohe Komplexität von herkömmlichen neuronalen Netzen wie bei Word2vec unterscheidet. “Generative Pretrained Transformers” sind Word2vec in seinem Anwendungsgebiet zwar überlegen, doch Word Embeddings bleiben relevant, da sie besonders schnell trainiert sind und einfache Lösungen anbieten. Zudem erweitern sie das Spektrum einsetzbarer Analysetechniken, sodass auch branchenspezifisch passgenaue Ergebnisse möglich sind…

Anwendungsbeispiel: Automatisierte Textanalyse in der Versicherungsbranche

Mithilfe von Konfuzio können Modelle wie Word2vec mit Large Language Modells und diversen anderen Techniken kombiniert werden. Das eröffnet für die automatisierte Textanalyse ungeahnte Möglichkeiten, die auch vor sehr spezifischen Anforderungen nicht Halt machen. Das zeigt sich beispielsweise in der Versicherungsbranche. Dort beschäftigt man sich neben den üblichen Rechnungen mit sehr speziellen Dokumenten, deren manuelle Bearbeitung zeitaufwändig ist und ein hohes Schadenspotenzial innehat. Für viele dieser Fälle bietet Konfuzio passende Automatisierungsansätze, indem entsprechende KI-Modelle zur Analyse von Text ein individuelles Training durchlaufen:

Policendokumente: Mit KI-basierter OCR-Technik von Konfuzio analysieren Versicherer im Handumdrehen die Policendokumente ihrer Konkurrenten. So können sie ihr Versicherungsangebot und ihre Konditionen quasi in Echtzeit vergleichen und optimieren. Das führt zu einer deutlich verkürzten Reaktionszeit und einem entscheidenden Vorteil auf dem umkämpften Versicherungsmarkt.

KFZ-Zulassungsdokumente: Die automatisierte Analyse von Zulassungsdokumenten ist ein unkomplizierter Weg, um zusätzliche Vertriebswege zu erschließen oder bestehende Verträge ohne großen Mehraufwand zu optimieren. Durch den flexiblen Einsatz verschiedener KI-Techniken kann jeder relevante Text von KFZ-Dokumenten erfasst und zur Weiterverarbeitung aufbereitet werden. Für diese Treffsicherheit benötigt die AI OCR von Konfuzio lediglich 50 Trainingsbeispiele.

Darüber hinaus bietet Konfuzio für nahezu jede Art von Dokumentenverarbeitung Lösungen, die Fehler minimieren, Ressourcen einsparen und Prozesse optimieren – nicht nur für Versicherungen, auch für Ihr Unternehmen! Wenn Sie wissen wollen, wie Konfuzio Ihre Geschäftsprozesse boosten kann, hinterlassen Sie uns gerne direkt eine Nachricht.

«
»
Avatar von Tim Filzinger

Neueste Artikel