NLP Models – Rasante Entwicklung der künstlichen Sprach-Genies

Dass Künstliche Intelligenz seit einigen Jahren sowohl IT als auch Medien aufmischt, liegt hauptsächlich an Entwicklungen in einem bestimmten Teilbereich der Technologie: Natural Language Processing (NLP) revolutioniert die Art und Weise, wie Mensch und Maschine kommunizieren. Die KI-basierte Generierung kohärenter Texte ist dabei nur eine der ungeahnten Möglichkeiten, die selbst Fachleute gerade erst beginnen zu begreifen. Eine Timeline der bedeutsamsten NLP Models gibt Aufschluss über Vergangenheit, Gegenwart und Zukunft der automatisierten Sprachverarbeitung.

Was sind NLP Models?

NLP bedeutet Natural Language Processing und beschreibt KI-Techniken, die sich mit der Verarbeitung natürlicher Sprache befassen. Gängige Anwendungsgebiete sind die Analyse, Interpretation, Zusammenfassung, Übersetzung und Generierung von Text. Aber auch die algorithmische Verarbeitung gesprochener Eingaben entwickelt sich zu einer immer bedeutenderen Disziplin dieses Teilbereichs künstlicher Intelligenz. Da die menschliche Sprache mit Unregelmäßigkeiten, Doppeldeutigkeiten sowie humoristischen und emotionalen Einflüssen gespickt ist, sind für NLP komplexe KI-Modelle notwendig – sogenannte NLP Models, die dabei allerdings immer noch schnell an Grenzen stoßen.

NLP Models bilden das Herzstück entsprechender KI-Systeme bzw. Anwendungen. Meist basieren sie auf künstlichen neuronalen Netzen. Das sind Gruppierungen aus verbundenen Eingabe- und Ausgebeknoten (Neuronen), die sich mathematisch als rekursive Funktion beschreiben lassen. Indem Eingabesignale durch das Netz übertragen werden, ist ein Pre-Training moderner NLP Models anhand von großen Mengen Text möglich. Die spätere Nachjustierung der Neuronen für spezielle Aufgaben wird Fine-Tuning genannt. Dabei kommen kleinere Datasets zum Einsatz, die den Feinheiten des neuen Aufgabentyps entsprechen. Davon ist inzwischen eine ganze Reihe lösbar.

simple neural network model for nlp
Vereinfachte Darstellung eines neuronalen Netzwerks

Wie funktioniert Natural Language Processing?

So vielseitig die menschliche Sprache ist, so divers sind auch die Ansätze, sie für Algorithmen verständlich zu machen. Hier ein paar besonders relevante Strategien:

  1. Satzsegmentierung

    Durch Aufspaltung von Sätzen in kleinere Segmente ist eine leichtere Kategorisierung von Satzteilen möglich. Diese werden dadurch mathematisch abbildbar und Algorithmen können besser den jeweiligen Kontext erfassen.

  2. Syntaxanalyse

    Ein Blick auf die syntaktischen Funktionen und Zusammenhänge der Wörter (z.B. Subjekt, Objekt, Prädikat) erlaubt einen Rückschluss auf deren Bedeutung. Basis sind korrekt zugewiesene Beziehungen in den Trainingsdaten. Ein entsprechend gängiges NLP Model ist Word2vec.

  3. Semantikanalyse:

    Ebenso können Entitäten und semantische Verhältnisse wie Synonym oder Antonym Hinweise auf die genaue Wortbedeutung geben.

  4. Stimmungsanalyse:

    Kategorisierungen wie „negativ“, „positiv“ oder “neutral” ermöglichen es, sinnvolle Entscheidungen oder Maßnahmen zu treffen. Das ist beispielsweise bei der Analyse von Kundenfeedback nützlich.

Konkrete Techniken, die dabei zum Einsatz kommen, sind z.B. Vektorisierung, Parsen, Klassifikatoren oder Word Sense Disambiguation. Oft ermöglichen einzelne dieser Vorgehensweisen allein kein vollumfängliches Verständnis von Text. In vielen Fällen werden sie daher kombiniert – entweder durch mehrere oder durch besonders vielseitige NLP Models.

Timeline der wichtigsten NLP Models

Eigentlich hat Natural Language Processing seinen Ursprung bereits in den 1950ern: In einem Experiment der Georgetown University in Zusammenarbeit mit IBM gelang es Forschern, über 60 russische Sätze maschinell ins Englische zu übersetzen. Danach blieb die neue Technologie lange hinter den Erwartungen zurück. In den 1990ern führte die Verbindung mit Machine Learning Algorithmen wie Decision Trees zu erhöhter Anwendbarkeit – allerdings nur für einzelne Aufgaben. So richtig von sich reden machen NLP Models erst seit wenigen Jahren. Woran liegt das?

Die Geburtsstunde der Transformer

Transformer sind eine bestimmte Form von NLP Models, deren spezielle Architektur erstmals 2017 von Google vorgestellt wurde. Sie basiert auf einer Embedding-Schicht zur Vektorisierung von Eingabesequenzen sowie dahinter geschalteten Encodern und Decodern. Eine besonders große Rolle spielen zudem sogenannte Attention-Module (vgl. Titel des Papers “Attention Is All You Need”). Diese ermöglichen die Berechnung von Korrelationen zwischen eingegebenen Einheiten, was die Bestimmung von Wortbeziehungen und -kontexten erleichtert.

Der Aufmerksamkeitsmechanismus ist angelehnt an unbewusste Prozesse der menschlichen Sprachwahrnehmung, durch die Worte unabhängig von ihrer Reihenfolge besonderes Gewicht für die Satzbedeutung erhalten. Dadurch sind Transformer rein sequentiell arbeitenden Modellen wie LSTM oder Seq2seq überlegen. Ähnlich sieht es im Vergleich zu bisherigen Embedding-Modellen wie Word2vec aus. Die Besonderheit von Transformern ist also, dass sie aufgrund ihrer vielseitigen Architektur die Aufgaben diverser einzelner NLP Models übernehmen können und diese darin sogar jeweils übertreffen.

Architecture of a Transformer Language Model
Transformer-Architektur. Quelle: Attention Is All You Need

ELMo

Der nächste Durchbruch in Natural Language Processing 2018 war noch kein Vertreter der Transformer, beeinflusste jedoch die Entwicklung eines entsprechenden Kandidaten. Embeddings from Language Models (ELMo) nutzt Wortrepräsentationen und berücksichtigt dabei sowohl komplexe Faktoren wie Syntax und Semantik, als auch diverse Kontextvariationen. Diese ermittelt das Language Model aus umliegenden Wörtern und ist damit besonders sensibel für sprachliche Feinheiten. Auch aufgrund seines umfangreichen Pre-Trainings mit über einer Milliarde Wörtern wurde ELMo für viele NLP Aufgaben schnell State of the Art.

Architektur:

  • Convolutional Neural Network (CNN)
  • Bidirektionales Language Model aus zwei Schichten
  • hintereinander geschaltete LSTM-Module
  • 93.6 Millionen Parameter

Fähigkeiten: Übersetzungen, Zusammenfassungen von Text, Fragen beantworten, Stimmungsanalyse.

GPT-1

2018 erregte dann auch der erste generative pre-trained Transformer von OpenAI große Aufmerksamkeit in Fachkreisen. Als direkte Reaktion auf die von Google vorgestellte Transformer-Architektur wurde das Konzept um generatives Pre-Training erweitert. Anders als bisher üblich, durchlief das NLP Model dabei ein unüberwachtes Lernverfahren. Das Trainingsset bestand aus dem Text von über 11000 Büchern. So sollte GPT das Verständnis längerer Zusammenhänge ermöglicht und die Produktion eigener Textpassagen erleichtert werden. In dieser Fähigkeit liegt die mit Abstand größte Neuerung im Vergleich zu früheren Language Models. GPT-1 war der Startschuss für einen beispiellosen Wettlauf um immer bessere NLP Performance durch Transformer.

Architektur:

  • Transformer Decoder Model
  • 117 Millionen Parameter
  • 12 Layer 
  • Wegfall des von Google vorgeschlagenen Encoder-Parts

Fähigkeiten: Generierung und Vervollständigung von kohärentem Text, Übersetzungen, Fragen beantworten.

BERT

Natürlich musste auch Google noch im gleichen Jahr mit einem eigenen Transformer Model aufwarten: BERT (Bidirectional Encoder Representations from Transformers) wendet einen bidirektionalen Trainingsansatz an, sodass ein tiefergehendes Kontextverständnis möglich ist als beim einseitigen Durchlauf von Sequenzen. Hier ist der Einfluss von ELMo auf die Transformer-Entwicklungen feststellbar. Damit diese Methode aber überhaupt auf weitere NLP Models anwendbar wurde, stellten die Forscher zudem eine neue Technik namens Masked Language Modelling (MLM) vor. BERT begründete somit eine ganze Familie besonders leistungsstarker Sprachmodelle, die sogar in die Google-Suche implementiert wurden. 

Architektur: 

  • Transformer Encoder Model
  • zusätzliches Klassifikations-Layer (für MLM)
  • BERTbase: 12 Schichten, 110 Millionen Parameter
  • BERTlarge: 24 Schichten, 340 Millionen Parameter

Fähigkeiten: Erfassen von langen Kontexten, Zusammenfassen und Generieren von Text, Wortvorhersagen.

GPT-4

Im Jahr 2023 blickt OpenAI auf eine ganze Reihe von GPT-Modellen zurück, die mit ChatGPT auch der Öffentlichkeit zugänglich gemacht wurden. Dabei übertrafen sie ihre Vorgänger jeweils in ihrer Komplexität, der beim Pre-Training verwendeten Menge an Text und letztlich der Performance in diversen NLP Aufgaben. Bereits GPT-3 hatte ein Pre-Training aus 570GB Text durchlaufen und konnte auf 175 Milliarden Parameter zurückgreifen. GPT-4 stellt eine weitere, deutliche Steigerung dar, unterscheidet sich allerdings besonders durch die Fähigkeit, auch Bilder zu verarbeiten. Was als reiner Text-Bot begann, leitet nun in Form eines Large Multimodal Models eine Ära der Transformer mit erweiterten Kompetenzen ein. Die Generierung von umfangreichem, zusammenhängendem und absolut überzeugendem Text ist hingegen längst zur Selbstverständlichkeit geworden.

Architektur: Den genauen Aufbau des Language Models hält OpenAI bislang geheim – wahrscheinlich weil er replizierbar ist, wie die Experten Dylan Patel und Gerald Wong analysieren. Sie erwarten schon bald ähnlich leistungsstarke NLP Models von Konkurrenten wie Meta und Co. GPT-4 wird auf rund 1,6 Billionen Parameter in 120 Schichten und somit eine 10-fache Skalierung gegenüber GPT-3 geschätzt.

Fähigkeiten: Textanalyse, Zusammenfassung und Übersetzung von Text, Generierung von kohärentem Text in Sekundenschnelle, menschenähnliche Antworten, Code generieren, Website anhand von Skizzen erstellen, Grafiken analysieren, Fragen zu Bildern beantworten.

performance of GPT-4 and GPT-3.5 in NLP Tasks
Vergleich der Performance von GPT-4 und GPT-3.5 in verschiedenen NLP Aufgaben. Quelle: OpenAI

PaLM 2

Googles Text-Bot Bard basiert seit Mai 2023 nicht mehr auf dem Large Language Model LaMDA, sondern auf PaLM 2. Das State of the Art Model ist mit umfangreichen neuen Funktionalitäten für Coding, die Unterstützung von Google Workspace und logische Argumentation ausgestattet. Das verwendete Trainingsset beinhaltet große Mengen Text aus wissenschaftlichen Arbeiten und Websites. Zudem liegt eine verbesserte Mehrsprachigkeit vor, die nun über 100 Sprachen umfasst. PaLM 2 gibt es in vier verschiedenen Größen, die sich nach dem jeweiligen Endgerät richten. Insgesamt wird deutlich, wie Google auf möglichst alltagstaugliche Implementierungen setzt, um eine umfassende Nutzung zu gewährleisten. NLP Models sind somit im Zentrum der generellen Anwendbarkeit angelangt.

Architektur: Transformer, ansonsten wenig bekannt. Deutliche Steigerung gegenüber 540 Milliarden Parameter des Vorgängers ist wahrscheinlich.

Fähigkeiten: Weitere Verbesserung in den meisten NLP Aufgaben, Programmieren, Mehrsprachigkeit, Logik, Google-Implementierungen.

Fazit und Ausblick

Seit einigen Jahren stellt Natural Language Processing aufgrund neuer Möglichkeiten der automatisierten Sprachverarbeitung eine der bedeutsamsten KI-Technologien dar. Das betrifft besonders die Generierung und Übersetzung von Text. Ein äußerst wichtiger Durchbruch in diese Richtung war die Vorstellung der Transformer-Architektur durch Google im Jahr 2017. Diese erfuhr mit Language Models wie GPT-1 und BERT in Zusammenhang mit dem bidirektionalen Ansatz von ELMo schon bald darauf erfolgreiche technische Umsetzung. Zudem trägt die Verwendung unüberwachter Lernverfahren zur exponentiellen Steigerung in Trainingsumfang, Komplexität und Performance folgender Modelle bei. Durch deren wachsenden Mehrwert spielen die Trainingskosten oft nur noch eine untergeordnete Rolle. Eine Fortsetzung dieser Trends ist daher sehr wahrscheinlich.

technology over time applied on language models

Weitere Entwicklungen konzentrieren sich auch auf das Ausmerzen von Fehlern und Schwächen von Language Models. Diese liegen z.B. in Bereichen der Aktualität, Logik und Arithmetik. Eine mögliche Lösung für manche Probleme wäre die automatisierte Nutzung externer Apps wie durch Metas Toolformer. Neben zunehmend alltagstauglichen Anwendungen sind auch mehr fachspezifische Einsatzgebiete absehbar. Beispielsweise wird bereits Med-PaLM 2 für medizinische Zwecke getestet. Transformer werden dabei auf absehbare Zeit die technische Grundlage bleiben. Dass auch sie irgendwann einem neuen Typ NLP Model weichen müssen, ist jedoch nicht ausgeschlossen.


Wenn Sie mehr über Natural Language Processing und den Mehrwert der Technologie für Unternehmen erfahren möchten, nutzen Sie gern das Kontaktformular. Unsere Experten freuen sich auf den Austausch.

«
»
Avatar von Tim Filzinger

Neueste Artikel