Multimodal LLMs – Über die Limits der Sprache hinaus

Nur kurze Zeit nach dem Siegeszug der großen Sprachmodelle ist in der künstlichen Intelligenz ein weiterer entscheidender Durchbruch gelungen: Vergangenes Jahr vorgestellte Multimodal Large Language Models sind in der Lage, neben Text auch visuelle Elemente zu verarbeiten. Somit ist man der oft herbei geträumten allgemeinen KI einen weiteren Schritt näher.

Eine zentrale Schlüsselrolle nimmt dabei Multimodal Deep Learning ein. Als noch junges Spezialgebiet von Machine Learning erzielt es bereits beeindruckende Ergebnisse in der Objekterkennung sowie Sprach- und Bildanalyse. Das bietet vielfältige Chancen – besonders im Bereich der intelligenten Dokumentenverarbeitung. Inzwischen ist absehbar, was tatsächlich möglich ist, aber auch, wo die neuen Grenzen liegen.

Eine weitere Dimension generativer KI

Es war zuvor noch der gängige Standard: Zur Lösung diverser Aufgaben der automatisierten Sprachverarbeitung (NLP) kommen pre-trainierte Large Language Models (LLMs) mit einem domänenspezifischen Fine-Tuning zum Einsatz. Die Grundfähigkeit, komplexe Zusammenhänge in menschlicher Sprache zu erkennen, stammt dabei aus der Analyse immenser Textmengen im Rahmen eines unüberwachten Lernverfahrens. Daraus entstehende Möglichkeiten in Sachen Analyse, Generierung, Übersetzung und Zusammenfassung von Text reichten auf jeden Fall, um den Tech-Sektor auf den Kopf zu stellen – man denke an ChatGPT. Allerdings modellieren sie nur eine, zwar sehr wichtige, aber eben einzelne Dimension der menschlichen Wahrnehmung.

Multimodal LLMs überwinden diese Grenze, indem sie die Fähigkeiten herkömmlicher Modelle um die Verarbeitung multimodaler Informationen ergänzen. Dazu zählen beispielsweise Bilder, aber auch Audio- und Video-Formate. Somit sind sie in der Lage, deutlich umfassendere Aufgaben zu lösen und müssen in vielen Fällen nicht einmal extra darauf abgestimmt werden. Die bisher oftmals notwendige Kombination mit Vision Models könnte dadurch erheblich an Bedeutung verlieren. Insgesamt ist hier ein bedeutender Durchbruch erkennbar, der sich in folgenden grundlegenden Fortschritten ausdrückt:

  • Annäherung an die menschliche Wahrnehmung durch zentralisierte Verarbeitung unterschiedlicher Informationstypen
  • Höhere Benutzerfreundlichkeit und flexiblere Interaktion durch visuelle Elemente
  • Lösung neuartiger Aufgaben ohne separates Fine-Tuning
  • Keine Beschränkung auf den Anwendungsbereich der natürlichen Sprachverarbeitung
data format and images
Die Bandbreite der unterstützten Formate könnte noch weiter anwachsen.

Wie funktionieren Multimodal LLMs?

Multimodal LLMs bedienen sich grundsätzlich weiterhin der 2017 von Google vorgestellten Transformer-Architektur. Bei den darauf aufbauenden Entwicklungen der vergangenen Jahre wurde bereits deutlich, dass umfassende Erweiterungen und Neuinterpretationen möglich sind. Das betrifft besonders die Wahl der Trainingsdaten und Lernverfahren – wie auch hier.

Multimodal Deep Learning

Diese Sonderform von Machine und Deep Learning konzentriert sich auf die Entwicklung spezieller Algorithmen, deren Kombination die Verarbeitung unterschiedlicher Datentypen erlaubt. Das geschieht weiterhin unter Anwendung neuronaler Netze, die aufgrund ihrer Tiefe auch mit besonders hohem Informationsgehalt umgehen können, wie er vor allem in visuellen Inhalten vorliegt. Dadurch ist zugleich ein intensiverer Lernprozess möglich. Multimodales Deep Learning erlaubt daher nicht nur den Umgang mit diversifiziertem Input, sondern führt auch zu gesteigerter Geschwindigkeit und Performance. In der Bereitstellung der dafür notwendigen Datenmengen liegt allerdings auch eine der größten Herausforderungen.

Ablösung des klassischen Fine-Tunings

Zusätzlich kommen im Vergleich zu bisherigen Paradigmen neuartige Methoden wie das sogenannte “Instruction tuning” zum Einsatz. Das beschreibt ein Fine-Tuning pre-trainierter LLMs für eine ganze Reihe von Aufgaben – anders als vorher üblich. Ergebnis ist eine deutlich generalisierte Anwendbarkeit. So sind entsprechende Models auch auf bislang unbekannte Aufgaben vorbereitet, ohne dass ein weiteres überwachtes Training oder unzählige Prompts notwendig sind.

Finetuned Language Model
Quelle: Finetuned Language Models Are Zero-Shot Learners

Die Vielseitigkeit der durchlaufenen Daten ist für diesen Vorgang von enormer Wichtigkeit. Entsprechende Encoding-Mechanismen sind neben Sprache auch für die Verarbeitung von Bild- und Videoinhalten verantwortlich. So lernt das Model Zusammenhänge zwischen Text und anderen Inhaltsformen zu erkennen. Auf visuellen Input kann es daher mit sprachlichen Erklärungen oder Interpretationen reagieren.

Durch die Einblicke der ersten Studie zu diesem Thema  (A Survey on Multimodal Large Language Models, Yin, Fu et al., 2023) wird großes Potenzial für einen weit verbreiteten KI-Anwendungsbereich absehbar. Das ist auch der darauf folgenden Forschung nicht entgangen: Mit DocLLM wurde eine Erweiterung traditioneller Language Models entwickelt, die für multimodales Document Understanding primär die räumliche Layout-Struktur mit einbezieht. Mit diesen Ansätzen entstehen umfassende neue Möglichkeiten.

open-source mllm
Inzwischen existieren diverse Open-Source-Demos, die sich den Fähigkeiten der kommerziellen Flaggschiffe annähern.

Gamechanger für die intelligente Dokumentenverarbeitung

Die automatisierte Verarbeitung von Geschäftsdokumenten ist ein komplexer Prozess, der durch künstliche Intelligenz aber immer besser abbildbar wird. Large Language Models spielen dabei bislang eine besonders große Rolle, um den enthaltenen Text maschinell zu verarbeiten. Die große Schwierigkeit: Häufig liegen Dokumente in optischer Form vor und erfordern daher zunächst weitere Techniken wie Optical Character Recognition. Ähnliches gilt für die Erfassung von Layoutinformationen, wofür bislang meist Computer Vision zum Einsatz kommt. Multimodal LLMs haben das Potenzial für umfassende Vereinfachungen. Dabei helfen folgende Fähigkeiten:

  • Output auf Basis visuellen Inputs generieren, z. B. Inhalt eines hochgeladenen Geschäftsdokuments oder Bildes zusammenfassen
  • Analyse neuartiger Dokumente ohne zusätzliches Fine-Tuning
  • Queries/Abfragefunktionen, z. B. auf Anfrage die Kostenpunkte einer Rechnung benennen
  • Parsen von Dokumenten und Ausgabe der Daten in verschiedenen Formaten, z. B. JSON
  • Mehrsprachigkeit ohne separate Übersetzung, z. B. englisches Dokument analysieren und auf Deutsch Fragen dazu beantworten

Dokumentenanalyse wird beschleunigt

Im Vergleich zu IDP Software auf Basis herkömmlicher Large Language Models können Multimodal LLMs für eine deutlich erhöhte Prozessgeschwindigkeit sorgen. Das beginnt bereits bei der Implementierung; aufgrund geringeren Trainingsaufwands fällt diese weniger zeitintensiv aus. Dazu trägt auch die Einsparung hochspezialisierter Business-Anwendungen bei, die bislang zur individuellen Anwendbarkeit der Models integriert werden mussten. Hinzu kommt die erhöhte Performance, die so ziemlich bei jeder Generation großer KI-Modelle weiter skaliert wurde. Zugleich sorgen die Entwickler für eine intuitivere Handhabung, die Fehlern und ausufernden Korrekturschleifen bei der Weiterverarbeitung vorbeugt.

Die Alternative – Wie DocumentGPT Dokumente liest

Auf der Suche nach Alternativen zu dem bekannten Google Text Bot Bard liegt es nahe, sich mit ChatGPT und dem neuen multimodalen LLM GPT-4 von OpenAI auseinanderzusetzen. 2023 reagierte das Model auf visuellen Input (z. B. einen Personalausweis) noch häufig mit Fehlermeldungen wie “Sorry, I cannot help with that”. Inzwischen wird das Objekt zwar erkannt, aber die Datenextraktion des Ausweises bleibt weiter erfolglos. Darüber hinaus wird auf gewisse Limitationen verwiesen, die sich um die Präzision bei fachspezifischen Dokumenten und Objekten, z. B. im medizinischen Bereich drehen. Zudem fehlt es an einem spezialisierten Zugriff auf geschäftliche Archive, die eine produktive Nutzbarkeit in Unternehmen erlaubt.

Oder doch nicht? DocumentGPT ist eine KI-Technologie von Konfuzio, welche die optische Extraktion von Labels und Beschriftungen ermöglicht. Über die GPT-4-API ist anschließend eine Sprachverarbeitung durch OpenAIs aktuellstes LLM möglich. Ein Zugriff auf die multimodalen Funktionalitäten per API ist nicht gestattet. Daher sind die visuellen OCR-Funktionalitäten von Konfuzio gefragt, um zunächst die Daten zu extrahieren und dann lediglich zur reinen Sprachverarbeitung zu senden. Am anderen Ende kann über Konfuzios APIs und SDK die nahtlose Integration in vorhandene Workflows erfolgen, sodass derzeit bestehende Hürden überwunden werden.

Testen Sie DocumentGPT auf dem Konfuzio Marktplatz und überzeugen Sie sich selbst. Auf app.konfuzio.com können Sie sich kostenlos registrieren und einen Zugang für das leistungsstarke KI-Modell beantragen.

DocumentGPT
Mit DocumentGPT gelingt, woran ChatGPT bislang noch scheitert.

Limitationen von Multimodal LLMs

Bei jedem technologischen Fortschritt werden die Grenzen des Möglichen zwar verschoben, aber nicht gänzlich aufgehoben. Besonders bei neuen KI-Modellen liegt zwar oftmals eine stärker generalisierte Anwendbarkeit vor, die aber nicht selten auch auf Kosten von Fehlern und Schwächen in einzelnen Bereichen geht. Die ersten Tests der Modelle offenbaren, auf welche Limitationen sich die Forschung in der nächsten Zeit konzentrieren könnte:

Niedrige Datengenauigkeit: Die fehlerhafte Extraktion von Daten kann für  Unternehmen lästige Konsequenzen mit sich bringen.

Halluzinationen: Nicht minder problematisch ist die Herbeiführung von Daten, die in einem Dokument überhaupt nicht vorhanden sind.

Rechenfehler: Bereits frühere Large Language Models taten sich zum Teil sogar mit den Grundrechenarten schwer. Wichtige Finanzdokumente lassen allerdings nur wenig Spielraum für Fehler zu.

Mangelhafte Spezialisierung: Die stärker generalisierte Anwendbarkeit kann noch nicht in allen Bereichen fein-abgestimmte Models übertreffen.

Verarbeitung von hoher Bildauflösung: Eine aktuelle Studie legt nahe, dass multimodale LLMs derzeit noch an der Analyse von Bildinformationen in hoher Auflösung scheitern.

Lösungsansätze

Auch wenn der experimentelle Status aktueller Multimodal Large Language Models bislang kaum integrierte Lösungen für die vorhandenen Schwächen ermöglicht, sind bereits ergänzende Strategien absehbar. Die Grundidee, KI-Modelle in ihrer Leistung zu optimieren, ist schließlich nichts Neues. So könnten beispielsweise folgende Ansätze helfen, bereits mit dem aktuellen Entwicklungsstand gute Ergebnisse im Umgang mit Dokumenten und Text zu erzielen:

Human in the Loop ist ein wertvolles Konzept, das sowohl Fehlern vorbeugt, als auch durch Annotationen die künftige Performance des Models verbessert. Dafür findet eine regelmäßige Feedback-Schleife durch menschliche Teammitglieder statt. Weitere Informationen finden Sie in diesem Blogbeitrag.

Expertensysteme können diese menschliche Logik bei der Fehlersuche ersetzen, indem sie auf eine Verkettung von Untersuchungsschritten und Handlungsprinzipien programmiert werden.

Dadurch entstehen Hybridmodelle, die trotz Fehleranfälligkeit des zugrunde liegenden Language Models einen hohen Automatisierungsgrad zulassen.

Besonders wichtig ist also die Anwendung einer Business-Logik, die auf verschiedene Weisen – durch Mensch oder Maschine – als Validierungsschicht rund um das neue System implementiert wird.

Ergänzende Modelle wie DocLLM können bestehende MLLMs um weitere Fähigkeiten erweitern, um bestehende Probleme zumindest teilweise zu lösen. Ein weiteres aktuelles Beispiel ist Monkey, das sich den Limits bei zu hoher Bildauflösung annimmt.

Um bei diesen Konzepten nicht den Überblick zu verlieren, bietet sich die Einführung einer All-in-One-Lösung an: Konfuzio ist eine Plattform zur intelligenten Dokumentenverarbeitung, die Prinzipien der Business-Logik sowie große Sprachmodelle als Schnittstelle zwischen Mensch und KI vereint. Der flexible Einsatz von Technologien wie Computer Vision oder Optical Character Recognition wurde über die Jahre optimiert und passt sich jederzeit den neuesten (multimodalen) Entwicklungen an.

Fazit

Durch die Fähigkeit, multimodale Inhalte zu verarbeiten und mit Text zu kombinieren, haben Large Language Models eine neue Dimension generativer KI erreicht. Das führt zur Überwindung von Grenzen, die sich bislang trennscharf um den Bereich des Natural Language Processing erstreckten. Multimodal LLMs sind nicht nur in der Lage, Bilder und Videos zu verstehen, sondern bieten auch bei der Sprachverarbeitung ein erhöhtes Maß an Flexibilität. Dafür sorgen neuartige Methoden wie das “Instruction Tuning”, das sich nicht auf einzelne Aufgaben beschränkt und somit in vielen Fällen ein späteres überwachtes Training überflüssig macht.

Besonders großes Potenzial entsteht durch diese Neuerung bei der intelligenten Dokumentenverarbeitung. Diese war zuvor stark von Feinabstimmungen und der Kombination mit spezialisierten Business-Anwendungen sowie Vision-Modellen abhängig. Komplett ablösen können Multimodal LLMs diese Herangehensweise jedoch noch nicht. Um Ungenauigkeiten und Fehlern vorzubeugen, sind nach wie vor separate Validierungsmechanismen notwendig. Alles weitere dürfte wohl eine Frage der Zeit sein, die schon bald durch bereits laufende Entwicklungen beantwortet wird.

Möchten Sie mehr über die Möglichkeiten von Multimodal LLMs für Unternehmen erfahren? Nehmen Sie gerne Kontakt zu uns auf.


Ihr Feedback erhalte ich direkt per E-Mail







    de_DEDE