Nur kurze Zeit nach dem Siegeszug der großen Sprachmodelle gelingt in der künstlichen Intelligenz ein weiterer entscheidender Durchbruch: Neu entwickelte Multimodal Large Language Models sind in der Lage, neben Text auch visuelle Elemente zu verarbeiten. Somit ist man der oft herbei geträumten allgemeinen KI einen weiteren Schritt näher.
Eine zentrale Schlüsselrolle nimmt dabei Multimodal Deep Learning ein. Als noch junges Spezialgebiet von Machine Learning erzielt es bereits beeindruckende Ergebnisse in der Objekterkennung sowie Sprach- und Bildanalyse. Das bietet vielfältige Chancen – besonders im Bereich der intelligenten Dokumentenverarbeitung.
Dieser Artikel wurde auf Deutsch verfasst und redaktionell überprüft. Weitere Sprachen stehen als automatische Übersetzung zur Verfügung. Wir freuen uns über Feedback am Ende des Artikels.
Eine neue Dimension generativer KI
Es war bis zuletzt der neue gängige Standard: Zur Lösung diverser Aufgaben der automatisierten Sprachverarbeitung (NLP) kommen pre-trainierte Large Language Models (LLMs) mit einem domänenspezifischen Fine-Tuning zum Einsatz. Die Grundfähigkeit, komplexe Zusammenhänge in menschlicher Sprache zu erkennen, stammt dabei aus der Analyse immenser Textmengen im Rahmen eines unüberwachten Lernverfahrens. Daraus entstehende Möglichkeiten in Sachen Analyse, Generierung, Übersetzung und Zusammenfassung von Text reichten auf jeden Fall, um den Tech-Sektor auf den Kopf zu stellen – man denke an ChatGPT. Allerdings modellieren sie nur eine, zwar sehr wichtige, aber eben einzelne Dimension der menschlichen Wahrnehmung.
Multimodal LLMs überwinden neuerdings diese Grenze, indem sie die Fähigkeiten herkömmlicher Modelle um die Verarbeitung multimodaler Informationen ergänzen. Dazu zählen beispielsweise Bilder, aber auch Audio- und Video-Formate. Somit sind sie in der Lage, deutlich umfassendere Aufgaben zu lösen und müssen in vielen Fällen nicht einmal extra darauf abgestimmt werden. Die bisher oftmals notwendige Kombination mit Vision Models könnte dadurch erheblich an Bedeutung verlieren. Insgesamt ist hier ein bedeutender Durchbruch erkennbar, der sich in folgenden grundlegenden Fortschritten ausdrückt:
- Annäherung an die menschliche Wahrnehmung durch zentralisierte Verarbeitung unterschiedlicher Informationstypen
- Höhere Benutzerfreundlichkeit und flexiblere Interaktion durch visuelle Elemente
- Lösung neuartiger Aufgaben ohne separates Fine-Tuning
- Keine Beschränkung auf den Anwendungsbereich der natürlichen Sprachverarbeitung

Wie funktionieren Multimodal LLMs?
Multimodal LLMs bedienen sich grundsätzlich weiterhin der 2017 von Google vorgestellten Transformer-Architektur. Bei den darauf aufbauenden Entwicklungen der vergangenen Jahre wurde bereits deutlich, dass umfassende Erweiterungen und Neuinterpretationen möglich sind. Das betrifft besonders die Wahl der Trainingsdaten und Lernverfahren – wie auch hier.
Multimodal Deep Learning
Diese neue Sonderform von Machine und Deep Learning konzentriert sich auf die Entwicklung spezieller Algorithmen, deren Kombination die Verarbeitung unterschiedlicher Datentypen erlaubt. Das geschieht weiterhin unter Anwendung neuronaler Netze, die aufgrund ihrer Tiefe auch mit besonders hohem Informationsgehalt umgehen können, wie er vor allem in visuellen Inhalten vorliegt. Dadurch ist zugleich ein intensiverer Lernprozess möglich. Multimodales Deep Learning erlaubt daher nicht nur den Umgang mit diversifiziertem Input, sondern führt auch zu gesteigerter Geschwindigkeit und Performance. In der Bereitstellung der dafür notwendigen Datenmengen liegt allerdings auch eine der größten Herausforderungen.
Ablösung des klassischen Fine-Tunings
Zusätzlich kommen im Vergleich zu bisherigen Paradigmen neuartige Methoden wie das sogenannte “Instruction tuning” zum Einsatz. Das beschreibt ein Fine-Tuning pre-trainierter LLMs für eine ganze Reihe von Aufgaben – anders als bisher üblich. Ergebnis ist eine deutlich generalisierte Anwendbarkeit. So sind entsprechende Models auch auf bislang unbekannte Aufgaben vorbereitet, ohne dass ein weiteres überwachtes Training oder unzählige Prompts notwendig sind.
Die Vielseitigkeit der durchlaufenen Daten ist für diesen Vorgang von enormer Wichtigkeit. Entsprechende Encoding-Mechanismen sind neben Sprache auch für die Verarbeitung von Bild- und Videoinhalten verantwortlich. So lernt das Model Zusammenhänge zwischen Text und anderen Inhaltsformen zu erkennen. Auf visuellen Input kann es daher mit sprachlichen Erklärungen oder Interpretationen reagieren.
An dieser Stelle ist darauf hinzuweisen, dass es sich hierbei um erste Einblicke aus einer aktuellen Studie handelt (A Survey on Multimodal Large Language Models, Yin, Fu et al., 2023). Die Einzelheiten zu Aufbau und Funktionsweisen der Models werden von den entwickelnden Unternehmen noch unter Verschluss gehalten. Weniger geheim sind hingegen die revolutionären Fortschritte, die Multimodal LLMs in einem bestimmten Anwendungsbereich ermöglichen könnten.
Gamechanger für die intelligente Dokumentenverarbeitung
Die automatisierte Verarbeitung von Geschäftsdokumenten ist ein weit verbreiteter, aber ebenso komplexer Anwendungsbereich von künstlicher Intelligenz. Large Language Models spielen dabei bislang eine besonders große Rolle, um den enthaltenen Text maschinell zu verarbeiten. Die große Schwierigkeit: Häufig liegen Dokumente in optischer Form vor und erfordern daher zunächst weitere Techniken wie Optical Character Recognition. Ähnliches gilt für die Erfassung von Layoutinformationen, wofür bislang meist Computer Vision zum Einsatz kommt. Multimodal LLMs haben das Potenzial für umfassende Vereinfachungen. Dabei helfen folgende Fähigkeiten:
- Output auf Basis visuellen Inputs generieren, z. B. Inhalt eines hochgeladenen Geschäftsdokuments oder Bildes zusammenfassen
- Analyse neuartiger Dokumente ohne zusätzliches Fine-Tuning
- Queries/Abfragefunktionen, z. B. auf Anfrage die Kostenpunkte einer Rechnung benennen
- Parsen von Dokumenten und Ausgabe der Daten in verschiedenen Formaten, z. B. JSON
- Mehrsprachigkeit ohne separate Übersetzung, z. B. englisches Dokument analysieren und auf Deutsch Fragen dazu beantworten
Dokumentenanalyse wird beschleunigt
Im Vergleich zu bisheriger IDP Software auf Basis herkömmlicher Large Language Models können Multimodal LLMs für eine deutlich erhöhte Prozessgeschwindigkeit sorgen. Das beginnt bereits bei der Implementierung; aufgrund geringeren Trainingsaufwands fällt diese weniger zeitintensiv aus. Dazu trägt auch die Einsparung hochspezialisierter Business-Anwendungen bei, die bislang zur individuellen Anwendbarkeit der Models integriert werden mussten. Hinzu kommt die erhöhte Performance, die so ziemlich bei jeder Generation großer KI-Modelle weiter skaliert wurde. Zugleich sorgen die Entwickler für eine intuitivere Handhabung, die Fehlern und ausufernden Korrekturschleifen bei der Weiterverarbeitung vorbeugt.
Die Alternative – Wie DocumentGPT Dokumente liest
Auf der Suche nach Alternativen zu dem bekannten Google Text-Bot Bard liegt es nahe, sich mit ChatGPT und dem neuen multimodalen LLM GPT-4 von OpenAI auseinanderzusetzen. Das bleibt in Sachen Dokumentenverarbeitung jedoch ein kurzweiliges Vergnügen: Im Oktober 2023 reagiert das Model auf den zwar möglichen Upload eines Personalausweises sowie eine Nachfrage nach dem Bildinhalt mit “Sorry, I cannot help with that”. Auch präzisierende Prompts ändern nichts an diesem Output. Unumstritten bleiben hingegen die sprachlichen Fähigkeiten von GPT-4. Es fehlt lediglich der praktisch nutzbare, multimodale Zugang dazu.
Oder doch nicht? DocumentGPT ist eine KI-Technologie von Konfuzio, welche die optische Extraktion von Labels und Beschriftungen ermöglicht. Über die GPT-4-API ist anschließend eine Sprachverarbeitung durch OpenAIs aktuellstes LLM möglich. Am anderen Ende kann über Konfuzios APIs und SDK die nahtlose Integration in vorhandene Workflows erfolgen, sodass derzeit bestehende Hürden überwunden werden.
Testen Sie DocumentGPT auf dem Konfuzio Marktplatz und überzeugen Sie sich selbst. Auf app.konfuzio.com können Sie sich kostenlos registrieren und einen Zugang für das leistungsstarke KI-Modell beantragen.

Limitationen von Multimodal LLMs
Bei jedem technologischen Fortschritt werden die Grenzen des Möglichen zwar verschoben, aber nicht gänzlich aufgehoben. Besonders bei neuen KI-Modellen liegt zwar oftmals eine stärker generalisierte Anwendbarkeit vor, die aber nicht selten auch auf Kosten von Fehlern und Schwächen in einzelnen Bereichen geht. Der Test von Google Bard und PaLM 2 offenbart, auf welche Limitationen sich die Forschung in der nächsten Zeit konzentrieren könnte:
Niedrige Datengenauigkeit: Die fehlerhafte Extraktion von Daten kann für Unternehmen lästige Konsequenzen mit sich bringen.
Halluzinationen: Nicht minder problematisch ist die Herbeiführung von Daten, die in einem Dokument überhaupt nicht vorhanden sind.
Rechenfehler: Bereits frühere Large Language Models taten sich zum Teil sogar mit den Grundrechenarten schwer. Wichtige Finanzdokumente lassen allerdings nur wenig Spielraum für Fehler zu.
Mangelhafte Spezialisierung: Die stärker generalisierte Anwendbarkeit kann noch nicht in allen Bereichen fein-abgestimmte Models übertreffen.
Lösungsansätze
Auch wenn der experimentelle Status aktueller Multimodal Large Language Models bislang kaum integrierte Lösungen für die vorhandenen Schwächen ermöglicht, sind bereits ergänzende Strategien absehbar. Die Grundidee, KI-Modelle in ihrer Leistung zu optimieren, ist schließlich nichts Neues. So könnten beispielsweise folgende Ansätze helfen, bereits mit dem aktuellen Entwicklungsstand gute Ergebnisse im Umgang mit Dokumenten und Text zu erzielen:
Human in the Loop ist ein wertvolles Konzept, das sowohl Fehlern vorbeugt, als auch durch Annotationen die künftige Performance des Models verbessert. Dafür findet eine regelmäßige Feedback-Schleife durch menschliche Teammitglieder statt. Weitere Informationen finden Sie in diesem Blogbeitrag.
Expertensysteme können diese menschliche Logik bei der Fehlersuche ersetzen, indem sie auf eine Verkettung von Untersuchungsschritten und Handlungsprinzipien programmiert werden.
Dadurch entstehen Hybridmodelle, die trotz Fehleranfälligkeit des zugrunde liegenden Language Models einen hohen Automatisierungsgrad zulassen.
Besonders wichtig ist also die Anwendung einer Business-Logik, die auf verschiedene Weisen – durch Mensch oder Maschine – als Validierungsschicht rund um das neue System implementiert wird.
Um bei diesen Konzepten nicht den Überblick zu verlieren, bietet sich die Einführung einer All-in-One-Lösung an: Konfuzio ist eine Plattform zur intelligenten Dokumentenverarbeitung, die Prinzipien der Business-Logik sowie große Sprachmodelle als Schnittstelle zwischen Mensch und KI vereint. Der flexible Einsatz von Technologien wie Computer Vision oder Optical Character Recognition wurde über die Jahre optimiert und passt sich jederzeit den neuesten (multimodalen) Entwicklungen an.
Fazit
Durch die Fähigkeit, multimodale Inhalte zu verarbeiten und mit Text zu kombinieren, haben Large Language Models eine neue Dimension generativer KI erreicht. Das führt zur Überwindung von Grenzen, die sich bislang trennscharf um den Bereich des Natural Language Processing erstreckten. Ein Multimodal LLM ist nicht nur in der Lage, Bilder und Videos zu verstehen, sondern bietet auch bei der Sprachverarbeitung ein erhöhtes Maß an Flexibilität. Dafür sorgen neuartige Methoden wie das “Instruction Tuning”, das sich nicht auf einzelne Aufgaben beschränkt und somit in vielen Fällen ein späteres überwachtes Training überflüssig macht.
Besonders großes Potenzial entsteht durch diese Neuerung bei der intelligenten Dokumentenverarbeitung. Diese ist bislang stark von Feinabstimmungen und der Kombination mit spezialisierten Business-Anwendungen sowie Vision-Modellen abhängig. Komplett ablösen können Multimodal LLMs diese Herangehensweise jedoch noch nicht. Um Ungenauigkeiten und Fehlern vorzubeugen, sind nach wie vor separate Validierungsmechanismen notwendig. Alles weitere dürfte wohl eine Frage der Zeit sein, die schon bald durch bereits laufende Entwicklungen beantwortet wird.
Möchten Sie mehr über die neuen Möglichkeiten durch Multimodal LLMs erfahren? Nehmen Sie gerne Kontakt zu uns auf.