Die Limits von LLMs und wie RAG Abhilfe schafft

Begriffe wie Retrieval Augmented Generation (RAG) und Large Language Models (LLMs) haben in der jüngsten Vergangenheit viel Aufmerksamkeit auf sich gezogen – und das ist nicht verwunderlich. Die Entwicklung, dass Menschen mit Maschinen kommunizieren, scheint völlig normal geworden zu sein. Doch das alleinige „Sprechen“ mit Sprachmodellen wie

  • GPT-3
  • GPT-4
  • Llama 2
  • Mistral-7B

ist nicht das Außergewöhnliche an dieser Situation. Außergewöhnlich ist, dass diese Maschinen – hier LLMs – Sie verstehen. Oder etwa doch nicht?

Probieren Sie es aus:

Lassen Sie sich von einem Sprachmodell Ihrer Wahl das Ergebnis der neuesten Wahlumfragen im Wahltrend zur Bundestagswahl erklären, wobei Sie in der Antwort sowohl positive als auch negative Auswirkungen berücksichtigt haben möchten.

Hat es geklappt?

In diesem Blogpost werden wir Ihnen Möglichkeiten aufzeigen, wie Sie eine zuverlässige Antwort auf Fragen wie diese erhalten.

Das Limit von LLMs bei der Beantwortung von Fragen

Den Kontext einer menschlichen Benutzeranfrage zu verstehen ist kein einfacher Trick, sondern ein technisch hochkomplexer Ansatz, welcher auf Kombination von externen Retrievalsystemen (= System zur Wiederherstellung von spezifischen Informationen aus gespeicherten Daten) und Large Language Models (LLMs) basiert.

Welche Dimension von Informationen können LLMs verstehen und verarbeiten, welche wiederum nicht?

Ab welchem Punkt LLMs bei der Beantwortung von Fragen versagen, werden wir in diesem Blogpost näher beleuchten. Außerdem werden wir Ihnen zeigen, wie Echtzeitinformationen zu Large Language Models hinzugefügt werden können.

Suchen Sie weiterführende Informationen über den Einsatz von LLMs zur Entwicklung von Konfuzio’s DocumentGPT? Lesen Sie den informativen Blogpost DocumentGPT – Entfesseln Sie die Macht von LLMs und erfahren Sie mehr.

Konkrete Grenzen von LLMs

Sprachmodelle bieten Produktivitätssteigerungen und unterstützen uns bei verschiedenen Aufgaben. Doch wie bereits erwähnt, sollten Sie sich darüber im Klaren sein, dass auch KI-gestützte LLMs ihre Grenzen haben. Diese treten besonders deutlich zutage, wenn

  • zeitnahe bzw. aktuelle Informationen,
  • Echtzeitinformationen,
  • private Informationen,
  • domänenspezifisches Wissen,
  • unterrepräsentiertes Wissen im Trainingskorpus,
  • rechtliche Aspekte und
  • sprachliche Aspekte

angefragt werden. Fragen Sie zum Beispiel ChatGPT nach der aktuellen Inflationsrate in Deutschland. Sie werden – ähnlich wie im obigen Test – eine Antwort wie diese erhalten:

„Ich entschuldige mich für die Verwirrung, aber als KI-Sprachmodell verfüge ich nicht über Echtzeitdaten oder Browsing-Funktionen. Meine Antworten beruhen auf Informationen, die bis September 2021 verfügbar sind. Daher kann ich Ihnen nicht die aktuelle Inflationsrate in Deutschland nennen.“

Diese Einschränkung stellt ein großes Problem dar. ChatGPT ist, wie viele weitere LLMs, nicht in der Lage, zeitnahe und kontextbezogene Informationen zu liefern, die für fundierte Entscheidungen möglicherweise entscheidend sind.

Diese Ursache steckt hinter den LLM Limits

Der Grund, weshalb LLMs in der Zeit „feststecken“ und nicht in der Lage sind, mit der sich schnell entwickelnden Welt Schritt zu halten, ist:

Die Ausbildungs- und Informationsdaten von ChatGPT haben einen sogenannten „Cutoff-Punkt“. Dieser Zeitpunkt bzw. Stichtag ist bei diesem Sprachmodell auf September 2021 festgelegt. Wenn Sie ChatGPT also nach Ereignissen oder Entwicklungen fragen, die nach diesem Datum eingetreten sind, erhalten Sie entweder

  • überzeugend klingende, aber völlig falsche Informationen, was unter dem Begriff „Halluzination“ bekannt ist oder
  • unsachliche Antworten mit implizierten Empfehlungen, wie zum Beispiel

„Meine Daten reichen nur bis September 2021, und ich habe keinen Zugriff auf Informationen über Ereignisse, die nach diesem Datum stattgefunden haben. Wenn Sie Informationen zu Ereignissen nach September 2021 benötigen, empfehle ich, auf aktuelle Nachrichtenquellen oder Suchmaschinen zuzugreifen, um die neuesten Entwicklungen zu verfolgen.“

RAG als Lösung für das LLM Limit-Problem

Genau hier setzt Retrieval Augmented Generation (RAG) an. Dieser Ansatz schließt die Wissenslücke der LLMs und versetzt diese in die Lage, durch die Integration externer Retrieval-Mechanismen kontextgenaue und aktuelle Informationen zu liefern.

In den folgenden Abschnitten erklären wir Ihnen das Konzept von RAG näher und untersuchen, wie RAG die Grenzen von LLMs erweitert.

Was ist Retrieval Augmented Generation?

RAG Retrieval Augmented Generation Definition

Retrieval Augmented Generation – kurz RAG – ist eine Methode in der künstlichen Intelligenz (KI) und der natürlichen Sprachverarbeitung, die darauf abzielt, die Leistung von LLMs durch die Integration externer Retrievalsysteme zu verbessern. Die Technik erlaubt das Abrufen von Daten aus externen Quellen, z. B. aus Organisationskorpora oder Dokumentendatenbanken, und dient zur Anreicherung der zur Konditionierung des Sprachmodells (LLM) verwendeten Prompts.

Wie funktioniert Retrieval Augmented Generation?

RAG nutzt die Leistungsfähigkeit von Transformatoren wie GPT-3 oder GPT-4 in Verbindung mit externen Abruf- oder Suchmechanismen. Anstatt sich nur auf das interne Wissen des Modells zu verlassen, fragt RAG einen externen Datensatz ab, typischerweise einen Korpus von Dokumenten, um relevante Informationen zu erhalten. Diese abgerufenen Daten werden anschließend verwendet, um eine kontextbezogene Antwort zu generieren.

RAG vs. Finetuning

RAG ermöglicht es den Modellen, Informationen aus externen Quellen abzurufen, um den Kontext von Benutzeranfragen besser zu verstehen und genauere Antworten zu generieren. Es erweitert die Fähigkeiten von LLMs, indem es eine Verbindung zu Wissensdatenbanken oder anderen Informationsquellen herstellt.

Finetuning ist ein Prozess, bei dem ein bereits vortrainiertes Basismodell, wie ein Large Language Model, an spezifische Aufgaben oder Domänen angepasst wird. Dies geschieht durch das Weiterschulungen des Modells auf einer begrenzten Menge von aufgabenspezifischen Trainingsdaten. Während des Feinabstimmungsprozesses lernt das Modell, wie es sich am besten auf eine bestimmte Aufgabe oder Domäne konzentriert, und optimiert seine Fähigkeiten für diese spezielle Anwendung.

Hauptunterschied zwischen RAG und Finetuning liegt in ihrer Funktionsweise und ihrem Zweck

RAG konzentriert sich darauf, die Verarbeitung natürlicher Sprache durch die Integration externer Informationen zu verbessern, wodurch das Modell in der Lage ist, den Kontext von Anfragen besser zu verstehen und genauere Antworten zu generieren. Finetuning dagegen zielt darauf ab, ein vortrainiertes Basismodell für eine bestimmte Aufgabe oder Domäne spezifisch anzupassen, indem es auf eine begrenzte Menge von Trainingsdaten zurückgreift.

Beide Methoden sind nützlich, aber sie haben unterschiedliche Anwendungsgebiete und Ziele. RAG erweitert die Fähigkeiten von LLMs durch die Integration externer Informationen, während die Feinabstimmung auf die Anpassung an spezifische Aufgaben oder Domänen abzielt.

RAG Vergleich – Vorteile, Nachteile und Alternativen

RAG bietet eine kostengünstige und effiziente Alternative zu traditionellen Methoden wie Vortraining oder Finetuning von Basismodellen. RAG befähigt im Wesentlichen große Sprachmodelle, direkt auf spezifische Daten zuzugreifen, wenn sie auf bestimmte Aufforderungen reagieren. Um die Unterschiede zwischen RAG und Alternativen aufzuzeigen, betrachten Sie die folgende Abbildung.

Das Radardiagramm vergleicht konkret drei verschiedene Methoden:

  • Pretrained LLM,
  • Pretrained + finetuned LLM und
  • Pretrained + RAG LLM.
RAG LLM Vergleich

Dieses Radardiagramm ist eine grafische Darstellung mehrdimensionaler Daten, bei der jede Methode anhand mehrerer Kriterien bewertet wird, die als Achsen im Diagramm dargestellt ist. Zu den Kriterien gehören

  • Kosten,
  • Komplexität,
  • Domänenspezifisches Wissen,
  • Aktualität,
  • Erklärbarkeit und
  • Vermeidung von Halluzinationen.

Jede Methode wird als Polygon im Diagramm dargestellt, wobei die Scheitelpunkte des Polygons den Werten dieser Kriterien für die jeweilige Methode entsprechen.

Zum Beispiel:

Die Methode „Pretrained LLM“ hat relativ niedrige Werte für „Kosten“, „Komplexität“, „Domänenspezifisches Wissen“ und „Halluzinationsvermeidung“, aber einen höheren Wert für „Aktualität“ und „Erklärbarkeit“.

Die Methode „Pretrained + finetuned LLM“ hingegen hat höhere Werte für „Kosten“, „Komplexität“, „Domänenspezifisches Wissen“ und „Halluzinationsvermeidung“, aber niedrigere Werte für „Aktualität“ und „Erklärbarkeit“. Schließlich hat die „Pretrained + RAG LLM“-Methode ein einzigartiges Muster mit hohen Werten für „Up-to-date“, „Explainability“ und „Domain specific Knowledge“.

Die Methode „Pretrained + RAG LLM“ zeichnet sich durch domänenspezifisches Wissen, aktuelle Informationen, Erklärbarkeit und Vermeidung von Halluzinationen aus. Dies ist wahrscheinlich darauf zurückzuführen, dass der RAG-Ansatz es dem Modell ermöglicht, Informationen mithilfe von Graphenstrukturen zu erklären, was sein Verständnis verbessern, Halluzinationen verhindern und transparentere und genauere Antworten in bestimmten Bereichen liefern kann.

Kontextbezogene und aktuelle Antwortgenerierung mit RAG „how to“

Der Prozess der Retrieval Augmented Generation (RAG) besteht aus folgenden 3 Schritten:

  1. Erstellen einer Vektordatenbank aus bereichsspezifischen Daten:
    Der erste Schritt bei der Implementierung von RAG besteht darin, eine Vektordatenbank aus Ihren domänenspezifischen, proprietären Daten zu erstellen. Diese Datenbank dient als Quelle des Wissens, aus dem RAG schöpft, um kontextrelevante Antworten zu liefern. Um diese Vektordatenbank zu erstellen, führen Sie die folgenden Schritte aus:
  2. Umwandlung in Vektoren (Einbettungen):
    Um Ihre domänenspezifischen Daten für RAG nutzbar zu machen, müssen Sie sie in mathematische Vektoren umwandeln. Dieser Umwandlungsprozess wird erreicht, indem Sie Ihre Daten durch ein Einbettungsmodell laufen lassen, das eine spezielle Art von Large Language Model (LLM) ist. Diese Einbettungsmodelle sind in der Lage, verschiedene Datentypen, einschließlich Text, Bilder, Video oder Audio, in Arrays oder Gruppen numerischer Werte umzuwandeln. Wichtig ist, dass diese numerischen Werte die Bedeutung des Eingabetextes wiedergeben, ähnlich wie ein anderer Mensch die Essenz des Textes versteht, wenn er ihn laut ausspricht.
  3. Erstellung von Vektordatenbanken:
    Sobald Sie die Vektoren erhalten haben, die Ihre bereichsspezifischen Daten repräsentieren, erstellen Sie eine Vektordatenbank. Diese Datenbank dient als Repository für semantisch reichhaltige Informationen, die in Form von Vektoren kodiert sind. In dieser Datenbank sucht RAG nach semantisch ähnlichen Elementen auf der Grundlage der numerischen Repräsentationen der gespeicherten Daten.

Das folgende Diagramm veranschaulicht, wie Sie eine Vektordatenbank aus Ihren domänenspezifischen, proprietären Daten erstellen. Um Ihre Vektordatenbank zu erstellen, konvertieren Sie Ihre Daten in Vektoren, indem Sie sie durch ein Einbettungsmodell laufen lassen. Im folgenden Beispiel konvertieren wir Konfuzio Dokumente (Konfuzio Documents), die die neuesten Informationen über Konfuzio enthalten. Die Daten können dabei aus Text, Bildern, Videos oder Audios bestehen:

limits-llm-rag
Wie Sie eine Vektordatenbank aus Ihren bereichsspezifischen, proprietären Daten erstellen (Vektordatenbank und der Konfuzio Documents)

Integration von abgerufenem Fachwissen (Kontext) in LLMs

Nachdem Sie nun eine Vektordatenbank mit domänenspezifischem Wissen aufgebaut haben, besteht der nächste Schritt darin, dieses Wissen in LLMs zu integrieren. Diese Integration erfolgt durch ein so genanntes „Kontextfenster“.

Stellen Sie sich das Kontextfenster als das Sichtfeld des LLMs zu einem bestimmten Zeitpunkt vor:

Wenn RAG in Aktion ist, ist es so, als würden Sie dem LLM eine Karte mit kritischen Punkten aus der domänenspezifischen Datenbank vor die Nase halten.

Dieses Kontextfenster ermöglicht es dem LLM, auf wichtige Daten zuzugreifen und sie zu integrieren. Dadurch wird sichergestellt, dass seine Antworten nicht nur kohärent, sondern auch kontextuell korrekt sind.

Durch die Einbettung von domänenspezifischem Wissen in das Kontextfenster des LLM steigert RAG die Qualität der generierten Antworten. RAG befähigt das LLM, auf die in der Vektordatenbank gespeicherten umfangreichen Daten zurückzugreifen. Dadurch werden seine Antworten informierter und relevanter für die Anfragen des Benutzers.

Im nachstehenden Diagramm stellen wir die Funktionsweise von RAG am Beispiel von „Konfuzio Documents“ dar:

LLMs RAG-Workflow mit Konfuzio Dokumente

Mit Hilfe unseres RAG Workflows können wir unser Large Language Model (Generator) dazu zwingen, sich an den Inhalt unserer Wissensbasis (Konfuzio Documents) zu halten, der für die Beantwortung der Benutzeranfrage am relevantesten ist.

Et voilà, das Resulat: Retrieval-Augmented Generierung ! ✅

Update – Gut zu wissen

Einerseits nutzt Konfuzio Azure für OCR, andererseits erlaubt Azure’s API heute die Umwandlung von Dokumenten in Markdown. Das wiederum bedeutet, dass Konfuzio diese Funktion nutzen kann, um Ihre Dokumente in Markdown umzuwandeln und sie anschließend in den Generierungsteil, der auf einem LLM basiert, in RAG einfließen zu lassen.

Dies kann die Genauigkeit und Leistung Ihrer RAG-Pipeline verbessern!

Der Grund dafür ist die Eigenschaft, dass diese Markdown-Darstellung mehr Informationen und Kontext über die Dokumente liefert als zuvor – und zwar in Form von Tabellen, Abbildungen, Checkboxen, usw.

Konfuzio Azure OCR Markdown
Quelle: techcommunity.microsoft.com

Fazit

Die zunehmende Integration von Large Language Models (LLMs) in unseren Alltag hat zweifellos viele Vorteile mit sich gebracht, aber sie stößt auch an ihre Grenzen. Die Herausforderung besteht darin, dass LLMs, wie GPT-3, GPT-4, Llama 2 und Mistral-7B, Schwierigkeiten bei der Bereitstellung von zeitnahen, kontextbezogenen Informationen sowie domänenspezifischem Wissen haben. Dies stellt ein erhebliches Hindernis dar, insbesondere wenn genaue und relevante Antworten erforderlich sind.

Retrieval Augmented Generation (RAG) erweist sich in dieser Hinsicht als vielversprechende Lösung. RAG ermöglicht die Integration externer Retrieval-Systeme in Large Language Models, was es diesen Modellen ermöglicht, auf umfangreiche Wissensdatenbanken und aktuelle Informationen zuzugreifen. Dadurch können sie benutzerdefinierte Anfragen besser verstehen und präzisere, kontextbezogene Antworten liefern.

Warum sollten Sie also RAG verwenden und nicht auf alternative Ansätze setzen?

  1. RAG ermöglicht die Bereitstellung von Echtzeitinformationen und aktuellem Wissen, was insbesondere in schnelllebigen Bereichen und für fundierte Entscheidungen von entscheidender Bedeutung ist.
  2. RAG erlaubt die Integration von domänenspezifischem Wissen in die Antwortgenerierung. Dies ist essenziell, wenn spezialisiertes Fachwissen gefragt ist.
  3. Im Gegensatz zu einigen alternativen Ansätzen bietet RAG eine transparentere und nachvollziehbare Methode zur Beantwortung von Fragen, da sie auf vorhandenen Daten und Fakten basiert.
  4. RAG minimiert die Wahrscheinlichkeit von falschen oder erfundenen Informationen, da es auf externe, verlässliche Quellen zugreift.

Zusammenfassend schließt Retrieval Augmented Generation die Lücken in den Fähigkeiten von LLMs und ermöglicht zuverlässige Antworten auf komplexe Fragen. Dies macht es zu einer vielversprechenden Methode für die Zukunft der Kommunikation mit maschinellen Intelligenzen und Unterstützung in einer breiten Palette von Anwendungen.

Haben Sie Fragen oder Interesse an einer Demonstration der Konfuzio Infrastruktur?

Schreiben Sie uns eine Nachricht. Unser Expertenteam berät Sie gerne.








    «
    »
    Avatar de Mohamed Dhiab

    Neueste Artikel