Backpropagation: Der Schlüssel zum Training neuronaler Netze

Um die Genauigkeit künstlicher neuronaler Netze zu verbessern, ist Backpropagation eines der wichtigsten überwachten Lernverfahren. Es basiert mathematisch auf dem Vergleich gewünschter Ausgabewerte mit dem tatsächlichen Output und führt den festgestellten Fehler vom Ausgabe-Layer in das Netz zurück. Die anschließende Optimierung neuronaler Gewichte stellt die Quintessenz maschinellen Lernens dar. Alles Wissenswerte zu diesem Vorgang erfahren Sie hier.

Was ist Backpropagation?

Backpropagation, auch Fehlerrückführung genannt, ist ein mathematisch fundierter Lernmechanismus zum Training mehrschichtiger neuronaler Netze. Er geht auf die Delta-Regel zurück, die den Vergleich eines beobachteten mit einem gewünschten Output beschreibt (Delta = ai(gewünscht) – ai(beobachtet)). Im Sinne eines Gradientenverfahrens wird meist der mittlere quadratische Fehler berechnet und bei Rückführung in das Netz zu dessen genauerer Gewichtung genutzt. Neben Eingabe- und Ausgabeschicht werden bei Backpropagation auch verdeckte Schichten (hidden layers) genutzt. Grundvoraussetzung ist, dass zu jeder Zeit die gewünschten Zielwerte bekannt sind. Das Verfahren ist ein bedeutender Teil von Machine Learning und trägt entscheidend zum Fine-Tuning von KI-Modellen bei.

Das Grundprinzip der Vorgehensweise wurde bereits in den 1960er Jahren entwickelt. Zu dieser Zeit war es allerdings noch unvollständig, ineffizient und technisch kaum anwendbar. In den 1970ern tauchte zunächst eine modernere Variante davon auf, die aber ebenfalls kaum praktischen Nutzen fand und für einige Zeit wieder in Vergessenheit geriet. 1986 zeigten Rumelhart, Hinton und Williams die Anwendbarkeit auf neuronale Netze, was einen Durchbruch in der kognitiven Psychologie bedeutete. Backpropagation modelliert zwar nicht den Lernmechanismus biologischer Neuronen, aber führt zu ebenso mathematisch exakten Ergebnissen. Nach wie vor ist biochemisch nicht genau geklärt, wie im Neocortex Informationen über die Zielwerte zurück in den synaptischen Spalt der vorherigen Neuronenschicht gelangen. Dass dies zum Lernen notwendig ist, gilt jedoch als sicher und findet in Backpropagation eine technische Analogie, durch die sich die Genauigkeit künstlicher Netze erhöhen lässt.

synaptic cleft

Einordnung in den Trainingsprozess

Backpropagation beschreibt nur einen – wenn auch sehr wichtigen – der Vorgänge, die zum Training künstlicher neuronaler Netze notwendig sind. Ohne die Gesamtheit solcher Prozesse ist es nicht möglich, ein zuverlässiges KI-Modell zu entwickeln. Die Prozedur ist überwiegend mathematischer Natur, soll hier aber zunächst verbale Erklärung finden: Um ein neuronales Netz zu trainieren, muss dieses zur geplanten Vorgehensweise passend aufgebaut sein. Grundsätzlich kann man sich darunter eine Gruppierung miteinander verbundener Eingabe- und Ausgabeknoten (Neuronen) vorstellen, die sich als nichtlineare, rekursive Funktion beschreiben lässt.

Ziel ist es, die einzelnen Neuronen so zu gewichten, dass das Netz möglichst genaue Ergebnisse liefert. Dafür wird eine Aktivierungsfunktion, eine Hypothesenfunktion und eine Fehlerfunktion benötigt. Um am Ende die Veränderungen der Gewichte zu bestimmen, hilft eine Optimierungsfunktion. Grob lässt sich das Netz in Eingabeschicht (input layer), verborgene Schichten (hidden layers) und Ausgabeschicht (output layer) unterteilen. Der Trainingsprozess läuft typischerweise in folgenden Schritten ab:

  • Initialisierung am Input Layer
  • Forward Propagation
  • Backpropagation
  • Iteration

Die Berechnung der Ausgabewerte ist Aufgabe der Forward Propagation und verhält sich in etwa konträr zu Backpropagation. Dabei bauen die Ausgaben einzelner Neuronen aufeinander auf und bilden jeweils neue Eingabewerte für folgende Neuronen. Schließlich können am Output Layer dann die Ausgabewerte des Netzes bestimmt und für die Fehlerrechnung genutzt werden. Somit sind alle Voraussetzungen für eine Backpropagation geschaffen.

backpropagation network

Wie funktioniert Backpropagation?

Anders als die deutsche Wortbedeutung vermuten lässt, umfasst Backpropagation in der Regel nicht nur die Rückführung von Fehlern, sondern auch bereits deren Berechnung am Output Layer. Entscheidend sind exakt festgelegte Zielwerte, die mit den Ergebnissen der Forward Propagation abgeglichen werden. Die verwendete Fehlerfunktion umfasst typischerweise den Mean Squared Error, also die mittlere quadrierte Differenz, kann aber auch Kreuzentropie oder den mittleren absoluten prozentualen Fehler nutzen.

Hieraus entstehende Werte entsprechen der Ungenauigkeit des gesamten Netzes, da der verwendete Output auf Basis aller enthaltenen Neuronen berechnet wurde. Nun gilt es, den festgestellten Fehler zu minimieren, in das Netz zurückzuführen und über die Optimierungsfunktion eine darauf aufbauende Veränderung der Gewichte und Schwellenwerte (Bias) vorzunehmen. So liefert das Netz bereits bei der folgenden Iteration genauere Ergebnisse. Der Vorgang kann so oft wiederholt werden, bis die gewünschte Genauigkeit erreicht ist. Die wichtigsten Schritte der Backpropagation sind somit:

  • Fehlerrechnung
  • Fehlerminimierung
  • Gewichtsanpassung
  • Modellierung der Vorhersagegenauigkeit

Eine detaillierte mathematische Erklärung des Verfahrens findet sich hier:

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Zwei Arten von Backpropagation

Die Einzelheiten des Lernverfahrens können sich je nach Beschaffenheit des Netzes und Aufgaben, die es erfüllen soll, unterscheiden. Eine typische Kategorisierung ist:

1. Statische Backpropagation

Diese Variante wird angewendet, wenn das Modell einen statischen Output zu einem statischen Input liefert. Ein gängiges Anwendungsgebiet ist KI-basierte Optical Character Recognition (OCR). Beim Training eines entsprechenden Netzes bestünde der Input aus optischen, z.B. handschriftlichen Zeichen und die Zielwerte wären mit dazu passenden textbasierten Zeichen verknüpft. Durch die Fehlerrückführung lernt das Netz dazu und erhöht somit kontinuierlich die Genauigkeit der Texterkennung.

2. Rekurrente Backpropagation

Hierbei werden die Aktivierungen so weit durch das Netz übertragen, bis sie einen festen Wert erreichen. Sie sind also nicht von Anfang an statisch wie beim zuvor beschriebenen Verfahren. Als weiterer Unterschied ergibt sich daraus, dass hier keine unmittelbare Zuordnung bei der Initialisierung am Input Layer möglich ist.

Praktische Anwendungsbeispiele

ChatGPT

Dieses KI-Modell, das auf der GPT-Architektur basiert, dürfte inzwischen wohl jedem bekannt sein. Es wurde entwickelt, um auf Eingaben mit möglichst menschenähnlichen Antworten zu reagieren, und hat ein Pre-Training mit einer großen Menge an Text durchlaufen. Für spezielle Aufgaben kann ChatGPT einem Fine-Tuning unterzogen werden, wobei Backpropagation eine entscheidende Rolle spielt. Entsprechend des oben beschriebenen Verfahrens wird die Fehlerfunktion minimiert und zur Optimierung der Gewichte des neuronalen Netzes genutzt. So liefert das Tool zunehmend akkurate Ergebnisse.

Image Recognition

Hierbei handelt es sich um eine Unterart von Computer Vision, die nicht nur zum Erkennen, sondern auch zum Interpretieren von Bildinformationen zur weiteren Entscheidungsfindung eingesetzt wird. Dabei kommen überwiegend klassische neuronale Netze zum Einsatz, die mithilfe von Backpropagation trainiert werden können. Diese Vorgehensweise bietet hier einen besonderen Mehrwert, da leicht eine sehr große Zahl an Iterationen durchgeführt werden kann, was für das Fine-Tuning zur treffsicheren Bildinterpretation zwingend notwendig ist.

LayoutLM

Dieses pre-trainierte Sprachmodell wird zur Analyse komplex aufgebauter Dokumente eingesetzt. Dabei kombiniert es sowohl Text- als auch Layoutinformationen und stellt somit ein sehr hilfreiches Werkzeug zum Document Understanding von Rechnungen, Formularen und Quittungen dar. Backpropagation wird genutzt, um die Feinabstimmung des Modells für einen bestimmten Dokumententyp vorzunehmen. So kann es letztlich sehr spezifisch entsprechend der individuellen Bedürfnisse verwendet werden – womit das Hauptziel eines Fine-Tunings mittels Backpropagation auf den Punkt gebracht wäre.

«
»
Avatar von Tim Filzinger

Neueste Artikel