AI Models – Von Regelsystemen zu neuronalen Allroundern

in

am

Beim Diskurs rund um Modelle künstlicher Intelligenz (AI) tauchen oft eng zusammenhängende Begriffe wie Machine Learning und neuronale Netze auf. Auch wenn sie gerne synonym verwendet werden, gibt es fundamentale Unterschiede, die in den jeweils verwendeten Techniken begründet sind.

Dabei findet eine zunehmende Ausdifferenzierung statt. Das zeigt sich in einer Einordnung besonders populärer AI Models und ihrer Funktionsweisen in die verschiedenen Teilbereiche.

Was sind AI Models?

AI Models sind Computerprogramme und Algorithmen, die mithilfe künstlicher Intelligenz zur eigenständigen Entscheidungsfindung fähig sind. Sie stellen somit Modellierungen von Fähigkeiten des menschlichen Verstandes dar und sollen davon abhängige Aktionen automatisieren. Zentral ist dabei die Nutzung einer Erfahrungsbasis, um bislang unbekannte Probleme zu lösen, was einer der populärsten Definitionen von Intelligenz entspricht. Dieses Prinzip lässt sich mithilfe von Datenanalyse maschinell adaptieren. Dabei gibt es unzählige Umsetzungsmöglichkeiten, ebenso wie viele weitere Ansätze, um Programme und Algorithmen mit intelligentem Handeln zu versehen.

Künstliche Intelligenz ist lediglich ein Oberbegriff für all diese Techniken und eröffnet ein komplexes System verschiedener Teilbereiche, in das jedes AI Model individuell einzuordnen ist. Besonders häufig ist die Rede von Machine Learning, das als größte Teilmenge tatsächlich weitgehend, aber nicht vollkommen deckungsgleich mit künstlicher Intelligenz ist. Darunter findet sich wiederum Deep Learning, das hauptsächlich auf neuronalen Netzen als Umsetzungstechnik basiert. Zu den wichtigsten Anwendungsgebieten von AI Models zählen Natural Language Processing (NLP), Computer Vision und Robotik, die sich wiederum je nach Technik zwischen den Teilbereichen von AI bewegen.

Zur Einordnung sind also besonders zwei Gesichtspunkte maßgeblich:

  • Die Technik/Methodik
  • Das Anwendungsgebiet

Der Unterschied zwischen künstlicher Intelligenz und Machine Learning

Einfache AI Models gab es bereits in den 1960er Jahren, allerdings blieben sie lange ohne wirklich praktischen Nutzen. Das Problem: Sie mussten aufwändig anhand von Regeln programmiert und damit jeweils für individuelle Situationen vorbereitet werden. Das änderte sich ab den 1980ern mit dem Auftreten von Machine Learning. Der große Unterschied: Es ermöglicht eigenständiges Lernen anhand von Daten und somit die Erkennung und Umsetzung von Handlungsprinzipien. 

Durch die Verbesserung der Rechenleistung und das Auftreten immer größerer nutzbarer Datenmengen wurde diese Entwicklung stark beschleunigt. Heute basieren die meisten Modelle auf Machine Learning, was die häufig synonyme Verwendung der Begriffe erklärt.

Trotzdem gilt immer noch: Alle Machine Learning Models sind AI Models, aber nicht alle AI Models sind Machine Learning Models.

Deep Learning – mehr Potenzial durch neuronale Netze

Deep Learning ist ein sehr populärer Teilbereich von Machine Learning und der Hauptgrund, warum AI Models derzeit so viel Aufmerksamkeit erregen. Es erweitert die Anwendung datenbasierter probabilistischer Prinzipien um komplex aufgebaute neuronale Netze, die von der menschlichen Hirnfunktion inspiriert sind. Sie bestehen aus mehreren Schichten künstlicher Neuronen, die jeweils Inputwerte mathematisch in einen Output transformieren.

Das gesamte Netz bildet somit Ausgabewerte, die auf allen Neuronen und deren beim Training optimierten Gewichtungen basieren. Durch die Tiefe dieser Netze und unzählige neuronale Verbindungen sind bedeutend komplexere Zusammenhänge analysierbar als mit Machine Learning Models ohne Deep Learning.

Es gilt: Alle Deep Learning Models sind Machine Learning Models, aber nicht alle Machine Learning Models sind Deep Learning Models.

simple display of a neural network
Vereinfachte Darstellung eines neuronalen Netzwerks

Einfache Modelle und ihre Einordnung

Bei der Betrachtung und Einordnung von KI-Modellen wird deutlich, wie längs zum entsprechenden Kategoriensystem, das erst mit der Zeit ausdifferenziert wurde, auch jeweils der Nutzen und die Anwendbarkeit der Technologien wachsen.

AI Models ohne Machine Learning

Aufgrund des hohen Aufwands im Verhältnis zu geringem Mehrwert sind diese Modelle so gut wie ausgestorben, finden allerdings in spezifischen Fällen immer noch Anwendung. Die gängigsten Vertreter sind:

  • Expertensysteme: Diese Algorithmen nutzen eine große Menge von Experten festgelegter Regeln und Prinzipien. Deren Verkettung durch eine Inferenzmaschine führt letztlich zu Entscheidungen, die sich keiner Wahrscheinlichkeit bedienen. So wird auch einer zu hohen Irrtumswahrscheinlichkeit vorgebeugt, wodurch der Ansatz zur Vermeidung fataler Fehler geeignet ist. Anwendungsfälle: Medizinische Diagnosen, IT-Fehlersuche, Erdbebenvorhersagen.
  • Genetische Algorithmen: Als Optimierungstechniken basieren sie nicht notwendigerweise auf Machine Learning, sondern auf Grundsätzen der Evolution wie Selektion, Rekombination und Mutation. Auf diese Weise werden individuelle Lösungsvorschläge für Optimierungsprobleme systematisch modifiziert, um ein Optimum zu generieren. Anwendungsfälle: Fahrtroutenplanung, Fahrzeugdesign, Portfolio-Optimierung.
genetic algorithm
Genetische Algorithmen sind eine weitere Modellierung, die von der Natur inspiriert ist.

ML Models ohne Deep Learning

In diesem Bereich halten sich einfache, aber wirksame Modelle auf, die sich klassische statistische Prinzipien zunutze machen. Nicht selten dienen sie als schnelle Baseline und liefern erste Erkenntnisse aus einer Datenbasis, bevor neuronale Netze zum Einsatz kommen. Es wird unterschieden zwischen unüberwachten Lernverfahren (mit unstrukturierten Trainingsdaten) und überwachten Lernverfahren (mit strukturierten Trainingsdaten).

  • Naive Bayes: Hierbei kommt der probabilistische Satz von Bayes für Klassifizierungsprobleme zum Einsatz. Anhand von Eigenschaften, denen eine Unabhängigkeit voneinander zugeschrieben wird, können Algorithmen die wahrscheinlichste Zugehörigkeit eines Objektes zu einer Klasse berechnen. Die für Machine Learning notwendige Datenbasis besteht hier aus korrekten Zuweisungen und der entsprechenden Wahrscheinlichkeitsverteilung. Anwendungsfälle: Spam-Filter, Dokumentenklassifikation, Empfehlungssysteme.
  • Entscheidungsbaum: Die hierarchische Analyse von Daten im Sinne einer Baumstruktur ermöglicht es, fundierte Prognosen zu treffen. Auf diese Weise lassen sich ebenfalls Klassifizierungs- aber auch Regressionsprobleme lösen. Basierend auf Dateneigenschaften nutzen solche Algorithmen sogenannte Entscheidungsknoten, um möglichst passende Regeln anzuwenden. Anwendungsfälle: Risikobewertung im Bankenwesen, Entwicklung von Marketingstrategien, Betrugserkennung.
  • Logistische Regression: Dieses klassische AI Model untersucht mithilfe der Logit-Funktion mögliche Zusammenhänge zwischen unabhängigen und einer binären abhängigen Variablen. Damit ist es gut geeignet, um die Wahrscheinlichkeit für das Eintreten eines Ereignisses zu berechnen. Auch hier wird der Nutzen für Klassifizierungen ersichtlich, allerdings ist im Vergleich zu Naive Bayes eine bessere Interpretierbarkeit durch die Abschätzung von Irrtumswahrscheinlichkeiten gegeben. Anwendungsfälle: Regenwahrscheinlichkeit, sozialwissenschaftliche Untersuchungen, Risikobewertung.

Timeline bedeutender neuronaler Netze

Die bis heute leistungsfähigsten Modelle basieren fast ausnahmslos auf Deep Learning. Durch ihre hohe Performance und vielseitigen Einsatzgebiete, insbesondere für die Sprach- und Bildverarbeitung, sind sie inzwischen für viele Anwendungen die erste Wahl.

Multi-Layer Perzeptron

Als eines der frühesten neuronalen Netze bestand das Perzeptron bei seiner Einführung in den 1950ern lediglich aus einem Eingabe-Layer, einem verdeckten Layer und einem Ausgabelayer. Aufgrund mangelnder Mehrschichtigkeit und somit entsprechender Tiefe bei der Informationsverarbeitung konnte von Deep Learning noch keine Rede sein.

Das änderte sich in den 1980ern, als es in Form eines Feedforward-Netzes mit Verknüpfungen von Neuronen aus multiplen Schichten erweitert wurde. Mit dem Multi-Layer Perzeptron fand erstmals komplexes Modelltraining durch eingegebene Datenmuster zur Optimierung neuronaler Gewichte statt. Ein bedeutender Lernalgorithmus zu diesem Zweck ist die Backpropagation. Bis heute bleibt das Perzeptron ein beliebtes AI Model zur Erkennung linear trennbarer Muster mit Verfügbarkeit in diversen Open-Source-Frameworks wie Pytorch und Tensorflow.

Anwendungsfälle: Handschrifterkennung, Aktienanalyse, Bildanalyse.

Convolutional Neural Network (CNN)

Die größte Neuerung gegenüber dem Multi-Layer Perzeptron liegt in einer mehrdimensionalen Anordnung der Neuronen. Deren Aktivitäten werden dabei durch Kreuzkorrelation im dafür entwickelten Convolutional Layer berechnet. Eine weitere Besonderheit ist die Übereinstimmung der neuronalen Gewichte innerhalb dieser Schicht. Zudem kommt ein sogenanntes Pooling Layer für die Datenreduktion zum Einsatz. Dieser Prozess ist eine Anlehnung an die laterale Hemmung im visuellen Cortex des Gehirns und soll die Berücksichtigung möglichst relevanter Informationen sicherstellen bzw. ein Overfitting verhindern. Dadurch sind CNNs besonders gut für treffsichere Bilderkennung mit geringer Fehlerquote geeignet.

Anwendungsfälle: Bilderkennung und -klassifizierung, Optical Character Recognition (OCR).

Recurrent Neural Network (RNN)

Das RNN ist auf Sequenzen und geordnete Zeitdaten spezialisiert. Dabei bricht es mit der Unabhängigkeitsannahme bezüglich Input und Output, die zuvor noch dem Standard entsprach. Stattdessen berücksichtigt das Netz bei seinen Berechnungen die sequentielle Abfolge bisheriger Elemente. So gesehen modelliert es eine Art Gedächtnis, wodurch es besonders geeignet für die Sprachverarbeitung ist. Eine Weiterentwicklung dieses AI Models ist das Long Short-Term Memory, welches die Erfassung längerer Kontexte ermöglicht. So wurden in den 2000ern neue Performance-Standards gesetzt, zu denen auch Kombinationen mit CNNs maßgeblich beigetragen haben.

Anwendungsfälle: Sprachverarbeitung, Handschrifterkennung, Übersetzung.

Transformer

Im Bereich der automatisierten Sprachverarbeitung kommen heute spezielle neuronale Netze aus Encodern, Decodern und sogenannten Aufmerksamkeitsmodulen zum Einsatz. So wird die bislang leistungsstärkste und flexibelste Analyse umfangreicher Kontexte ermöglicht. Populäre Applikationen sind ChatGPT oder Bard, hinter denen die Modelle GPT-4 und PaLM 2 stehen – näheres dazu im Bericht über NLP Models. Ein neuerer Vertreter ist beispielsweise LLama 2, das ausschließlich mit öffentlichen Datensätzen und circa zwei Billionen Parametern trainiert wurde. Es ermöglicht eine weitere Steigerung in der erfassbaren Kontextlänge. State-of-the-Art-Performance wird derzeit von multimodalen LLMs erzielt, die neben Text auch visuelle Elemente verarbeiten.

Die Kraft neuronaler Netze für Dokumentenmanagement nutzen

Viele der dargestellten Modelle und Anwendungsmöglichkeiten befassen sich mit der Verarbeitung sprachlicher und visueller Elemente. Ein besonders spannender Use Case ist daher die Analyse von Dokumenten, die oftmals genau solche Inhalte in Form von Layouts, Text oder Handschrift kombinieren. Die Dokumentensoftware Konfuzio setzt dabei auf ebenso vielseitige Kombinationen von Deep Learning Technologien und neuronalen Netzen. Das ermöglicht zum Beispiel:

Dokumentenklassifizierung

Ein Dokument überhaupt erstmal als Rechnung, Lieferschein o.ä. zu erkennen, ist ein typisches Klassifizierungsproblem, das durch neuronale Netze gelöst werden kann. Für eine hohe Genauigkeit benötigt Konfuzio dabei nur wenige Trainingsdaten.

Texterkennung

Mit Techniken wie Natural Language Processing und Optical Character Recognition ist die automatisierte Erkennung, Analyse und Extraktion von Text für Konfuzio eine Leichtigkeit. Das liegt auch an der Lernfähigkeit dahinterstehender Deep Learning Models.

Wenn Sie mehr über das Potenzial von AI für das Dokumentenmanagement in Ihrem Unternehmen erfahren wollen, nehmen Sie gerne Kontakt zu uns auf. Unsere Experten freuen sich auf den Austausch.

Fazit

Mit der Zeit hat sich künstliche Intelligenz zu einem immer komplexeren System verschiedener Technologien ausdifferenziert. Das wird allein schon durch einen Blick auf die unzähligen AI Models mit individuellen Funktionsweisen ersichtlich. Ein großer gemeinsamer Nenner ist jedoch der Einsatz von Machine Learning, das den automatisierten Erkenntnisgewinn aus Daten beschreibt. Derartige Algorithmen sind nicht mehr auf die aufwändige Programmierung von Regelsystemen angewiesen, sondern nutzen statistische Modelle wie die logistische Regression oder Naive Bayes.

Die aktuell größten Fortschritte spielen sich im Bereich des Deep Learnings ab, der durch den Einsatz künstlicher neuronaler Netze definiert ist. Durch deren mehrdimensionale Architektur und die Anwendbarkeit diverser Optimierungen, Modifizierungen sowie intensiver Lernverfahren erlauben sie für viele Aufgaben einzigartige Performance. Das zeigt sich beispielsweise bei der Verarbeitung von Dokumenten, die nun kaum mehr menschlicher Aufmerksamkeit bedarf.


ai models and their placement in subfields
lets work together
de_DEDE