Einführung
Die steigende Nachfrage nach künstlicher Intelligenz (KI) erfordert kleinere, effizientere Modelle für gerätebeschränkte Ressourcen. Diese Modelle müssen trotz der Verkleinerung vergleichbare Testergebnisse erzielen, um Genauigkeit und Zuverlässigkeit zu gewährleisten. In diesem Artikel werden vier Machine-Learning-Optimierungstechniken betrachtet, die kompakte KI-Modelle ermöglichen, ohne die Leistung zu beeinträchtigen: Modelldestillation, Modellpruning, Modellquantisierung und Datensatzdestillation.
Modell Destillation
Definition: Was ist Wissensdestillation?
Wissensdestillation ist der Prozess der Übertragung von Wissen von einem großen Modell auf ein kleineres Modell. Beim maschinellen Lernen verfügen große Modelle zwar über eine höhere Wissenskapazität als kleine Modelle, doch wird diese Kapazität möglicherweise nicht voll ausgeschöpft. Bei der Wissensdestillation wird das Wissen von einem großen Modell auf ein kleineres Modell übertragen, ohne dass es an Gültigkeit verliert.
Prozess
Der Prozess der Modelldestillation beinhaltet das Training eines kleineren Schülermodells, das das Verhalten eines größeren Lehrermodells nachahmt. Durch die Nutzung des Wissens, das das Lehrermodell besitzt, kann das Schülermodell ähnliche Leistung erzielen, obwohl es deutlich kleiner ist. Dabei wird das Schülermodell üblicherweise mit einer Kombination aus den ursprünglichen Trainingsdaten und den vom Lehrermodell erzeugten Soft Labels trainiert. Durch die Übertragung des Wissens aus dem Lehrermodell auf das Schülermodell erstellen wir ein kompaktes Modell, das die wesentlichen Informationen enthält, die für genaue Vorhersagen notwendig sind.

Modell Pruning
Definition: Was ist Modell Pruning?
Das Modell Pruning ist eine Technik, bei der unnötige Verbindungen, Parameter oder ganze Schichten aus einem vortrainierten neuronalen Netz entfernt werden. Das Pruning kann auf der Grundlage verschiedener Kriterien erfolgen, wie z. B. der Größe der Gewichte, der Sensitivitätsanalyse oder der strukturierten Sparsamkeit. Durch die Eliminierung redundanter oder weniger wichtiger Komponenten können wir die Größe des Modells erheblich reduzieren und gleichzeitig seine Leistung erhalten. Darüber hinaus kann Pruning auch zu einer verbesserten Inferenzgeschwindigkeit und einem geringeren Speicherbedarf führen. Diese Technik ist ein attraktiver Ansatz für den Einsatz von KI-Modellen auf Ressourcen-beschränkten Geräten.

Modell-Quantisierung
Definition: Was ist Modell-Quantisierung ?
Bei der Modellquantisierung wird die Genauigkeit der numerischen Werte in einem neuronalen Netz reduziert. In der Regel verwenden Deep-Learning-Modelle 32-Bit-Gleitkommazahlen (FP32) zur Darstellung von Gewichten und Aktivierungen. Durch die Quantisierung des Modells auf Darstellungen mit geringerer Bitbreite können wir jedoch die Modellgröße und den Speicherbedarf erheblich reduzieren. z. B. 8-Bit-Ganzzahlen (INT8)
Erklärung
Die Verringerung der Bitzahl bedeutet, dass das resultierende Modell weniger Speicherplatz benötigt, weniger Energie verbraucht (theoretisch) und Operationen wie die Matrixmultiplikation mit ganzzahliger Arithmetik viel schneller durchgeführt werden können. Außerdem können so Modelle auf eingebetteten Geräten ausgeführt werden, die manchmal nur ganzzahlige Datentypen unterstützen.
Obwohl die Quantisierung einige Quantisierungsfehler mit sich bringen kann, können moderne Techniken wie quantisierungssensitives Training den Verlust an Genauigkeit minimieren. Mit der richtigen Kalibrierung und Optimierung können quantisierte Modelle eine ähnliche Leistung wie ihre Pendants mit voller Genauigkeit erreichen, während sie weniger Rechenressourcen benötigen. In diesem Artikel von NVIDIA [2] finden Sie weitere Informationen zum quantisierungssensitiven Training.
Bei der 8-Bit-Quantisierung ist jeder Gewichts- und Aktivierungswert im Modell auf eine 8-Bit-Ganzzahl beschränkt, die Werte von 0 bis 255 darstellen kann. Das bedeutet, dass wir anstelle eines breiten Spektrums von Fließkommawerten den Bereich auf eine diskrete Menge von Ganzzahlwerten beschränken. Diese Verringerung der Genauigkeit ermöglicht eine effiziente Speicherung und Berechnung, da 8-Bit-Ganzzahlen weniger Bits benötigen als 32-Bit-Gleitkommazahlen.
Es sei darauf hingewiesen, dass die 8-Bit-Quantisierung nur ein Beispiel für eine Quantisierung ist. Es gibt noch andere Quantisierungstechniken, wie z. B. die 4-Bit-Quantisierung, bei der die Genauigkeit weiter auf 4-Bit-Ganzzahlen reduziert wird. Der Grundgedanke bleibt derselbe – die Darstellung von Gewichten und Aktivierungen mit weniger Bits, um kleinere Modellgrößen und geringere Speicheranforderungen zu erreichen.

Destillation von Datensätzen
Definition: Was ist Destillation von Datensätzen ?
Die Destillation von Datensätzen ist eine Technik, bei der ein kleineres Modell unter Verwendung einer sorgfältig ausgewählten Teilmenge der ursprünglichen Trainingsdaten trainiert wird. Ziel ist es, einen destillierten Datensatz zu erstellen, der die wesentlichen Muster und Merkmale des vollständigen Datensatzes erfasst und gleichzeitig dessen Größe erheblich reduziert. Dieser destillierte Datensatz dient als Stellvertreter für den Originaldatensatz und ermöglicht das Training von Modellen, die eine vergleichbare Leistung bei geringerem Speicherbedarf erzielen.

Prozess
Der Prozess der Datensatzdestillation umfasst in der Regel die folgenden Schritte:
- Auswahl des Datensatzes: Der erste Schritt besteht darin, eine repräsentative Teilmenge der ursprünglichen Trainingsdaten auszuwählen. Diese Teilmenge sollte die Datenverteilung abdecken und die wichtigsten Muster und Merkmale des gesamten Datensatzes erfassen. Um sicherzustellen, dass der destillierte Datensatz vielfältig und repräsentativ ist, können verschiedene Techniken, wie z. B. Clustering oder stratifizierte Stichproben, eingesetzt werden.
- Modell-Training: Sobald der destillierte Datensatz erstellt ist, wird ein kleineres Modell auf diesem Teilsatz trainiert. Der Trainingsprozess umfasst die Optimierung der Parameter des Modells zur Anpassung an den destillierten Datensatz, ähnlich wie beim traditionellen Training auf dem vollständigen Datensatz. Da der destillierte Datensatz jedoch kleiner ist, ist der Trainingsprozess in der Regel schneller und erfordert weniger Rechenressourcen.
- Bewertung der Leistung: Nachdem das kleinere Modell auf dem destillierten Datensatz trainiert wurde, wird seine Leistung bewertet, um seine Effektivität zu beurteilen. Diese Bewertung kann je nach Aufgabe und Anwendung die Messung von Kennzahlen wie Genauigkeit, Präzision, Wiedererkennung oder F1-Score umfassen. Durch den Vergleich der Leistung des destillierten Modells mit der des vollständigen Modells können wir feststellen, inwieweit die Dataset-Destillation erfolgreich war.
Nachteile
- Informationsverlust: Da bei der Destillation von Datensätzen eine Teilmenge der ursprünglichen Trainingsdaten ausgewählt wird, besteht die Möglichkeit eines Informationsverlusts. Der destillierte Datensatz erfasst möglicherweise nicht alle Nuancen und seltenen Fälle, die im vollständigen Datensatz vorhanden sind, was zu einer geringeren Modellleistung in bestimmten Szenarien führen kann.
- Verallgemeinerung auf ungesehene Daten: Das kleinere Modell, das auf dem destillierten Datensatz trainiert wurde, lässt sich möglicherweise nicht so gut auf ungesehene Daten verallgemeinern wie ein Modell, das auf dem vollständigen Datensatz trainiert wurde. Es ist von entscheidender Bedeutung, die Leistung des destillierten Modells sowohl auf dem Trainings- als auch auf dem Evaluierungsdatensatz sorgfältig zu bewerten, um sicherzustellen, dass es über verschiedene Datenverteilungen hinweg eine zufriedenstellende Leistung beibehält.
- Verzerrung des Datensatzes: Bei der Auswahl des destillierten Datensatzes besteht die Möglichkeit einer Verzerrung. Wenn der destillierte Datensatz nicht repräsentativ für den vollständigen Datensatz ist, kann das trainierte Modell ein verzerrtes Verhalten aufweisen, was sich auf seine Fairness und Genauigkeit auswirkt. Eine sorgfältige Betrachtung und Bewertung des destillierten Datensatzes ist notwendig, um solche Verzerrungen abzuschwächen.
Abschluss
Effizienz und Kompaktheit sind wesentliche Aspekte beim Einsatz von KI-Modellen in ressourcenbeschränkten Umgebungen. Durch den Einsatz von Techniken wie Modell-Destillation, Modell-Beschneidung, Modell-Quantisierung und Datensatz-Destillation können wir die Größe von KI-Modellen ohne Leistungseinbußen effektiv reduzieren. Diese Techniken bieten praktische Lösungen zur Optimierung der Modellgröße und ermöglichen den Einsatz auf Endgeräten, mobilen Plattformen und anderen ressourcenbeschränkten Umgebungen. Bei der KI-Entwicklung wird das Gleichgewicht von Modellgröße und Leistung entscheidend für die breite Einführung in verschiedene Bereiche.
Mehr
Wenn Sie weitere AI-bezogene Blogs von Konfuzio lesen möchten:
- News: KI-App NotebookLM von Google vorgestellt
- FUNSD+ | A larger and revised FUNSD dataset
- Word2vec: Textanalyse durch Word Embedding
- NLP – Was ist Natural Language Processing?
- Dokumenten KI: Alternative zu Document AI
Literatur
[ 1 ] J. Gou, B. Yu, S. J. Maybank, and D. Tao, „Knowledge Distillation: A Survey,“ International Journal of Computer Vision, accepted for publication, 2021. [arXiv:2006.05525 [cs.LG]]
[ 2 ] N. Zmora, H. Wu, and J. Rodge, „Achieving FP32 Accuracy for INT8 Inference Using Quantization Aware Training with NVIDIA TensorRT,“ Jul 20, 2021.
[ 3 ] R. Yu, S. Liu, and X. Wang, „Dataset Distillation: A Comprehensive Review,“ arXiv preprint arXiv:2301.07014, 2023.