Federated Learning for Model Optimization

Federated Learning – Gemeinsame Performance trotz separater Daten

Tim Filzinger

Die Genauigkeit von Machine Learning steht und fällt mit den verwendeten Daten. Für deren erfolgreiche Nutzung gilt in der Regel: mehr ist mehr. Das erfordert oftmals die Inbezugnahme unterschiedlicher Datenquellen; eine Vermischung kann jedoch aus Datenschutzgründen problematisch sein. Federated Learning soll dieses Dilemma auflösen, indem das Modelltraining gleichzeitig auf separaten Geräten erfolgt. So bleibt Privates privat und generiert trotzdem einen allgemeinen Nutzen.

Was ist Federated Learning?

Federated Learning ist eine Technik des maschinellen Lernens, bei der unterschiedliche lokale Datensätze für das Training eines KI-Modells genutzt werden. Die Besonderheit liegt im Verzicht auf eine zentrale Datenbasis, die für klassische Lernverfahren typisch ist. Sensible Daten verbleiben auf den jeweiligen Endgeräten, während lediglich Informationen zur Modellanpassung geteilt werden. Das betrifft bei neuronalen Netzen beispielsweise Gewichtsänderungen einzelner Neuronen. Der Lerneffekt, der in einer größeren Datenbasis begründet liegt, kann somit mehreren Kooperationspartnern zugutekommen. Denn oftmals verfolgen Unternehmen der gleichen Branche ähnliche Ziele bei ihren KI- und Data Science-Projekten.

Aufgrund der Fortschritte von Machine Learning und wachsender Datenmengen, die entsprechenden Richtlinien unterliegen, handelt es sich bei Federated Learning um ein zunehmend häufig genutztes Konzept. Die Umsetzung ist inzwischen mit diversen Clients möglich. Dazu zählen:

  • Edge-Geräte (IoT)
  • Server- und Cloud-Infrastruktur
  • Desktop-Computer und Laptops
  • In-Home-Geräte
  • Smartphones und Tablets

Zur Erschließung weiterer Daten bei hoher Datensicherheit findet also eine fortschreitende technische Ausdifferenzierung statt, die inzwischen bis in die Hosentaschen der Endnutzer reicht – ein weiteres Anzeichen zunehmender Anwendbarkeit und Nutzerzentriertheit von Künstlicher Intelligenz.

Wie funktioniert Federated Learning?

Prinzipiell handelt es sich bei Federated Learning um Machine Learning im eigentlichen Sinne. Beim Training analysiert das Modell die bereitgestellten Daten auf bestimmte Zusammenhänge und leitet daraus eigene Prognosen ab. Ziel ist letztlich die Minimierung einer Verlustfunktion, was einer Maximierung der Vorhersagegenauigkeit gleichkommt. Der Zugriff auf die verwendeten Daten erfolgt allerdings nicht distributiv, sondern verteilt. Üblicherweise umfasst der Prozess folgende Schritte, auch wenn sich die individuelle Herangehensweise stark unterscheiden kann:

  • Initialisierung des Modells
  • Verteilung auf die Clients
  • Lokales Training
  • Übertragung der Updates und Modellgewichtungen
  • Aggregation
  • Iteration
centralized server for model training
Die Nutzung zentraler Server gehört zu den typischen Umsetzungsmöglichkeiten.

Zentralisiertes FL

Was in Bezug auf ein föderales Lernverfahren paradox klingt, bezieht sich lediglich auf die Koordination und Orchestrierung der teilnehmenden Geräte. Auf diesen findet das Training lokaler Modellversionen statt, die von einem zentralen Server initiiert werden. So kann zudem die Aggregation der jeweiligen Updates und Gewichtsänderungen für ein globales Model erfolgen. Möglich ist das durch die Berechnung von Mittelwerten oder unter Berücksichtigung der Größe jeweiliger Datensätze. Das aktualisierte zentrale Modell wird anschließend für die folgende Iteration wieder auf die Endgeräte verteilt.

Dezentralisiertes FL

Bei dieser Ausprägung des Lernverfahrens ist keine zentralisierte Koordination über einen Server notwendig. Stattdessen ereignet sich dies zwischen den einzelnen Clients, die zudem eigenständig die Daten der Modellaktualisierungen austauschen. So wird ein zentraler Ausfall, beispielsweise durch stark erhöhtes Datenaufkommen vermieden. Dafür ist jedoch eine erhöhte Qualität der Netzwerkarchitektur notwendig, die massiven Einfluss auf die dezentralisierte Orchestrierung des Transfers nimmt. Tauchen zu große Unterschiede in der System- und Netzwerkumgebung auf, führt das zu Problemen, die erst durch neuere Ansätze lösbar werden.

Heterogenes FL

Bei seiner Entstehung hat Federated Learning oftmals eine homogene Verteilung von Data Sets, Clients und Transferstrukturen vorausgesetzt. Inzwischen sind die Anforderungen komplexer geworden. Denn nur weil zwei Unternehmen das gleiche Model Training durchführen möchten, heißt das nicht, dass sie die gleichen Bedingungen mitbringen. Die Unterschiede können gravierend sein und werden von den Wissenschaftlern Mang Ye und Xiuwen Fang (et alt. 2023) in vier Dimensionen eingeteilt:

  • Verteilung der Daten
  • Architektur der Modelle
  • Netzwerk-Umgebungen
  • Hardware-Geräte

So wie bei jedem föderalen System tauchen also auch bei Federated Learning gewisse Hürden durch Heterogenität auf. Die Erfolge, die bereits in einfachen zentralisierten Anwendungsbereichen erzielt wurden, nun auch auf ein komplexeres Umfeld auszuweiten, ist das Hauptmotiv der aktuellen Forschung. 

Heterogenität überwinden

Inzwischen gibt es eine ganze Reihe von Methoden, mit denen sich strukturelle Unterschiede lösen oder in ihren negativen Auswirkungen beschränken lassen. Häufig zielt man damit auf Probleme durch abweichende Datenqualität oder Leistungsunterschiede ab:

Synthetische Daten

Auf Basis eines kleinen privaten Data Sets können generative Modelle weitere Datenpunkte errechnen. Dabei handelt es sich um Abschätzungen, die bereits erlernte Zusammenhänge nachmodellieren. Das neue synthetische Set unterliegt damit nicht dem sonstigen Datenschutz und kann gemeinsam genutzt werden. In der Regel müssen die Kooperationspartner allerdings nachweisen, dass eine vollständige Anonymisierung erfolgt ist. Der Vorgang wird auch als Data Augmentation beschrieben.

Knowledge Distillation

Synthetische Daten sind nicht der einzige Weg, um Erkenntnisse anonymisiert weiterzugeben. Auch bereits erworbenes “Wissen” lässt sich datenschutzkonform teilen, wobei eine Art Schüler-Lehrer-Prinzip angewandt wird. Bereits trainierte, leistungsstarke Modelle können auf diesem Weg schwächeren Modellen zu einer besseren Performance verhelfen. Die verwendete Verlustfunktion folgt dabei errechneten Differenzen in den jeweiligen Prognosen der beiden. Diese Methode ist gut geeignet, wenn punktuelle Einschränkungen in der Rechenleistung oder anderen Ressourcen vorliegen.

Matrix Factorization

Durch die Multiplikation verschiedener Entitäten sollen neue latente Features, also gewisse Merkmale von Objekten einer Datenbasis, entstehen. Für diese kann eine dimensionale Vergrößerung, aber auch Reduktion die Folge sein. Entsprechende Algorithmen wirken somit als Filter und kommen unter anderem für Empfehlungssysteme zum Einsatz. Vor dem Hintergrund von Federated Learning kann diese Technik statistische Zusammenhänge berechnen und teilen, wobei die genauen dahinterstehenden Informationen anonym bleiben.

Architektur-Sharing

Diese Methoden überbrücken Unterschiede im strukturellen Aufbau der Modelle und Netzwerke. Backbone Sharing soll beispielsweise die Rechenkosten mindern, ohne dabei individuelle Anforderungen außer Acht zu lassen. Ebenso lassen sich bestimmte Komponenten neuronaler Netzwerkstrukturen reproduzieren, um die Einheitlichkeit der Datenverarbeitung zu steigern. Auch komplette Modelle, die bereits ein Training durchlaufen haben, können mehreren Teilnehmern zur Verfügung gestellt werden, um ein föderales Fine-Tuning durchzuführen.

Vorteile des Prinzips

Auch wenn diese Art von Machine Learning mit immensem Aufwand und Ressourcenverbrauch verbunden sein kann, geht die erfolgreiche Durchführung oft mit zahlreichen Benefits einher:

  • Datenschutz Private und sensible Daten verbleiben bei den jeweiligen Clients.
  • Datenvielfalt Unterschiedliche Datenquellen sorgen für mehr informativen Gehalt.
  • Geschwindigkeit Die gleichzeitige Analyse kleiner Datenbasen ist schneller und effektiver als ein einmaliger, gemeinsamer Durchlauf.
  • Nachverfolgbarkeit und Aktualität Das Training kann mit Echtzeitdaten erfolgen. Regelmäßige Updates sind möglich.
  • Optimierungsmöglichkeiten In den unterschiedlichen Netzwerkumgebungen lassen sich die optimalen Einstellungen und Modelleigenschaften identifizieren und teilen. Das kann die Ergebnisse verbessern und die Kosten senken.

Anwendungsbereiche

industry use cases of federated learning

Da es sich bei Federated Learning um ein eher allgemeines Paradigma von Machine Learning handelt, sind die Anwendungsmöglichkeiten nicht auf bestimmte Branchen oder Projekttypen beschränkt. In einigen Fällen werden die genannten Vorteile jedoch besonders relevant.

Gesundheitswesen

Ein großer Teil der relevanten Daten in Krankenhäusern und anderen Gesundheitseinrichtungen sind personenbezogen, sodass sie besonderem Schutz unterliegen. Allerdings sind sie auch wertvoller Informationsträger, wenn es um die Auslastung und den Ressourcenverbrauch geht. Die Ansprüche von Kliniken ähneln sich dabei sehr stark, sodass sie besonders von gemeinsamem Modelltraining und erhöhter Datenvielfalt profitieren. Letztere ist zudem auch für die Diagnostik besonders seltener Krankheiten hilfreich.

Fertigungsindustrie

Federated Learning ist gut für vorausschauende Wartungsmodelle geeignet, die anhand von Maschinendaten den Verschleiß und mögliche Ausfälle prognostizieren. Werden in unterschiedlichen Produktionen die gleichen Geräte eingesetzt, ist eine besondere Vergleichbarkeit gegeben. Herausforderungen der Heterogenität sind dadurch weniger stark ausgeprägt und eine föderale Kooperation bei den KI-Prognosen liegt nahe. Aber auch wenn die IT-Infrastruktur stellenweise zu schwach ausgeprägt ist, um genügend eigene Daten zu verarbeiten, lohnt sich das Verfahren. Betriebsgeheimnisse und individuelle Produktionsabläufe bleiben dabei geschützt.

Mobile Applikationen

Aufgrund des ausgeprägten Echtzeit-Fokus’ sowie der möglichen Inbezugnahme mobiler Endgeräte eignet sich Federated Learning zur Analyse von Nutzerverhalten. Zugleich finden in immer mehr Applikationen verschiedene Modelle künstlicher Intelligenz direkt Anwendung. Das betrifft etwa die Spracherkennung, Wortvorhersage, Gesichtserkennung und viele weitere Fälle. Dabei lässt sich die jeweilige Leistung verbessern, ohne dass Eingaben des Anwenders geteilt werden müssen. Derzeit beschäftigen sich vor allem Tech-Konzerne wie Meta mit dieser Art von Federated Learning. Dabei nennt die Facebook-Firma primär Datenschutz als Motiv. Das Hauptinteresse dürfte aber wohl der Datenvielfalt gelten. Mehr als 77 Prozent der Internetnutzer sind auf Metas Plattformen anzutreffen.

Fazit

Federated Learning besticht vor allem dadurch, dass KI-Modelle durch größere Datenvielfalt verbessert werden, ohne dem Datenschutz zu schaden. Dabei können inzwischen unzählige Clients miteinbezogen werden. Das Training findet typischerweise separat mit kleinen Data Sets statt, nur die Modellanpassung wird geteilt. Häufig ist für diesen Schritt ein zentraler Server verantwortlich, die Umsetzungsmöglichkeiten können jedoch stark variieren. Auch ein dezentralisierter Ansatz ist inzwischen möglich. Aufgrund der inzwischen stark ausdifferenzierten Netzwerkstrukturen findet ein Großteil der heutigen Forschungsbemühungen im heterogenen Bereich statt. Ziel ist es, signifikante Unterschiede in den Voraussetzungen zu überwinden und Federated Learning möglichst allgemein anwendbar zu machen. Damit dürfte dieses Paradigma sowie seine Methoden auf absehbare Zeit relevant bleiben.

Möchten Sie KI-Modelle durch hohe Datenvielfalt verbessern und machen sich Gedanken um Datenschutz? Senden Sie uns gern eine Nachricht. Unsere Experten freuen sich auf den Austausch.

    Über mich

    Weitere Artikel

    Automated Data Processing

    KI Qualität durch die DIN SPEC 92001-2

    Die DIN 92001 definiert ein Qualitäts-Metamodell über den Lebenszyklus der KI und identifiziert Leistung, Stabilität, Funktionalität und Nachvollziehbarkeit der KI...

    Zum Artikel

    Single Sign On – Funktion, Anwendung und Rolle von KI

    Single Sign On (SSO) ist für Unternehmen ein elementarer Bestandteil der Nutzerauthentifizierung. Dabei bringt der Dienst gleich zwei Vorteile mit:...

    Zum Artikel

    IT-Tage 2020

    Vom 7. bis 10. Dezember 2020 finden die IT-Tage zum ersten Mal als Remote-Konferenz statt. Die Konferenz richtet sich an...

    Zum Artikel
    Arrow-up