Digitales ABC: F wie...

Federated Machine Learning, abgekürzt FML, engl. für föderiertes Lernen.

Von Bruno Habegger · 18. Februar 2025

Bedeutung

Federated Machine Learning (FML) ist eine maschinelle Lerntechnik. Dabei trainieren dezentrale Geräte oder Organisationen (heterogene Knoten) KI-Modelle gemeinsam, ganz ohne Austausch der lokalen Daten mit einer zentralen Instanz. Es handelt sich um eine relativ neue Technik, die insbesondere in Bereichen relevant ist, in denen Datenschutz und Datensicherheit eine zentrale Rolle spielen. Föderales Lernen unterscheidet sich vom «verteilten Lernen», bei dem es nur um die parallele Berechnung identischer Datensätze geht.

Ausgangslage

KI-Modelle müssen mit Daten trainiert werden. Dies geschieht normalerweise über zentrale Server. Dies birgt jedoch Risiken für die Privatsphäre. In datensensitiven Branchen wie dem Gesundheitswesen oder den Finanzunternehmen wirft dies heikle ethische und juristische Fragen auf. Der Ansatz von FML hingegen ist «training on the edge»: Die Daten selbst bleiben immer auf den lokalen Knoten, bzw. Geräten. Das Training der KI erfolgt also dezentral.

Geschichte

2016 prägte Google den Begriff «Federated Machine Learning» – wohl eine beruhigende Anspielung auf die «Föderation der Planeten» aus Star Trek – während das Thema Datenschutz weltweit immer heisser diskutiert wurde. Weitreichende Datenschutzgesetze entstanden. Es war kein neues Konzept, denn die Verteilung von Rechenlasten über mehrere Server und Standorte wurde bereits praktiziert, auch beim KI-Training. Aber Google machte daraus einen eigenen Forschungsbereich und präsentierte 2017 eine Methode, um ein neuronales Netz mithilfe von Smartphones zu trainieren. Eine der ersten Anwendungen, die davon profitierten, war die Google-Tastatur «Gboard».

Deep Dive

FML basiert sehr vereinfacht gesagt auf einem generischen Grundlagenmodell («Foundation Model»), das auf einem zentralen Server gespeichert ist. Die «angeschlossenen» lokalen Geräte (z. B. Smartphones, Notebooks, IoT-Geräte) erhalten davon Kopien und nutzen zum Training lokale Daten. In der Folge wachsen die lokalen Modelle über sich hinaus. Später teilen die lokalen Modelle ihre Updates (die Modellparameter, nicht die Daten) mit dem zentralen Modell. Dieses «lernt» somit aus vielen unterschiedlichen Quellen laufend dazu. Es aggregiert die Updates nach einem bestimmten mathematischen Verfahren in ein neues Modell. Anschliessend erhalten die lokalen KI-Modelle ein Update: Sie werden mit den neuen Parametern neu trainiert. Mit jedem Zyklus wird das zentrale Modell «intelligenter», ohne dass es auf die konkreten lokalen Daten zugreifen müsste. Ein gemeinsames Modell entsteht.

Nebst diesem zentralisierten Ansatz gibt es auch ein dezentralisiertes FML, das ganz ohne Server auskommt (Peer-to-Peer). Dies umgeht den zentralen Flaschenhals. Fällt der Server nämlich aus, stoppt der Lernprozess. Hierbei werden die Modell-Updates mit allen anderen Geräten geteilt.

FML kann Millionen von Geräten sowie pro Knoten auch mehrere unterschiedliche Modelle vereinigen. Eine Komplexität, die einige lösbare Schwierigkeiten bei der Datenübermittlung bedeutet. Ausserdem besteht nach wie vor ein gewissen Risiko von Datenschutzverletzungen durch Cyberangriffe. Die Heterogenität der Systeme und der dem Training zugrunde liegenden Daten stellt die Betreiber von FML-trainierten KIs ebenfalls vor technische und statistische Herausforderungen.

Wirkung

FML ermöglicht mehr Privatsphäre, steigert die Datensicherheit durch einen dezentralen Ansatz und Minimierung des Datenaustauschs mit Drittanbietern. Der Ansatz stärkt KI-Modelle mit mehr globalen Datenquellen unterschiedlicher Art. Vor allem aber ermöglicht FML ganz neue Anwendungen in Wirtschaft und Gesellschaft. Die Lernfähigkeiten von Smartphones zur Personalisierung der digitalen Erfahrung nutzen die Hersteller seit längerem; in Zukunft können sich etwa selbstfahrende Autos aus ihrer unmittelbaren Umgebung lernen und diese Erkenntnisse mit anderen Autos austauschen. Spitäler können aus Gesundheitsdaten lernen, ohne dass sensitive Dokumente versendet werden müssten oder Behörden könnten Echtzeiteinblicke in die Entwicklung von Pandemien erhalten, um ihre Notfallpläne stets aktuell zu halten.

Alle bisher erschienenen Buchstaben im digitalen ABC

Abraxas erklärt die wichtigsten Begriffe und Buzzwords der IT-Branche.
Bruno Habegger

Über Bruno Habegger

Bruno Habegger ist Abraxas-Magazin-Autor und Senior Communication Manager. Er verfügt über eine langjährige Erfahrung im ICT- und Energie-Bereich als Journalist, Contentproduzent und Berater. Er war Präsident einer Regionalpartei und an seinem damaligen Wohnort acht Jahre Mitglied der Sicherheitskommission.