Wie der gemeinsame Lerneffekt entsteht: Federated Learning Schritt für Schritt

„Gemeinsam ein Modell trainieren, ohne die Daten zu teilen” – der Satz klingt nach einem Widerspruch. Wie soll ein Modell aus Daten lernen, die es nie an einem Ort versammelt sieht? Dieser Beitrag erklärt die Mechanik dahinter Schritt für Schritt, ohne Mathematik und ohne Vorwissen. Datenschutz lassen wir hier bewusst außen vor – es geht rein darum, wie das Lernen funktioniert.

Wer die Grundidee von Federated Learning noch nicht kennt, findet sie kompakt unter Was ist Federated Learning? – hier gehen wir eine Ebene tiefer.

Schritt 0: Was „ein Modell trainieren” überhaupt heißt

Ein Modell des maschinellen Lernens ist im Kern eine Funktion mit sehr vielen Stellschrauben – den Parametern (oder „Gewichten”). Beim Training werden diese Stellschrauben so lange justiert, bis das Modell aus den Eingaben möglichst gute Vorhersagen macht. Der Ablauf ist immer derselbe Kreislauf:

Vorhersagen: Das Modell schätzt etwas – z. B. die Last der nächsten Stunde.
Fehler messen: Die Schätzung wird mit dem tatsächlichen Wert verglichen.
Nachjustieren: Die Parameter werden ein kleines Stück in die Richtung verschoben, die den Fehler verringert.
Wiederholen – über sehr viele Beispiele hinweg.

Dieses schrittweise Nachjustieren ist das eigentliche „Lernen”. Wichtig für das Folgende: Am Ende steckt das gesammelte Wissen vollständig in den Parametern. Das trainierte Modell ist nichts anderes als ein bestimmter Satz von Zahlen.

Schritt 1: Jeder trainiert lokal – auf seinem eigenen Ausschnitt

Bei Federated Learning bekommt jeder Teilnehmer dasselbe Ausgangsmodell – also denselben Satz Startparameter. Dann durchläuft jeder den oben beschriebenen Lern-Kreislauf, aber nur mit seinen eigenen Daten: das Stadtwerk mit seinen Lastgängen, der Netzbetreiber mit seinen Anlagendaten.

Nach ein paar lokalen Runden hat jeder ein leicht verändertes Modell. Diese Veränderung – die Differenz zwischen Start- und Endparametern – ist das, was der Teilnehmer aus seinen Daten gelernt hat. Man nennt sie das Modell-Update. Entscheidend: Das Update besteht nur aus Zahlen (den justierten Parametern), nicht aus den Daten selbst.

Schritt 2: Die Updates werden zusammengeführt – nicht die Daten

Jetzt kommt der Kern. Alle Teilnehmer schicken ihr Modell-Update an einen Koordinator. Der führt sie mit einem überraschend einfachen Verfahren zusammen, dem Federated Averaging: Er bildet im Wesentlichen den Durchschnitt der Updates – gewichtet danach, wie viele Daten jeder beigesteuert hat.

Das Ergebnis ist ein neues, gemeinsames Modell, dessen Parameter die Lernschritte aller Teilnehmer in sich vereinen. Anschaulich: Statt die Daten in einen Topf zu werfen, wirft man das Gelernte in einen Topf.

Warum funktioniert das? Weil das Wissen, wie in Schritt 0 gesehen, in den Parametern steckt. Wer die Parameter sinnvoll kombiniert, kombiniert das Wissen – ganz ohne die zugrunde liegenden Daten.

Schritt 3: Wiederholen, bis es sich einpendelt

Ein einzelner Durchlauf genügt nicht. Das gemittelte Modell wird wieder an alle verteilt, jeder trainiert erneut lokal, schickt sein Update, der Koordinator mittelt erneut. Diese Runden wiederholen sich, bis sich das gemeinsame Modell nicht mehr wesentlich verbessert – es ist „konvergiert”.

Mit jeder Runde fließt mehr von der Vielfalt aller Beteiligten in das gemeinsame Modell ein. Genau hier entsteht der Lerneffekt: Das Endmodell ist besser, als es das Training auf den Daten eines Teilnehmers je hätte werden können – obwohl kein Beteiligter die Daten der anderen je gesehen hat.

Was den Lerneffekt groß oder klein macht

Wie stark der gemeinsame Vorteil ausfällt, hängt vor allem an drei Größen:

Wie wenig Daten der Einzelne hat. Wer allein über zu wenig Historie verfügt, gewinnt am meisten – das gemeinsame Modell „leiht” ihm die Vielfalt der anderen.
Wie ähnlich die Daten sind. Lösen die Teilnehmer eine verwandte Aufgabe (etwa Lastprognose in vergleichbaren Netzgebieten), verstärken sich ihre Lernschritte. Sind die Daten sehr unterschiedlich („heterogen”), ziehen die Updates in verschiedene Richtungen und das Mitteln bringt weniger.
Wie viele Runden man fährt. Mehr Runden bedeuten besseres Einpendeln, aber auch mehr Koordinations- und Kommunikationsaufwand.

Diese Faktoren erklären auch, warum es nicht egal ist, wer gemeinsam lernt: Passende Partner mit verwandten Aufgaben holen einen echten Mehrwert heraus – willkürlich zusammengewürfelte eher nicht.

Was Sie sich merken sollten

Ein trainiertes Modell ist im Kern ein Satz von Zahlen (Parametern); dort steckt das gelernte Wissen.
Federated Learning tauscht diese Zahlen aus, nicht die Daten – und mittelt sie zu einem gemeinsamen Modell (Federated Averaging).
Über mehrere Runden entsteht ein Modell, das aus der Vielfalt aller lernt, ohne dass jemand seine Daten herausgibt.
Der Mehrwert ist umso größer, je weniger Daten der Einzelne hat und je verwandter die Aufgaben der Beteiligten sind.

Ein konkretes Beispiel, wie sich das in Zahlen niederschlägt, finden Sie im Beitrag zum Lastprognose-Experiment. Neue Grundlagenbeiträge können Sie per RSS-Feed abonnieren.