Definition
Federated Learning (FL) ist ein dezentraler Ansatz des maschinellen Lernens, bei dem das Training direkt auf lokalen Endgeräten erfolgt – etwa auf Edge-Knoten, Kameras, medizinischen Systemen oder On-Premise-Servern – ohne dass Rohdaten an einen zentralen Standort übertragen werden. Lediglich Modellaktualisierungen (Gewichte oder Gradienten) werden an einen koordinierenden Server gesendet, der diese zu einem globalen Modell aggregiert.
Diese Architektur ermöglicht das Training auf sensiblen oder regulierten Datensätzen, die aufgrund rechtlicher, datenschutzrechtlicher oder betrieblicher Einschränkungen nicht zwischen Organisationen, Regionen oder Geräten geteilt werden können.
Architektur und Arbeitsablauf
- Initialisierung des globalen Modells – ein Server verteilt ein Basismodell an teilnehmende Clients.
- Lokales Training – jeder Client trainiert das Modell auf seinem lokalen Datensatz (z. B. Videoframes, Bilder, Metadaten).
- Upload der Aktualisierungen – ausschließlich Gradienten oder Parameter werden an den Server zurückgesendet.
- Aggregation – der Server berechnet eine neue Version des globalen Modells (üblicherweise mittels FedAvg).
- Redistribution – das aktualisierte globale Modell wird an die Clients zurückverteilt.
Zentrale Standards und Referenzpunkte
- FedAvg-Algorithmus – grundlegende Arbeit von McMahan et al. (2017).
- Frameworks wie OpenFL (Intel) und TensorFlow Federated.
- Richtlinien für Privacy-Preserving ML, die FL mit Differential Privacy oder Secure Multi-Party Computation kombinieren.
Technische Metriken und Evaluierungsparameter
Metrik | Bedeutung |
|---|---|
Divergenz | Differenz zwischen globalem und lokalem Modell; beeinflusst die Trainingsstabilität. |
Kommunikations-Overhead | Datenmenge, die pro Trainingsrunde ausgetauscht wird. |
Round Latency | Gesamtzeit für einen globalen Aktualisierungszyklus. |
Non-IID-Variabilität | Grad der Abweichung zwischen Client-Datenverteilungen. |
Vorteile
- Starke Datenschutzgarantien – Rohdaten verlassen niemals das Gerät.
- Einhaltung regulatorischer Vorgaben – unterstützt DSGVO, HIPAA und ähnliche Rechtsrahmen.
- Skalierbar auf verteilte, heterogene Systeme – geeignet für Kamera- oder Sensorflotten.
- Reduzierte Bandbreitennutzung – nur Modellaktualisierungen werden übertragen.
Herausforderungen und Limitierungen
- Non-IID-Verteilungen reduzieren häufig die Genauigkeit oder verlangsamen die Konvergenz.
- Potenzielle Gradient-Leakage-Angriffe, die Rückschlüsse auf personenbezogene Daten ermöglichen.
- Variable Rechenkapazitäten auf heterogenen Endgeräten.
- Hohe Kommunikationsfrequenz bei großen Modellen.
Relevanz für Bild- und Videoanonymisierung
Federated Learning ist für datenschutzsensible visuelle Systeme von hoher Relevanz, da es das Training von Detektions- und Anonymisierungsmodellen ermöglicht, ohne Rohdaten zentral zu erfassen. Zentrale Vorteile in diesem Kontext umfassen:
- lokales Training von Gesichts-, Kennzeichen- oder Objektdetektoren auf geräteeigenen Videodaten,
- kontinuierliche Modellverbesserung ohne Export identifizierbarer Videoframes,
- Privacy-by-Design-Workflows, die Datenminimierung gewährleisten,
- Adaption der Modelle an lokale Bedingungen (Lichtverhältnisse, Kamerawinkel, Szenendynamik).
Typische Anwendungsfälle sind:
- Smart-City-Überwachungssysteme, die Modelle gerätebasiert aktualisieren,
- medizinische Bildanonymisierungs-Workflows, bei denen Frames nicht exportiert werden dürfen,
- Flottenfahrzeug-Kamerasysteme, die unter variierenden Bedingungen Kennzeichen erkennen lernen,
- industrielle Videoanalytik, bei der strikte Vertraulichkeit den Datenaustausch verhindert.