Was ist Federated Learning?

Inhaltsverzeichnis

Definition
Architektur und Arbeitsablauf
Zentrale Standards und Referenzpunkte
Technische Metriken und Evaluierungsparameter
Vorteile
Herausforderungen und Limitierungen
Relevanz für Bild- und Videoanonymisierung

Definition

Federated Learning (FL) ist ein dezentraler Ansatz des maschinellen Lernens, bei dem das Training direkt auf lokalen Endgeräten erfolgt – etwa auf Edge-Knoten, Kameras, medizinischen Systemen oder On-Premise-Servern – ohne dass Rohdaten an einen zentralen Standort übertragen werden. Lediglich Modellaktualisierungen (Gewichte oder Gradienten) werden an einen koordinierenden Server gesendet, der diese zu einem globalen Modell aggregiert.

Diese Architektur ermöglicht das Training auf sensiblen oder regulierten Datensätzen, die aufgrund rechtlicher, datenschutzrechtlicher oder betrieblicher Einschränkungen nicht zwischen Organisationen, Regionen oder Geräten geteilt werden können.

Architektur und Arbeitsablauf

Initialisierung des globalen Modells – ein Server verteilt ein Basismodell an teilnehmende Clients.
Lokales Training – jeder Client trainiert das Modell auf seinem lokalen Datensatz (z. B. Videoframes, Bilder, Metadaten).
Upload der Aktualisierungen – ausschließlich Gradienten oder Parameter werden an den Server zurückgesendet.
Aggregation – der Server berechnet eine neue Version des globalen Modells (üblicherweise mittels FedAvg).
Redistribution – das aktualisierte globale Modell wird an die Clients zurückverteilt.

Zentrale Standards und Referenzpunkte

FedAvg-Algorithmus – grundlegende Arbeit von McMahan et al. (2017).
Frameworks wie OpenFL (Intel) und TensorFlow Federated.
Richtlinien für Privacy-Preserving ML, die FL mit Differential Privacy oder Secure Multi-Party Computation kombinieren.

Technische Metriken und Evaluierungsparameter

Metrik	Bedeutung
Divergenz	Differenz zwischen globalem und lokalem Modell; beeinflusst die Trainingsstabilität.
Kommunikations-Overhead	Datenmenge, die pro Trainingsrunde ausgetauscht wird.
Round Latency	Gesamtzeit für einen globalen Aktualisierungszyklus.
Non-IID-Variabilität	Grad der Abweichung zwischen Client-Datenverteilungen.

Vorteile

Starke Datenschutzgarantien – Rohdaten verlassen niemals das Gerät.
Einhaltung regulatorischer Vorgaben – unterstützt DSGVO, HIPAA und ähnliche Rechtsrahmen.
Skalierbar auf verteilte, heterogene Systeme – geeignet für Kamera- oder Sensorflotten.
Reduzierte Bandbreitennutzung – nur Modellaktualisierungen werden übertragen.

Herausforderungen und Limitierungen

Non-IID-Verteilungen reduzieren häufig die Genauigkeit oder verlangsamen die Konvergenz.
Potenzielle Gradient-Leakage-Angriffe, die Rückschlüsse auf personenbezogene Daten ermöglichen.
Variable Rechenkapazitäten auf heterogenen Endgeräten.
Hohe Kommunikationsfrequenz bei großen Modellen.

Relevanz für Bild- und Videoanonymisierung

Federated Learning ist für datenschutzsensible visuelle Systeme von hoher Relevanz, da es das Training von Detektions- und Anonymisierungsmodellen ermöglicht, ohne Rohdaten zentral zu erfassen. Zentrale Vorteile in diesem Kontext umfassen:

lokales Training von Gesichts-, Kennzeichen- oder Objektdetektoren auf geräteeigenen Videodaten,
kontinuierliche Modellverbesserung ohne Export identifizierbarer Videoframes,
Privacy-by-Design-Workflows, die Datenminimierung gewährleisten,
Adaption der Modelle an lokale Bedingungen (Lichtverhältnisse, Kamerawinkel, Szenendynamik).

Typische Anwendungsfälle sind:

Smart-City-Überwachungssysteme, die Modelle gerätebasiert aktualisieren,
medizinische Bildanonymisierungs-Workflows, bei denen Frames nicht exportiert werden dürfen,
Flottenfahrzeug-Kamerasysteme, die unter variierenden Bedingungen Kennzeichen erkennen lernen,
industrielle Videoanalytik, bei der strikte Vertraulichkeit den Datenaustausch verhindert.

Siehe auch

Zurück zum Glossar