L'algorithme d'apprentissage fédéré standard (FedAvg) : (1) le serveur envoie le modèle actuel aux participants sélectionnés, (2) chaque participant entraîne le modèle sur ses données locales pendant plusieurs étapes, (3) les participants envoient leurs poids de modèle mis à jour (pas les données) au serveur, (4) le serveur moyenne les mises à jour et crée un nouveau modèle global, (5) on recommence. La propriété clé : les données brutes ne quittent jamais l'appareil du participant.
Données non-IID : les participants ont souvent des distributions de données très différentes (un hôpital à Tokyo a une démographie de patients différente de celui de São Paulo). Ça rend l'entraînement instable — les mises à jour de différents participants peuvent se contredire. Coût de communication : envoyer les mises à jour du modèle (potentiellement des milliards de paramètres) sur le réseau est coûteux, surtout pour les appareils mobiles. Passagers clandestins : des participants qui reçoivent le modèle amélioré mais contribuent des mises à jour de faible qualité. Ces défis rendent l'apprentissage fédéré plus difficile que l'entraînement centralisé, bien que chacun ait des solutions actives.
Apple utilise l'apprentissage fédéré pour la prédiction au clavier (apprendre de ce que tu tapes sans envoyer tes textes à Apple). Google l'utilise pour améliorer les suggestions de recherche. Des consortiums de santé l'utilisent pour l'entraînement de modèles multi-hôpitaux. La technique est la plus précieuse quand : les données sont vraiment sensibles (médicales, financières), la réglementation empêche le partage de données (RGPD, HIPAA), ou les données sont trop volumineuses pour être centralisées (milliards d'interactions d'appareils mobiles).