Apprentissage fédéré : Définition et signification — Wiki IA

Une approche d'entraînement où le modèle est entraîné sur plusieurs appareils ou organisations sans partager les données brutes. Au lieu d'envoyer les données à un serveur central, chaque participant entraîne une copie locale du modèle sur ses propres données et envoie seulement les mises à jour du modèle (gradients) à un coordinateur central. Le coordinateur agrège les mises à jour de tous les participants pour améliorer le modèle global.

Pourquoi c'est important

L'apprentissage fédéré permet l'entraînement d'IA sur des données qui ne peuvent pas être centralisées pour des raisons de confidentialité, de réglementation ou de concurrence. Des hôpitaux peuvent collaborativement entraîner un modèle de diagnostic sans partager les dossiers des patients. Des entreprises peuvent améliorer un modèle partagé sans exposer leurs données propriétaires. C'est l'approche la plus pratique pour l'entraînement d'IA respectueux de la vie privée à grande échelle.

En profondeur

L'algorithme d'apprentissage fédéré standard (FedAvg) : (1) le serveur envoie le modèle actuel aux participants sélectionnés, (2) chaque participant entraîne le modèle sur ses données locales pendant plusieurs étapes, (3) les participants envoient leurs poids de modèle mis à jour (pas les données) au serveur, (4) le serveur moyenne les mises à jour et crée un nouveau modèle global, (5) on recommence. La propriété clé : les données brutes ne quittent jamais l'appareil du participant.

Défis

Données non-IID : les participants ont souvent des distributions de données très différentes (un hôpital à Tokyo a une démographie de patients différente de celui de São Paulo). Ça rend l'entraînement instable — les mises à jour de différents participants peuvent se contredire. Coût de communication : envoyer les mises à jour du modèle (potentiellement des milliards de paramètres) sur le réseau est coûteux, surtout pour les appareils mobiles. Passagers clandestins : des participants qui reçoivent le modèle amélioré mais contribuent des mises à jour de faible qualité. Ces défis rendent l'apprentissage fédéré plus difficile que l'entraînement centralisé, bien que chacun ait des solutions actives.

Utilisation réelle

Apple utilise l'apprentissage fédéré pour la prédiction au clavier (apprendre de ce que tu tapes sans envoyer tes textes à Apple). Google l'utilise pour améliorer les suggestions de recherche. Des consortiums de santé l'utilisent pour l'entraînement de modèles multi-hôpitaux. La technique est la plus précieuse quand : les données sont vraiment sensibles (médicales, financières), la réglementation empêche le partage de données (RGPD, HIPAA), ou les données sont trop volumineuses pour être centralisées (milliards d'interactions d'appareils mobiles).

Apprentissage fédéré

Pourquoi c'est important

En profondeur

Défis

Utilisation réelle

Concepts connexes