Google DeepMind a publié Decoupled DiLoCo mercredi, une extension de son travail DiLoCo d'entraînement distribué à faible communication qui partitionne les runs d'entraînement à travers des îlots asynchrones de compute. Le papier rapporte l'entraînement d'un modèle Gemma 4 de 12 milliards de paramètres à travers quatre régions US en utilisant des générations TPU mixtes (v6e et v5p), atteignant 64,1% de précision moyenne aux benchmarks contre une baseline 64,4% étroitement synchronisée. La réduction de communication est dramatique: de 198 Gbps à 0,84 Gbps à travers 8 datacenters, une chute de 235x. La revendication de résilience est encore plus forte. Dans un environnement simulé de 1,2 million de puces avec taux de panne élevés, Decoupled DiLoCo a maintenu 88% de goodput alors que l'entraînement synchrone conventionnel s'est effondré à 27%.
L'architecture s'appuie sur la structure à deux niveaux de DiLoCo: étapes d'optimisation locale interne sur chaque worker, synchronisation externe des deltas de paramètres à intervalles. Decoupled DiLoCo remplace la boucle externe synchrone par une asynchrone. Des learners indépendants calculent les updates locaux et poussent des fragments de paramètres à un synchroniseur central, qui les agrège en utilisant une règle de quorum minimum, une fenêtre de grâce adaptative pour les retardataires, et une fusion pondérée par tokens dynamique pour que les learners plus rapides contribuent proportionnellement plus à chaque cycle d'update. Le mot découplé est porteur. Les workers en panne ou lents ne bloquent pas l'étape globale; ils expirent la fenêtre de grâce et sont réintégrés quand ils récupèrent. C'est pourquoi la courbe de goodput tient sous des pannes qui paralysent l'entraînement synchrone traditionnel.
La signification pour les équipes ML de production est double. Premièrement, la réduction de bande passante change quelles topologies d'entraînement sont économiquement viables. L'entraînement à travers des datacenters géographiquement distribués a été bloqué par le coût de bande passante inter-région de la synchronisation de gradients. Une réduction 235x de bande passante met l'entraînement multi-région à portée de tout locataire cloud avec des interconnexions standard. Deuxièmement, la tolérance aux pannes compte aux échelles auxquelles Google, Meta et autres hyperscalers opèrent maintenant. Entraîner à plus de 100K puces veut dire que les pannes hardware sont routinières plutôt qu'exceptionnelles. L'entraînement synchrone traite chaque panne comme un redémarrage; Decoupled DiLoCo traite les pannes comme des retardataires et garde les learners qui tournent encore. À l'échelle simulée de 1,2M puces, cette différence entre 88% et 27% de goodput représente des milliards de dollars d'efficacité compute sur un run de plusieurs mois.
Pour les builders travaillant sous l'échelle hyperscaler, la recherche reste utile. Le pattern quorum-plus-fenêtre-de-grâce généralise au-delà de l'entraînement. Si tu construis n'importe quel système distribué qui doit agréger des contributions de workers non fiables, fenêtres de grâce adaptatives plus quorums minimums plus fusion pondérée est un design connu bon. La lignée open-source DiLoCo continue via le framework OpenDiLoCo de Prime Intellect, que des efforts d'entraînement communautaires décentralisés étendent depuis 2024. Attends-toi à ce que les innovations spécifiques de Decoupled DiLoCo atterrissent dans ces implémentations ouvertes dans les semaines. La prise pour les développeurs de modèles hors Google, c'est que les hypothèses cuites dans la plupart des recettes d'entraînement distribué, synchronisation serrée, déploiement mono-datacenter, hardware uniforme, sont maintenant explicitement remises en cause par une démonstration 12G paramètres fonctionnelle à l'échelle recherche. Les frameworks prod rattraperont, et les équipes qui comprennent pourquoi plus tôt seront mieux positionnées pour exploiter la flexibilité.
