Decoupled DiLoCo de DeepMind entrena un Gemma 4 de 12B a través de 4 regiones de EE.UU., mantiene 88% de goodput a escala de 1.2M chips

Google DeepMind publicó Decoupled DiLoCo el miércoles, una extensión de su trabajo DiLoCo de entrenamiento distribuido de baja comunicación que particiona runs de entrenamiento a través de islas asíncronas de compute. El paper reporta entrenar un modelo Gemma 4 de 12 mil millones de parámetros a través de cuatro regiones de EE.UU. usando generaciones TPU mixtas (v6e y v5p), alcanzando 64.1% de precisión promedio en benchmarks contra una baseline 64.4% estrechamente sincronizada. La reducción de comunicación es dramática: de 198 Gbps a 0.84 Gbps a través de 8 datacenters, una caída de 235x. La afirmación de resiliencia es aún más fuerte. En un entorno simulado de 1.2 millones de chips con altas tasas de falla, Decoupled DiLoCo mantuvo 88% de goodput mientras el entrenamiento síncrono convencional colapsó a 27%.

La arquitectura se construye sobre la estructura de dos niveles de DiLoCo: pasos de optimización local interna en cada worker, sincronización externa de deltas de parámetros a intervalos. Decoupled DiLoCo reemplaza el bucle externo síncrono con uno asíncrono. Learners independientes computan actualizaciones locales y empujan fragmentos de parámetros a un sincronizador central, que los agrega usando una regla de quórum mínimo, una ventana de gracia adaptativa para rezagados, y una fusión ponderada por tokens dinámica para que learners más rápidos contribuyan proporcionalmente más a cada ciclo de actualización. La palabra desacoplado es portante. Workers fallidos o lentos no bloquean el paso global; expiran la ventana de gracia y se reincorporan cuando recuperan. Por eso la curva de goodput se mantiene bajo fallos que paralizan el entrenamiento síncrono tradicional.

El significado para equipos ML de producción es doble. Primero, la reducción de ancho de banda cambia qué topologías de entrenamiento son económicamente viables. El entrenamiento a través de datacenters geográficamente distribuidos ha estado bloqueado por el costo de ancho de banda inter-región de la sincronización de gradientes. Una reducción 235x de ancho de banda pone el entrenamiento multi-región al alcance de cualquier inquilino cloud con interconexiones estándar. Segundo, la tolerancia a fallos importa a las escalas a las que Google, Meta y otros hyperscalers ahora operan. Entrenar a más de 100K chips significa que los fallos de hardware son rutinarios más que excepcionales. El entrenamiento síncrono trata cada fallo como un reinicio; Decoupled DiLoCo trata los fallos como rezagados y mantiene los learners que aún corren. A escala simulada de 1.2M chips, esa diferencia entre 88% y 27% de goodput representa miles de millones de dólares de eficiencia de compute sobre un run de varios meses.

Para builders trabajando bajo la escala hyperscaler, la investigación sigue siendo útil. El patrón quórum-más-ventana-de-gracia generaliza más allá del entrenamiento. Si construyes cualquier sistema distribuido que necesite agregar contribuciones de workers no confiables, ventanas de gracia adaptativas más quórums mínimos más fusión ponderada es un diseño conocido bueno. El linaje open-source DiLoCo continúa vía el framework OpenDiLoCo de Prime Intellect, que esfuerzos de entrenamiento comunitario descentralizado han estado extendiendo desde 2024. Esperen que las innovaciones específicas de Decoupled DiLoCo aterricen en esas implementaciones abiertas en semanas. La lectura para desarrolladores de modelos fuera de Google es que los supuestos horneados en la mayoría de recetas de entrenamiento distribuido, sincronización estrecha, despliegue mono-datacenter, hardware uniforme, ahora están explícitamente desafiados por una demostración funcional de 12B parámetros a escala de investigación. Los frameworks de producción alcanzarán, y los equipos que entiendan por qué antes estarán mejor posicionados para explotar la flexibilidad.

Decoupled DiLoCo de DeepMind entrena un Gemma 4 de 12B a través de 4 regiones de EE.UU., mantiene 88% de goodput a escala de 1.2M chips

Más noticias