Decoupled DiLoCo da DeepMind treina um Gemma 4 de 12B através de 4 regiões dos EUA, mantém 88% de goodput em escala de 1,2M chips

A Google DeepMind publicou Decoupled DiLoCo na quarta-feira, uma extensão de seu trabalho DiLoCo de treinamento distribuído de baixa comunicação que particiona runs de treinamento através de ilhas assíncronas de compute. O paper reporta treinar um modelo Gemma 4 de 12 bilhões de parâmetros através de quatro regiões dos EUA usando gerações TPU mistas (v6e e v5p), atingindo 64,1% de precisão média em benchmarks contra uma baseline 64,4% estreitamente sincronizada. A redução de comunicação é dramática: de 198 Gbps para 0,84 Gbps através de 8 datacenters, uma queda de 235x. A alegação de resiliência é ainda mais forte. Em um ambiente simulado de 1,2 milhão de chips com altas taxas de falha, Decoupled DiLoCo manteve 88% de goodput enquanto o treinamento síncrono convencional entrou em colapso para 27%.

A arquitetura constrói sobre a estrutura de dois níveis do DiLoCo: passos de otimização local interna em cada worker, sincronização externa de deltas de parâmetros em intervalos. Decoupled DiLoCo substitui o loop externo síncrono por um assíncrono. Learners independentes computam updates locais e empurram fragmentos de parâmetros para um sincronizador central, que os agrega usando uma regra de quórum mínimo, uma janela de graça adaptativa para retardatários, e fusão ponderada por tokens dinâmica para que learners mais rápidos contribuam proporcionalmente mais a cada ciclo de update. A palavra desacoplado é carregada. Workers falhados ou lentos não bloqueiam o passo global; eles expiram a janela de graça e são reincorporados quando recuperam. É por isso que a curva de goodput se mantém sob falhas que paralisam o treinamento síncrono tradicional.

A significância para equipes de ML de produção é dupla. Primeiro, a redução de largura de banda muda quais topologias de treinamento são economicamente viáveis. O treinamento através de datacenters geograficamente distribuídos foi bloqueado pelo custo de largura de banda inter-região da sincronização de gradientes. Uma redução 235x de largura de banda coloca o treinamento multi-região ao alcance de qualquer inquilino cloud com interconexões padrão. Segundo, a tolerância a falhas importa nas escalas em que Google, Meta e outros hyperscalers agora operam. Treinar em mais de 100K chips significa que falhas de hardware são rotineiras ao invés de excepcionais. O treinamento síncrono trata cada falha como um reinício; Decoupled DiLoCo trata falhas como retardatários e mantém os learners que ainda estão rodando. Na escala simulada de 1,2M chips, essa diferença entre 88% e 27% de goodput representa bilhões de dólares de eficiência de compute ao longo de um run de vários meses.

Para builders trabalhando abaixo da escala hyperscaler, a pesquisa ainda é útil. O padrão quórum-mais-janela-de-graça generaliza além do treinamento. Se você constrói qualquer sistema distribuído que precisa agregar contribuições de workers não confiáveis, janelas de graça adaptativas mais quóruns mínimos mais fusão ponderada é um design conhecido bom. A linhagem open-source DiLoCo continua através do framework OpenDiLoCo da Prime Intellect, que esforços de treinamento comunitário descentralizado vêm estendendo desde 2024. Espere que as inovações específicas do Decoupled DiLoCo aterrissem nessas implementações abertas em semanas. A leitura para desenvolvedores de modelos fora do Google é que as suposições assadas na maioria das receitas de treinamento distribuído, sincronização estrita, implantação em datacenter único, hardware uniforme, estão agora explicitamente desafiadas por uma demonstração funcional de 12B parâmetros em escala de pesquisa. Frameworks de produção vão alcançar, e equipes que entenderem por quê mais cedo estarão melhor posicionadas para explorar a flexibilidade.

Decoupled DiLoCo da DeepMind treina um Gemma 4 de 12B através de 4 regiões dos EUA, mantém 88% de goodput em escala de 1,2M chips

Mais notícias