DeepMind的Decoupled DiLoCo在4个美国区域训练12B Gemma 4，在120万芯片规模保持88%有效产能

Google DeepMind周三发布Decoupled DiLoCo，这是其DiLoCo低通信分布式训练工作的扩展，将训练任务分区到异步的计算岛上。论文报告使用混合TPU代(v6e和v5p)在四个美国区域训练一个120亿参数的Gemma 4模型，达到64.1%的平均基准精度，对比紧密同步的64.4%基线。通信减少戏剧性：跨8个数据中心从198 Gbps降至0.84 Gbps，235倍降幅。弹性主张更强。在模拟120万芯片的高故障率环境中，Decoupled DiLoCo保持88%的有效产能，而传统同步训练崩溃至27%。

架构建立在DiLoCo的两级结构上：每个worker上的内部本地优化步骤，间隔性的参数增量外部同步。Decoupled DiLoCo用异步循环替换了同步的外循环。独立的learner计算本地更新并将参数片段推送到中央同步器，同步器使用最小法定人数规则、针对落后者的自适应宽限窗口，以及动态token加权合并进行聚合，使更快的learner在每个更新周期中按比例贡献更多。"解耦"一词是承重的。失败或缓慢的worker不会阻塞全局步骤；它们超出宽限窗口并在恢复时重新并入。这就是为什么在瘫痪传统同步训练的故障下，有效产能曲线仍能保持。

对生产ML团队的意义是双重的。首先，带宽减少改变了哪些训练拓扑在经济上可行。跨地理分布数据中心的训练一直被梯度同步的跨区域带宽成本所阻。235倍的带宽减少让任何拥有标准互连的云租户都能进行多区域训练。其次，容错在Google、Meta和其他超大规模云服务商现在运行的规模上很重要。在10万多芯片上训练意味着硬件故障是常规而非例外。同步训练将每次故障视为重启；Decoupled DiLoCo将故障视为落后者并保持仍在运行的learner。在120万芯片的模拟规模上，88%和27%有效产能之间的差异代表多月运行的数十亿美元计算效率。

对于在超大规模以下工作的builders，这项研究仍然有用。法定人数加宽限窗口模式泛化超出训练范围。如果你在构建任何需要聚合来自不可靠worker贡献的分布式系统，自适应宽限窗口加最小法定人数加加权合并是一种已知良好的设计。开源DiLoCo血脉通过Prime Intellect的OpenDiLoCo框架延续，自2024年以来去中心化社区训练努力一直在扩展它。预期Decoupled DiLoCo的特定创新将在几周内落地到那些开放实现中。对Google以外模型开发者的要点是，大多数分布式训练配方中烘焙的假设——紧密同步、单数据中心部署、统一硬件——现在被一个工作中的12B参数研究规模演示明确挑战。生产框架会跟上，越早理解为什么的团队将更有利于利用灵活性。

DeepMind的Decoupled DiLoCo在4个美国区域训练12B Gemma 4，在120万芯片规模保持88%有效产能

更多新闻