Google DeepMind周三发布Decoupled DiLoCo,这是其DiLoCo低通信分布式训练工作的扩展,将训练任务分区到异步的计算岛上。论文报告使用混合TPU代(v6e和v5p)在四个美国区域训练一个120亿参数的Gemma 4模型,达到64.1%的平均基准精度,对比紧密同步的64.4%基线。通信减少戏剧性:跨8个数据中心从198 Gbps降至0.84 Gbps,235倍降幅。弹性主张更强。在模拟120万芯片的高故障率环境中,Decoupled DiLoCo保持88%的有效产能,而传统同步训练崩溃至27%。

架构建立在DiLoCo的两级结构上:每个worker上的内部本地优化步骤,间隔性的参数增量外部同步。Decoupled DiLoCo用异步循环替换了同步的外循环。独立的learner计算本地更新并将参数片段推送到中央同步器,同步器使用最小法定人数规则、针对落后者的自适应宽限窗口,以及动态token加权合并进行聚合,使更快的learner在每个更新周期中按比例贡献更多。"解耦"一词是承重的。失败或缓慢的worker不会阻塞全局步骤;它们超出宽限窗口并在恢复时重新并入。这就是为什么在瘫痪传统同步训练的故障下,有效产能曲线仍能保持。

对生产ML团队的意义是双重的。首先,带宽减少改变了哪些训练拓扑在经济上可行。跨地理分布数据中心的训练一直被梯度同步的跨区域带宽成本所阻。235倍的带宽减少让任何拥有标准互连的云租户都能进行多区域训练。其次,容错在Google、Meta和其他超大规模云服务商现在运行的规模上很重要。在10万多芯片上训练意味着硬件故障是常规而非例外。同步训练将每次故障视为重启;Decoupled DiLoCo将故障视为落后者并保持仍在运行的learner。在120万芯片的模拟规模上,88%和27%有效产能之间的差异代表多月运行的数十亿美元计算效率。

对于在超大规模以下工作的builders,这项研究仍然有用。法定人数加宽限窗口模式泛化超出训练范围。如果你在构建任何需要聚合来自不可靠worker贡献的分布式系统,自适应宽限窗口加最小法定人数加加权合并是一种已知良好的设计。开源DiLoCo血脉通过Prime Intellect的OpenDiLoCo框架延续,自2024年以来去中心化社区训练努力一直在扩展它。预期Decoupled DiLoCo的特定创新将在几周内落地到那些开放实现中。对Google以外模型开发者的要点是,大多数分布式训练配方中烘焙的假设——紧密同步、单数据中心部署、统一硬件——现在被一个工作中的12B参数研究规模演示明确挑战。生产框架会跟上,越早理解为什么的团队将更有利于利用灵活性。