Google DeepMind週三發布Decoupled DiLoCo,這是其DiLoCo低通訊分散式訓練工作的擴展,將訓練任務分區到非同步的運算島上。論文報告使用混合TPU世代(v6e和v5p)在四個美國區域訓練一個120億參數的Gemma 4模型,達到64.1%的平均基準精度,對比緊密同步的64.4%基線。通訊減少戲劇性:跨8個資料中心從198 Gbps降至0.84 Gbps,235倍降幅。彈性主張更強。在模擬120萬晶片的高故障率環境中,Decoupled DiLoCo保持88%的有效產能,而傳統同步訓練崩潰至27%。

架構建立在DiLoCo的兩級結構上:每個worker上的內部本地最佳化步驟,間隔性的參數增量外部同步。Decoupled DiLoCo用非同步迴圈替換了同步的外迴圈。獨立的learner計算本地更新並將參數片段推送到中央同步器,同步器使用最小法定人數規則、針對落後者的自適應寬限視窗,以及動態token加權合併進行聚合,使更快的learner在每個更新週期中按比例貢獻更多。「解耦」一詞是承重的。失敗或緩慢的worker不會阻塞全域步驟;它們超出寬限視窗並在恢復時重新併入。這就是為什麼在癱瘓傳統同步訓練的故障下,有效產能曲線仍能保持。

對生產ML團隊的意義是雙重的。首先,頻寬減少改變了哪些訓練拓撲在經濟上可行。跨地理分散資料中心的訓練一直被梯度同步的跨區域頻寬成本所阻。235倍的頻寬減少讓任何擁有標準互連的雲租戶都能進行多區域訓練。其次,容錯在Google、Meta和其他超大規模雲服務商現在運行的規模上很重要。在10萬多晶片上訓練意味著硬體故障是常規而非例外。同步訓練將每次故障視為重啟;Decoupled DiLoCo將故障視為落後者並保持仍在運行的learner。在120萬晶片的模擬規模上,88%和27%有效產能之間的差異代表多月運行的數十億美元運算效率。

對於在超大規模以下工作的builders,這項研究仍然有用。法定人數加寬限視窗模式泛化超出訓練範圍。如果你在建構任何需要聚合來自不可靠worker貢獻的分散式系統,自適應寬限視窗加最小法定人數加加權合併是一種已知良好的設計。開源DiLoCo血脈透過Prime Intellect的OpenDiLoCo框架延續,自2024年以來去中心化社群訓練努力一直在擴展它。預期Decoupled DiLoCo的特定創新將在幾週內落地到那些開放實作中。對Google以外模型開發者的要點是,大多數分散式訓練配方中烘焙的假設——緊密同步、單資料中心部署、統一硬體——現在被一個工作中的12B參數研究規模演示明確挑戰。生產框架會跟上,越早理解為什麼的團隊將更有利於利用靈活性。