DeepMind的Decoupled DiLoCo在4個美國區域訓練12B Gemma 4，在120萬晶片規模保持88%有效產能

Google DeepMind週三發布Decoupled DiLoCo，這是其DiLoCo低通訊分散式訓練工作的擴展，將訓練任務分區到非同步的運算島上。論文報告使用混合TPU世代(v6e和v5p)在四個美國區域訓練一個120億參數的Gemma 4模型，達到64.1%的平均基準精度，對比緊密同步的64.4%基線。通訊減少戲劇性：跨8個資料中心從198 Gbps降至0.84 Gbps，235倍降幅。彈性主張更強。在模擬120萬晶片的高故障率環境中，Decoupled DiLoCo保持88%的有效產能，而傳統同步訓練崩潰至27%。

架構建立在DiLoCo的兩級結構上：每個worker上的內部本地最佳化步驟，間隔性的參數增量外部同步。Decoupled DiLoCo用非同步迴圈替換了同步的外迴圈。獨立的learner計算本地更新並將參數片段推送到中央同步器，同步器使用最小法定人數規則、針對落後者的自適應寬限視窗，以及動態token加權合併進行聚合，使更快的learner在每個更新週期中按比例貢獻更多。「解耦」一詞是承重的。失敗或緩慢的worker不會阻塞全域步驟；它們超出寬限視窗並在恢復時重新併入。這就是為什麼在癱瘓傳統同步訓練的故障下，有效產能曲線仍能保持。

對生產ML團隊的意義是雙重的。首先，頻寬減少改變了哪些訓練拓撲在經濟上可行。跨地理分散資料中心的訓練一直被梯度同步的跨區域頻寬成本所阻。235倍的頻寬減少讓任何擁有標準互連的雲租戶都能進行多區域訓練。其次，容錯在Google、Meta和其他超大規模雲服務商現在運行的規模上很重要。在10萬多晶片上訓練意味著硬體故障是常規而非例外。同步訓練將每次故障視為重啟；Decoupled DiLoCo將故障視為落後者並保持仍在運行的learner。在120萬晶片的模擬規模上，88%和27%有效產能之間的差異代表多月運行的數十億美元運算效率。

對於在超大規模以下工作的builders，這項研究仍然有用。法定人數加寬限視窗模式泛化超出訓練範圍。如果你在建構任何需要聚合來自不可靠worker貢獻的分散式系統，自適應寬限視窗加最小法定人數加加權合併是一種已知良好的設計。開源DiLoCo血脈透過Prime Intellect的OpenDiLoCo框架延續，自2024年以來去中心化社群訓練努力一直在擴展它。預期Decoupled DiLoCo的特定創新將在幾週內落地到那些開放實作中。對Google以外模型開發者的要點是，大多數分散式訓練配方中烘焙的假設——緊密同步、單資料中心部署、統一硬體——現在被一個工作中的12B參數研究規模演示明確挑戰。生產框架會跟上，越早理解為什麼的團隊將更有利於利用靈活性。

DeepMind的Decoupled DiLoCo在4個美國區域訓練12B Gemma 4，在120萬晶片規模保持88%有效產能

更多新聞