Meta 已將 NVIDIA 的 CuteDSL 整合為 TorchInductor 中的第四個自動調優後端,與 Triton、CUTLASS C++ 和 cuBLAS 一起用於矩陣乘法最佳化。這種基於 Python 的領域特定語言提供了與手工最佳化 C++ kernel 相當的效能,同時保持與現有後端相同的編譯時間——這相比需要完整 nvcc 呼叫的 CUTLASS C++ 是一個重大改進。內部基準測試顯示,CuteDSL 和 Triton softmax kernel 都接近 GB200 硬體的終端頻寬,但真正的目標是 GEMM,這裡的效能差距最為重要。
這次整合不僅僅是技術升級——它是對 GPU kernel 開發未來的戰略押注。雖然 Triton 在記憶體限制操作(如逐元素數學運算和歸約)方面表現出色,但主導 transformer 工作負載的 GEMM 需要對執行緒和記憶體階層結構進行更低層級的控制。CuteDSL 透過與 CUTLASS C++ 相同的抽象提供這種控制,CUTLASS C++ 已被證明對 FP8 GEMM 和尾聲融合有效,但它用 Python 的開發者友善語法包裝了這些功能。Meta 明確將 CuteDSL 定位為新一代硬體上 CUTLASS C++ 的「最終替代品」。
時機與產業向基於 Python 的 kernel DSL 的更廣泛發展勢頭相一致,研究人員如 Tri Dao(Quack 函式庫)和 Colfax International 的 Jay Shah 都在採用這種技術。Meta 應用了三個後端整合標準:最小維護負擔、無編譯時間回歸,以及在目標工作負載上的卓越效能。NVIDIA 的積極開發承諾和最佳化的 kernel 模板滿足了第一個要求,而效能結果驗證了第三個要求。對於建構生產 AI 基礎設施的開發者來說,這意味著可能更快的 GEMM 操作而無需 C++ kernel 維護的複雜性,儘管真正的效能提升將取決於特定的模型架構和硬體配置。
