PyTorch 新增 CuteDSL 後端，押注 Python 而非 C++ 用於 GPU kernel 開發

Meta 已將 NVIDIA 的 CuteDSL 整合為 TorchInductor 中的第四個自動調優後端，與 Triton、CUTLASS C++ 和 cuBLAS 一起用於矩陣乘法最佳化。這種基於 Python 的領域特定語言提供了與手工最佳化 C++ kernel 相當的效能，同時保持與現有後端相同的編譯時間——這相比需要完整 nvcc 呼叫的 CUTLASS C++ 是一個重大改進。內部基準測試顯示，CuteDSL 和 Triton softmax kernel 都接近 GB200 硬體的終端頻寬，但真正的目標是 GEMM，這裡的效能差距最為重要。

這次整合不僅僅是技術升級——它是對 GPU kernel 開發未來的戰略押注。雖然 Triton 在記憶體限制操作（如逐元素數學運算和歸約）方面表現出色，但主導 transformer 工作負載的 GEMM 需要對執行緒和記憶體階層結構進行更低層級的控制。CuteDSL 透過與 CUTLASS C++ 相同的抽象提供這種控制，CUTLASS C++ 已被證明對 FP8 GEMM 和尾聲融合有效，但它用 Python 的開發者友善語法包裝了這些功能。Meta 明確將 CuteDSL 定位為新一代硬體上 CUTLASS C++ 的「最終替代品」。

時機與產業向基於 Python 的 kernel DSL 的更廣泛發展勢頭相一致，研究人員如 Tri Dao（Quack 函式庫）和 Colfax International 的 Jay Shah 都在採用這種技術。Meta 應用了三個後端整合標準：最小維護負擔、無編譯時間回歸，以及在目標工作負載上的卓越效能。NVIDIA 的積極開發承諾和最佳化的 kernel 模板滿足了第一個要求，而效能結果驗證了第三個要求。對於建構生產 AI 基礎設施的開發者來說，這意味著可能更快的 GEMM 操作而無需 C++ kernel 維護的複雜性，儘管真正的效能提升將取決於特定的模型架構和硬體配置。

PyTorch 新增 CuteDSL 後端，押注 Python 而非 C++ 用於 GPU kernel 開發

更多新聞