PyTorch 增加 CuteDSL 后端，押注 Python 而非 C++ 用于 GPU kernel 开发

Meta 已将 NVIDIA 的 CuteDSL 集成为 TorchInductor 中的第四个自动调优后端，与 Triton、CUTLASS C++ 和 cuBLAS 一起用于矩阵乘法优化。这种基于 Python 的领域特定语言提供了与手工优化 C++ kernel 相当的性能，同时保持与现有后端相同的编译时间——这相比需要完整 nvcc 调用的 CUTLASS C++ 是一个重大改进。内部基准测试显示，CuteDSL 和 Triton softmax kernel 都接近 GB200 硬件的终端带宽，但真正的目标是 GEMM，这里的性能差距最为重要。

这次集成不仅仅是技术升级——它是对 GPU kernel 开发未来的战略押注。虽然 Triton 在内存限制操作（如逐元素数学运算和归约）方面表现出色，但主导 transformer 工作负载的 GEMM 需要对线程和内存层次结构进行更低级别的控制。CuteDSL 通过与 CUTLASS C++ 相同的抽象提供这种控制，CUTLASS C++ 已被证明对 FP8 GEMM 和尾声融合有效，但它用 Python 的开发者友好语法包装了这些功能。Meta 明确将 CuteDSL 定位为新一代硬件上 CUTLASS C++ 的"最终替代品"。

时机与行业向基于 Python 的 kernel DSL 的更广泛发展势头相一致，研究人员如 Tri Dao（Quack 库）和 Colfax International 的 Jay Shah 都在采用这种技术。Meta 应用了三个后端集成标准：最小维护负担、无编译时间回归，以及在目标工作负载上的卓越性能。NVIDIA 的积极开发承诺和优化的 kernel 模板满足了第一个要求，而性能结果验证了第三个要求。对于构建生产 AI 基础设施的开发者来说，这意味着可能更快的 GEMM 操作而无需 C++ kernel 维护的复杂性，尽管真正的性能提升将取决于特定的模型架构和硬件配置。

PyTorch 增加 CuteDSL 后端，押注 Python 而非 C++ 用于 GPU kernel 开发

更多新闻