Meta 已将 NVIDIA 的 CuteDSL 集成为 TorchInductor 中的第四个自动调优后端,与 Triton、CUTLASS C++ 和 cuBLAS 一起用于矩阵乘法优化。这种基于 Python 的领域特定语言提供了与手工优化 C++ kernel 相当的性能,同时保持与现有后端相同的编译时间——这相比需要完整 nvcc 调用的 CUTLASS C++ 是一个重大改进。内部基准测试显示,CuteDSL 和 Triton softmax kernel 都接近 GB200 硬件的终端带宽,但真正的目标是 GEMM,这里的性能差距最为重要。
这次集成不仅仅是技术升级——它是对 GPU kernel 开发未来的战略押注。虽然 Triton 在内存限制操作(如逐元素数学运算和归约)方面表现出色,但主导 transformer 工作负载的 GEMM 需要对线程和内存层次结构进行更低级别的控制。CuteDSL 通过与 CUTLASS C++ 相同的抽象提供这种控制,CUTLASS C++ 已被证明对 FP8 GEMM 和尾声融合有效,但它用 Python 的开发者友好语法包装了这些功能。Meta 明确将 CuteDSL 定位为新一代硬件上 CUTLASS C++ 的"最终替代品"。
时机与行业向基于 Python 的 kernel DSL 的更广泛发展势头相一致,研究人员如 Tri Dao(Quack 库)和 Colfax International 的 Jay Shah 都在采用这种技术。Meta 应用了三个后端集成标准:最小维护负担、无编译时间回归,以及在目标工作负载上的卓越性能。NVIDIA 的积极开发承诺和优化的 kernel 模板满足了第一个要求,而性能结果验证了第三个要求。对于构建生产 AI 基础设施的开发者来说,这意味着可能更快的 GEMM 操作而无需 C++ kernel 维护的复杂性,尽管真正的性能提升将取决于特定的模型架构和硬件配置。
