RightNow AI 发布了 AutoKernel,这是一个使用 LLM 智能体自动优化 PyTorch 模型 GPU 内核的开源框架。该系统运行自主循环:智能体修改内核代码,测试性能和正确性,然后使用 git 提交保留改进或回滚失败。每次迭代大约需要 90 秒,在 10 小时的夜间运行中产生 300-400 次优化尝试。这种方法直接解决了 KernelBench 的发现,即使是最先进的 LLM 在不到 20% 的 GPU 内核问题中才能达到 PyTorch 基线性能。

这解决了 ML 工程中最专业的瓶颈之一。编写高性能 CUDA 或 Triton 内核需要同时掌握内存合并、寄存器压力、张量核心以及数十个其他相互依赖参数的专业知识——这些技能需要数年时间培养,而且随着架构演进扩展性很差。单个优化的 matmul 内核可能涉及 200 多行代码。AutoKernel 本质上机械化了专家工作流程:编写、测试、保留或丢弃、重复。

值得注意的是工程方法而非底层能力。使用 git 进行实验跟踪和简单 TSV 文件存储结果,使系统无依赖且可检查。90 秒的迭代时间——分为正确性检查、通过 Triton 的 do_bench 进行性能基准测试以及智能体推理——表明这对于真实工作负载可能是实用的,而不仅仅是研究演示。

对开发者来说,这代表了从需要专业 CUDA 工程师到只需为夜间优化运行准备计算预算的潜在转变。真正的考验将是 AutoKernel 的优化是否真的能击败经验丰富的工程师手工调优的内核,以及该方法是否能推广到他们测试的特定内核之外。但即使自动化基本的内核优化也可能为小团队民主化性能调优。