RightNow AI 發布了 AutoKernel,這是一個使用 LLM 代理程式自動最佳化 PyTorch 模型 GPU 核心的開源框架。該系統執行自主迴圈:代理程式修改核心程式碼,測試效能和正確性,然後使用 git 提交保留改進或回復失敗。每次迭代大約需要 90 秒,在 10 小時的夜間執行中產生 300-400 次最佳化嘗試。這種方法直接解決了 KernelBench 的發現,即使是最先進的 LLM 在不到 20% 的 GPU 核心問題中才能達到 PyTorch 基準效能。

這解決了 ML 工程中最專業的瓶頸之一。撰寫高效能 CUDA 或 Triton 核心需要同時掌握記憶體合併、暫存器壓力、張量核心以及數十個其他相互依賴參數的專業知識——這些技能需要數年時間培養,而且隨著架構演進擴展性很差。單個最佳化的 matmul 核心可能涉及 200 多行程式碼。AutoKernel 本質上機械化了專家工作流程:撰寫、測試、保留或丟棄、重複。

值得注意的是工程方法而非底層能力。使用 git 進行實驗追蹤和簡單 TSV 檔案儲存結果,使系統無相依性且可檢查。90 秒的迭代時間——分為正確性檢查、透過 Triton 的 do_bench 進行效能基準測試以及代理程式推理——表明這對於真實工作負載可能是實用的,而不僅僅是研究展示。

對開發者來說,這代表了從需要專業 CUDA 工程師到只需為夜間最佳化執行準備運算預算的潛在轉變。真正的考驗將是 AutoKernel 的最佳化是否真的能擊敗經驗豐富的工程師手工調校的核心,以及該方法是否能推廣到他們測試的特定核心之外。但即使自動化基本的核心最佳化也可能為小團隊民主化效能調校。