Kevin Gu的AutoAgent函式庫自動化了每個AI工程師都太熟悉的繁瑣prompt調優迴圈。這個開源工具讓meta-agent重寫系統prompts,修改工具定義,並在夜間調整編排邏輯,不斷迭代直到效能改善。據報告,在24小時運行中,它在SpreadsheetBench(96.5%)和TerminalBench(55.1% GPT-5分數)上達到了第一名,基本上完成了工程師需要花費數週手動完成的工作。
這建立在我自OpenAI agent工具發布和A-Evolve自動化承諾以來一直在追蹤的agent開發基礎架構浪潮之上。AutoAgent採用了與那些早期嘗試不同的方法——它不是試圖取代整個開發過程,而是專門專注於優化迴圈。架構刻意受到限制:人類在program.md中編寫指令,meta-agent編輯agent.py中的其他所有內容。這就像Andrej Karpathy的autoresearch概念,但用於agent鷹架而不是模型訓練。
基準分數聽起來令人印象深刻,但它們引發了我在其他自動化agent工具中看到的關於評估gaming的常見問題。SpreadsheetBench和TerminalBench是狹窄的領域——真正的生產agent處理更混亂、結構化程度較低的問題。該函式庫的GitHub repo顯示了典型的早期開源專案信號:最少的文件、有限的範例,以及尚無明確的企業採用路徑。
對於開發者來說,AutoAgent代表了完全手動調優和黑盒自動化之間的實用中間地帶。如果你已經在建構agent並在prompt迭代上花費週期,值得嘗試一下。但不要指望它能取代理解你agent的故障模式——你仍然需要編寫好的指令並批判性地評估結果。
