AutoAgent自動化prompt工程，但仍需人類指導

Kevin Gu的AutoAgent函式庫自動化了每個AI工程師都太熟悉的繁瑣prompt調優迴圈。這個開源工具讓meta-agent重寫系統prompts，修改工具定義，並在夜間調整編排邏輯，不斷迭代直到效能改善。據報告，在24小時運行中，它在SpreadsheetBench（96.5%）和TerminalBench（55.1% GPT-5分數）上達到了第一名，基本上完成了工程師需要花費數週手動完成的工作。

這建立在我自OpenAI agent工具發布和A-Evolve自動化承諾以來一直在追蹤的agent開發基礎架構浪潮之上。AutoAgent採用了與那些早期嘗試不同的方法——它不是試圖取代整個開發過程，而是專門專注於優化迴圈。架構刻意受到限制：人類在program.md中編寫指令，meta-agent編輯agent.py中的其他所有內容。這就像Andrej Karpathy的autoresearch概念，但用於agent鷹架而不是模型訓練。

基準分數聽起來令人印象深刻，但它們引發了我在其他自動化agent工具中看到的關於評估gaming的常見問題。SpreadsheetBench和TerminalBench是狹窄的領域——真正的生產agent處理更混亂、結構化程度較低的問題。該函式庫的GitHub repo顯示了典型的早期開源專案信號：最少的文件、有限的範例，以及尚無明確的企業採用路徑。

對於開發者來說，AutoAgent代表了完全手動調優和黑盒自動化之間的實用中間地帶。如果你已經在建構agent並在prompt迭代上花費週期，值得嘗試一下。但不要指望它能取代理解你agent的故障模式——你仍然需要編寫好的指令並批判性地評估結果。

AutoAgent自動化prompt工程，但仍需人類指導

更多新聞