Kevin Gu的AutoAgent库自动化了每个AI工程师都太熟悉的繁琐prompt调优循环。这个开源工具让meta-agent重写系统prompts,修改工具定义,并在夜间调整编排逻辑,不断迭代直到性能改善。据报告,在24小时运行中,它在SpreadsheetBench(96.5%)和TerminalBench(55.1% GPT-5分数)上达到了第一名,基本上完成了工程师需要花费数周手动完成的工作。

这建立在我自OpenAI agent工具发布和A-Evolve自动化承诺以来一直在跟踪的agent开发基础设施浪潮之上。AutoAgent采用了与那些早期尝试不同的方法——它不是试图取代整个开发过程,而是专门专注于优化循环。架构故意受到限制:人类在program.md中编写指令,meta-agent编辑agent.py中的其他所有内容。这就像Andrej Karpathy的autoresearch概念,但用于agent脚手架而不是模型训练。

基准分数听起来令人印象深刻,但它们引发了我在其他自动化agent工具中看到的关于评估gaming的常见问题。SpreadsheetBench和TerminalBench是狭窄的领域——真正的生产agent处理更混乱、结构化程度较低的问题。该库的GitHub repo显示了典型的早期开源项目信号:最少的文档、有限的示例,以及尚无明确的企业采用路径。

对于开发者来说,AutoAgent代表了完全手动调优和黑盒自动化之间的实用中间地带。如果你已经在构建agent并在prompt迭代上花费周期,值得尝试一下。但不要指望它能取代理解你agent的故障模式——你仍然需要编写好的指令并批判性地评估结果。