AutoAgent自动化prompt工程，但仍需人类指导

Kevin Gu的AutoAgent库自动化了每个AI工程师都太熟悉的繁琐prompt调优循环。这个开源工具让meta-agent重写系统prompts，修改工具定义，并在夜间调整编排逻辑，不断迭代直到性能改善。据报告，在24小时运行中，它在SpreadsheetBench（96.5%）和TerminalBench（55.1% GPT-5分数）上达到了第一名，基本上完成了工程师需要花费数周手动完成的工作。

这建立在我自OpenAI agent工具发布和A-Evolve自动化承诺以来一直在跟踪的agent开发基础设施浪潮之上。AutoAgent采用了与那些早期尝试不同的方法——它不是试图取代整个开发过程，而是专门专注于优化循环。架构故意受到限制：人类在program.md中编写指令，meta-agent编辑agent.py中的其他所有内容。这就像Andrej Karpathy的autoresearch概念，但用于agent脚手架而不是模型训练。

基准分数听起来令人印象深刻，但它们引发了我在其他自动化agent工具中看到的关于评估gaming的常见问题。SpreadsheetBench和TerminalBench是狭窄的领域——真正的生产agent处理更混乱、结构化程度较低的问题。该库的GitHub repo显示了典型的早期开源项目信号：最少的文档、有限的示例，以及尚无明确的企业采用路径。

对于开发者来说，AutoAgent代表了完全手动调优和黑盒自动化之间的实用中间地带。如果你已经在构建agent并在prompt迭代上花费周期，值得尝试一下。但不要指望它能取代理解你agent的故障模式——你仍然需要编写好的指令并批判性地评估结果。

AutoAgent自动化prompt工程，但仍需人类指导

更多新闻