一个能够自主规划并执行多步骤任务的AI系统,使用工具(网络搜索、代码执行、API调用)来实现目标。与只能一次回答一个问题的简单聊天机器人不同,代理会根据迄今为止所学到的内容决定下一步该做什么。
智能代理是“会说话的AI”与“能做事的AI”之间的桥梁。当你的AI能够浏览文档、编写代码并进行测试,而无需你在每一步都手把手地指导——这就是一个智能代理。
本质上,代理只是一个循环。模型接收目标,决定下一步操作(通常是调用工具),观察结果,然后重复直到目标达成或决定无法继续。这种模式有时被称为“ReAct”模式——推理(Reason)、行动(Act)、观察(Observe)。它之所以强大,是因为模型在迭代过程中能保持状态:它会记住已经尝试过的内容、失败的情况以及收集到的信息。这个循环由一个控制模块(harness)协调——一段代码,它向模型发送消息,执行模型请求的工具调用,并将结果反馈回来。LangChain、CrewAI 和 Anthropic 自己的 Agent SDK 等框架提供了这种控制模块,但你也可以用大约五十行代码自己构建一个。模型本身从不“运行”任何东西;它只是输出结构化的 JSON,说明“用这些参数调用这个函数”,剩下的工作由你的代码完成。
一个优秀的代理与令人沮丧的代理之间的实际差异,取决于你如何定义它的工具以及赋予它的自主性。像 Claude Code 或 Cursor 的代理模式这样的编码代理可能拥有读取文件、写入文件、运行 shell 命令和搜索代码库的工具。客户服务代理可能拥有查询订单、发放退款和升级工单的工具。关键的设计决策是粒度:工具太少,代理无法完成任何有用的事情;工具太多,它会混淆该选择哪一个。在生产环境中,大多数团队发现 5–15 个定义明确的工具是最佳选择。每个工具都需要一个清晰的名称、良好的描述(这是模型决定何时使用它的依据),以及良好类型的参数模式。
关于代理的一个最大误解是,它们需要复杂的多代理架构才能发挥作用。行业曾经历过“代理蜂群”和“团队”模式的阶段,你可能会有一个规划代理、研究代理、写作代理和批评代理,它们彼此交流。实际上,一个模型在一个紧密的循环中配合良好的工具,通常比这些复杂设置表现更好。多代理模式会增加延迟、成本和故障模式。它们适用于真正并行的工作负载——比如同时扫描十个仓库——但对于大多数顺序任务,一个带有明确指令的代理就能完成任务。目前推出真实代理产品的公司(Anthropic、OpenAI、Google)都已收敛到这种更简单的架构。
可靠性是难点。一个 90% 时间都能正常工作的代理听起来不错,但当你意识到在 10 步任务中,每步 90% 的成功率意味着整体完成概率只有约 35% 时,情况就不同了。这就是为什么生产环境中的代理需要安全机制:最大迭代次数限制、成本上限、危险操作(如删除数据或花钱)的人工介入检查点,以及优雅的失败模式。最好的代理实现还包括带有回退机制的重试逻辑、结构化的错误处理,将失败反馈给模型以便尝试不同方法,以及日志记录,让你能精确追踪问题发生时的具体情况。
代理的发展速度非常快。2023 年,AutoGPT 爆红,但基本上只是一个演示——它消耗大量 token,很少能完成复杂任务。到 2025 年,Claude Code、Devin 和类似工具已经能可靠地编写生产代码、运行测试并提交拉取请求。这种差异不仅仅是模型变好,还包括更好的工具设计、更好的提示工程,以及通过实践获得的工程经验,即保持循环的紧凑。如果你今天正在构建一个代理,从一个循环、几个工具开始,把时间投资在让这些工具返回干净、有用的结果上。这比任何框架选择都更重要。