Z.AI发布了GLM-5.1,这是一个专为长时间智能体任务设计的7540亿参数模型。该模型在SWE-Bench Pro上达到了最先进的性能,据报告能维持长达8小时的自主执行——相比典型的在初始收益后就停滞的LLM智能体,这是一个巨大的改进。基于Mixture of Experts架构,配备DSA(Dynamic Sparse Attention),并使用异步强化学习训练,GLM-5.1在每次前向传播中只激活参数子集,同时在扩展交互中保持性能。
这直接解决了我称之为"智能体平台期问题"——AI编程助手往往早期就耗尽策略手册,无论额外时间如何都停止取得有意义进展的趋势。在我4月对GLM-5的报道中,我注意到了正是这个限制:模型应用熟悉技术获得快速胜利,然后撞墙。Z.AI使用异步RL训练的方法专门针对长期视野的持续判断,使模型能够在数百轮中重新审视推理并修正策略。
Z.AI的开发者文档显示,该公司将此定位为生产就绪的基础设施,而不仅仅是研究演示。他们提供API、SDK和迁移指南——表明对现实世界部署的信心。然而,7540亿参数的规模引发了关于服务成本和延迟的明显问题,公司尚未公开解决这些问题。MoE架构有助于推理效率,但部署这种规模的模型仍需要重大的基础设施投资。
对于评估智能体框架的开发者来说,GLM-5.1代表了向持续自主工作的重要架构转变。但真正的测试不是基准测试——而是模型是否能在混乱的现实世界代码库中,在声称的8小时会话期间保持高质量的决策制定。定价和API可用性将决定这是否成为实用工具或仍然是令人印象深刻的技术演示。
