Z.AI發布了GLM-5.1,這是一個專為長時間智慧體任務設計的7540億參數模型。該模型在SWE-Bench Pro上達到了最先進的性能,據報告能維持長達8小時的自主執行——相比典型的在初始收益後就停滯的LLM智慧體,這是一個巨大的改進。基於Mixture of Experts架構,配備DSA(Dynamic Sparse Attention),並使用異步強化學習訓練,GLM-5.1在每次前向傳播中只激活參數子集,同時在擴展互動中保持性能。
這直接解決了我稱之為「智慧體高原問題」——AI編程助手往往早期就耗盡策略手冊,無論額外時間如何都停止取得有意義進展的趨勢。在我4月對GLM-5的報導中,我注意到了正是這個限制:模型應用熟悉技術獲得快速勝利,然後撞牆。Z.AI使用異步RL訓練的方法專門針對長期視野的持續判斷,使模型能夠在數百輪中重新審視推理並修正策略。
Z.AI的開發者文檔顯示,該公司將此定位為生產就緒的基礎設施,而不僅僅是研究演示。他們提供API、SDK和遷移指南——表明對現實世界部署的信心。然而,7540億參數的規模引發了關於服務成本和延遲的明顯問題,公司尚未公開解決這些問題。MoE架構有助於推理效率,但部署這種規模的模型仍需要重大的基礎設施投資。
對於評估智慧體框架的開發者來說,GLM-5.1代表了向持續自主工作的重要架構轉變。但真正的測試不是基準測試——而是模型是否能在混亂的現實世界程式碼庫中,在聲稱的8小時會話期間保持高品質的決策制定。定價和API可用性將決定這是否成為實用工具或仍然是令人印象深刻的技術演示。
