MiniMax開源了M2.7,這是他們第一個主動參與自身開發週期的模型。這個Mixture-of-Experts模型在SWE-Pro上得分56.22%,在Terminal Bench 2上得分57.0%,在實際軟體工程任務上達到GPT-5.3-Codex的效能水準。MiniMax聲稱M2.7能夠透過關聯監控指標、分析追蹤資訊,甚至自主建立資料庫修復方案,將生產事故恢復時間縮短到三分鐘以內。

這代表了從傳統模型訓練向遞歸自我改進的重要轉變。與我們上個月在A-Evolve上看到的模糊承諾不同,MiniMax提供了具體的基準測試結果,並聲稱M2.7在自身開發過程中「在其測試環境中建構了數十項複雜技能」。該模型的Agent Teams能力原生支援多智慧體協作,將其定位為自主軟體開發的基礎設施,而不僅僅是另一個編碼助手。

MiniMax自己的文件顯示,自我進化的聲明比標題暗示的要溫和得多。該模型會根據實驗結果更新其記憶並改進學習過程,但在更廣泛的開發週期中仍需要人工監督。他們的基準測試效能雖然紮實,但並未顯著超越現有模型——Terminal Bench 2的57.0%和VIBE-Pro的55.6%具有競爭力但不算突破性。三分鐘生產除錯的聲明缺乏獨立驗證。

對開發者來說,M2.7在Hugging Face上的開源可用性使其值得測試,特別是對於處理複雜除錯工作流程的團隊。MoE架構應該能保持合理的推論成本,專注於實際工程任務而非演算法難題的做法符合實際開發需求。只是在看到獨立驗證之前,對自我進化敘述要保持適度期待。