MiniMax开源了M2.7,这是他们第一个主动参与自身开发周期的模型。这个Mixture-of-Experts模型在SWE-Pro上得分56.22%,在Terminal Bench 2上得分57.0%,在实际软件工程任务上达到GPT-5.3-Codex的性能水平。MiniMax声称M2.7能够通过关联监控指标、分析追踪信息,甚至自主创建数据库修复方案,将生产事故恢复时间缩短到三分钟以内。

这代表了从传统模型训练向递归自我改进的重要转变。与我们上个月在A-Evolve上看到的模糊承诺不同,MiniMax提供了具体的基准测试结果,并声称M2.7在自身开发过程中"在其测试环境中构建了数十项复杂技能"。该模型的Agent Teams能力原生支持多智能体协作,将其定位为自主软件开发的基础设施,而不仅仅是另一个编码助手。

MiniMax自己的文档显示,自进化的声明比标题暗示的要温和得多。该模型会根据实验结果更新其内存并改进学习过程,但在更广泛的开发周期中仍需要人工监督。他们的基准测试性能虽然扎实,但并未显著超越现有模型——Terminal Bench 2的57.0%和VIBE-Pro的55.6%具有竞争力但不算突破性。三分钟生产调试的声明缺乏独立验证。

对开发者来说,M2.7在Hugging Face上的开源可用性使其值得测试,特别是对于处理复杂调试工作流的团队。MoE架构应该能保持合理的推理成本,专注于实际工程任务而非算法难题的做法符合实际开发需求。只是在看到独立验证之前,对自进化叙述要保持适度期待。