MiniMax a rendu open source M2.7, leur premier modèle qui participe activement à son propre cycle de développement. Ce modèle Mixture-of-Experts obtient 56,22% sur SWE-Pro et 57,0% sur Terminal Bench 2, égalant les performances de GPT-5.3-Codex sur des tâches réelles d'ingénierie logicielle. MiniMax affirme que M2.7 peut réduire la récupération d'incidents de production à moins de trois minutes en corrélant les métriques de surveillance, analysant les traces, et même en créant des correctifs de base de données de façon autonome.

Cela représente un changement significatif par rapport à l'entraînement traditionnel de modèles vers l'auto-amélioration récursive. Contrairement aux promesses vagues qu'on a vues avec A-Evolve le mois dernier, MiniMax fournit des benchmarks spécifiques et affirme que M2.7 a développé « des dizaines de compétences complexes dans son environnement » durant son propre développement. La capacité Agent Teams du modèle permet la collaboration multi-agents nativement, le positionnant comme infrastructure pour le développement logiciel autonome plutôt que comme un simple assistant de codage.

La propre documentation de MiniMax révèle que les affirmations d'auto-évolution sont plus modestes que ne le suggèrent les gros titres. Le modèle met à jour sa mémoire et améliore ses processus d'apprentissage basé sur les résultats d'expériences, mais nécessite encore une supervision humaine pour le cycle de développement plus large. Leur performance sur les benchmarks, bien que solide, ne dépasse pas dramatiquement les modèles existants—les 57,0% de Terminal Bench 2 et 55,6% de VIBE-Pro sont compétitifs mais pas révolutionnaires. L'affirmation de débogage de production en trois minutes manque de vérification indépendante.

Pour les développeurs, la disponibilité open source de M2.7 sur Hugging Face en fait un modèle qui vaut la peine d'être testé, surtout pour les équipes qui gèrent des workflows de débogage complexes. L'architecture MoE devrait garder les coûts d'inférence raisonnables, et l'accent mis sur les tâches d'ingénierie du monde réel plutôt que sur les puzzles algorithmiques s'aligne avec les besoins de développement actuels. Tempérez juste vos attentes concernant le narratif d'auto-évolution jusqu'à ce qu'on voie une validation indépendante.