Gemini 3.5 Flash bat 3.1 Pro sur la plupart des evals, Antigravity 2.0 IDE agent-first, Zubnet AI Nouvelles

Google a annoncé Gemini 3.5 Flash à I/O 2026 : outperform Gemini 3.1 Pro sur la plupart des benchmarks incluant les tâches coding et agentic, claim 4x plus vite que les autres modèles frontier avec un variant optimisé à 12x. Default dans l'app Gemini et AI Mode dans Search globalement à partir d'aujourd'hui. Les claims incluent l'exécution autonome de pipelines coding, gérer des projets de recherche, bâtir des operating systems from scratch, et rouler indépendamment pendant plusieurs heures avec comportement pause-pour-jugement-humain. Antigravity 2.0 launché comme application desktop standalone — « plateforme agentique de développement et IDE où les agents peuvent vivre, travailler, et exécuter », co-développé avec Gemini 3.5 Flash. Gemini Spark a fait ses débuts comme agent AI personnel 24/7. Search rebuildé avec capacités agentiques et interfaces génératives. Chiffres pas divulgués dans l'annonce : context window, MMLU, SWE-bench Verified, et pricing.

L'inversion de tier c'est le move qui matters. Historiquement Flash était le sub-tier cheap de Google et Pro était la frontier production. Avec 3.5, Flash est maintenant le modèle production et le tier Pro devient ambigu — Google a pas dit si 3.1 Pro reste comme option deprecated ou ce que 3.5 Pro va être. Le speedup 4x contre les autres modèles frontier est plausible si benchmarké contre OpenAI o-class et Anthropic Opus 4.7 à default settings, mais Google a pas publié le harness ou les détails de comparaison. Le variant optimisé 12x soulève immédiatement des questions sur les tradeoffs de quantization ou distillation qui ont pas été addressées. Les claims autonomous-pendant-des-heures need adversarial benchmarking avant qu'ils veulent dire quelque chose de concret — le cadrage Capability Curve d'Anthropic hier (62% à 87% sur SWE-bench Verified sur douze mois) c'est le genre de number grounded que cette annonce manque. Antigravity 2.0 comme IDE desktop standalone c'est du positionnement direct contre Claude Code (qui vient de shipper Routines, Managed Agents, et le cadrage Capability Curve hier) et la track background-agent de Cursor. « Co-développé avec Gemini 3.5 Flash » veut dire que Google a designé l'IDE et le modèle ensemble — même play d'intégration verticale qu'Anthropic roule avec Claude Code et Cursor avec leur sélection de modèles.

Trois labs alignés sur des paris différents. OpenAI : trajectoire compute-and-scale Stargate. Anthropic : vélocité de recherche AI-assistée (hire Karpathy d'hier), cadrage Capability Curve, primitives d'infrastructure via MCP et Managed Agents. Google : environnement de développement agent-first plus intégration full-stack (Search, Workspace, IDE, mobile). Pour les builders qui évaluent les IDEs, Antigravity 2.0 rejoint maintenant Claude Code, Cursor, et OpenAI Codex dans une fight à quatre ; la question plus profonde c'est si l'intégration agent-IDE est la bonne couche d'abstraction. Le pari MCP-as-protocole d'Anthropic dit non, la valeur s'accumule à la couche protocole. Le pari Antigravity de Google dit oui, l'IDE lui-même devient l'environnement opérationnel de l'agent. L'inversion de tier de Google (Flash bat Pro) signale aussi la convergence model-pricing — le gap price/performance entre les modèles frontier cheap et expensive collapse, ce qui compresse la marge wrapper-ecosystem sur le routing de modèles comme stratégie business.

Lundi matin : si tu bâtis sur l'API Gemini, watch les docs Google AI Studio pour le path de deprecation actuel sur 3.1 Pro et le pricing sur 3.5 Flash. Le switch de default user-facing te dit pas si tes intégrations API production migrent automatiquement ou requièrent du change. Si tu évalues des IDEs pour ta team, Antigravity 2.0 appartient dans le bake-off à côté de Claude Code, Cursor, et Codex. Real test : pick une task coding autonome de quatre heures dans ton repo (refactor un real subsystem, bâtir un service from scratch avec tests) et roule-la sur les quatre avec le même prompt de départ. Compare le wall-clock time jusqu'au premier PR valide, le defect rate, et la qualité des prompts judgment-pause de l'agent. Le variant optimisé 12x devrait être eval-testé spécifiquement contre le modèle standard — la quantization ou distillation dégrade souvent le reasoning multi-step même quand les benchmarks single-shot tiennent. Pour Gemini Spark et les agents personnels en général, attends les reviews adversariales sur ce que « gérer ta digital life 24/7 » fait, coûte, et protège vraiment. La partie la plus forte des claims de Google c'est qu'ils sont testables ; le benchmarking adversarial sur les prochaines quatre semaines va t'en dire plus que l'annonce d'aujourd'hui.

Gemini 3.5 Flash bat 3.1 Pro sur la plupart des evals, Antigravity 2.0 IDE agent-first

Plus de nouvelles