Gemini 3.5 Flash supera a 3.1 Pro en la mayoría de evals, Antigravity 2.0 IDE agent-first, Zubnet AI Noticias

Google anunció Gemini 3.5 Flash en I/O 2026: supera a Gemini 3.1 Pro en la mayoría de benchmarks incluyendo tareas de coding y agentic, afirma ser 4x más rápido que otros modelos frontier con una variante optimizada a 12x. Por defecto en la app Gemini y AI Mode en Search globalmente desde hoy. Las afirmaciones incluyen ejecución autónoma de pipelines de coding, gestionar proyectos de investigación, construir sistemas operativos desde cero, y correr independientemente durante múltiples horas con comportamiento de pausa-para-juicio-humano. Antigravity 2.0 lanzado como aplicación de escritorio standalone — "plataforma de desarrollo agéntica e IDE donde los agentes pueden vivir, trabajar, y ejecutar," co-desarrollado con Gemini 3.5 Flash. Gemini Spark debutó como agente AI personal 24/7. Search reconstruido con capacidades agénticas e interfaces generativas. Números no divulgados en el anuncio: context window, MMLU, SWE-bench Verified, y precios.

La inversión de tier es el movimiento que importa. Históricamente Flash era el sub-tier barato de Google y Pro era el frontier de producción. Con 3.5, Flash es ahora el modelo de producción y el tier Pro se vuelve ambiguo — Google no dijo si 3.1 Pro permanece como opción depreciada o qué será 3.5 Pro. La aceleración 4x contra otros modelos frontier es plausible si se compara contra OpenAI clase-o y Anthropic Opus 4.7 en configuraciones por defecto, pero Google no publicó el harness o detalles de comparación. La variante 12x más rápida optimizada plantea preguntas inmediatas sobre tradeoffs de cuantización o destilación que no fueron abordados. Las afirmaciones autónomo-por-horas necesitan benchmarking adversarial antes de significar algo concreto — el framing Capability Curve de Anthropic ayer (62% a 87% en SWE-bench Verified durante doce meses) es el tipo de número fundado que este anuncio está faltando. Antigravity 2.0 como IDE de escritorio standalone es posicionamiento directo contra Claude Code (que acaba de enviar Routines, Managed Agents, y el framing Capability Curve ayer) y el track background-agent de Cursor. "Co-desarrollado con Gemini 3.5 Flash" significa que Google diseñó el IDE y el modelo juntos — la misma jugada de integración vertical que Anthropic corre con Claude Code y Cursor con su selección de modelos.

Tres labs alineados en apuestas diferentes. OpenAI: trayectoria compute-and-scale Stargate. Anthropic: velocidad de investigación AI-asistida (contratación de Karpathy ayer), framing Capability Curve, primitivas de infraestructura vía MCP y Managed Agents. Google: entorno de desarrollo agent-first más integración full-stack (Search, Workspace, IDE, mobile). Para builders evaluando IDEs, Antigravity 2.0 ahora se une a Claude Code, Cursor, y OpenAI Codex en una pelea a cuatro; la pregunta más profunda es si la integración agent-IDE es la capa de abstracción correcta. La apuesta MCP-como-protocolo de Anthropic dice no, el valor se acumula en la capa de protocolo. La apuesta Antigravity de Google dice sí, el IDE mismo se vuelve el entorno operativo del agente. La inversión de tier de Google (Flash supera a Pro) también señala convergencia de model-pricing — la brecha precio/performance entre modelos frontier baratos y caros se está colapsando, lo que comprime el margen wrapper-ecosystem sobre routing de modelos como estrategia de negocios.

Lunes: si construyes sobre la API Gemini, vigila los docs de Google AI Studio por el path actual de depreciación en 3.1 Pro y precios en 3.5 Flash. El switch del default user-facing no te dice si tus integraciones API de producción migran automáticamente o requieren cambio. Si estás evaluando IDEs para tu equipo, Antigravity 2.0 pertenece al bake-off junto a Claude Code, Cursor, y Codex. Test real: elige una tarea de coding autónoma de cuatro horas en tu repo (refactorizar un subsistema real, construir un servicio desde cero con tests) y córrela en los cuatro con el mismo prompt de partida. Compara el tiempo wall-clock hasta el primer PR válido, la tasa de defectos, y la calidad de los prompts judgment-pause del agente. La variante 12x más rápida optimizada debería ser eval-testeada específicamente contra el modelo estándar — la cuantización o destilación a menudo degrada el razonamiento multi-paso incluso cuando los benchmarks single-shot se mantienen. Para Gemini Spark y agentes personales en general, espera reviews adversariales sobre lo que "gestionar tu vida digital 24/7" hace, cuesta, y protege realmente. La parte más fuerte de las afirmaciones de Google es que son testeables; el benchmarking adversarial durante las próximas cuatro semanas te dirá más que el anuncio de hoy.

Gemini 3.5 Flash supera a 3.1 Pro en la mayoría de evals, Antigravity 2.0 IDE agent-first

Más noticias