Gemini 3.5 Flash supera 3.1 Pro na maioria das evals, Antigravity 2.0 IDE agent-first, Zubnet AI Notícias

O Google anunciou o Gemini 3.5 Flash na I/O 2026: supera o Gemini 3.1 Pro na maioria dos benchmarks incluindo tarefas de coding e agentic, alega ser 4x mais rápido que outros modelos frontier com uma variante otimizada a 12x. Padrão no app Gemini e AI Mode no Search globalmente a partir de hoje. As alegações incluem execução autônoma de pipelines de coding, gerenciar projetos de pesquisa, construir sistemas operacionais do zero, e rodar independentemente por múltiplas horas com comportamento de pausa-para-julgamento-humano. Antigravity 2.0 lançado como aplicação desktop standalone — "plataforma agêntica de desenvolvimento e IDE onde agentes podem viver, trabalhar, e executar," co-desenvolvido com Gemini 3.5 Flash. Gemini Spark estreou como agente AI pessoal 24/7. Search reconstruído com capacidades agênticas e interfaces generativas. Números não divulgados no anúncio: context window, MMLU, SWE-bench Verified, e preços.

A inversão de tier é o movimento que importa. Historicamente Flash era o sub-tier barato do Google e Pro era o frontier de produção. Com 3.5, Flash é agora o modelo de produção e o tier Pro se torna ambíguo — o Google não disse se 3.1 Pro permanece como opção depreciada ou o que 3.5 Pro será. A aceleração 4x contra outros modelos frontier é plausível se comparada contra OpenAI classe-o e Anthropic Opus 4.7 em configurações padrão, mas o Google não publicou o harness ou detalhes de comparação. A variante 12x mais rápida otimizada levanta perguntas imediatas sobre tradeoffs de quantização ou destilação que não foram abordados. As alegações autônomo-por-horas precisam de benchmarking adversarial antes de significarem algo concreto — o framing Capability Curve da Anthropic ontem (62% a 87% no SWE-bench Verified durante doze meses) é o tipo de número fundamentado que este anúncio está faltando. Antigravity 2.0 como IDE desktop standalone é posicionamento direto contra Claude Code (que acabou de enviar Routines, Managed Agents, e o framing Capability Curve ontem) e o track background-agent do Cursor. "Co-desenvolvido com Gemini 3.5 Flash" significa que o Google projetou o IDE e o modelo juntos — a mesma jogada de integração vertical que a Anthropic roda com Claude Code e o Cursor com sua seleção de modelos.

Três labs alinhados em apostas diferentes. OpenAI: trajetória compute-and-scale Stargate. Anthropic: velocidade de pesquisa AI-assistida (contratação de Karpathy ontem), framing Capability Curve, primitivas de infraestrutura via MCP e Managed Agents. Google: ambiente de desenvolvimento agent-first mais integração full-stack (Search, Workspace, IDE, mobile). Para builders avaliando IDEs, Antigravity 2.0 agora se junta a Claude Code, Cursor, e OpenAI Codex em uma briga a quatro; a pergunta mais profunda é se a integração agent-IDE é a camada de abstração correta. A aposta MCP-como-protocolo da Anthropic diz não, o valor se acumula na camada de protocolo. A aposta Antigravity do Google diz sim, o IDE em si se torna o ambiente operacional do agente. A inversão de tier do Google (Flash supera Pro) também sinaliza convergência de model-pricing — a lacuna preço/performance entre modelos frontier baratos e caros está colapsando, o que comprime a margem wrapper-ecosystem sobre roteamento de modelos como estratégia de negócios.

Segunda-feira: se você constrói na API Gemini, observe os docs do Google AI Studio para o caminho atual de depreciação em 3.1 Pro e preços em 3.5 Flash. O switch do padrão user-facing não te diz se suas integrações API de produção migram automaticamente ou requerem mudança. Se você está avaliando IDEs para sua equipe, Antigravity 2.0 pertence ao bake-off junto com Claude Code, Cursor, e Codex. Teste real: escolha uma tarefa de coding autônoma de quatro horas em seu repo (refatorar um subsistema real, construir um serviço do zero com testes) e rode-a em todos os quatro com o mesmo prompt de partida. Compare o tempo wall-clock até o primeiro PR válido, a taxa de defeitos, e a qualidade dos prompts judgment-pause do agente. A variante 12x mais rápida otimizada deveria ser eval-testada especificamente contra o modelo padrão — quantização ou destilação frequentemente degrada o raciocínio multi-step mesmo quando os benchmarks single-shot se mantêm. Para Gemini Spark e agentes pessoais em geral, espere reviews adversariais sobre o que "gerenciar sua vida digital 24/7" faz, custa, e protege realmente. A parte mais forte das alegações do Google é que elas são testáveis; o benchmarking adversarial durante as próximas quatro semanas vai te dizer mais que o anúncio de hoje.

Gemini 3.5 Flash supera 3.1 Pro na maioria das evals, Antigravity 2.0 IDE agent-first

Mais notícias