Gemini 3.5 Flash 多数 eval 超过 3.1 Pro,Antigravity 2.0 是 agent-first IDE, Zubnet AI 新闻

Google 在 I/O 2026 上宣布 Gemini 3.5 Flash:在 coding 和 agentic 等大多数 benchmark 上超过 Gemini 3.1 Pro,号称比其他 frontier 模型快 4 倍,有一个优化版快 12 倍。从今天起在 Gemini app 和 Search 的 AI Mode 全球默认。给出的说法包括:自主执行 coding pipeline、管理研究项目、从零搭一个操作系统、独立跑几个小时并在需要人类判断时暂停。Antigravity 2.0 作为独立桌面应用发布 —— 「agent 可以在里面活、工作、执行的 agentic 开发平台和 IDE」,跟 Gemini 3.5 Flash 一起 co-develop。Gemini Spark 作为 24/7 的个人 AI agent 首发。Search 用 agent 能力和生成式界面重做。公告里没披露的数字:context window、MMLU、SWE-bench Verified,以及定价。

tier 反转是真正重要的 move。历史上 Flash 是 Google 的便宜子档、Pro 是生产级 frontier。3.5 这一代把这个反过来了 —— Flash 现在是生产模型,Pro 这一档变得含糊 —— Google 没说 3.1 Pro 是不是会作为deprecated 选项保留,也没说 3.5 Pro 会是什么。号称比其他 frontier 模型快 4 倍,如果是跟 OpenAI o-class 和 Anthropic Opus 4.7 在默认设置下 benchmark,这个数字是可信的,但 Google 没公布 harness 和对比细节。「优化版快 12 倍」立刻引出关于 quantization 或 distillation 取舍的问题,公告里没有回应。「自主跑几小时」这类 claim,在 adversarial benchmark 之前不代表任何具体的东西 —— 昨天 Anthropic 端的 Capability Curve 框架(十二个月里 SWE-bench Verified 62% 涨到 87%)就是这类公告缺的那种有根据的 number。Antigravity 2.0 作为独立桌面 IDE 是直接对位 Claude Code(昨天刚 ship Routines、Managed Agents、Capability Curve 框架)和 Cursor 的 background-agent 路线。「跟 Gemini 3.5 Flash 一起 co-develop」意味着 Google 把 IDE 和模型一起设计 —— 跟 Anthropic 用 Claude Code、Cursor 用自家模型选型,是同一个垂直整合 play。

三家 lab 站在不同的押注上。OpenAI:compute-and-scale 的 Stargate 轨迹。Anthropic:AI-辅助研究速度(昨天的 Karpathy 入职)、Capability Curve 框架、靠 MCP 和 Managed Agents 做基础原语。Google:agent-first 开发环境加全栈整合(Search、Workspace、IDE、mobile)。对正在评估 IDE 的 builder 来说,Antigravity 2.0 现在跟 Claude Code、Cursor、OpenAI Codex 一起进入四方 fight;更深的问题是 agent-IDE 整合是不是对的抽象层。Anthropic 的「MCP 作为协议」押注说不是,价值积累在协议层。Google 的 Antigravity 押注说是,IDE 本身就是 agent 的运行环境。Google 的 tier 反转(Flash 超过 Pro)也在传递信号:模型定价在收敛 —— 便宜和昂贵的 frontier 模型在 price/performance 上的差距在塌缩,这压缩了「靠模型路由做生意」这种 wrapper 生态的利润空间。

周一上手:如果你在 Gemini API 上做开发,盯 Google AI Studio 的文档,看 3.1 Pro 的实际 deprecation 路径和 3.5 Flash 的定价怎么走。面向用户的默认切换并不告诉你你的生产 API 集成是自动迁移还是要改。如果你在给团队评估 IDE,Antigravity 2.0 该跟 Claude Code、Cursor、Codex 一起进 bake-off。真测试:在你自己仓库里挑一个四小时级别的自主 coding 任务(重构一个真实子系统、从零搭一个带测试的服务),用同一个起始 prompt 跑四个工具。比较 wall-clock 时间到第一个有效 PR、缺陷率、agent 在 judgment-pause 时发出的 prompt 质量。优化版那个 12 倍快的 variant,应该专门对着标准模型 eval —— quantization 或 distillation 经常在 single-shot benchmark 还守得住的情况下,把 multi-step reasoning 拉差。对于 Gemini Spark 和个人 agent 这类东西,等四周后的 adversarial review,看「24/7 管你的数字生活」实际做了什么、花多少、保护什么。Google 这些 claim 最强的地方是它们可测 —— 接下来四周的 adversarial benchmark,会比今天的公告告诉你更多。

Gemini 3.5 Flash 多数 eval 超过 3.1 Pro,Antigravity 2.0 是 agent-first IDE

更多新闻