Gemini 3.5 Flash 多數 eval 超過 3.1 Pro,Antigravity 2.0 是 agent-first IDE, Zubnet AI 新聞

Google 在 I/O 2026 上宣布 Gemini 3.5 Flash:在 coding 和 agentic 等大多數 benchmark 上超過 Gemini 3.1 Pro,號稱比其他 frontier 模型快 4 倍,有一個優化版快 12 倍。從今天起在 Gemini app 和 Search 的 AI Mode 全球預設。給出的說法包括:自主執行 coding pipeline、管理研究專案、從零搭一個作業系統、獨立跑幾個小時並在需要人類判斷時暫停。Antigravity 2.0 作為獨立桌面應用發布 —— 「agent 可以在裡面活、工作、執行的 agentic 開發平台和 IDE」,跟 Gemini 3.5 Flash 一起 co-develop。Gemini Spark 作為 24/7 的個人 AI agent 首發。Search 用 agent 能力和生成式介面重做。公告裡沒披露的數字:context window、MMLU、SWE-bench Verified,以及定價。

tier 反轉才是真正重要的 move。歷史上 Flash 是 Google 的便宜子檔、Pro 是生產級 frontier。3.5 這一代把這個反過來了 —— Flash 現在是生產模型,Pro 這一檔變得含糊 —— Google 沒說 3.1 Pro 是不是會作為deprecated 選項保留,也沒說 3.5 Pro 會是什麼。號稱比其他 frontier 模型快 4 倍,如果是跟 OpenAI o-class 和 Anthropic Opus 4.7 在預設設定下 benchmark,這個數字是可信的,但 Google 沒公布 harness 和對比細節。「優化版快 12 倍」立刻引出關於 quantization 或 distillation 取捨的問題,公告裡沒有回應。「自主跑幾小時」這類 claim,在 adversarial benchmark 之前不代表任何具體的東西 —— 昨天 Anthropic 端的 Capability Curve 框架(十二個月裡 SWE-bench Verified 62% 漲到 87%)就是這類公告缺的那種有根據的 number。Antigravity 2.0 作為獨立桌面 IDE 是直接對位 Claude Code(昨天剛 ship Routines、Managed Agents、Capability Curve 框架)和 Cursor 的 background-agent 路線。「跟 Gemini 3.5 Flash 一起 co-develop」意味著 Google 把 IDE 和模型一起設計 —— 跟 Anthropic 用 Claude Code、Cursor 用自家模型選型,是同一個垂直整合 play。

三家 lab 站在不同的押注上。OpenAI:compute-and-scale 的 Stargate 軌跡。Anthropic:AI-輔助研究速度(昨天的 Karpathy 入職)、Capability Curve 框架、靠 MCP 和 Managed Agents 做基礎原語。Google:agent-first 開發環境加全棧整合(Search、Workspace、IDE、mobile)。對正在評估 IDE 的 builder 來說,Antigravity 2.0 現在跟 Claude Code、Cursor、OpenAI Codex 一起進入四方 fight;更深的問題是 agent-IDE 整合是不是對的抽象層。Anthropic 的「MCP 作為協定」押注說不是,價值積累在協定層。Google 的 Antigravity 押注說是,IDE 本身就是 agent 的運行環境。Google 的 tier 反轉(Flash 超過 Pro)也在傳遞訊號:模型定價在收斂 —— 便宜和昂貴的 frontier 模型在 price/performance 上的差距在塌縮,這壓縮了「靠模型路由做生意」這種 wrapper 生態的利潤空間。

週一上手:如果你在 Gemini API 上做開發,盯 Google AI Studio 的文件,看 3.1 Pro 的實際 deprecation 路徑和 3.5 Flash 的定價怎麼走。面向使用者的預設切換並不告訴你你的生產 API 整合是自動遷移還是要改。如果你在給團隊評估 IDE,Antigravity 2.0 該跟 Claude Code、Cursor、Codex 一起進 bake-off。真測試:在你自己倉庫裡挑一個四小時級別的自主 coding 任務(重構一個真實子系統、從零搭一個帶測試的服務),用同一個起始 prompt 跑四個工具。比較 wall-clock 時間到第一個有效 PR、缺陷率、agent 在 judgment-pause 時發出的 prompt 品質。優化版那個 12 倍快的 variant,應該專門對著標準模型 eval —— quantization 或 distillation 經常在 single-shot benchmark 還守得住的情況下,把 multi-step reasoning 拉差。對於 Gemini Spark 和個人 agent 這類東西,等四週後的 adversarial review,看「24/7 管你的數位生活」實際做了什麼、花多少、保護什麼。Google 這些 claim 最強的地方是它們可測 —— 接下來四週的 adversarial benchmark,會比今天的公告告訴你更多。

Gemini 3.5 Flash 多數 eval 超過 3.1 Pro,Antigravity 2.0 是 agent-first IDE

更多新聞