Two Minute Papers 的 Károly Zsolnai-Fehér 博士發布了一支關於 Google DeepMind Gemma 4 的講解影片,如果你正在為 2026 年做模型選型決策,這支影片值得一看。這個頻道的做法,是拿到研究發布之後不立刻蹭熱點,而是先讓社群跑上幾週的真實使用體驗,再給出一個判斷。這裡給出的判斷是有保留地看好。Gemma 4 第一週的下載量達到 1000 萬次;最小那一款能在手機上離線執行,而且在這支影片裡還漂亮地跑在一台第一代 Nintendo Switch 上;Apache 2.0 授權終於把舊版 Gemma 授權加在商用上的那副手銬拿了下來。我昨天已經寫過這次授權變化和多模態-agentic 前沿上的定位,這支影片正好補上了我那篇文章裡沒能展開的技術架構細節。
這裡有四個架構細節值得拎出來看。第一,訓練資料是經過篩選的,而不是把半個網際網路扔進去,Károly 把這種做法概括為「不要什麼都往裡進,好好篩一下你自己的資訊飲食」,這句話既適用於模型,也適用於人。第二,混合注意力:本地滑動視窗加上一次全域注意力,同一個模型在盯句子層面細節的同時還能在「這是哪本書、現在是哪一章」的整體層面上保持感覺。第三,原生的影像理解保留了橫向畫面的長寬比,不再像 Gemma 3 那樣把圖先壓成正方形(這其實悄悄拖垮了很多影像基準)。第四,跨層共享的 KV-cache,後層不再從零重算,而是直接借用前層已經算出來的記憶。這些單看都是小的改進,但合在一起就解釋了為什麼那個 31B 的稠密模型能在某些基準上跑贏體量 10 倍的 MoE 對手,而稠密模型這件事本來大家以為多年前就已經輸給 MoE 了。
「給人類的禮物」這種說法是認真的,而且值得按字面意思接住。Károly 在結尾給出一個很具體的對照:Gemma 4 落地的同一時刻,「一款前沿模型剛剛被鎖給少數幾家精選客戶」。這就是我昨天寫過的那種門禁式存取模式(Anthropic Mythos、OpenAI GPT-Rosalind,只對資安、製藥類合作方開放)。影片的情緒邏輯是:開放權重的 Gemma 4 是對那種鎖閉的對沖,是一件「他們」拿不走的東西。實際落地上要細一點看。能跑在手機上的開放權重,並不是在和 Trusted Access 門後那種前沿能力正面競爭,而是在和通用 API(GPT-5.4、Claude Opus 4.7)爭那些 13B 或 31B 就已經夠用的工作負載。對大多數打造者、大多數時間,「夠用」就已經夠了。
如果你在權衡要不要把 Gemma 4 加進你家技術棧,先看這支影片,然後把 26B MoE 和 31B 稠密這兩款拉出來,用你真實的工作負載跑一跑。Károly 誠實列出的那些缺點才是真正有用的部分:這個模型沒有即時資料源,不掛 agent harness 的話會「自信地錯」;在複雜開放型任務上吃力;在精細視覺細節上(草葉、遠處的柵欄)眼神還是偏弱。這和基準測試反映的情況是對得上的。對那些非程式、非前沿推理類的工作負載(摘要、翻譯、例行的 agent 工具呼叫、端上推理),Gemma 4 現在就是你拿來衡量其他一切的「開放基線」,Apache 2.0 授權在採購流程上的友好程度是 Gemma 3 從來沒達到過的。此外,如果你需要一段有說服力的內部講解,去說服一個持懷疑態度的利害關係人,Two Minute Papers 在八分鐘裡已經幫你做完了。