Two Minute Papers 談 Gemma 4：「給人類的禮物」、混合注意力，以及一個能跑在初代 Nintendo Switch 上的 2B 模型

Two Minute Papers 的 Károly Zsolnai-Fehér 博士發布了一支關於 Google DeepMind Gemma 4 的講解影片，如果你正在為 2026 年做模型選型決策，這支影片值得一看。這個頻道的做法，是拿到研究發布之後不立刻蹭熱點，而是先讓社群跑上幾週的真實使用體驗，再給出一個判斷。這裡給出的判斷是有保留地看好。Gemma 4 第一週的下載量達到 1000 萬次；最小那一款能在手機上離線執行，而且在這支影片裡還漂亮地跑在一台第一代 Nintendo Switch 上；Apache 2.0 授權終於把舊版 Gemma 授權加在商用上的那副手銬拿了下來。我昨天已經寫過這次授權變化和多模態-agentic 前沿上的定位，這支影片正好補上了我那篇文章裡沒能展開的技術架構細節。

這裡有四個架構細節值得拎出來看。第一，訓練資料是經過篩選的，而不是把半個網際網路扔進去，Károly 把這種做法概括為「不要什麼都往裡進，好好篩一下你自己的資訊飲食」，這句話既適用於模型，也適用於人。第二，混合注意力：本地滑動視窗加上一次全域注意力，同一個模型在盯句子層面細節的同時還能在「這是哪本書、現在是哪一章」的整體層面上保持感覺。第三，原生的影像理解保留了橫向畫面的長寬比，不再像 Gemma 3 那樣把圖先壓成正方形（這其實悄悄拖垮了很多影像基準）。第四，跨層共享的 KV-cache，後層不再從零重算，而是直接借用前層已經算出來的記憶。這些單看都是小的改進，但合在一起就解釋了為什麼那個 31B 的稠密模型能在某些基準上跑贏體量 10 倍的 MoE 對手，而稠密模型這件事本來大家以為多年前就已經輸給 MoE 了。

「給人類的禮物」這種說法是認真的，而且值得按字面意思接住。Károly 在結尾給出一個很具體的對照：Gemma 4 落地的同一時刻，「一款前沿模型剛剛被鎖給少數幾家精選客戶」。這就是我昨天寫過的那種門禁式存取模式（Anthropic Mythos、OpenAI GPT-Rosalind，只對資安、製藥類合作方開放）。影片的情緒邏輯是：開放權重的 Gemma 4 是對那種鎖閉的對沖，是一件「他們」拿不走的東西。實際落地上要細一點看。能跑在手機上的開放權重，並不是在和 Trusted Access 門後那種前沿能力正面競爭，而是在和通用 API（GPT-5.4、Claude Opus 4.7）爭那些 13B 或 31B 就已經夠用的工作負載。對大多數打造者、大多數時間，「夠用」就已經夠了。

如果你在權衡要不要把 Gemma 4 加進你家技術棧，先看這支影片，然後把 26B MoE 和 31B 稠密這兩款拉出來，用你真實的工作負載跑一跑。Károly 誠實列出的那些缺點才是真正有用的部分：這個模型沒有即時資料源，不掛 agent harness 的話會「自信地錯」；在複雜開放型任務上吃力；在精細視覺細節上（草葉、遠處的柵欄）眼神還是偏弱。這和基準測試反映的情況是對得上的。對那些非程式、非前沿推理類的工作負載（摘要、翻譯、例行的 agent 工具呼叫、端上推理），Gemma 4 現在就是你拿來衡量其他一切的「開放基線」，Apache 2.0 授權在採購流程上的友好程度是 Gemma 3 從來沒達到過的。此外，如果你需要一段有說服力的內部講解，去說服一個持懷疑態度的利害關係人，Two Minute Papers 在八分鐘裡已經幫你做完了。

Two Minute Papers 談 Gemma 4：「給人類的禮物」、混合注意力，以及一個能跑在初代 Nintendo Switch 上的 2B 模型

更多新聞