Google DeepMind 在 4 月 2 日以 Apache 2.0 授權發布了 Gemma 4,這是 Gemma 系列第一次在 OSI 認證的開源授權下發布,也是 Google 到目前為止在開放權重策略上最有分量的一步。之前的 Gemma 版本是在「Gemma license」下發布的,其中的商用限制把不少模型擋在了生產 pipeline 之外。Apache 2.0 把這些限制都拿掉了。這一代涵蓋四個尺寸:E2B 與 E4B 兩個「effective」edge 版本、一個 26B 的 MoE,以及一個 31B 的稠密模型,其中 31B 在 Arena 開放模型榜上排第 3。所有模型都原生多模態(視訊、影像、OCR、圖表理解,支援可變解析度輸入),並且原生 agentic(function calling、結構化 JSON 輸出、系統指令支援)。E2B 與 E4B 這兩個 edge 版本還額外原生接受音訊輸入,用於語音辨識與理解。上下文視窗方面,edge 版本是 128K,更大的模型最高到 256K,模型原生訓練涵蓋 140 多種語言。

授權的變動,和技術規格一樣重要。之前那些想在 Gemma 3 上做產品、卻在專案後期才發現舊授權裡商用條款的團隊,要嘛重寫去跑 Llama、Mistral 或 Qwen 的權重,要嘛接受限制並向客戶解釋。Apache 2.0 是商業上開放的、對專利友善的,和絕大多數企業法務立場都相容。這正是企業買家嘴裡說「我要開放權重」時實際想要的那種開放。能力上,31B 稠密模型在 Arena 開放榜 #3 的排名是真實的,26B MoE 排 #6、在每次推理成本上很強。E2B 與 E4B 兩款 edge 模型才是這次故事裡更新的一塊。在 2 到 4B 有效規模的體量裡做到 edge 友善的多模態,且原生支援音訊輸入,這是第一次真正意義上、在端上去對標 Apple 與 Qualcomm 家那些專有 edge 模型的替代品;128K 的上下文視窗也足以撐起真實的文件處理負載,而不只是玩具級 demo。至於 agentic-原生的設計決策,像是 function calling 與結構化 JSON 作為一等輸出、系統指令放在協定層支援,也讓很多團隊過去兩年裡自己搭的鷹架可以減掉一層。

4 月的開放權重版圖,現在比之前更連貫,不再那麼破碎。Llama 的商用附帶條款還在,Mistral 的授權因模型不同而不同,Qwen 是 Apache 2.0 但對一些買家而言存在「來源感知」上的風險,DeepSeek 能力強但有類似的地緣政治考量。Gemma 4 在 Apache 2.0 下由一個 Google 規模的實驗室發布,讓那些想要開放權重,但既不想承擔監管暴露、也不想被商用條款綁住的企業,在採購會議裡的話題都換了味道。這對代管 API 業務的衝擊,比多數報導承認的更有意思。如果你能用家用級推理成本跑一個 31B 模型,並且在原生 function calling 的前提下拿到 Arena 第 3 的品質水平,那「所有流量都打到 Anthropic 或 OpenAI 的 API」這條經濟帳,對那些並不特別需要前沿推理的任務類型就開始站不住了。這不會馬上威脅到頭部實驗室,因為前沿品質對複雜工作仍然是區分度。但它會擠壓中間層的 API 業務,而真實的流量大頭恰好就在這一層。

給打造者的三個具體動作。第一,把 Gemma 4 拉進來,和你目前用在模型路由中段的那個做對比;Apache 2.0 把「這個不能上生產」這塊舊路障拿掉,而能力也可能把批量任務上的品質差距拉平。第二,E2B 與 E4B 這兩款 edge 版本值得專門搭原型,用來驗證那些「裝置端推理會改變產品形態」的工作流,具體來說就是隱私敏感資料、離線運行、低延遲互動。原生音訊輸入,對「語音優先」類產品尤其有意思。第三,agentic-原生的設計(function calling 是一等輸出、結構化 JSON、系統指令)意味著 agent 部署裡可以拆掉不少自建鷹架。之前為 Gemma 3 自己寫過 tool-calling shim 的團隊,現在可以刪掉一部分程式碼。真正在和法務、採購改變路線圖對話的那塊細節,不是跑分,而是這次的授權變更。如果你之前是靠「開放權重在商用上不乾淨」來支持走專有 API 這條路,今天開始,這個論點要弱一些了。