Google DeepMind 在 4 月 2 日以 Apache 2.0 协议发布了 Gemma 4,这是 Gemma 系列第一次在 OSI 认证的开源协议下发布,也是 Google 到目前为止在开放权重策略上最有份量的一步。之前的 Gemma 版本是在"Gemma license"下发布的,其中的商用限制把不少模型挡在了生产 pipeline 之外。Apache 2.0 把这些限制都拿掉了。这一代涵盖四个尺寸:E2B 和 E4B 两个"effective"edge 版本、一个 26B 的 MoE,以及一个 31B 的稠密模型,其中 31B 在 Arena 开放模型榜上排第 3。所有模型都原生多模态(视频、图像、OCR、图表理解,支持可变分辨率输入),并且原生 agentic(function calling、结构化 JSON 输出、系统指令支持)。E2B 和 E4B 这两个 edge 版本还额外原生接受音频输入,用于语音识别和理解。上下文窗口方面,edge 版本是 128K,更大的模型最高到 256K,模型原生训练覆盖 140 多种语言。
协议的变化,和技术参数一样重要。之前那批想在 Gemma 3 上做产品、却在项目后期才发现旧协议里商用条款的团队,要么重写去跑 Llama、Mistral 或 Qwen 的权重,要么接受限制并向客户解释。Apache 2.0 是商业上开放的、对专利友好的,和绝大多数企业法务立场都兼容。这正是企业买家嘴里说"我要开放权重"时实际想要的那种开放。能力上,31B 稠密模型在 Arena 开放榜 #3 的排名是真实的,26B MoE 排 #6、在每次推理成本上很强。E2B 和 E4B 两款 edge 模型才是这次故事里更新的一块。在 2 到 4B 有效规模的体量里做到 edge 友好的多模态,且原生支持音频输入,这是第一次真正意义上、在端上去对标 Apple 和 Qualcomm 家那些专有 edge 模型的替代品;128K 的上下文窗口也足够撑起真实的文档处理负载,而不是玩具级 demo。至于 agentic-原生的设计决策,像是 function calling 和结构化 JSON 作为一等输出、系统指令放在协议层支持,也让很多团队过去两年里自己搭的脚手架可以减掉一层。
4 月的开放权重版图,现在比之前更连贯、不那么碎了。Llama 的商用附加条款还在,Mistral 的协议因模型不同而不同,Qwen 是 Apache 2.0 但对一些买家而言存在"来源感知"上的风险,DeepSeek 能力强但有类似的地缘政治考量。Gemma 4 在 Apache 2.0 下从一个 Google 规模的实验室发布,让那些想要开放权重但既不想承担监管暴露、也不想被商用条款绑住的企业,采购会议里的话题都换了味道。这对托管 API 业务的冲击,比多数报道承认的更有意思。如果你能用家用级推理成本跑一个 31B 模型,并且在原生 function calling 的前提下拿到 Arena 第 3 的质量水平,那"所有流量都打到 Anthropic 或 OpenAI 的 API"这条经济账,对那些并不特别需要前沿推理的任务类就开始站不住了。这并不会马上威胁到头部实验室,因为前沿质量对复杂工作仍然是区分度。但它会挤压中间层的 API 业务,而真实的流量大头恰好就在这一层。
给构建者的三个具体动作。第一,把 Gemma 4 拉进来,和你目前用在模型路由中间段的那个做对比;Apache 2.0 把"这个不能上生产"这块旧路障拿掉,而能力也可能把批量任务上的质量差距拉平。第二,E2B 和 E4B 这两款 edge 版本值得专门搭原型,用来验证那些"设备端推理会改变产品形态"的工作流,具体来说就是隐私敏感数据、离线运行、低延迟交互。原生音频输入,对"语音优先"类产品尤其有意思。第三,agentic-原生的设计(function calling 是一等输出、结构化 JSON、系统指令)意味着 agent 部署里可以拆掉不少自建脚手架。之前为 Gemma 3 自己写过 tool-calling shim 的团队,现在可以删掉一部分代码。真正在和法务、采购改变路线图对话的那块细节,不是跑分,而是这次的协议变更。如果你之前靠"开放权重在商用上不干净"来支持走专有 API 这条路,今天开始,这个论点要弱一些。
