商务部的 Center for AI Standards and Innovation(CAISI)周二宣布,Google、微软和 xAI 签约向其 frontier 模型提供上线前访问,用于安全和能力评估。他们加入 OpenAI 和 Anthropic,后者重新谈判了现有的 CAISI 合作,以与特朗普政府的 AI Action Plan 对齐。五家闭源 lab 现在把尚未发布的 SOTA 模型喂进一个联邦评估管线 — 这是欧盟试图通过立法编码的软监管答案,在这里以另一个政府治下的自愿协议形式到来。
实质细节比公告暗示的更稀薄。CAISI 说已完成 40 多次评估,包括对未发布的 frontier 模型,但评估什么、谁看结果,以及是否真有什么 gate 一个部署仍未披露。评估范围用能力和安全术语描述 — 标准的 CBRN、网络、自主行动轴线 — 但 harness 细节、污染协议和 red-team 访问模型并非公开。关于 OpenAI 和 Anthropic 现有合作的「重新谈判」措辞是要看的点:条款在新政府下变了,变了什么任一 lab 都未披露。对 builder 来说,这意味着评估管线是真的,但它强制的标准本质上是黑箱的。
开源权重 lab — Mistral、Meta、DeepSeek、Qwen、Zyphra — 完全在这个循环之外。他们公开发布权重,所以没有「上线前」gate 可谈判。结果:一个开始有意义的监管分叉:闭源 frontier 在政府评估管线之内,开源权重在之外。Mistral 同周 ship Medium 3.5(128B 稠密、SWE-Bench Verified 77.6%、权重在 Hugging Face)就是现场演示 — 一个具备编程能力的 backbone,没有任何上线前联邦审查就部署,可在 builder 基础设施上托管。对指向受监管客户的 agent stack,这个差异会压缩 procurement 选择:政府相邻买家会开始问一个模型是否有 CAISI 评估状态,「无」或「开源权重,N/A」读起来与「有」不同。对商业 builder,差异切向另一边 — 开源权重获得避免监管摩擦的优势,让自托管的数学更有吸引力。
周一上午的具体动作:如果你向政府、国防、金融或医疗 ship,问你的模型 vendor 关于 CAISI 状态 — 很快会成为 procurement 条目。如果你在为商业掂量开源 vs 闭源,监管差异现在是一条真实的成本线:闭源 frontier 承担上线前评估摩擦(如果评估发现问题,可能更长的发布周期),开源权重承担反向风险(没有联邦 seal,但也没有联邦 gate)。中间情况是混乱的 — CAISI 管线中 lab 的 Llama、Gemma 和其他开源发布本身并未作为 releases 预评估,即使其母 lab 在项目中。在这些权重上构建的 builder 继承了纸面上尚未解决的歧义。
