Google、微软、xAI 加入 Anthropic 和 OpenAI，进入 CAISI 上线前评估

商务部的 Center for AI Standards and Innovation（CAISI）周二宣布，Google、微软和 xAI 签约向其 frontier 模型提供上线前访问，用于安全和能力评估。他们加入 OpenAI 和 Anthropic，后者重新谈判了现有的 CAISI 合作，以与特朗普政府的 AI Action Plan 对齐。五家闭源 lab 现在把尚未发布的 SOTA 模型喂进一个联邦评估管线 — 这是欧盟试图通过立法编码的软监管答案，在这里以另一个政府治下的自愿协议形式到来。

实质细节比公告暗示的更稀薄。CAISI 说已完成 40 多次评估，包括对未发布的 frontier 模型，但评估什么、谁看结果，以及是否真有什么 gate 一个部署仍未披露。评估范围用能力和安全术语描述 — 标准的 CBRN、网络、自主行动轴线 — 但 harness 细节、污染协议和 red-team 访问模型并非公开。关于 OpenAI 和 Anthropic 现有合作的「重新谈判」措辞是要看的点：条款在新政府下变了，变了什么任一 lab 都未披露。对 builder 来说，这意味着评估管线是真的，但它强制的标准本质上是黑箱的。

开源权重 lab — Mistral、Meta、DeepSeek、Qwen、Zyphra — 完全在这个循环之外。他们公开发布权重，所以没有「上线前」gate 可谈判。结果：一个开始有意义的监管分叉：闭源 frontier 在政府评估管线之内，开源权重在之外。Mistral 同周 ship Medium 3.5（128B 稠密、SWE-Bench Verified 77.6%、权重在 Hugging Face）就是现场演示 — 一个具备编程能力的 backbone，没有任何上线前联邦审查就部署，可在 builder 基础设施上托管。对指向受监管客户的 agent stack，这个差异会压缩 procurement 选择：政府相邻买家会开始问一个模型是否有 CAISI 评估状态，「无」或「开源权重，N/A」读起来与「有」不同。对商业 builder，差异切向另一边 — 开源权重获得避免监管摩擦的优势，让自托管的数学更有吸引力。

周一上午的具体动作：如果你向政府、国防、金融或医疗 ship，问你的模型 vendor 关于 CAISI 状态 — 很快会成为 procurement 条目。如果你在为商业掂量开源 vs 闭源，监管差异现在是一条真实的成本线：闭源 frontier 承担上线前评估摩擦（如果评估发现问题，可能更长的发布周期），开源权重承担反向风险（没有联邦 seal，但也没有联邦 gate）。中间情况是混乱的 — CAISI 管线中 lab 的 Llama、Gemma 和其他开源发布本身并未作为 releases 预评估，即使其母 lab 在项目中。在这些权重上构建的 builder 继承了纸面上尚未解决的歧义。

Google、微软、xAI 加入 Anthropic 和 OpenAI，进入 CAISI 上线前评估

更多新闻