Google、微軟、xAI 加入 Anthropic 和 OpenAI,進入 CAISI 上線前評估

商務部的 Center for AI Standards and Innovation(CAISI)週二宣布,Google、微軟和 xAI 簽約向其 frontier 模型提供上線前存取,用於安全和能力評估。他們加入 OpenAI 和 Anthropic,後者重新談判了現有的 CAISI 合作,以與川普政府的 AI Action Plan 對齊。五家閉源 lab 現在把尚未發布的 SOTA 模型餵進一個聯邦評估管線 — 這是歐盟試圖透過立法編碼的軟監管答案,在這裡以另一個政府治下的自願協議形式到來。

實質細節比公告暗示的更稀薄。CAISI 說已完成 40 多次評估,包括對未發布的 frontier 模型,但評估什麼、誰看結果,以及是否真有什麼 gate 一個部署仍未披露。評估範圍用能力和安全術語描述 — 標準的 CBRN、網路、自主行動軸線 — 但 harness 細節、污染協議和 red-team 存取模型並非公開。關於 OpenAI 和 Anthropic 現有合作的「重新談判」措辭是要看的點:條款在新政府下變了,變了什麼任一 lab 都未披露。對 builder 來說,這意味著評估管線是真的,但它強制的標準本質上是黑箱的。

開源權重 lab — Mistral、Meta、DeepSeek、Qwen、Zyphra — 完全在這個迴圈之外。他們公開發布權重,所以沒有「上線前」gate 可談判。結果:一個開始有意義的監管分叉:閉源 frontier 在政府評估管線之內,開源權重在之外。Mistral 同週 ship Medium 3.5(128B 稠密、SWE-Bench Verified 77.6%、權重在 Hugging Face)就是現場演示 — 一個具備編程能力的 backbone,沒有任何上線前聯邦審查就部署,可在 builder 基礎設施上託管。對指向受監管客戶的 agent stack,這個差異會壓縮 procurement 選擇:政府相鄰買家會開始問一個模型是否有 CAISI 評估狀態,「無」或「開源權重,N/A」讀起來與「有」不同。對商業 builder,差異切向另一邊 — 開源權重獲得避免監管摩擦的優勢,讓自架的數學更有吸引力。

週一早上的具體動作:如果你向政府、國防、金融或醫療 ship,問你的模型 vendor 關於 CAISI 狀態 — 很快會成為 procurement 條目。如果你在為商業掂量開源 vs 閉源,監管差異現在是一條真實的成本線:閉源 frontier 承擔上線前評估摩擦(如果評估發現問題,可能更長的發布週期),開源權重承擔反向風險(沒有聯邦 seal,但也沒有聯邦 gate)。中間情況是混亂的 — CAISI 管線中 lab 的 Llama、Gemma 和其他開源發布本身並未作為 releases 預評估,即使其母 lab 在專案中。在這些權重上構建的 builder 繼承了紙面上尚未解決的歧義。

Google、微軟、xAI 加入 Anthropic 和 OpenAI,進入 CAISI 上線前評估

更多新聞