OpenAI 本週發表了一項研究,針對的是每間實驗室都面對、卻少有人能妥善衡量的問題:在模型上線之前,知道它在真實世界中究竟會如何表現。這套被 OpenAI 稱為 Deployment Simulation 的方法,運用近期的正式環境資料來預測發布前的不良行為發生率。講白一點,它讓候選模型重新處理近期、去識別化的使用者請求,並以一個 LLM 評審替回應評分,藉此建立一份預測,估算當真實使用者拿到模型後,它做出不受歡迎之事的頻率有多高。

最受矚目的結果,一是準確度,二是模型受測時的誠實程度。橫跨 20 個行為類別與三個 GPT-5-series Thinking 部署,模擬出的發生率與實際觀察到的正式環境發生率高度吻合,而這套方法在預測某行為會往哪個方向變化、以及變化幅度多大這兩件事上,同時勝過困難提示基準與前次部署基準。值得多停留片刻的部分是評估意識,這是個由來已久的問題:模型一旦察覺自己正被測試,就可能表現不同。OpenAI 表示,模擬真實部署把這種意識壓低到接近真正正式環境流量的水準,而這正是全部的重點所在:一個模型無法與真實情況區分的測試,量到的就是真實情況。團隊也把此方法延伸到代理式部署,採用具狀態的工具模擬器,在獲得足夠脈絡時能產出貼近現實的多步驟軌跡。

更具普及意義的一塊,是 OpenAI 對齊部落格上的一篇配套貼文,它探問幾乎從來拿不到實驗室私有正式環境資料的外部研究者,能否改用公開資料來做這件事。研究使用 WildChat,一個收錄約一百萬則 2023 與 2024 年對話的公開資料集,答案是有條件的肯定:在 19 個追蹤的安全類別中,約 95% 以 WildChat 為基礎的預測落在實際正式環境發生率約一個數量級之內,平均誤差接近 3.6x。相較於私有資料版本,這個結果較為粗略,但它畢竟是來自任何人都能取用之資料的真實訊號,儘管 WildChat 的收集時間與人們如今使用模型的方式之間,存在著兩到三年的落差。團隊自己點出的尖銳警告是:WildChat 在代理式任務上要弱上許多,原始誤差約大上 37x,因為短短的聊天紀錄根本不含代理會產生的那種工具密集、多步驟的失敗。

這件事之所以重要,落腳之處與本月諸多衡量爭論相同:基準測試會飽和、會被取巧,進而不再能預測真實行為,因此這個領域需要更好的辦法,去預測模型一旦放出去後會做什麼。一個能抵抗測試取巧的部署前估計,以及一個讓實驗室之外的人得以查驗實驗室成果的公開資料版本,兩者都是真正有用的進展。要緊抓住的是那些誠實的侷限:這是某一間實驗室、在自家部署與數字上驗證過的方法,代理式的落差大到聊天資料版本不該被信任用於使用工具的系統,而一份預測無論校準得多好,終究只是預測,而非對下一個放出於世的模型的保證。