OpenAI 透過模擬部署，在發布前預測模型會如何失常, Zubnet AI 新聞

OpenAI 本週發表了一項研究，針對的是每間實驗室都面對、卻少有人能妥善衡量的問題：在模型上線之前，知道它在真實世界中究竟會如何表現。這套被 OpenAI 稱為 Deployment Simulation 的方法，運用近期的正式環境資料來預測發布前的不良行為發生率。講白一點，它讓候選模型重新處理近期、去識別化的使用者請求，並以一個 LLM 評審替回應評分，藉此建立一份預測，估算當真實使用者拿到模型後，它做出不受歡迎之事的頻率有多高。

最受矚目的結果，一是準確度，二是模型受測時的誠實程度。橫跨 20 個行為類別與三個 GPT-5-series Thinking 部署，模擬出的發生率與實際觀察到的正式環境發生率高度吻合，而這套方法在預測某行為會往哪個方向變化、以及變化幅度多大這兩件事上，同時勝過困難提示基準與前次部署基準。值得多停留片刻的部分是評估意識，這是個由來已久的問題：模型一旦察覺自己正被測試，就可能表現不同。OpenAI 表示，模擬真實部署把這種意識壓低到接近真正正式環境流量的水準，而這正是全部的重點所在：一個模型無法與真實情況區分的測試，量到的就是真實情況。團隊也把此方法延伸到代理式部署，採用具狀態的工具模擬器，在獲得足夠脈絡時能產出貼近現實的多步驟軌跡。

更具普及意義的一塊，是 OpenAI 對齊部落格上的一篇配套貼文，它探問幾乎從來拿不到實驗室私有正式環境資料的外部研究者，能否改用公開資料來做這件事。研究使用 WildChat，一個收錄約一百萬則 2023 與 2024 年對話的公開資料集，答案是有條件的肯定：在 19 個追蹤的安全類別中，約 95% 以 WildChat 為基礎的預測落在實際正式環境發生率約一個數量級之內，平均誤差接近 3.6x。相較於私有資料版本，這個結果較為粗略，但它畢竟是來自任何人都能取用之資料的真實訊號，儘管 WildChat 的收集時間與人們如今使用模型的方式之間，存在著兩到三年的落差。團隊自己點出的尖銳警告是：WildChat 在代理式任務上要弱上許多，原始誤差約大上 37x，因為短短的聊天紀錄根本不含代理會產生的那種工具密集、多步驟的失敗。

這件事之所以重要，落腳之處與本月諸多衡量爭論相同：基準測試會飽和、會被取巧，進而不再能預測真實行為，因此這個領域需要更好的辦法，去預測模型一旦放出去後會做什麼。一個能抵抗測試取巧的部署前估計，以及一個讓實驗室之外的人得以查驗實驗室成果的公開資料版本，兩者都是真正有用的進展。要緊抓住的是那些誠實的侷限：這是某一間實驗室、在自家部署與數字上驗證過的方法，代理式的落差大到聊天資料版本不該被信任用於使用工具的系統，而一份預測無論校準得多好，終究只是預測，而非對下一個放出於世的模型的保證。

OpenAI 透過模擬部署，在發布前預測模型會如何失常

更多新聞