OpenAI 表示,旗下的 GPT-5.5 Instant 模型現在回答健康問題的表現,已大致與該公司的前沿 Thinking 模型相當,而且在自家評估中,該模型的答案在準確性、溝通與完整性方面的評分都高於醫師所撰寫的答案。這次更新正向所有 ChatGPT 使用者推出,包括免費層級,而這正是值得注意之處:GPT-5.5 Instant 是大多數人取得的快速、預設模型,並非保留給付費使用者、速度較慢的推理模型之一。

影響範圍正是它重要的原因。OpenAI 表示,每週有超過 2.3億人帶著健康與保健問題求助於 ChatGPT,因此改進這個預設處理大多數此類問題的模型,所觸及的人數遠多於在付費層級上取得進步所能影響的人數。該公司表示,新版本在辨識某情況何時可能需要緊急就醫、在回答前主動詢問相關背景資訊、說明自身有多大把握或多不確定,以及把艱澀的醫療資訊轉譯成淺白語言等方面都更為出色。它還表示,經過兩個月的努力,錯誤的健康陳述下降了約 71%。

在衡量方面,OpenAI 援引了一套綜合性的健康評估,其中包括一項名為 HealthBench Professional 的基準測試,該公司表示 GPT-5.5 Instant 在這項測試上達到了與其前沿推理模型相當的水準。該公司還描述了一個橫跨 60 個國家、由超過 260 名醫師組成的全球網絡,這些醫師協助界定並評定一個好的健康答案應該是什麼樣子,而正是這類專家審查,產生了該模型得分超越醫師自身撰寫回答的這項頭條主張。

相關保留事項值得同等的篇幅。這些結果中的每一項都來自 OpenAI 自家的基準測試與自家的審查者,並未隨之釋出任何獨立或經同儕審查的驗證。在評分研究中得分超越醫師撰寫的答案,衡量的是一段文字在評審小組眼中的品質,這並不等同於衡量真實的人依據該建議行動時會發生什麼,而確切的比較設計,包括模型與醫師是否針對相同的提示、在相同的詳盡程度上作答,也並未完整交代。此外還有一個明擺著的事實:這是那個快速的模型,而非那個審慎的模型,現在卻在預設情況下為數億名免費使用者處理健康問題。OpenAI 仍然表示,ChatGPT 並非專業照護的替代品。

它出現在充斥著醫療 AI 主張的一週尾聲,從一台未經證實的全身掃描儀,到一項立論扎實、經同儕審查的成果:OpenAI 的 o3 在 Boston Children's Hospital 協助診斷罕見疾病。這件事介於兩者之間:一項能力上的進步,對於人們早已在問的日常問題而言,很可能是真實且確實有用的,卻被包裹在一項行銷主張裡,而一家公司不應有權對自家產品下這樣的定論。為每週 2.3億人提供更好的健康答案是真切的好事。一家廠商把自家模型評得高於醫師,則是一項在公司以外有人查證之前,仍應當作主張來看待的主張。