OpenAI 免費的 GPT-5.5 Instant 在健康問題上已追平其頂尖推理模型，並在 OpenAI 自家測試中超越醫師, Zubnet AI 新聞

OpenAI 表示，旗下的 GPT-5.5 Instant 模型現在回答健康問題的表現，已大致與該公司的前沿 Thinking 模型相當，而且在自家評估中，該模型的答案在準確性、溝通與完整性方面的評分都高於醫師所撰寫的答案。這次更新正向所有 ChatGPT 使用者推出，包括免費層級，而這正是值得注意之處：GPT-5.5 Instant 是大多數人取得的快速、預設模型，並非保留給付費使用者、速度較慢的推理模型之一。

影響範圍正是它重要的原因。OpenAI 表示，每週有超過 2.3億人帶著健康與保健問題求助於 ChatGPT，因此改進這個預設處理大多數此類問題的模型，所觸及的人數遠多於在付費層級上取得進步所能影響的人數。該公司表示，新版本在辨識某情況何時可能需要緊急就醫、在回答前主動詢問相關背景資訊、說明自身有多大把握或多不確定，以及把艱澀的醫療資訊轉譯成淺白語言等方面都更為出色。它還表示，經過兩個月的努力，錯誤的健康陳述下降了約 71%。

在衡量方面，OpenAI 援引了一套綜合性的健康評估，其中包括一項名為 HealthBench Professional 的基準測試，該公司表示 GPT-5.5 Instant 在這項測試上達到了與其前沿推理模型相當的水準。該公司還描述了一個橫跨 60 個國家、由超過 260 名醫師組成的全球網絡，這些醫師協助界定並評定一個好的健康答案應該是什麼樣子，而正是這類專家審查，產生了該模型得分超越醫師自身撰寫回答的這項頭條主張。

相關保留事項值得同等的篇幅。這些結果中的每一項都來自 OpenAI 自家的基準測試與自家的審查者，並未隨之釋出任何獨立或經同儕審查的驗證。在評分研究中得分超越醫師撰寫的答案，衡量的是一段文字在評審小組眼中的品質，這並不等同於衡量真實的人依據該建議行動時會發生什麼，而確切的比較設計，包括模型與醫師是否針對相同的提示、在相同的詳盡程度上作答，也並未完整交代。此外還有一個明擺著的事實：這是那個快速的模型，而非那個審慎的模型，現在卻在預設情況下為數億名免費使用者處理健康問題。OpenAI 仍然表示，ChatGPT 並非專業照護的替代品。

它出現在充斥著醫療 AI 主張的一週尾聲，從一台未經證實的全身掃描儀，到一項立論扎實、經同儕審查的成果：OpenAI 的 o3 在 Boston Children's Hospital 協助診斷罕見疾病。這件事介於兩者之間：一項能力上的進步，對於人們早已在問的日常問題而言，很可能是真實且確實有用的，卻被包裹在一項行銷主張裡，而一家公司不應有權對自家產品下這樣的定論。為每週 2.3億人提供更好的健康答案是真切的好事。一家廠商把自家模型評得高於醫師，則是一項在公司以外有人查證之前，仍應當作主張來看待的主張。

OpenAI 免費的 GPT-5.5 Instant 在健康問題上已追平其頂尖推理模型，並在 OpenAI 自家測試中超越醫師

更多新聞