OpenAI表示,其GPT-5.5 Instant模型现在回答健康问题的水平已大致与该公司前沿的Thinking模型相当,并称在自家的评估中,该模型的答案在准确性、沟通和完整性方面的评分高于医生撰写的答案。此次更新正向所有ChatGPT用户推送,包括免费层级的用户,而这正是它值得关注之处:GPT-5.5 Instant是大多数人所使用的快速默认模型,而非那些专为付费用户保留的、速度较慢的推理模型。

它之所以重要,原因在于其触及面之广。OpenAI称每周有超过2.3亿人就健康和保健问题求助于ChatGPT,因此改进这个默认承接其中大部分问题的模型,所惠及的人数远远超过在付费层级上取得的提升。该公司表示,新版本在识别何种情况可能需要紧急就医、在回答前主动询问相关背景信息、说明自身有几分把握或不确定性,以及把晦涩的医学信息转化为通俗语言方面都有所改进。该公司还称,经过两个月的工作,错误的健康陈述下降了约71%。

在衡量方面,OpenAI援引了一套综合性的健康评估,其中包括一项名为HealthBench Professional的基准测试,并称GPT-5.5 Instant在该测试上达到了与其前沿推理模型相当的水平。该公司还介绍了一个由遍布60个国家、超过260名医生组成的全球网络,他们帮助界定并评判优秀的健康答案应是什么样子,而正是这类专家评审,得出了模型得分超过医生自己撰写答案这一标志性结论。

需要注意的限制同样应当被同等看待。所有这些结果都来自OpenAI自家的基准测试和自家的评审人员,并未随之发布任何独立或经同行评审的验证。在一项评分研究中超越医生撰写的答案,衡量的是一段文本在评审小组眼中的质量,这与衡量真实的人依据这些建议采取行动后会发生什么并不是一回事,而具体的对比设置,包括模型与医生是否就完全相同的提示、在同等详细程度上作答,也并未完全交代清楚。还有一个明摆着的事实:这是那个快速的模型,而非那个审慎的模型,如今却在默认为数亿免费用户处理健康问题。OpenAI仍然表示,ChatGPT并不能替代专业医疗护理。

这一消息出现在充斥着医疗AI论调的一周末尾,从一台未经验证的全身扫描仪,到一项有据可依、经同行评审的成果,在后者中OpenAI的o3帮助波士顿儿童医院(Boston Children's Hospital)诊断罕见病。而这件事介于两者之间:一项很可能真实、并且对人们本就在询问的日常问题确有实用价值的能力提升,却被包裹在一项营销论调之中,而一家公司不应有权就自家产品自行下此定论。每周为2.3亿人提供更好的健康答案是一件实实在在的好事。而一家厂商把自家模型评得高于医生,则是一项应当继续被当作论调来对待的主张,直到公司之外的人加以核实为止。