OpenAI发布了LifeSciBench,这是一套试图衡量AI在真实生命科学研究中究竟有多大帮助的基准,而最受关注的结果令人清醒:接受测试的最强模型只通过了36.1%的任务。在这个充斥着AI媲美医生、协助发现化学反应等说法的一周里,它读起来像是一次有意为之的现实检验。
LifeSciBench不是一场事实问答,而是由来自生物技术和制药研究领域的173位博士科学家构建,他们编写了750项任务,涵盖七类研究工作流程,从处理证据到开展分析再到传达结果。每项任务都对照一套详细的评分标准打分,合计19,020条标准,平均每项任务约25条,用以评判一个好答案需要包含的具体主张、计算、决策与论证。近五分之四的任务需要多个推理或决策步骤,因此这项测试考察的是判断力而非记忆。
按照这条标准,各模型表现吃力。OpenAI自家的领域专用模型GPT-Rosalind领跑全场,在750项任务中的386项上取得了单项最佳成绩,并将整体通过率从GPT-5.5的25.7%提升到36.1%。即便如此,这一最高成绩也意味着最强的系统在专家科学家眼中扎实的研究工作上,仍有约三分之二未能过关。一套连其制造者本身都只能勉强达到约三分之一的基准,在某种意义上,是对这项技术真实所处位置的一次有用的坦白。
时间点意味深长。同一周还出现了一个在疾病管理上媲美初级保健医生的模型,另一个帮助改进了某项化学反应的模型,以及一家图像公司宣布推出医疗扫描仪,这些都容易让人读出AI已经走进实验室和诊室的意味。LifeSciBench则是来自同一行业内部的制衡:当你按照在职科学家的方式、对照一个严谨答案必须真正包含的内容来评判这项工作时,如今最好的模型只能通过约三分之一。能力确实存在并在攀升,但距离专家水平还差的那一段,恰恰是各种演示往往略去的部分。
