OpenAI 發布了 LifeSciBench,這是一套試圖衡量 AI 在真實世界生命科學研究中究竟能提供多少幫助的基準測試,而最受矚目的結果相當發人深省:受測的最強模型也僅通過 36.1% 的任務。這讀來像是一記刻意的現實檢驗,發生在一個充斥著 AI 媲美醫師、協助發現化學的宣稱的一週裡。
這套基準並非事實問答,而是由 173 位來自生技與製藥研究領域的博士級科學家所建構,他們撰寫了 750 項任務,橫跨七種研究工作流程,從處理證據、執行分析到傳達結果。每一項任務都依據詳盡的評分標準加以評定,總計 19,020 條評分準則、平均每項約 25 條,用以評斷一個好答案所需包含的具體論點、計算、決策與論證。近五分之四的任務都需要多個推理或決策步驟,因此這項測試評定的是判斷力,而非記憶力。
在這個標準下,模型表現得相當吃力。OpenAI 自家的領域專精模型 GPT-Rosalind 居於領先,在 750 項任務中有 386 項取得最佳的單項成績,並將整體通過率從 GPT-5.5 的 25.7% 提升至 36.1%。即便如此,這個最高分仍代表最佳系統在專家科學家視為扎實研究工作的內容上,仍有約三分之二未能達標。一套連製作者本身都只能勉強衝到約三分之一的基準,就某種意義而言,是對這項技術真實所處位置的一個有用的坦承。
這個時機點意味深長。同一週還出現了一個在疾病管理上媲美基層醫師的模型、另一個協助改善化學反應的模型,以及一家影像公司宣布推出醫療掃描儀,這些都引人解讀為 AI 已經進駐實驗室與診間。LifeSciBench 則是來自同一產業內部的一記制衡:當你以執業科學家的方式來評定這份工作,對照一個謹慎答案實際必須包含的內容,當今最強模型也只能通過其中約三分之一。這項能力確實存在且持續攀升,但距離專家水準還有的那一段路,正是那些示範往往略而不提的部分。
