4月16日在倫敦WIRED Health上,Reid Hoffman——LinkedIn聯合創始人、OpenAI董事會成員、抗癌藥物發現新創公司Manas AI創始人——表示任何不使用一個或多個前沿模型作為第二意見的醫生「接近犯下瀆職罪」。他的論點是,前沿LLM已經吸收了萬億字的醫療資訊,可以標記臨床醫生可能錯過的可能性;人類保留決策權,但損失了一個本可避免的錯誤。Hoffman承認早期研究表明,LLM向尋求醫療建議的普通公眾使用者提供不準確和易變的資訊,但他的框架是,失敗模式是「外包批判性思維」而非「增強它」。他還指出英國NHS的人員配置危機是這一論點現在重要的結構性原因:醫生不夠,每部智慧型手機上的免費LLM醫療助手可以作為分診功能,拒絕增強,在他看來,是讓患者得到更糟的服務。「瀆職」的框架在修辭上具有侵略性——大多數臨床醫生會拒絕這種語言,即使他們接受底層主張的某個版本——但它結晶了醫療AI builder兩年來一直在迴避的問題。

Hoffman論點下方的臨床研究證據比金句所暗示的更複雜。前沿模型既產生了令人印象深刻的病例書寫表現(一些近期研究顯示GPT級系統在診斷推理小品上超越住院醫師),也有充分記錄的失敗模式(幻覺的藥物相互作用、對罕見疾病自信地錯誤診斷、無法處理矛盾的臨床信號)。我昨天報導的浙江大學Centaur複現研究——研究人員將認知任務提示替換為「請選擇選項A」並觀察模型繼續輸出訓練資料中的標準答案——正是應該讓任何臨床醫生對未經批判的第二意見使用感到緊張的失敗模式。該模型不是在推理你的特定患者。它正在將病例描述模式匹配到其訓練分佈中最接近的事物,並產生該模式的眾數正確答案。有時這比凌晨3點疲憊的住院醫師更好。有時它正在自信地檢索患者實際呈現的不同問題的答案。Hoffman聲稱第二意見框架解決了這一點,部分正確——人類應該整合——但假設臨床醫生有時間和經過校準的懷疑來覆蓋一個聽起來自信的LLM輸出,而關於自動化偏見的實證文獻表明他們通常不會。

這表面化的部署架構問題是醫療AI builder需要解決的部分,它與我整個星期一直在寫的跨領域模式相呼應。Thales機器人文章的偵測-vs-授權框架、AI偵測對學生文章的來源-和-過程框架,以及Centaur文章的指令替換框架都在這裡匯聚。Hoffman的「第二意見」只有在工作流以結構化、可審計的形式捕獲三件事時,才能作為部署模型工作:臨床醫生看到和得出的結論;模型產生了什麼以及在什麼輸入上;以及附加臨床醫生推理的覆蓋或同意決策。今天醫務人員現成使用的消費級聊天介面都不會產生該工件。未來18個月醫療AI的產品問題不是「模型夠好嗎?」,而是「工作流是否足夠好,以至於當患者受到傷害時,你可以重建誰在何時對什麼進行了推理?」。沒有這個,「第二意見」就會崩潰為「我問了ChatGPT然後按它說的做」——這正是Hoffman框架試圖迴避的瀆職暴露。架構比模型準確性更重要。

builder的三個收穫。首先,如果你在臨床AI中構建任何東西——診斷支持、分診、EHR-summarization、藥物相互作用檢查——產品問題不是模型。它是你的工具產生的推理鏈工件。在醫療AI下一個十年中獲勝的公司將是那些將臨床醫生推理作為一等輸出而非事後想法可見和可覆蓋的公司。為六年後瀆職律師的證詞而構建,而不是為演示。其次,關注監管者,而不僅僅是臨床醫生。FDA、MHRA、EMA和國家執照機構目前都對「諮詢了LLM」是否是護理標準的一部分保持沉默,但Hoffman的框架將問題推向公開。第一個主要的瀆職案件,原告的論點是「臨床醫生應該使用可用的LLM工具但沒有」,會重新構建監管對話,該案件即將到來,可能在18個月內。第三,Hoffman做出的NHS式「免費智慧型手機醫療助手」推介是哪些監管制度接受LLM輔助分診作為增強而不是無證行醫的金絲雀。英國、新加坡、阿聯酋和愛沙尼亞最有可能開綠燈;美國州醫療委員會最有可能反推。產品機會是真實的,但管轄摩擦將定義哪些builder規模化交付,哪些被困在試點中。