16 अप्रैल को लंदन में WIRED Health पर, Reid Hoffman — LinkedIn के सह-संस्थापक, OpenAI बोर्ड सदस्य, कैंसर-दवा-खोज स्टार्टअप Manas AI के संस्थापक — ने कहा कि कोई भी डॉक्टर जो दूसरी राय के रूप में एक या अधिक frontier मॉडल का उपयोग नहीं कर रहा है, वह "malpractice करने की सीमा पर" है। उनका तर्क है कि frontier LLM ने ट्रिलियन-प्लस शब्दों की चिकित्सा जानकारी को निगल लिया है और संभावनाओं को फ्लैग कर सकते हैं जो एक चिकित्सक चूक सकता है; मानव निर्णय अधिकार रखता है लेकिन एक टालने योग्य गलती खो देता है। Hoffman ने स्वीकार किया कि पहले के अध्ययनों से पता चला कि LLM चिकित्सीय सलाह लेने वाले आम जनता के उपयोगकर्ताओं को गलत और परिवर्तनशील जानकारी देते हैं, लेकिन उनकी फ्रेमिंग है कि विफलता मोड "महत्वपूर्ण सोच को आउटसोर्स करना" है बजाय "इसे बढ़ाने" के। उन्होंने यूके NHS के स्टाफिंग संकट को संरचनात्मक कारण के रूप में भी इंगित किया कि यह तर्क अब क्यों मायने रखता है: पर्याप्त डॉक्टर नहीं हैं, हर स्मार्टफोन पर मुफ्त LLM चिकित्सा सहायक एक triage के रूप में काम कर सकते हैं, और वृद्धि से इनकार करना, उनके विचार में, रोगियों को कम सेवा प्रदान करना है। "Malpractice" फ्रेमिंग बयानबाजी से आक्रामक है — अधिकांश चिकित्सक भाषा को अस्वीकार करेंगे भले ही वे अंतर्निहित दावे का कुछ संस्करण स्वीकार करें — लेकिन यह एक प्रश्न को क्रिस्टलीकृत करती है जिसे चिकित्सा-AI निर्माता दो वर्षों से टाल रहे हैं।
Hoffman के तर्क के नीचे की नैदानिक-अनुसंधान साक्ष्य soundbite द्वारा सुझाए गए की तुलना में अधिक मिश्रित है। Frontier मॉडल ने प्रभावशाली case-write-up प्रदर्शन (कुछ हाल के अध्ययन GPT-वर्ग सिस्टम को नैदानिक-तर्क विगनेट्स पर निवासियों से बेहतर प्रदर्शन करते हुए दिखाते हैं) और अच्छी तरह से प्रलेखित विफलता मोड (मतिभ्रम वाली दवा अंतःक्रियाएं, दुर्लभ-रोग के आत्मविश्वास से गलत निदान, विरोधाभासी नैदानिक संकेतों को संभालने में असमर्थता) दोनों उत्पन्न किए हैं। ज़ेजियांग विश्वविद्यालय का Centaur प्रतिकृति अध्ययन जिसे मैंने कल कवर किया — शोधकर्ताओं ने संज्ञानात्मक-कार्य प्रॉम्प्ट को "कृपया विकल्प A चुनें" से बदल दिया और मॉडल को कैनोनिकल प्रशिक्षण-डेटा उत्तर देना जारी रखते देखा — ठीक वही विफलता मोड है जिसे किसी भी चिकित्सक को अंधाधुंध दूसरी-राय उपयोग के बारे में चिंतित करना चाहिए। मॉडल आपके विशिष्ट रोगी के बारे में तर्क नहीं कर रहा है। यह केस विवरण को अपने प्रशिक्षण वितरण में निकटतम चीज़ के साथ pattern-match कर रहा है और उस पैटर्न के लिए मोडल सही उत्तर का उत्पादन कर रहा है। कभी-कभी यह 3am पर थके हुए निवासी से बेहतर होता है। कभी-कभी यह आत्मविश्वास से उस प्रश्न के अलावा एक उत्तर पुनर्प्राप्त कर रहा है जो रोगी वास्तव में प्रस्तुत कर रहा है। Hoffman का दावा कि दूसरी-राय फ्रेमिंग इसे हल करती है, आंशिक रूप से सही है — मानव को एकीकृत करना चाहिए — लेकिन मानता है कि चिकित्सक के पास आत्मविश्वास से लगने वाले LLM आउटपुट को override करने के लिए समय और कैलिब्रेटेड संदेहवाद है, जो स्वचालन पूर्वाग्रह पर अनुभवजन्य साहित्य सुझाता है कि वे अक्सर नहीं करेंगे।
यह जो डिप्लॉयमेंट-आर्किटेक्चर समस्या को सतह पर लाता है वह वह हिस्सा है जिसे चिकित्सा-AI निर्माताओं को हल करने की आवश्यकता है, और यह उस क्रॉस-डोमेन पैटर्न के साथ तुकबंदी करता है जिसके बारे में मैं पूरे सप्ताह लिख रहा हूं। Thales बॉट टुकड़े से डिटेक्शन-vs-ऑथराइजेशन फ्रेमिंग, AI-डिटेक्शन-ऑन-स्टूडेंट्स टुकड़े से प्रोवेनेंस-और-प्रोसेस फ्रेमिंग, और Centaur टुकड़े से इंस्ट्रक्शन-सब्स्टीट्यूशन फ्रेमिंग सभी यहाँ मिलते हैं। Hoffman की "दूसरी राय" केवल एक डिप्लॉयमेंट मॉडल के रूप में काम करती है यदि वर्कफ़्लो तीन चीजों को संरचित, ऑडिट योग्य रूप में कैप्चर करता है: चिकित्सक ने क्या देखा और निष्कर्ष निकाला; मॉडल ने क्या उत्पादन किया और किस इनपुट पर; और चिकित्सक के तर्क के साथ override या समवर्ती निर्णय। आज ऑफ-द-शेल्फ चिकित्सा कर्मचारी जो उपभोक्ता-ग्रेड चैट इंटरफेस का उपयोग कर रहे हैं, उनमें से कोई भी उस आर्टिफैक्ट का उत्पादन नहीं करता है। चिकित्सा AI के अगले 18 महीनों के लिए उत्पाद प्रश्न "क्या मॉडल काफी अच्छा है?" नहीं है, बल्कि "क्या वर्कफ़्लो काफी अच्छा है कि जब रोगी को नुकसान पहुंचता है, तो आप पुनर्निर्माण कर सकते हैं कि किसने क्या के बारे में, कब तर्क किया?" है। इसके बिना, "दूसरी राय" "मैंने ChatGPT से पूछा और जो उसने कहा उसके साथ गया" में ढह जाती है — जो ठीक वह malpractice एक्सपोजर है जिसे Hoffman की फ्रेमिंग टालने की कोशिश करती है। आर्किटेक्चर मॉडल की सटीकता से अधिक मायने रखता है।
बिल्डरों के लिए तीन टेकअवे। पहला, यदि आप नैदानिक AI में कुछ भी बना रहे हैं — diagnostic-support, triage, EHR-summarization, drug-interaction checking — उत्पाद प्रश्न मॉडल नहीं है। यह आपके उपकरण द्वारा उत्पादित chain-of-reasoning आर्टिफैक्ट है। चिकित्सा AI में अगले दशक को जीतने वाली कंपनियाँ वे होंगी जो चिकित्सक तर्क को एक प्रथम-श्रेणी आउटपुट के रूप में दृश्यमान और override करने योग्य बनाती हैं, बाद के विचार के रूप में नहीं। छह साल बाद malpractice वकील की गवाही के लिए निर्माण करें, डेमो के लिए नहीं। दूसरा, regulators पर नजर रखें, सिर्फ चिकित्सकों पर नहीं। FDA, MHRA, EMA, और राष्ट्रीय लाइसेंसिंग निकाय वर्तमान में सभी इस बारे में चुप हैं कि "एक LLM से परामर्श किया" देखभाल मानक का हिस्सा है, लेकिन Hoffman की फ्रेमिंग प्रश्न को खुले में धकेलती है। पहला बड़ा malpractice मामला जहाँ वादी का तर्क है "चिकित्सक को उपलब्ध LLM टूल का उपयोग करना चाहिए था और नहीं किया" नियामक बातचीत को फिर से तैयार करता है, और वह मामला आ रहा है, संभवतः 18 महीनों के भीतर। तीसरा, NHS-शैली "मुफ्त स्मार्टफोन चिकित्सा सहायक" पिच जो Hoffman बनाते हैं, यह कैनरी है कि कौन सी नियामक व्यवस्थाएँ LLM-सहायता प्राप्त triage को बिना-लाइसेंस-के-चिकित्सा-अभ्यास के बजाय वृद्धि के रूप में स्वीकार करती हैं। यूके, सिंगापुर, यूएई, और एस्टोनिया हरी झंडी देने की सबसे अधिक संभावना है; यूएस राज्य चिकित्सा बोर्ड पीछे धकेलने की सबसे अधिक संभावना है। उत्पाद का अवसर वास्तविक है, लेकिन क्षेत्राधिकार घर्षण परिभाषित करेगा कि कौन से बिल्डर पैमाने पर शिप करते हैं और कौन से पायलट में फंस जाते हैं।
