स्टैनफ़र्ड के नेतृत्व में Nature Medicine में प्रकाशित एक नए अध्ययन, जिसके मुख्य लेखक Ethan Goh और Robert Gallo हैं और वरिष्ठ लेखक स्टैनफ़र्ड के Jonathan Chen और हार्वर्ड के Adam Rodman हैं, ने 70 अमेरिकी लाइसेंस प्राप्त चिकित्सकों को एक कस्टम GPT-4 सिस्टम के विरुद्ध 254 सिमुलेटेड क्लीनिकल केस विनेट्स पर भिड़ाया। हेडलाइन नंबर आश्चर्यजनक हैं: पारंपरिक संदर्भ टूल्स के साथ चिकित्सकों ने निदान और प्रबंधन पर 75% बनाए, AI को पहली राय के रूप में इस्तेमाल करने पर उन्हें 85% तक उठाया, AI दूसरी राय के रूप में 82%, और AI अकेले काम करते हुए 87%। टूल का उपयोग करने के लिए चिकित्सकों की खुलापन परीक्षण से पहले 91% से बढ़कर बाद में 99% हो गई। कवरेज इसे "चैटबॉट डॉक्टरों से बेहतर" के रूप में ट्रीट कर रही है। इसके बजाय मेथडोलॉजी सेक्शन पढ़ें।

अध्ययन ने विनेट्स का इस्तेमाल किया — मूल्यांकन उद्देश्यों के लिए लिखे गए संरचित केस विवरण — असली मरीज़ मुलाक़ातें नहीं। लेखक स्पष्ट हैं कि क्यों: विनेट्स नियंत्रणीय, स्कोर करने योग्य और पुनरुत्पादक हैं। वे (उनके अपने शब्दों में) "वास्तविक अभ्यास का कम प्रतिनिधि" भी हैं। एक विनेट मॉडल और चिकित्सक को वही साफ़ टेक्स्ट इनपुट देता है, कोई गुम डेटा नहीं, कोई अस्पष्ट मरीज़ भाव नहीं, कोई समय का दबाव नहीं, कोई चार्ट शोर नहीं, कोई फ़ॉलो-अप प्रश्न नहीं जो सही समय पर पूछने हों। परीक्षण में चिकित्सक इंटरनेट खोजों और चिकित्सीय संदर्भों के साथ काम कर रहा था पर डॉक्टर के असली टूलकिट के साथ नहीं, जिसमें शारीरिक परीक्षा, मरीज़ के साथ अनुदैर्ध्य संबंध, और वो वर्कफ़्लो शामिल हैं जो डॉक्टर को कुछ सही न होने पर पहचानने देता है उस तरीक़े से जो टेक्स्ट कैप्चर नहीं कर सकता। विनेट पर AI को 87% मिलना वैसा नहीं है जैसा वास्तविक क्लीनिक मुलाक़ात पर AI को 87% मिलना, और लेखक यह जानते हैं।

उसी हफ़्ते Nature Medicine के संपादकीय के साथ पढ़ें, जिसने तर्क दिया कि "AI टूल्स मरीज़ों, प्रदाताओं, या स्वास्थ्य प्रणालियों के लिए मूल्य पैदा करते हैं इसका सबूत कम बना हुआ है" और सहमति वाले बेंचमार्क के विरुद्ध संभावित मूल्यांकन की माँग की, तो Goh-Rodman पेपर बिल्कुल वही प्रकार का काम है जिसके बारे में संपादकीय बात कर रहा था। यह कठोर है, यह उपयोगी दिशात्मक संकेत पैदा करता है, और यह उस तरह का सबूत स्थापित नहीं करता जो व्यापक क्लीनिकल तैनाती को न्यायसंगत ठहराता है। AI-पहली-राय-के-रूप-में से सटीकता में +9.9% की वृद्धि एक वास्तविक-दुनिया संभावित ट्रायल में परखने के लिए एक परिकल्पना के रूप में सार्थक है। यह अभी तक अस्पताल प्रणालियों को टूल को एकीकृत करने के लिए कहने के आधार के रूप में सार्थक नहीं है। 10% सिस्टम विफलता दर जिसे लेखक नोट करते हैं, गैर-निर्धारणवाद जिसे वे नोट करते हैं, और विनेट कठिनाई और लाइव मुलाक़ात कठिनाई के बीच की खाई — ये सब वजहें हैं कि अगले अध्ययन को इस वाले से अलग दिखना होगा।

क्लीनिकल AI पर काम कर रहे डेवलपर्स के लिए, व्यावहारिक पठन यह है कि यह वो सबूत स्तर है जो क्षेत्र अभी पैदा कर रहा है — विनेट अध्ययन, पूर्वव्यापी बेंचमार्क जीतें, और खुलापन सर्वेक्षण — और यह काफ़ी नहीं है। स्टैनफ़र्ड टीम उच्च गुणवत्ता का काम कर रही है, और उनके परिणाम एक विश्वसनीय तर्क हैं कि LLM दूसरी राय कुछ वर्कफ़्लो में निदान सटीकता में सुधार कर सकती हैं। जो अभी भी ग़ायब है वो वह संभावित ट्रायल है जो उसी सिस्टम को असली क्लीनिक में डालता है, असली मरीज़ों, असली समय के दबाव, असली वर्कफ़्लो एकीकरण, और विनेट स्कोरिंग के बजाय मरीज़ परिणामों से जुड़े असली परिणाम मेट्रिक के साथ। Nature Medicine के संपादक सही हैं कि क्षेत्र उस सबूत को पैदा करने से पहले विजय की घोषणा कर रहा है, और यह अध्ययन, अपने मज़बूत डिज़ाइन के बावजूद, उस सबूत आधार का हिस्सा है जो अभी भी पूर्व-तैनाती-स्तर का है। अगले मायने रखने वाले अध्ययनों की लहर वो है जो असली अस्पतालों में चलते हैं, देखभाल के बिंदु पर निदान सटीकता और सही-निदान-तक-समय में असली बदलाव मापते हैं।