Nature Medicine ने इस हफ़्ते "Show us the evidence for the value of medical AI" शीर्षक वाला एक संपादकीय प्रकाशित किया, और फ़्रेमिंग जर्नल जितनी सख़्त आमतौर पर जाती है उससे ज़्यादा सख़्त है। संपादक तर्क देते हैं कि AI टूल्स मरीज़ों, प्रदाताओं, या स्वास्थ्य प्रणालियों के लिए मूल्य पैदा करते हैं इसका सबूत "कम बना हुआ है" — मतलब क्षेत्र तैनातियाँ उन्हें जायज़ ठहराने वाले परीक्षण डेटा को बनाने से ज़्यादा तेज़ी से शिप कर रहा है। वे जिन विशिष्ट विफलताओं को सूचीबद्ध करते हैं वे विनम्र नहीं हैं। JAMA Medicine के एक अध्ययन ने पाया कि फ्रंटियर AI मॉडल अस्पष्ट लक्षणों के साथ प्रस्तुत किए जाने पर 80% से ज़्यादा बार ग़लत निदान पैदा करते हैं — ठीक वही मामला जहाँ निर्णय समर्थन मदद करने वाला होता है। मॉडल कभी नहीं दिखाई गई छवियों से विस्तृत क्लीनिकल फ़ाइंडिंग्स हैल्यूसिनेट करते हैं। शोधकर्ता उन्हें परखने के लिए विशेष रूप से गढ़े गए नक़ली रोगों से उन्हें नियमित रूप से बेवक़ूफ़ बनाते हैं। LLM द्वारा उत्पन्न ग़लत चिकित्सीय डेटा अब समीक्षित साहित्य में ही रिस रहा है।
संपादकीय की केंद्रीय माँग वैचारिक के बजाय प्रक्रियात्मक है: एक "AI चिकित्सा प्रौद्योगिकियों का मूल्यांकन कैसे होना चाहिए, किन मेट्रिक्स द्वारा और किन बेंचमार्क के विरुद्ध" का ढाँचा। यह नौकरशाही जैसा लगता है पर यह वो बिंदु है जहाँ अधिकांश वर्तमान चिकित्सा-AI विक्रेता दावे ढह जाते हैं। एक मॉडल का होल्ड-आउट टेस्ट सेट पर प्रभावशाली संवेदनशीलता और विशिष्टता हो सकती है और तैनाती में फिर भी बेकार या हानिकारक हो सकता है, क्योंकि टेस्ट सेट वितरण शिफ़्ट, वर्कफ़्लो, या उस आबादी को प्रतिबिंबित नहीं करता जिससे सिस्टम वास्तव में उत्पादन में मिलता है। एक मानकीकृत ढाँचे के बिना — FDA के 510(k) पथ या ML के लिए अनुकूलित EMA की क्लीनिकल ट्रायल आवश्यकताओं के समकक्ष — विक्रेता मेट्रिक्स के जिस भी अनुकूल उपसमुच्चय को चाहें प्रकाशित करने और इसे मान्य कहने के लिए स्वतंत्र हैं। पिछले एक साल से कई बाहरी शोधकर्ता इस तर्क के विभिन्न संस्करणों को बना रहे हैं, जिनमें हार्वर्ड मेडिकल स्कूल के Jamie Robertson और गोथेनबर्ग विश्वविद्यालय के Almira Osmanovic Thunström शामिल हैं; संपादकीय स्थापित चिकित्सा साहित्य का इस पर पकड़ बनाना है।
संपादकीय के पीछे की तकनीकी समस्याएँ वास्तविक हैं और स्पष्ट रूप से नाम देने योग्य हैं। क्लीनिकल सेटिंग्स में हैल्यूसिनेशन चैटबॉट सेटिंग्स में हैल्यूसिनेशन से अलग जानवर है, क्योंकि उपयोगकर्ता समय के दबाव में एक व्यस्त चिकित्सक है और आत्मविश्वास से ग़लत उत्तर की लागत मरीज़ परिणामों में मापी जाती है, ग्राहक संतुष्टि में नहीं। "नक़ली बीमारियों द्वारा बेवक़ूफ़ बनाया गया" विफलता मोड का मतलब है कि मॉडल बिना ज्ञानमीमांसीय रेलिंग के प्रशंसनीय-ध्वनि वाले इनपुट पर पैटर्न मिलान कर रहे हैं — वे एक ऐसी स्थिति के लिए आत्मविश्वास से निदान वापस करेंगे जो मौजूद नहीं है यदि इनपुट सिंटैक्स पर्याप्त चिकित्सा जैसा दिखता है। अस्पष्ट लक्षणों पर 80% मिस दर वो विफलता है जो सबसे ज़्यादा चोट पहुँचाती है: अस्पष्ट प्रस्तुति वो मामला है जहाँ इंसानों को मदद की ज़रूरत होती है, और वो मामला जहाँ मॉडल सबसे कम विश्वसनीय है। आसान निदानों को AI की ज़रूरत नहीं है; कठिन निदान प्रौद्योगिकी की वास्तविक सीमाओं को उजागर करते हैं।
मेडिकल AI उत्पादों पर काम करने वाले डेवलपर्स के लिए, संपादकीय एक रोक संकेत के बजाय एक उपयोगी कसाव है। आगे का ईमानदार रास्ता तीन चीज़ों को शामिल करता है जिन्हें क्षेत्र टाल रहा है। संभावित क्लीनिकल ट्रायल्स, पूर्वव्यापी बेंचमार्क जीत नहीं, वो हैं जो उस सबूत को पैदा करते हैं जो नियामक और Nature Medicine माँग रहे हैं। वर्कफ़्लो-एकीकृत मूल्यांकन — क्या टूल वास्तव में उत्पादन में चिकित्सक के व्यवहार को बदलता है, और क्या वो बदलाव परिणामों में सुधार करता है — ऑफ़लाइन मेट्रिक्स से कठिन है पर अपनाने के लिए यही एकमात्र मायने रखने वाली चीज़ है। और ईमानदार दायरा-संकीर्णन: एक मॉडल जो त्वचा विज्ञान की छवियों को त्रैज करता है, उस एक कार्य के लिए मान्य और तैनात, एक सामान्य चिकित्सा चैटबॉट से ज़्यादा उपयोगी और ज़्यादा बचाव योग्य है जिसका त्रुटि बजट असीमित है। मेडिकल-AI चक्र उन उत्पादों के आसपास समेकित होने जा रहा है जो वास्तव में इन परीक्षणों को पास कर सकते हैं, और संपादकीय ने अभी स्पष्ट किया कि जर्नल अब उन उत्पादों के लिए ताली बजाने को तैयार नहीं हैं जो नहीं कर सकते।
