Harvard / Beth Israel के एक नए अध्ययन ने Science में प्रकाशित होकर OpenAI के o1 को असली emergency room निदानों पर attending physicians के विरुद्ध मापा, और o1 आगे निकला। छिहत्तर मरीज़, तुलना के लिए दो attendings, और ground truth के लिए blinded panel के रूप में दो और। o1 ने triage पर 67% diagnostic accuracy पाई; तुलना वाले डॉक्टरों ने 55% और 50% स्कोर किया। मॉडल को वही EMR डेटा मिला जो डॉक्टरों के पास निदान के समय था — preprocessed नहीं, curated नहीं, expert-summarized vignettes नहीं।
Setup ही असली बात है। ज़्यादातर "AI doctors से बेहतर" वाली सुर्खियाँ synthetic case vignettes, board-exam सवालों, या editors द्वारा साफ़ की गई published cases पर चलती हैं। यह अध्ययन Beth Israel ER के असली intake records का उपयोग करता है, उसी जानकारी के साथ जो उस पल में डॉक्टर के पास थी जब वह मरीज़ को देख रहा था। Ground truth blinded panel से आया — दो evaluating attendings जिन्हें नहीं पता था कि कौन-सा निदान इंसान से आया और कौन-सा o1 से। प्रमुख लेखक हैं Arjun Manrai (Harvard Medical School) और Adam Rodman (Beth Israel Deaconess)। परीक्षित मॉडल o1 था — o3 या GPT-5 या Claude Sonnet 4.5 नहीं; नतीजा वर्तमान frontier reasoning मॉडलों के मुक़ाबले पहले से ही conservative है। शोधकर्ताओं ने सीमाओं पर साफ़ बात की: foundation मॉडल केवल text पर परखे गए हैं, "non-text inputs पर तर्क करने में अधिक सीमित", और prospective trials के बिना जीवन-मरण के निर्णयों के लिए तैयार नहीं।
इकोसिस्टम संकेत यह नहीं है कि "AI doctors से बेहतर है"। यह है कि अब हमारे पास एक इतनी विश्वसनीय eval methodology है कि सवाल "क्या मॉडल यह benchmarks पर कर सकता है" से हटकर "deployment का रास्ता क्या है" बन जाता है। Rodman ने असली खाई की ओर इशारा किया: AI-सुझाए गए निदान ग़लत होने पर "इस समय कोई औपचारिक accountability framework नहीं है"। यही गायब हुआ भार-वहन वाला टुकड़ा है। मॉडल second opinion के रूप में उपयोगी होने जितना अच्छा है। लेकिन second opinion ग़लत होने पर ज़िम्मेदार कौन, कौन audit करता है, कैसे log होता है, malpractice premium कौन चुकाता है — इस पूरी infrastructure में से कुछ भी मौजूद नहीं है। Anthropic, OpenAI, और AWS GovCloud / Vertex Healthcare layers सब model side बेच रही हैं; accountability stack एक regulatory खालीपन बना रहता है।
अगर आप medical-AI tooling शिप करते हैं, यह अध्ययन वह eval bar है जिसे पार करना है: असली केस, blinded panel, इंसान को मिले वही data। अगर आप उस bar पर नहीं हैं, आपका "doctors से बेहतर" claim benchmarketing है। अगर आप ecosystem देख रहे builder हैं, ट्रैक करने लायक़ खुला सवाल मॉडल accuracy नहीं है — accountability framework है। जो पहले एक auditable diagnostic-AI deployment शिप करेगा (logged reasoning, traceable training data, malpractice-ready insurance product), वह वह खाई बनाएगा जो model labs अकेले नहीं बना सकते। Clinical evidence अब regulatory infrastructure से आगे चली गई है। यही gap medical AI के अगले अठारह महीने हैं।
