OpenAI ने LifeSciBench जारी किया है, एक ऐसा बेंचमार्क जो यह मापने की कोशिश करता है कि AI असल दुनिया के जीवविज्ञान शोध में वाकई कितनी मदद करता है, और मुख्य नतीजा विनम्र कर देने वाला है, परखे गए सबसे मजबूत मॉडल ने सिर्फ 36.1% कार्य ही पास किए। ऐसे हफ्ते में, जब AI के डॉक्टरों की बराबरी करने और रसायन विज्ञान की खोज में मदद करने के दावों की भरमार है, यह एक सोची-समझी हकीकत की जांच जैसा लगता है।

यह तथ्यों की कोई प्रश्नोत्तरी नहीं है, बल्कि LifeSciBench को बायोटेक और दवा शोध के 173 PhD वैज्ञानिकों ने बनाया, जिन्होंने सात शोध कार्यप्रवाहों में फैले 750 कार्य लिखे, सबूतों को संभालने से लेकर विश्लेषण चलाने और नतीजे बताने तक। हर कार्य को एक विस्तृत रूब्रिक पर परखा जाता है, कुल मिलाकर 19,020 मानदंड और हर कार्य पर करीब 25, जो उन ठोस दावों, गणनाओं, निर्णयों और तर्कों को अंक देते हैं जो एक अच्छे उत्तर में होने चाहिए। करीब पांच में से चार कार्यों में कई तर्क या निर्णय के चरणों की जरूरत पड़ती है, इसलिए यह परीक्षा याददाश्त के बजाय समझ और विवेक को परखती है।

इस पैमाने पर मॉडल जूझते हैं। OpenAI के अपने क्षेत्र-विशेष मॉडल GPT-Rosalind ने मैदान में बढ़त बनाई, 750 में से 386 कार्यों पर सबसे बेहतर प्रति-कार्य अंक हासिल किए और कुल पास दर को GPT-5.5 के 25.7% से बढ़ाकर 36.1% कर दिया। फिर भी, उस शीर्ष अंक का मतलब यह है कि सबसे बेहतर सिस्टम अब भी उस काम का करीब दो-तिहाई हिस्सा गलत कर देता है जिसे विशेषज्ञ वैज्ञानिक ठोस शोध मानेंगे। एक ऐसा बेंचमार्क जिसका अपना निर्माता ही करीब एक-तिहाई पर ठहर जाता है, अपने तरीके से यह एक उपयोगी स्वीकारोक्ति है कि यह तकनीक असल में कहां खड़ी है।

इसका समय खास है। इसी हफ्ते एक ऐसा मॉडल सामने आया जिसने बीमारी संभालने में प्राथमिक देखभाल के डॉक्टरों की बराबरी की, एक और ने रसायन की एक प्रतिक्रिया सुधारने में मदद की, और एक इमेज कंपनी ने एक चिकित्सा स्कैनर की घोषणा की, और ये सब यह पढ़ने का न्योता देते हैं कि AI प्रयोगशाला और क्लिनिक में आ पहुंचा है। LifeSciBench उसी उद्योग के भीतर से आया तौल है, जब आप काम को उस तरह परखते हैं जैसे कामकाजी वैज्ञानिक परखते हैं, यानी इस आधार पर कि एक सावधान उत्तर में असल में क्या होना चाहिए, तो आज के सबसे बेहतर मॉडल उसका करीब एक-तिहाई ही पार कर पाते हैं। क्षमता असली है और चढ़ रही है, मगर विशेषज्ञ स्तर तक जो दूरी बची है वही वह हिस्सा है जिसे ये प्रदर्शन अक्सर छिपा जाते हैं।