OpenAI के नए LifeSciBench में असली जीवविज्ञान शोध पर AI की परीक्षा हुई, और सबसे बेहतर मॉडल सिर्फ 36% ही पास कर पाया, Zubnet AI समाचार

OpenAI ने LifeSciBench जारी किया है, एक ऐसा बेंचमार्क जो यह मापने की कोशिश करता है कि AI असल दुनिया के जीवविज्ञान शोध में वाकई कितनी मदद करता है, और मुख्य नतीजा विनम्र कर देने वाला है, परखे गए सबसे मजबूत मॉडल ने सिर्फ 36.1% कार्य ही पास किए। ऐसे हफ्ते में, जब AI के डॉक्टरों की बराबरी करने और रसायन विज्ञान की खोज में मदद करने के दावों की भरमार है, यह एक सोची-समझी हकीकत की जांच जैसा लगता है।

यह तथ्यों की कोई प्रश्नोत्तरी नहीं है, बल्कि LifeSciBench को बायोटेक और दवा शोध के 173 PhD वैज्ञानिकों ने बनाया, जिन्होंने सात शोध कार्यप्रवाहों में फैले 750 कार्य लिखे, सबूतों को संभालने से लेकर विश्लेषण चलाने और नतीजे बताने तक। हर कार्य को एक विस्तृत रूब्रिक पर परखा जाता है, कुल मिलाकर 19,020 मानदंड और हर कार्य पर करीब 25, जो उन ठोस दावों, गणनाओं, निर्णयों और तर्कों को अंक देते हैं जो एक अच्छे उत्तर में होने चाहिए। करीब पांच में से चार कार्यों में कई तर्क या निर्णय के चरणों की जरूरत पड़ती है, इसलिए यह परीक्षा याददाश्त के बजाय समझ और विवेक को परखती है।

इस पैमाने पर मॉडल जूझते हैं। OpenAI के अपने क्षेत्र-विशेष मॉडल GPT-Rosalind ने मैदान में बढ़त बनाई, 750 में से 386 कार्यों पर सबसे बेहतर प्रति-कार्य अंक हासिल किए और कुल पास दर को GPT-5.5 के 25.7% से बढ़ाकर 36.1% कर दिया। फिर भी, उस शीर्ष अंक का मतलब यह है कि सबसे बेहतर सिस्टम अब भी उस काम का करीब दो-तिहाई हिस्सा गलत कर देता है जिसे विशेषज्ञ वैज्ञानिक ठोस शोध मानेंगे। एक ऐसा बेंचमार्क जिसका अपना निर्माता ही करीब एक-तिहाई पर ठहर जाता है, अपने तरीके से यह एक उपयोगी स्वीकारोक्ति है कि यह तकनीक असल में कहां खड़ी है।

इसका समय खास है। इसी हफ्ते एक ऐसा मॉडल सामने आया जिसने बीमारी संभालने में प्राथमिक देखभाल के डॉक्टरों की बराबरी की, एक और ने रसायन की एक प्रतिक्रिया सुधारने में मदद की, और एक इमेज कंपनी ने एक चिकित्सा स्कैनर की घोषणा की, और ये सब यह पढ़ने का न्योता देते हैं कि AI प्रयोगशाला और क्लिनिक में आ पहुंचा है। LifeSciBench उसी उद्योग के भीतर से आया तौल है, जब आप काम को उस तरह परखते हैं जैसे कामकाजी वैज्ञानिक परखते हैं, यानी इस आधार पर कि एक सावधान उत्तर में असल में क्या होना चाहिए, तो आज के सबसे बेहतर मॉडल उसका करीब एक-तिहाई ही पार कर पाते हैं। क्षमता असली है और चढ़ रही है, मगर विशेषज्ञ स्तर तक जो दूरी बची है वही वह हिस्सा है जिसे ये प्रदर्शन अक्सर छिपा जाते हैं।

OpenAI के नए LifeSciBench में असली जीवविज्ञान शोध पर AI की परीक्षा हुई, और सबसे बेहतर मॉडल सिर्फ 36% ही पास कर पाया

और समाचार