DeepMind ने इस सप्ताह Aletheia पेश किया, पूर्णतः autonomous गणितीय-अनुसंधान के लिए एक multi-agent सिस्टम। बार IMO-शैली के प्रतियोगिता-प्रश्न नहीं हैं, जिनकी ज्ञात संरचना और सूचीबद्ध समाधान पहले से हैं, बल्कि पूर्व-मौजूद मानव-संकेतों के बिना अप्रकाशित research-level lemmas। शोध-टीम ने FirstProof Challenge पर मूल्यांकन किया, ऐसे दस lemmas, और Aletheia ने छह हल किए। छहों को विशेषज्ञ मूल्यांकनकर्ताओं ने छोटे संशोधनों के बाद publishable आंका। अधिक संरचित IMO-ProofBench पर, Aletheia 91.9% सटीकता तक पहुँचता है। ये पहले ठोस आँकड़े हैं जो सुझाव देते हैं कि frontier models बिना मानव-पर्यवेक्षण के "प्रतियोगिता-गणित सॉल्वर" से "अनुसंधान-गणित सहयोगी" तक की खाई पाट सकते हैं।

Architecture में ही डेवलपर-सबक रहता है। Aletheia, Gemini 3 Deep Think पर चलता हुआ तीन विशेष भूमिकाओं का एक loop है: एक Generator तार्किक क़दम प्रस्तावित करता है, एक Verifier प्रत्येक क़दम को दोषों के लिए मूल्यांकन करता है, और एक Reviser iterate कर के ग़लतियाँ सुधारता है। Google Search सहित बाहरी tools जोड़े गए हैं ताकि concept-citations सत्यापित हों और hallucinated references कम हों। निर्णायक रूप से, सिस्टम को "कोई समाधान नहीं मिला" output करने की अनुमति है, proof गढ़ने के बजाय—वही refusal-on-ambiguity अनुशासन जिसने इसी सप्ताह पहले Google के Auto-Diagnose को CI-triage पर 90% root-cause सटीकता पर रखा, और जो (design से अनुमान से) AWS के Bedrock DevOps Agent के incidents पर 94% के प्रदर्शन को भी आधार देता है। तीन स्वतंत्र सिस्टम, तीन अलग क्षेत्र, एक ही सप्ताह, एक ही architectural नुस्ख़ा।

Convergence ही कहानी है। पिछले दो वर्षों में agentic सिस्टम्स के लिए प्रमुख प्रश्न था "क्या आपको बड़ा मॉडल चाहिए या अधिक स्मार्ट wrapper?" इन release-सीरीज़ से उभरने वाला उत्तर, सख़्ती से, दोनों में से कोई नहीं है: यह multi-agent orchestration with refusal है। लाभ generation, verification और revision को अलग भूमिकाओं में विभाजित करने से आता है, प्रत्येक भूमिका को बाहरी tools तक पहुँच देने से, और पूरे सिस्टम को abstain करने की अनुमति देने से। Aletheia गणित-विशिष्ट सूक्ष्मता जोड़ता है कि Gemini 3 Deep Think को विस्तारित test-time compute मिलता है (latency के बदले स्पष्ट रूप से अदला-बदला) लेकिन भारी काम multi-agent loop कर रहा है। OpenAI के पहले के गणित-दृष्टिकोण से Aletheia का contrast, जो मानव-पर्यवेक्षण पर निर्भर था, सबसे स्पष्ट चित्रण है: मानव को verifier-reviser जोड़ी से बदलें और कार्य zero-shot बन जाता है।

यदि आप किसी भी क्षेत्र में agents बना रहे हैं, व्यावहारिक takeaway है आकार की नक़ल करें, मॉडल की नहीं। तीन चीज़ें सीधे transfer होती हैं। पहला, अपने agent को generator/verifier/reviser भूमिकाओं में अलग prompts और tool-access के साथ विभाजित करें, एक ही call को loop में चलाने के बजाय। दूसरा, सिस्टम को एक स्पष्ट refusal primitive दें ("कोई समाधान नहीं मिला" या समकक्ष) और जब सबूत पतला हो तब उस primitive का उपयोग करने पर उसे पुरस्कृत करें; यह किसी भी बड़े मॉडल से आने वाली सटीकता-वृद्धि से अधिक मूल्यवान है। तीसरा, विस्तारित test-time compute के लिए बजट रखें: Aletheia, Auto-Diagnose और AWS DevOps Agent सभी latency के बदले विश्वसनीयता देते हैं, और सही प्रश्न है कि उस compute-बजट को कैसे आकार दें, कौन-सा मॉडल कॉल करें नहीं। Aletheia का दूसरा iteration प्लस एक औपचारिक benchmark मार्च-जून 2026 के लिए नियोजित है; देखें कि publishable-proofs की संख्या चढ़ती रहती है या नहीं, जो सुझाव देगा कि generator-verifier-reviser architecture में एकल मॉडल को scale करने से अधिक जगह है।