Google Research ने HHMI Janelia के Hess lab के सहयोग से इस हफ़्ते MoGen (Neuronal Morphology Generation) पर काम प्रकाशित किया, एक flow-matching जेनरेटिव मॉडल जो connectomics को तेज़ करने के लिए 3D सिंथेटिक न्यूरॉन आकार बनाता है। पृष्ठभूमि यह है कि सम्पूर्ण मस्तिष्कों को व्यक्तिगत-न्यूरॉन पैमाने पर मानचित्रित करना इस हाथ से की जाने वाली मानवीय सत्यापन के कारण अटका हुआ है जो AI द्वारा पुनर्निर्मित न्यूरॉन्स की त्रुटियों को ठीक करने के लिए आवश्यक है। MoGen यथार्थवादी सिंथेटिक न्यूरॉन्स पैदा करता है जो downstream पुनर्निर्माण मॉडल PATHFINDER के लिए अतिरिक्त प्रशिक्षण-डेटा के रूप में उपयोग होते हैं। सिंथेटिक डेटा को एकीकृत करने से पुनर्निर्माण त्रुटियाँ लगभग 4.4 प्रतिशत कम हो गईं। पूर्ण चूहे-मस्तिष्क के पैमाने पर, यह लगभग 157 वर्ष के विशेषज्ञ हाथ-काम की बचत में अनुवादित होता है। पेपर ICLR 2026 में स्वीकृत है और मॉडल को चूहा, फल-मक्खी, ज़ेब्राफ़िश और मानव-मस्तिष्क के टुकड़ों के लिए प्रजाति-विशिष्ट संस्करणों के साथ open source जारी किया गया है।

MoGen PointInfinity point-cloud flow-matching ढाँचे पर बना है। प्रशिक्षण कोष 1,795 सत्यापित चूहे axons हैं, जो पहले मानव-जाँचे गए ऊतक-पुनर्निर्माण से आए हैं। जेनरेटिव कार्य सीधा है: यादृच्छिक 3D point clouds लीजिए और उन्हें क्रमशः शाखायुक्त axons और dendrites सहित यथार्थवादी neuronal morphologies में बदलिए। आउटपुट ज्यामिति है, न कि firing-व्यवहार या connectivity, जो उपयुक्त है क्योंकि downstream कार्य को कार्यात्मक शुद्धता के बजाय आकार-संभाव्यता चाहिए। PATHFINDER पर 4.4 प्रतिशत त्रुटि-कटौती एक मामूली निरपेक्ष संख्या है, लेकिन व्यवहार में पर्याप्त है, क्योंकि connectomics में पुनर्निर्माण-त्रुटियाँ गैर-रेखीय रूप से संयुक्त होती हैं जब आप एक ही न्यूरॉन को हज़ारों छवि-टुकड़ों के पार ट्रेस करने की कोशिश कर रहे हों। प्रति-चरण 4.4 प्रतिशत सुधार एक लम्बे पथ पर असंगत रूप से बेहतर पूर्ण-न्यूरॉन पुनर्निर्माण उत्पन्न करता है।

विशिष्ट परिणाम के पीछे का पैटर्न सामान्यतः लागू हिस्सा है। विशेषज्ञ-लेबल किए गए उच्च-गुणवत्ता के डेटा का अपेक्षाकृत छोटा कोष (1,795 axons) एक जेनरेटिव मॉडल को प्रशिक्षित करने में उपयोग होता है, जो असीमित यथार्थवादी सिंथेटिक डेटा पैदा करता है, और फिर उसका उपयोग downstream मॉडल को सुधारने के लिए होता है। यह "सही तरीक़े से किया गया सिंथेटिक-डेटा-augmentation" है। यह यहाँ काम करता है क्योंकि neuronal morphologies की संरचनात्मक नियमितताएँ कुछ हज़ार उदाहरणों से सीखी जा सकती हैं, और क्योंकि downstream कार्य सटीक प्रति-उदाहरण शुद्धता के बजाय आकार-वितरण की परवाह करता है। वही पैटर्न अन्य वैज्ञानिक-AI क्षेत्रों में प्रकट होता रहा है: प्रोटीन-संरचना diffusion मॉडल जो कार्य-भविष्यवाणी के लिए सिंथेटिक संरचनाएँ बनाते हैं, आणविक-संरूपण जेनरेटर जो docking पाइपलाइनों को बढ़ाते हैं, microscopy-छवि जनरेशन जो कोशिका-विभाजन मॉडलों को बढ़ाता है। कई वैज्ञानिक-ML समस्याओं में बाधा मॉडल-वास्तुकला नहीं है; यह विशेषज्ञ-लेबल किया गया प्रशिक्षण-डेटा है, और जेनरेटिव सिंथेटिक डेटा एक मानक उत्तर बनता जा रहा है।

वैज्ञानिक-AI क्षेत्रों के निर्माताओं के लिए, तीन क़दम आते हैं। पहला, यदि आपकी पाइपलाइन में विशेषज्ञ-लेबलिंग की बाधा है, तो मूल्यांकन करिए कि क्या आपके डेटा का कोई जेनरेटिव मॉडल संभाव्य augmentation नमूने उत्पन्न कर सकता है; MoGen का दृष्टिकोण एक टेम्प्लेट है। दूसरा, point clouds पर flow matching 3D संरचित डेटा (न्यूरॉन, अणु, प्रोटीन-कंकाल, अंग, भूगर्भीय संरचनाएँ) के लिए एक व्यावहारिक उपकरण है, और ढाँचा सीखने योग्य है भले ही आपका विशिष्ट कार्य 3D आकार-विज्ञान न हो। तीसरा, MoGen की open-source रिलीज़ प्रजाति-संस्करणों के साथ एक उपयोगी सार्वजनिक benchmark है यदि आप अपने स्वयं के point-cloud जनरेशन दृष्टिकोण की तुलना करना चाहते हैं। ग़ैर-वैज्ञानिक निर्माताओं के लिए, स्थानांतरणीय सीख यह है कि "छोटे सत्यापित datasets + जेनरेटिव augmentation" उत्तरोत्तर long-tail data समस्याओं का समाधान बनता जा रहा है, जो हर बार मायने रखता है जब आप ऐसे क्षेत्र में काम कर रहे हों जहाँ विशेषज्ञ-लेबल महँगे हैं और दुर्लभता वास्तविक बाधा है, वास्तुकला नहीं।