Meta का Sapiens2 1K-नेटिव (4K तक) मानव विज़न ट्रांसफ़ॉर्मर्स लाता है, ओपन वेट्स के साथ और बॉडी-पार्ट सेगमेंटेशन पर +24 mIoU की छलांग

Meta FAIR ने इस सप्ताह Sapiens2 जारी किया — पेपर ICLR 2026 में स्वीकार, वेट्स GitHub पर facebookresearch/sapiens2 — और हेडलाइन फ़ीचर यह है कि अब पूरा परिवार 1K रिज़ॉल्यूशन पर मूल रूप से चलता है, 4096×3072 पर प्रशिक्षित 1B-पैरामीटर पदानुक्रमित संस्करण के साथ। अधिकांश पूर्व मानव विज़न फ़ाउंडेशन मॉडल 256 या 512 पर सीमित हो जाते हैं क्योंकि उच्चतर जाने की कंप्यूट और डेटा लागतें दंडात्मक हैं। Sapiens2 टीम ने 1 बिलियन मानव छवियों के क्यूरेटेड डेटासेट पर प्रशिक्षण किया (Sapiens v1 में लगभग 300 मिलियन से बढ़कर) और एक ही बैकबोन में निम्न-स्तरीय विवरण और उच्च-स्तरीय शब्दार्थ दोनों सीखने के लिए मास्क्ड इमेज पुनर्निर्माण को सेल्फ़-डिस्टिल्ड कॉन्ट्रास्टिव उद्देश्यों के साथ जोड़ने का उपयोग किया। मॉडल परिवार 0.4B से 5B पैरामीटर्स तक है, सभी पैच साइज़ 16 का उपयोग करते हुए, बेस साइज़ 1024×768 पर प्रशिक्षित।

आउटपुट सेट वो है जो इसे केवल पेपर बेंचमार्क के बजाय वास्तविक उत्पादन कार्य के लिए उपयोगी बनाता है। एक एकल Sapiens2 मॉडल पोज़ अनुमान, बॉडी-पार्ट सेगमेंटेशन, सतह नॉर्मल्स, pointmap (3D पुनर्निर्माण आदिम), और albedo (आंतरिक सतह रंग, प्रकाश से विघटित) उत्पन्न करता है। वह आख़िरी जोड़ी Sapiens v1 की तुलना में नई है, और pointmap + albedo एक साथ वो आदिम हैं जो आपको पुनः-प्रकाशित 3D मानव अवतारों के लिए चाहिए — जहाँ मॉडल वंशावली Meta के Codec Avatars कार्य से जुड़ती है। v1 के विरुद्ध बेंचमार्क मामूली नहीं हैं: पोज़ पर +4 mAP, बॉडी-पार्ट सेगमेंटेशन पर +24.3 mIoU, और नॉर्मल अनुमान पर 45.6% कम कोणीय त्रुटि। सेगमेंटेशन mIoU पर 24-पॉइंट का सुधार उस तरह की छलांग है जो पिछली पीढ़ी को इंक्रीमेंट करने के बजाय अप्रचलित कर देती है।

रणनीतिक पठन यह है कि Meta इसे AR/VR और दृश्य-प्रभाव उद्योगों पर हावी रही स्वामित्व वाली mocap और अवतार पाइपलाइनों के ओपन-वेट्स उत्तर के रूप में स्थापित कर रहा है। इस गुणवत्ता स्तर के अधिकांश मौजूदा मानव विज़न स्टैक्स बंद डेटासेट और लाइसेंसीकृत घटकों पर बनाए गए हैं — Vicon, Marker.io, विभिन्न body-tracking SDKs — और Sapiens2 पूर्व FAIR रिलीज़ के अनुरूप अनुमेय लाइसेंस के तहत वेट्स सार्वजनिक रूप से शिप करता है। एक छोटे स्टूडियो या अनुसंधान प्रयोगशाला के लिए जिसे पहले body-tracking SDK लाइसेंस करने या स्वामित्व वाले स्टैक को प्रशिक्षित करने की आवश्यकता थी, गणना बदल गई है। मॉडल जादू नहीं है; इसे अभी भी उत्पादन mocap के लिए सफ़ाई, विशिष्ट कैमरों के लिए कैलिब्रेशन, और अवतारों को चलाने के लिए रिगिंग कार्य की आवश्यकता है, पर वो आधार परत जो पहले वास्तविक पैसा खर्च करती थी अब डाउनलोड योग्य है।

मानव-केंद्रित विज़न पर काम करने वाले डेवलपर्स के लिए — VR/AR, फ़िटनेस टेक, खेल विश्लेषण, टेलीप्रेज़ेंस, फ़ोटोग्रामेट्री, वर्चुअल ट्राय-ऑन, मोशन कैप्चर पाइपलाइन — Sapiens2 गंभीर मूल्यांकन के लायक़ है। 1K और 4K संस्करण हेडलाइन हैं; मल्टी-टास्क सिंगल-मॉडल आर्किटेक्चर व्यावहारिक उत्पादकता लाभ है क्योंकि आप पाँच के बजाय एक इन्फ़रेंस पास से पोज़, सेगमेंटेशन, नॉर्मल्स और 3D आदिम प्राप्त करते हैं। ओपन-वेट्स रिलीज़ का मतलब है आप अपने विशिष्ट अनुप्रयोग, शरीर प्रकार वितरण, या प्रकाश स्थितियों पर विक्रेता लाइसेंसिंग चक्र से गुज़रे बिना फ़ाइन-ट्यून कर सकते हैं। ईमानदार चेतावनियाँ यह हैं कि 5B-पैरामीटर शीर्ष-अंत संस्करण वीडियो फ्रेम दरों पर सेवा देने के लिए वास्तविक GPU बुनियादी ढाँचे की आवश्यकता के लिए पर्याप्त भारी है, और 1B-छवि प्रशिक्षण सेट का अपना जनसांख्यिकीय वितरण है जो किनारे के मामलों पर निष्पक्षता को प्रभावित करता है — Meta ने अभी तक जनसांख्यिकीय विवरण प्रकाशित नहीं किया है और क्षेत्र के पूर्व ट्रैकिंग शोध से पता चलता है कि ये मॉडल लंबी पूँछ में अभी भी विफल होते हैं। तैनाती से पहले अपना ख़ुद का मूल्यांकन सेट चलाओ।

Meta का Sapiens2 1K-नेटिव (4K तक) मानव विज़न ट्रांसफ़ॉर्मर्स लाता है, ओपन वेट्स के साथ और बॉडी-पार्ट सेगमेंटेशन पर +24 mIoU की छलांग

और समाचार