पारंपरिक segmentation मॉडल (medical images के लिए U-Net, सामान्य दृश्यों के लिए DeepLab) विशिष्ट श्रेणियों पर प्रशिक्षित हैं और fixed-class outputs उत्पन्न करते हैं। वे अपने प्रशिक्षण domain में अच्छी तरह काम करते हैं लेकिन नई वस्तुओं को segment नहीं कर सकते। SAM (Kirillov et al., 2023, Meta) ने 11 मिलियन छवियों में 1 अरब masks पर प्रशिक्षण लेकर इसे बदल दिया, "objectness" की एक सामान्य धारणा सीखकर जो बिना fine-tuning के किसी भी domain में स्थानांतरित होती है।
SAM एक prompt (एक point click, एक bounding box, या text) लेता है और इंगित वस्तु के लिए एक segmentation mask उत्पन्न करता है। यह उन छवियों पर काम करता है जो इसने कभी नहीं देखीं, उन वस्तु प्रकारों के लिए जिन पर इसे विशेष रूप से प्रशिक्षित नहीं किया गया — microscopy छवियाँ, satellite तस्वीरें, कलाकृतियाँ। SAM 2 ने इसे वीडियो तक विस्तारित किया, frames में सुसंगत object segmentation बनाए रखते हुए। प्रभाव: ऐसे कार्य जिनके लिए पहले domain-विशिष्ट प्रशिक्षण और महंगे annotation की आवश्यकता थी, अब बिना किसी सेटअप के काम करते हैं।
Medical imaging: निदान और उपचार योजना के लिए tumors, अंगों और कोशिकाओं को segment करना। Autonomous driving: pixel स्तर पर drivable surface, lane markings और बाधाओं को समझना। Photo/video editing: सटीक background हटाना, object चयन और compositing। कृषि: aerial imagery से फसल स्वास्थ्य का विश्लेषण। Robotics: grasping और manipulation के लिए object सीमाओं को समझना।