YOLO (You Only Look Once) परिवार सबसे लोकप्रिय रीयल-टाइम object detection architecture है। YOLO छवि को एक grid में विभाजित करता है, एक ही forward pass में प्रत्येक grid cell के लिए bounding boxes और class probabilities की भविष्यवाणी करता है, और ओवरलैपिंग detections को filter करता है। YOLOv8 और YOLO-World उपभोक्ता hardware पर उच्च सटीकता के साथ रीयल-टाइम detection (30+ FPS) प्राप्त करते हैं। विकल्प, two-stage detectors (जैसे Faster R-CNN), अधिक सटीक लेकिन धीमे हैं।
Bounding boxes आयताकार हैं — वे वस्तु के स्थान का अनुमान लगाते हैं लेकिन पृष्ठभूमि को शामिल करते हैं। Instance segmentation (Mask R-CNN, SAM) प्रत्येक वस्तु के लिए pixel-स्तर के masks उत्पन्न करता है। Panoptic segmentation प्रत्येक pixel को या तो एक विशिष्ट वस्तु instance या background class के रूप में लेबल करता है। Keypoint detection वस्तुओं पर विशिष्ट बिंदुओं की पहचान करता है (pose estimation के लिए मानव शरीर पर जोड़)। प्रत्येक compute की कीमत पर precision जोड़ता है।
पारंपरिक object detectors केवल अपनी प्रशिक्षण श्रेणियों से वस्तुएँ खोजते हैं। Zero-shot detectors (Grounding DINO, OWL-ViT, YOLO-World) प्राकृतिक भाषा में वर्णित किसी भी वस्तु को खोज सकते हैं: "सभी कॉफ़ी कप ढूँढें" काम करता है भले ही मॉडल ने कभी कॉफ़ी कप पर प्रशिक्षण न लिया हो। यह संभव है क्योंकि ये मॉडल vision और language समझ को जोड़ते हैं, टेक्स्ट विवरणों को image क्षेत्रों से मिलाते हैं। यह उन applications के लिए परिवर्तनकारी है जहाँ रुचि की वस्तुएँ बार-बार बदलती हैं।