Zubnet AIसीखेंWiki › Object Detection
AI का उपयोग

Object Detection

इसे भी कहा जाता है: YOLO, Bounding Box Detection
छवियों या वीडियो में वस्तुओं की पहचान और स्थानीयकरण करना, उनके चारों ओर bounding boxes बनाकर और प्रत्येक box में क्या है इसका वर्गीकरण करके। "स्थान (x1,y1,x2,y2) पर एक कार है और (x3,y3,x4,y4) पर एक व्यक्ति है।" Image classification (जो बताता है कि छवि में क्या है) के विपरीत, object detection बताता है कि छवि में क्या है और कहाँ है — गिनती, tracking और spatial reasoning को सक्षम बनाता है।

यह क्यों मायने रखता है

Object detection self-driving कारों (पैदल चलने वालों, वाहनों, संकेतों का पता लगाना), सुरक्षा कैमरों (व्यक्ति पहचान), खुदरा विश्लेषण (खरीदारों की गिनती), manufacturing गुणवत्ता नियंत्रण (दोषों का पता लगाना), और augmented reality (वास्तविक वस्तुओं के सापेक्ष आभासी वस्तुओं को रखना) के पीछे की तकनीक है। यह सबसे अधिक व्यावसायिक रूप से तैनात computer vision क्षमताओं में से एक है।

गहन अध्ययन

YOLO (You Only Look Once) परिवार सबसे लोकप्रिय रीयल-टाइम object detection architecture है। YOLO छवि को एक grid में विभाजित करता है, एक ही forward pass में प्रत्येक grid cell के लिए bounding boxes और class probabilities की भविष्यवाणी करता है, और ओवरलैपिंग detections को filter करता है। YOLOv8 और YOLO-World उपभोक्ता hardware पर उच्च सटीकता के साथ रीयल-टाइम detection (30+ FPS) प्राप्त करते हैं। विकल्प, two-stage detectors (जैसे Faster R-CNN), अधिक सटीक लेकिन धीमे हैं।

Bounding Boxes से परे

Bounding boxes आयताकार हैं — वे वस्तु के स्थान का अनुमान लगाते हैं लेकिन पृष्ठभूमि को शामिल करते हैं। Instance segmentation (Mask R-CNN, SAM) प्रत्येक वस्तु के लिए pixel-स्तर के masks उत्पन्न करता है। Panoptic segmentation प्रत्येक pixel को या तो एक विशिष्ट वस्तु instance या background class के रूप में लेबल करता है। Keypoint detection वस्तुओं पर विशिष्ट बिंदुओं की पहचान करता है (pose estimation के लिए मानव शरीर पर जोड़)। प्रत्येक compute की कीमत पर precision जोड़ता है।

Zero-Shot Detection

पारंपरिक object detectors केवल अपनी प्रशिक्षण श्रेणियों से वस्तुएँ खोजते हैं। Zero-shot detectors (Grounding DINO, OWL-ViT, YOLO-World) प्राकृतिक भाषा में वर्णित किसी भी वस्तु को खोज सकते हैं: "सभी कॉफ़ी कप ढूँढें" काम करता है भले ही मॉडल ने कभी कॉफ़ी कप पर प्रशिक्षण न लिया हो। यह संभव है क्योंकि ये मॉडल vision और language समझ को जोड़ते हैं, टेक्स्ट विवरणों को image क्षेत्रों से मिलाते हैं। यह उन applications के लिए परिवर्तनकारी है जहाँ रुचि की वस्तुएँ बार-बार बदलती हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← NVIDIA OCR →
ESC