Zubnet AIApprendreWiki › Object Detection
Using AI

Object Detection

YOLO, Bounding Box Detection
Identifier et localiser des objets dans des images ou de la vidéo en dessinant des bounding boxes autour d'eux et en classifiant ce que chaque boîte contient. « Il y a une voiture à la position (x1,y1,x2,y2) et une personne à (x3,y3,x4,y4). » Contrairement à la classification d'images (qui dit ce qu'il y a dans l'image), la détection d'objets dit ce qu'il y a dans l'image et où — permettant le comptage, le suivi et le raisonnement spatial.

Pourquoi c'est important

La détection d'objets est la technologie derrière les voitures autonomes (détection de piétons, véhicules, panneaux), les caméras de sécurité (détection de personnes), l'analytics au détail (compter les clients), le contrôle qualité en manufacture (détection de défauts) et la réalité augmentée (placer des objets virtuels par rapport aux vrais). C'est une des capacités de vision par ordinateur les plus déployées commercialement.

Deep Dive

The YOLO (You Only Look Once) family is the most popular real-time object detection architecture. YOLO divides the image into a grid, predicts bounding boxes and class probabilities for each grid cell in a single forward pass, and filters overlapping detections. YOLOv8 and YOLO-World achieve real-time detection (30+ FPS) with high accuracy on consumer hardware. The alternative, two-stage detectors (like Faster R-CNN), are more accurate but slower.

Beyond Bounding Boxes

Bounding boxes are rectangles — they approximate object location but include background. Instance segmentation (Mask R-CNN, SAM) produces pixel-level masks for each object. Panoptic segmentation labels every pixel as either a specific object instance or a background class. Keypoint detection identifies specific points on objects (joints on a human body for pose estimation). Each adds precision at the cost of compute.

Zero-Shot Detection

Traditional object detectors only find objects from their training categories. Zero-shot detectors (Grounding DINO, OWL-ViT, YOLO-World) can find any object described in natural language: "find all coffee cups" works even if the model never trained on coffee cups. This is possible because these models combine vision and language understanding, matching text descriptions to image regions. It's transformative for applications where the objects of interest change frequently.

Concepts liés

← Tous les termes
ESC