Détection d'objets : Définition et signification — Wiki IA

Identifier et localiser des objets dans des images ou vidéos en dessinant des boîtes englobantes autour d'eux et en classifiant le contenu de chaque boîte. « Il y a une voiture à la position (x1,y1,x2,y2) et une personne à (x3,y3,x4,y4). » Contrairement à la classification d'images (qui dit ce qu'il y a dans l'image), la détection d'objets dit ce qu'il y a dans l'image et où — permettant le comptage, le suivi et le raisonnement spatial.

Pourquoi c'est important

La détection d'objets est la technologie derrière les voitures autonomes (détecter les piétons, véhicules, panneaux), les caméras de sécurité (détection de personnes), l'analytique retail (compter les clients), le contrôle qualité en manufacture (détecter les défauts), et la réalité augmentée (placer des objets virtuels par rapport aux objets réels). C'est l'une des capacités de vision par ordinateur les plus déployées commercialement.

En profondeur

La famille YOLO (You Only Look Once) est l'architecture de détection d'objets en temps réel la plus populaire. YOLO divise l'image en une grille, prédit les boîtes englobantes et probabilités de classe pour chaque cellule de la grille en une seule passe avant, et filtre les détections qui se chevauchent. YOLOv8 et YOLO-World atteignent la détection en temps réel (30+ FPS) avec une haute précision sur du matériel grand public. L'alternative, les détecteurs à deux étapes (comme Faster R-CNN), sont plus précis mais plus lents.

Au-delà des boîtes englobantes

Les boîtes englobantes sont des rectangles — elles approximent la localisation de l'objet mais incluent le fond. La segmentation d'instances (Mask R-CNN, SAM) produit des masques au pixel près pour chaque objet. La segmentation panoptique étiquette chaque pixel comme une instance d'objet spécifique ou une classe de fond. La détection de points clés identifie des points spécifiques sur les objets (les articulations du corps humain pour l'estimation de pose). Chaque approche ajoute de la précision au prix du calcul.

Détection zero-shot

Les détecteurs d'objets traditionnels ne trouvent que les objets de leurs catégories d'entraînement. Les détecteurs zero-shot (Grounding DINO, OWL-ViT, YOLO-World) peuvent trouver n'importe quel objet décrit en langage naturel : « trouve toutes les tasses de café » fonctionne même si le modèle ne s'est jamais entraîné sur les tasses de café. C'est possible parce que ces modèles combinent la compréhension visuelle et linguistique, faisant correspondre les descriptions textuelles aux régions de l'image. C'est transformateur pour les applications où les objets d'intérêt changent fréquemment.