La famille YOLO (You Only Look Once) est l'architecture de détection d'objets en temps réel la plus populaire. YOLO divise l'image en une grille, prédit les boîtes englobantes et probabilités de classe pour chaque cellule de la grille en une seule passe avant, et filtre les détections qui se chevauchent. YOLOv8 et YOLO-World atteignent la détection en temps réel (30+ FPS) avec une haute précision sur du matériel grand public. L'alternative, les détecteurs à deux étapes (comme Faster R-CNN), sont plus précis mais plus lents.
Les boîtes englobantes sont des rectangles — elles approximent la localisation de l'objet mais incluent le fond. La segmentation d'instances (Mask R-CNN, SAM) produit des masques au pixel près pour chaque objet. La segmentation panoptique étiquette chaque pixel comme une instance d'objet spécifique ou une classe de fond. La détection de points clés identifie des points spécifiques sur les objets (les articulations du corps humain pour l'estimation de pose). Chaque approche ajoute de la précision au prix du calcul.
Les détecteurs d'objets traditionnels ne trouvent que les objets de leurs catégories d'entraînement. Les détecteurs zero-shot (Grounding DINO, OWL-ViT, YOLO-World) peuvent trouver n'importe quel objet décrit en langage naturel : « trouve toutes les tasses de café » fonctionne même si le modèle ne s'est jamais entraîné sur les tasses de café. C'est possible parce que ces modèles combinent la compréhension visuelle et linguistique, faisant correspondre les descriptions textuelles aux régions de l'image. C'est transformateur pour les applications où les objets d'intérêt changent fréquemment.