La familia YOLO (You Only Look Once) es la arquitectura de detección de objetos en tiempo real más popular. YOLO divide la imagen en una cuadrícula, predice bounding boxes y probabilidades de clase para cada celda en un solo paso hacia adelante, y filtra detecciones superpuestas. YOLOv8 y YOLO-World logran detección en tiempo real (30+ FPS) con alta precisión en hardware de consumo. La alternativa, los detectores de dos etapas (como Faster R-CNN), son más precisos pero más lentos.
Los bounding boxes son rectángulos — aproximan la ubicación del objeto pero incluyen fondo. La segmentación de instancias (Mask R-CNN, SAM) produce máscaras a nivel de píxel para cada objeto. La segmentación panóptica etiqueta cada píxel como una instancia de objeto específica o una clase de fondo. La detección de keypoints identifica puntos específicos en objetos (articulaciones en un cuerpo humano para estimación de pose). Cada uno agrega precisión a costa de cómputo.
Los detectores de objetos tradicionales solo encuentran objetos de sus categorías de entrenamiento. Los detectores zero-shot (Grounding DINO, OWL-ViT, YOLO-World) pueden encontrar cualquier objeto descrito en lenguaje natural: "encuentra todas las tazas de café" funciona incluso si el modelo nunca entrenó con tazas de café. Esto es posible porque estos modelos combinan comprensión de visión y lenguaje, emparejando descripciones de texto con regiones de imagen. Es transformador para aplicaciones donde los objetos de interés cambian frecuentemente.