Detección de Objetos: Definición y significado — Wiki de IA

Identificar y localizar objetos en imágenes o video dibujando bounding boxes alrededor de ellos y clasificando lo que contiene cada caja. "Hay un auto en la posición (x1,y1,x2,y2) y una persona en (x3,y3,x4,y4)." A diferencia de la clasificación de imágenes (que dice qué hay en la imagen), la detección de objetos dice qué hay en la imagen y dónde — permitiendo contar, rastrear y razonar espacialmente.

Por qué importa

La detección de objetos es la tecnología detrás de los autos autónomos (detectar peatones, vehículos, señales), las cámaras de seguridad (detección de personas), analítica retail (contar compradores), control de calidad en manufactura (detectar defectos) y realidad aumentada (colocar objetos virtuales relativos a los reales). Es una de las capacidades de visión por computadora más desplegadas comercialmente.

En profundidad

La familia YOLO (You Only Look Once) es la arquitectura de detección de objetos en tiempo real más popular. YOLO divide la imagen en una cuadrícula, predice bounding boxes y probabilidades de clase para cada celda en un solo paso hacia adelante, y filtra detecciones superpuestas. YOLOv8 y YOLO-World logran detección en tiempo real (30+ FPS) con alta precisión en hardware de consumo. La alternativa, los detectores de dos etapas (como Faster R-CNN), son más precisos pero más lentos.

Más allá de los bounding boxes

Los bounding boxes son rectángulos — aproximan la ubicación del objeto pero incluyen fondo. La segmentación de instancias (Mask R-CNN, SAM) produce máscaras a nivel de píxel para cada objeto. La segmentación panóptica etiqueta cada píxel como una instancia de objeto específica o una clase de fondo. La detección de keypoints identifica puntos específicos en objetos (articulaciones en un cuerpo humano para estimación de pose). Cada uno agrega precisión a costa de cómputo.

Detección zero-shot

Los detectores de objetos tradicionales solo encuentran objetos de sus categorías de entrenamiento. Los detectores zero-shot (Grounding DINO, OWL-ViT, YOLO-World) pueden encontrar cualquier objeto descrito en lenguaje natural: "encuentra todas las tazas de café" funciona incluso si el modelo nunca entrenó con tazas de café. Esto es posible porque estos modelos combinan comprensión de visión y lenguaje, emparejando descripciones de texto con regiones de imagen. Es transformador para aplicaciones donde los objetos de interés cambian frecuentemente.