Zubnet AIAprenderWiki › Object Detection
Using AI

Object Detection

YOLO, Bounding Box Detection
Identificar y localizar objetos en imágenes o video dibujando bounding boxes alrededor de ellos y clasificando lo que contiene cada caja. «Hay un coche en la posición (x1,y1,x2,y2) y una persona en (x3,y3,x4,y4).» A diferencia de la clasificación de imágenes (que dice qué hay en la imagen), la detección de objetos dice qué hay en la imagen y dónde — habilitando conteo, seguimiento y razonamiento espacial.

Por qué importa

La detección de objetos es la tecnología detrás de los coches autónomos (detectando peatones, vehículos, señales), las cámaras de seguridad (detección de personas), la analítica minorista (contar compradores), el control de calidad en manufactura (detección de defectos) y la realidad aumentada (colocar objetos virtuales respecto a los reales). Es una de las capacidades de visión por computadora más desplegadas comercialmente.

Deep Dive

The YOLO (You Only Look Once) family is the most popular real-time object detection architecture. YOLO divides the image into a grid, predicts bounding boxes and class probabilities for each grid cell in a single forward pass, and filters overlapping detections. YOLOv8 and YOLO-World achieve real-time detection (30+ FPS) with high accuracy on consumer hardware. The alternative, two-stage detectors (like Faster R-CNN), are more accurate but slower.

Beyond Bounding Boxes

Bounding boxes are rectangles — they approximate object location but include background. Instance segmentation (Mask R-CNN, SAM) produces pixel-level masks for each object. Panoptic segmentation labels every pixel as either a specific object instance or a background class. Keypoint detection identifies specific points on objects (joints on a human body for pose estimation). Each adds precision at the cost of compute.

Zero-Shot Detection

Traditional object detectors only find objects from their training categories. Zero-shot detectors (Grounding DINO, OWL-ViT, YOLO-World) can find any object described in natural language: "find all coffee cups" works even if the model never trained on coffee cups. This is possible because these models combine vision and language understanding, matching text descriptions to image regions. It's transformative for applications where the objects of interest change frequently.

Conceptos relacionados

← Todos los términos
ESC