A família YOLO (You Only Look Once) é a arquitetura mais popular para detecção de objetos em tempo real. YOLO divide a imagem em uma grade, prevê bounding boxes e probabilidades de classe para cada célula da grade em uma única passagem, e filtra detecções sobrepostas. YOLOv8 e YOLO-World alcançam detecção em tempo real (30+ FPS) com alta precisão em hardware de consumo. A alternativa, detectores de dois estágios (como Faster R-CNN), são mais precisos mas mais lentos.
Bounding boxes são retângulos — eles aproximam a localização do objeto mas incluem fundo. Segmentação de instância (Mask R-CNN, SAM) produz máscaras em nível de pixel para cada objeto. Segmentação panóptica rotula cada pixel como uma instância específica de objeto ou uma classe de fundo. Detecção de keypoints identifica pontos específicos em objetos (articulações em um corpo humano para estimativa de pose). Cada uma adiciona precisão ao custo de computação.
Detectores de objetos tradicionais só encontram objetos de suas categorias de treinamento. Detectores zero-shot (Grounding DINO, OWL-ViT, YOLO-World) podem encontrar qualquer objeto descrito em linguagem natural: "encontre todas as xícaras de café" funciona mesmo que o modelo nunca tenha treinado com xícaras de café. Isso é possível porque esses modelos combinam compreensão de visão e linguagem, correspondendo descrições textuais a regiões da imagem. É transformador para aplicações onde os objetos de interesse mudam frequentemente.