Detecção de Objetos: Definição e significado — Wiki de IA

Identificar e localizar objetos em imagens ou vídeo desenhando caixas delimitadoras (bounding boxes) ao redor deles e classificando o que cada caixa contém. "Há um carro na posição (x1,y1,x2,y2) e uma pessoa na (x3,y3,x4,y4)." Ao contrário da classificação de imagens (que diz o que está na imagem), a detecção de objetos diz o que está na imagem e onde — permitindo contagem, rastreamento e raciocínio espacial.

Por que isso importa

Detecção de objetos é a tecnologia por trás de carros autônomos (detectar pedestres, veículos, placas), câmeras de segurança (detecção de pessoas), análise de varejo (contar compradores), controle de qualidade industrial (detectar defeitos) e realidade aumentada (posicionar objetos virtuais em relação aos reais). É uma das capacidades de visão computacional mais implantadas comercialmente.

Em profundidade

A família YOLO (You Only Look Once) é a arquitetura mais popular para detecção de objetos em tempo real. YOLO divide a imagem em uma grade, prevê bounding boxes e probabilidades de classe para cada célula da grade em uma única passagem, e filtra detecções sobrepostas. YOLOv8 e YOLO-World alcançam detecção em tempo real (30+ FPS) com alta precisão em hardware de consumo. A alternativa, detectores de dois estágios (como Faster R-CNN), são mais precisos mas mais lentos.

Além dos Bounding Boxes

Bounding boxes são retângulos — eles aproximam a localização do objeto mas incluem fundo. Segmentação de instância (Mask R-CNN, SAM) produz máscaras em nível de pixel para cada objeto. Segmentação panóptica rotula cada pixel como uma instância específica de objeto ou uma classe de fundo. Detecção de keypoints identifica pontos específicos em objetos (articulações em um corpo humano para estimativa de pose). Cada uma adiciona precisão ao custo de computação.

Detecção Zero-Shot

Detectores de objetos tradicionais só encontram objetos de suas categorias de treinamento. Detectores zero-shot (Grounding DINO, OWL-ViT, YOLO-World) podem encontrar qualquer objeto descrito em linguagem natural: "encontre todas as xícaras de café" funciona mesmo que o modelo nunca tenha treinado com xícaras de café. Isso é possível porque esses modelos combinam compreensão de visão e linguagem, correspondendo descrições textuais a regiões da imagem. É transformador para aplicações onde os objetos de interesse mudam frequentemente.