YOLO(You Only Look Once)家族是最流行的实时目标检测架构。YOLO将图像划分为网格,在单次前向传播中为每个网格单元预测边界框和类别概率,并过滤重叠检测。YOLOv8和YOLO-World在消费级硬件上实现了高精度的实时检测(30+ FPS)。另一种选择是两阶段检测器(如Faster R-CNN),更准确但更慢。
边界框是矩形——它们近似目标位置但包含背景。实例分割(Mask R-CNN、SAM)为每个目标生成像素级掩码。全景分割将每个像素标记为特定目标实例或背景类别。关键点检测识别目标上的特定点(人体关节用于姿态估计)。每一种方法都以计算量为代价增加精度。
传统目标检测器只能找到训练类别中的目标。零样本检测器(Grounding DINO、OWL-ViT、YOLO-World)可以找到用自然语言描述的任何目标:“找到所有咖啡杯”即使模型从未在咖啡杯上训练过也能工作。这是因为这些模型结合了视觉和语言理解,将文本描述与图像区域匹配。对于感兴趣的目标频繁变化的应用来说,这是革命性的。