目标检测：定义与含义 — AI 维基

在图像或视频中识别和定位目标，通过在其周围绘制边界框并分类每个框包含的内容。“在位置(x1,y1,x2,y2)有一辆车，在(x3,y3,x4,y4)有一个人。”与图像分类（说出图像中有什么）不同，目标检测说出图像中有什么以及在哪里——使计数、跟踪和空间推理成为可能。

为什么重要

目标检测是自动驾驶汽车（检测行人、车辆、标志）、安防摄像头（人员检测）、零售分析（计算购物者人数）、制造质量控制（检测缺陷）和增强现实（将虚拟物体相对于真实物体放置）背后的技术。它是商业部署最广泛的计算机视觉能力之一。

深度解析

YOLO（You Only Look Once）家族是最流行的实时目标检测架构。YOLO将图像划分为网格，在单次前向传播中为每个网格单元预测边界框和类别概率，并过滤重叠检测。YOLOv8和YOLO-World在消费级硬件上实现了高精度的实时检测（30+ FPS）。另一种选择是两阶段检测器（如Faster R-CNN），更准确但更慢。

超越边界框

边界框是矩形——它们近似目标位置但包含背景。实例分割（Mask R-CNN、SAM）为每个目标生成像素级掩码。全景分割将每个像素标记为特定目标实例或背景类别。关键点检测识别目标上的特定点（人体关节用于姿态估计）。每一种方法都以计算量为代价增加精度。

零样本检测

传统目标检测器只能找到训练类别中的目标。零样本检测器（Grounding DINO、OWL-ViT、YOLO-World）可以找到用自然语言描述的任何目标：“找到所有咖啡杯”即使模型从未在咖啡杯上训练过也能工作。这是因为这些模型结合了视觉和语言理解，将文本描述与图像区域匹配。对于感兴趣的目标频繁变化的应用来说，这是革命性的。