Zubnet AI学习Wiki › 目标检测
使用AI

目标检测

别名:YOLO、边界框检测
在图像或视频中识别和定位目标,通过在其周围绘制边界框并分类每个框包含的内容。“在位置(x1,y1,x2,y2)有一辆车,在(x3,y3,x4,y4)有一个人。”与图像分类(说出图像中有什么)不同,目标检测说出图像中有什么以及在哪里——使计数、跟踪和空间推理成为可能。

为什么重要

目标检测是自动驾驶汽车(检测行人、车辆、标志)、安防摄像头(人员检测)、零售分析(计算购物者人数)、制造质量控制(检测缺陷)和增强现实(将虚拟物体相对于真实物体放置)背后的技术。它是商业部署最广泛的计算机视觉能力之一。

深度解析

YOLO(You Only Look Once)家族是最流行的实时目标检测架构。YOLO将图像划分为网格,在单次前向传播中为每个网格单元预测边界框和类别概率,并过滤重叠检测。YOLOv8和YOLO-World在消费级硬件上实现了高精度的实时检测(30+ FPS)。另一种选择是两阶段检测器(如Faster R-CNN),更准确但更慢。

超越边界框

边界框是矩形——它们近似目标位置但包含背景。实例分割(Mask R-CNN、SAM)为每个目标生成像素级掩码。全景分割将每个像素标记为特定目标实例或背景类别。关键点检测识别目标上的特定点(人体关节用于姿态估计)。每一种方法都以计算量为代价增加精度。

零样本检测

传统目标检测器只能找到训练类别中的目标。零样本检测器(Grounding DINO、OWL-ViT、YOLO-World)可以找到用自然语言描述的任何目标:“找到所有咖啡杯”即使模型从未在咖啡杯上训练过也能工作。这是因为这些模型结合了视觉和语言理解,将文本描述与图像区域匹配。对于感兴趣的目标频繁变化的应用来说,这是革命性的。

← 所有术语