Zubnet AI學習Wiki › Object Detection
使用AI

Object Detection

別名:YOLO、邊界框偵測
在影像或影片中辨識和定位物件,透過在物件周圍繪製邊界框並分類每個框中包含的內容。「在位置 (x1,y1,x2,y2) 有一輛車,在 (x3,y3,x4,y4) 有一個人。」與影像分類(說明影像中有什麼)不同,物件偵測說明影像中有什麼以及在哪裡——使計數、追蹤和空間推理成為可能。

為什麼重要

物件偵測是自駕車(偵測行人、車輛、標誌)、監控攝影機(人員偵測)、零售分析(計算顧客數量)、製造品質控制(偵測缺陷),以及擴增實境(相對於真實物件放置虛擬物件)背後的技術。它是最廣泛商業化部署的電腦視覺能力之一。

深度解析

YOLO(You Only Look Once)系列是最受歡迎的即時物件偵測架構。YOLO 將影像分成網格,在單次前向傳播中為每個網格單元預測邊界框和類別機率,並過濾重疊的偵測結果。YOLOv8 和 YOLO-World 在消費級硬體上實現了高精度的即時偵測(30+ FPS)。替代方案是兩階段偵測器(如 Faster R-CNN),更精確但更慢。

超越邊界框

邊界框是矩形——它們近似物件位置但包含背景。實例分割(Mask R-CNN、SAM)為每個物件生成像素級遮罩。全景分割將每個像素標記為特定的物件實例或背景類別。關鍵點偵測辨識物件上的特定點(人體上的關節用於姿態估計)。每種方法都在計算成本的代價下增加精確度。

零樣本偵測

傳統物件偵測器只能找到訓練類別中的物件。零樣本偵測器(Grounding DINO、OWL-ViT、YOLO-World)可以找到任何用自然語言描述的物件:「找到所有咖啡杯」即使模型從未在咖啡杯上訓練過也能運作。這之所以可能,是因為這些模型結合了視覺和語言理解,將文字描述與影像區域匹配。對於感興趣的物件經常變化的應用場景,這具有變革性意義。

相關概念

← 所有術語
ESC
Start typing to search...