Object Detection（物件偵測）：定義與含義 — AI 維基

在影像或影片中辨識和定位物件，透過在物件周圍繪製邊界框並分類每個框中包含的內容。「在位置 (x1,y1,x2,y2) 有一輛車，在 (x3,y3,x4,y4) 有一個人。」與影像分類（說明影像中有什麼）不同，物件偵測說明影像中有什麼以及在哪裡——使計數、追蹤和空間推理成為可能。

為什麼重要

物件偵測是自駕車（偵測行人、車輛、標誌）、監控攝影機（人員偵測）、零售分析（計算顧客數量）、製造品質控制（偵測缺陷），以及擴增實境（相對於真實物件放置虛擬物件）背後的技術。它是最廣泛商業化部署的電腦視覺能力之一。

深度解析

YOLO（You Only Look Once）系列是最受歡迎的即時物件偵測架構。YOLO 將影像分成網格，在單次前向傳播中為每個網格單元預測邊界框和類別機率，並過濾重疊的偵測結果。YOLOv8 和 YOLO-World 在消費級硬體上實現了高精度的即時偵測（30+ FPS）。替代方案是兩階段偵測器（如 Faster R-CNN），更精確但更慢。

超越邊界框

邊界框是矩形——它們近似物件位置但包含背景。實例分割（Mask R-CNN、SAM）為每個物件生成像素級遮罩。全景分割將每個像素標記為特定的物件實例或背景類別。關鍵點偵測辨識物件上的特定點（人體上的關節用於姿態估計）。每種方法都在計算成本的代價下增加精確度。

零樣本偵測

傳統物件偵測器只能找到訓練類別中的物件。零樣本偵測器（Grounding DINO、OWL-ViT、YOLO-World）可以找到任何用自然語言描述的物件：「找到所有咖啡杯」即使模型從未在咖啡杯上訓練過也能運作。這之所以可能，是因為這些模型結合了視覺和語言理解，將文字描述與影像區域匹配。對於感興趣的物件經常變化的應用場景，這具有變革性意義。

Object Detection

為什麼重要

深度解析

超越邊界框

零樣本偵測

相關概念