YOLO(You Only Look Once)系列是最受歡迎的即時物件偵測架構。YOLO 將影像分成網格,在單次前向傳播中為每個網格單元預測邊界框和類別機率,並過濾重疊的偵測結果。YOLOv8 和 YOLO-World 在消費級硬體上實現了高精度的即時偵測(30+ FPS)。替代方案是兩階段偵測器(如 Faster R-CNN),更精確但更慢。
邊界框是矩形——它們近似物件位置但包含背景。實例分割(Mask R-CNN、SAM)為每個物件生成像素級遮罩。全景分割將每個像素標記為特定的物件實例或背景類別。關鍵點偵測辨識物件上的特定點(人體上的關節用於姿態估計)。每種方法都在計算成本的代價下增加精確度。
傳統物件偵測器只能找到訓練類別中的物件。零樣本偵測器(Grounding DINO、OWL-ViT、YOLO-World)可以找到任何用自然語言描述的物件:「找到所有咖啡杯」即使模型從未在咖啡杯上訓練過也能運作。這之所以可能,是因為這些模型結合了視覺和語言理解,將文字描述與影像區域匹配。對於感興趣的物件經常變化的應用場景,這具有變革性意義。