Image Segmentation（影像分割）：定義與含義 — AI 維基

將影像中的每個像素分類到一個類別中。語義分割按類別標記像素（道路、人行道、建築物、天空）。實例分割區分個別物件（人 1、人 2）。全景分割同時做到兩者。Meta 的 SAM（Segment Anything Model）可以從點擊或文字提示分割任何物件，無需特定任務訓練。

為什麼重要

分割提供了最精確的影像內容理解。自駕車需要像素級的道路邊界，而不僅僅是邊界框。醫學影像需要精確的腫瘤邊界。照片編輯需要精確的物件遮罩來移除背景。SAM 在零訓練的情況下分割任何物件的能力，使這個以前需要專業技術的能力變得人人可用。

深度解析

傳統分割模型（用於醫學影像的 U-Net、用於一般場景的 DeepLab）在特定類別上訓練並產生固定類別輸出。它們在訓練領域內運作良好，但無法分割新穎的物件。SAM（Kirillov 等人，2023，Meta）透過在 1,100 萬張影像上訓練 10 億個遮罩改變了這一點，學習了一種通用的「物件性」概念，無需微調即可遷移到任何領域。

SAM 及其影響

SAM 接受提示（點擊、邊界框或文字），並為指定物件生成分割遮罩。它可以處理從未見過的影像，用於從未專門訓練過的物件類型——顯微影像、衛星照片、藝術品。SAM 2 將此擴展到影片，在幀間維持一致的物件分割。影響：以前需要特定領域訓練和昂貴標注的任務現在可以開箱即用。

應用

醫學影像：分割腫瘤、器官和細胞用於診斷和治療規劃。自動駕駛：在像素層級理解可行駛表面、車道標記和障礙物。照片/影片編輯：精確的背景移除、物件選取和合成。農業：從空拍影像分析作物健康。機器人技術：理解物件邊界以進行抓取和操作。

Image Segmentation

為什麼重要

深度解析

SAM 及其影響

應用

相關概念