傳統分割模型(用於醫學影像的 U-Net、用於一般場景的 DeepLab)在特定類別上訓練並產生固定類別輸出。它們在訓練領域內運作良好,但無法分割新穎的物件。SAM(Kirillov 等人,2023,Meta)透過在 1,100 萬張影像上訓練 10 億個遮罩改變了這一點,學習了一種通用的「物件性」概念,無需微調即可遷移到任何領域。
SAM 接受提示(點擊、邊界框或文字),並為指定物件生成分割遮罩。它可以處理從未見過的影像,用於從未專門訓練過的物件類型——顯微影像、衛星照片、藝術品。SAM 2 將此擴展到影片,在幀間維持一致的物件分割。影響:以前需要特定領域訓練和昂貴標注的任務現在可以開箱即用。
醫學影像:分割腫瘤、器官和細胞用於診斷和治療規劃。自動駕駛:在像素層級理解可行駛表面、車道標記和障礙物。照片/影片編輯:精確的背景移除、物件選取和合成。農業:從空拍影像分析作物健康。機器人技術:理解物件邊界以進行抓取和操作。