传统分割模型(用于医学影像的U-Net、用于通用场景的DeepLab)在特定类别上训练并产出固定类别的输出。它们在训练域内表现良好但无法分割新颖目标。SAM(Kirillov等,2023,Meta)通过在1100万张图像上训练10亿个掩码来改变这一点,学习了一种可迁移到任何领域的通用“物体性”概念,无需微调。
SAM接受一个提示(点击、边界框或文本)并为指定目标生成分割掩码。它适用于从未见过的图像和从未专门训练过的目标类型——显微镜图像、卫星照片、艺术品。SAM 2将此扩展到视频,在帧之间保持一致的目标分割。其影响:以前需要领域特定训练和昂贵标注的任务现在可以开箱即用。
医学影像:分割肿瘤、器官和细胞用于诊断和治疗规划。自动驾驶:在像素级理解可行驶表面、车道标记和障碍物。照片/视频编辑:精确的背景去除、目标选择和合成。农业:通过航拍图像分析作物健康。机器人:理解目标边界以进行抓取和操作。