图像分割：定义与含义 — AI 维基

将图像中的每个像素分类到一个类别。语义分割按类别标记像素（道路、人行道、建筑、天空）。实例分割区分单个目标（人1、人2）。全景分割同时做两者。Meta的SAM（Segment Anything Model）可以通过点击或文本提示分割任何目标，无需特定任务的训练。

为什么重要

分割提供了对图像内容最精确的理解。自动驾驶汽车需要像素级的道路边界，而不仅仅是边界框。医学影像需要精确的肿瘤边界。照片编辑需要精确的目标掩码来去除背景。SAM零训练分割任何目标的能力使这种以前的专业能力变得人人可用。

深度解析

传统分割模型（用于医学影像的U-Net、用于通用场景的DeepLab）在特定类别上训练并产出固定类别的输出。它们在训练域内表现良好但无法分割新颖目标。SAM（Kirillov等，2023，Meta）通过在1100万张图像上训练10亿个掩码来改变这一点，学习了一种可迁移到任何领域的通用“物体性”概念，无需微调。

SAM及其影响

SAM接受一个提示（点击、边界框或文本）并为指定目标生成分割掩码。它适用于从未见过的图像和从未专门训练过的目标类型——显微镜图像、卫星照片、艺术品。SAM 2将此扩展到视频，在帧之间保持一致的目标分割。其影响：以前需要领域特定训练和昂贵标注的任务现在可以开箱即用。

应用

医学影像：分割肿瘤、器官和细胞用于诊断和治疗规划。自动驾驶：在像素级理解可行驶表面、车道标记和障碍物。照片/视频编辑：精确的背景去除、目标选择和合成。农业：通过航拍图像分析作物健康。机器人：理解目标边界以进行抓取和操作。