Los modelos de segmentación tradicionales (U-Net para imágenes médicas, DeepLab para escenas generales) se entrenan en categorías específicas y producen salidas de clases fijas. Funcionan bien dentro de su dominio de entrenamiento pero no pueden segmentar objetos nuevos. SAM (Kirillov et al., 2023, Meta) cambió esto entrenando con mil millones de máscaras en 11 millones de imágenes, aprendiendo una noción general de "objetidad" que se transfiere a cualquier dominio sin ajuste fino.
SAM toma un prompt (un clic, un bounding box o texto) y produce una máscara de segmentación para el objeto indicado. Funciona en imágenes que nunca ha visto, para tipos de objetos para los que nunca fue entrenado específicamente — imágenes de microscopio, fotos satelitales, obras de arte. SAM 2 extendió esto a video, manteniendo segmentación consistente de objetos entre frames. El impacto: tareas que previamente requerían entrenamiento específico de dominio y anotación costosa ahora funcionan de manera inmediata.
Imágenes médicas: segmentar tumores, órganos y células para diagnóstico y planificación de tratamiento. Conducción autónoma: entender la superficie transitable, marcas de carril y obstáculos a nivel de píxel. Edición de foto/video: eliminación precisa de fondo, selección de objetos y composición. Agricultura: analizar la salud de cultivos desde imágenes aéreas. Robótica: entender límites de objetos para agarre y manipulación.