Segmentación de Imágenes: Definición y significado — Wiki de IA

Clasificar cada píxel de una imagen en una categoría. La segmentación semántica etiqueta píxeles por clase (carretera, acera, edificio, cielo). La segmentación de instancias distingue objetos individuales (persona 1, persona 2). La segmentación panóptica hace ambas cosas. SAM (Segment Anything Model) de Meta puede segmentar cualquier objeto con un clic o prompt de texto, sin entrenamiento específico para la tarea.

Por qué importa

La segmentación proporciona la comprensión más precisa del contenido de una imagen. Los autos autónomos necesitan límites de carretera a nivel de píxel, no solo bounding boxes. Las imágenes médicas necesitan límites exactos de tumores. La edición de fotos necesita máscaras precisas de objetos para eliminación de fondo. La capacidad de SAM para segmentar cualquier objeto sin entrenamiento hizo que esta capacidad previamente especializada fuera accesible para todos.

En profundidad

Los modelos de segmentación tradicionales (U-Net para imágenes médicas, DeepLab para escenas generales) se entrenan en categorías específicas y producen salidas de clases fijas. Funcionan bien dentro de su dominio de entrenamiento pero no pueden segmentar objetos nuevos. SAM (Kirillov et al., 2023, Meta) cambió esto entrenando con mil millones de máscaras en 11 millones de imágenes, aprendiendo una noción general de "objetidad" que se transfiere a cualquier dominio sin ajuste fino.

SAM y su impacto

SAM toma un prompt (un clic, un bounding box o texto) y produce una máscara de segmentación para el objeto indicado. Funciona en imágenes que nunca ha visto, para tipos de objetos para los que nunca fue entrenado específicamente — imágenes de microscopio, fotos satelitales, obras de arte. SAM 2 extendió esto a video, manteniendo segmentación consistente de objetos entre frames. El impacto: tareas que previamente requerían entrenamiento específico de dominio y anotación costosa ahora funcionan de manera inmediata.

Aplicaciones

Imágenes médicas: segmentar tumores, órganos y células para diagnóstico y planificación de tratamiento. Conducción autónoma: entender la superficie transitable, marcas de carril y obstáculos a nivel de píxel. Edición de foto/video: eliminación precisa de fondo, selección de objetos y composición. Agricultura: analizar la salud de cultivos desde imágenes aéreas. Robótica: entender límites de objetos para agarre y manipulación.