Modelos de segmentação tradicionais (U-Net para imagens médicas, DeepLab para cenas gerais) são treinados em categorias específicas e produzem saídas de classes fixas. Funcionam bem dentro de seu domínio de treinamento mas não conseguem segmentar objetos novos. O SAM (Kirillov et al., 2023, Meta) mudou isso treinando em 1 bilhão de máscaras em 11 milhões de imagens, aprendendo uma noção geral de "objetidade" que se transfere para qualquer domínio sem ajuste.
O SAM recebe um prompt (um clique, um bounding box ou texto) e produz uma máscara de segmentação para o objeto indicado. Funciona em imagens que nunca viu, para tipos de objetos nos quais nunca foi especificamente treinado — imagens de microscopia, fotos de satélite, obras de arte. O SAM 2 estendeu isso para vídeo, mantendo segmentação consistente de objetos entre frames. O impacto: tarefas que antes exigiam treinamento específico de domínio e anotação cara agora funcionam direto da caixa.
Imagens médicas: segmentar tumores, órgãos e células para diagnóstico e planejamento de tratamento. Direção autônoma: entender a superfície dirigível, marcações de faixa e obstáculos em nível de pixel. Edição de foto/vídeo: remoção precisa de fundo, seleção de objetos e composição. Agricultura: analisar a saúde de culturas a partir de imagens aéreas. Robótica: entender limites de objetos para agarrar e manipular.