Segmentação de Imagem: Definição e significado — Wiki de IA

Classificar cada pixel de uma imagem em uma categoria. Segmentação semântica rotula pixels por classe (estrada, calçada, prédio, céu). Segmentação de instância distingue objetos individuais (pessoa 1, pessoa 2). Segmentação panóptica faz ambos. O SAM (Segment Anything Model) da Meta pode segmentar qualquer objeto a partir de um clique ou prompt de texto, sem treinamento específico para a tarefa.

Por que isso importa

Segmentação fornece a compreensão mais precisa do conteúdo de uma imagem. Carros autônomos precisam de limites de estrada em nível de pixel, não apenas bounding boxes. Imagens médicas precisam de limites exatos de tumores. Edição de fotos precisa de máscaras precisas de objetos para remoção de fundo. A capacidade do SAM de segmentar qualquer objeto com zero treinamento tornou essa capacidade antes especializada acessível a todos.

Em profundidade

Modelos de segmentação tradicionais (U-Net para imagens médicas, DeepLab para cenas gerais) são treinados em categorias específicas e produzem saídas de classes fixas. Funcionam bem dentro de seu domínio de treinamento mas não conseguem segmentar objetos novos. O SAM (Kirillov et al., 2023, Meta) mudou isso treinando em 1 bilhão de máscaras em 11 milhões de imagens, aprendendo uma noção geral de "objetidade" que se transfere para qualquer domínio sem ajuste.

SAM e Seu Impacto

O SAM recebe um prompt (um clique, um bounding box ou texto) e produz uma máscara de segmentação para o objeto indicado. Funciona em imagens que nunca viu, para tipos de objetos nos quais nunca foi especificamente treinado — imagens de microscopia, fotos de satélite, obras de arte. O SAM 2 estendeu isso para vídeo, mantendo segmentação consistente de objetos entre frames. O impacto: tarefas que antes exigiam treinamento específico de domínio e anotação cara agora funcionam direto da caixa.

Aplicações

Imagens médicas: segmentar tumores, órgãos e células para diagnóstico e planejamento de tratamento. Direção autônoma: entender a superfície dirigível, marcações de faixa e obstáculos em nível de pixel. Edição de foto/vídeo: remoção precisa de fundo, seleção de objetos e composição. Agricultura: analisar a saúde de culturas a partir de imagens aéreas. Robótica: entender limites de objetos para agarrar e manipular.