Les modèles de segmentation traditionnels (U-Net pour les images médicales, DeepLab pour les scènes générales) sont entraînés sur des catégories spécifiques et produisent des sorties à classes fixes. Ils fonctionnent bien dans leur domaine d'entraînement mais ne peuvent pas segmenter des objets nouveaux. SAM (Kirillov et al., 2023, Meta) a changé ça en s'entraînant sur 1 milliard de masques à travers 11 millions d'images, apprenant une notion générale de ce qu'est un « objet » qui se transfère à n'importe quel domaine sans fine-tuning.
SAM prend un prompt (un clic de point, une boîte englobante ou du texte) et produit un masque de segmentation pour l'objet indiqué. Ça fonctionne sur des images qu'il n'a jamais vues, pour des types d'objets sur lesquels il n'a jamais été spécifiquement entraîné — images de microscopie, photos satellite, œuvres d'art. SAM 2 a étendu ça à la vidéo, maintenant une segmentation d'objets cohérente à travers les images. L'impact : des tâches qui nécessitaient auparavant un entraînement spécifique au domaine et une annotation coûteuse fonctionnent maintenant directement.
Imagerie médicale : segmenter les tumeurs, organes et cellules pour le diagnostic et la planification de traitement. Conduite autonome : comprendre la surface carrossable, les marquages de voie et les obstacles au niveau du pixel. Retouche photo/vidéo : suppression précise du fond, sélection d'objets et composition. Agriculture : analyser la santé des cultures à partir d'imagerie aérienne. Robotique : comprendre les limites des objets pour la saisie et la manipulation.