Segmentation d'images : Définition et signification — Wiki IA

Classifier chaque pixel d'une image dans une catégorie. La segmentation sémantique étiquette les pixels par classe (route, trottoir, bâtiment, ciel). La segmentation d'instances distingue les objets individuels (personne 1, personne 2). La segmentation panoptique fait les deux. SAM (Segment Anything Model) de Meta peut segmenter n'importe quel objet à partir d'un clic de point ou d'un prompt textuel, sans entraînement spécifique à la tâche.

Pourquoi c'est important

La segmentation fournit la compréhension la plus précise du contenu d'une image. Les voitures autonomes ont besoin de limites de route au pixel près, pas juste de boîtes englobantes. L'imagerie médicale a besoin de contours de tumeurs exacts. La retouche photo a besoin de masques d'objets précis pour la suppression de fond. La capacité de SAM à segmenter n'importe quel objet sans entraînement a rendu cette capacité auparavant spécialisée accessible à tout le monde.

En profondeur

Les modèles de segmentation traditionnels (U-Net pour les images médicales, DeepLab pour les scènes générales) sont entraînés sur des catégories spécifiques et produisent des sorties à classes fixes. Ils fonctionnent bien dans leur domaine d'entraînement mais ne peuvent pas segmenter des objets nouveaux. SAM (Kirillov et al., 2023, Meta) a changé ça en s'entraînant sur 1 milliard de masques à travers 11 millions d'images, apprenant une notion générale de ce qu'est un « objet » qui se transfère à n'importe quel domaine sans fine-tuning.

SAM et son impact

SAM prend un prompt (un clic de point, une boîte englobante ou du texte) et produit un masque de segmentation pour l'objet indiqué. Ça fonctionne sur des images qu'il n'a jamais vues, pour des types d'objets sur lesquels il n'a jamais été spécifiquement entraîné — images de microscopie, photos satellite, œuvres d'art. SAM 2 a étendu ça à la vidéo, maintenant une segmentation d'objets cohérente à travers les images. L'impact : des tâches qui nécessitaient auparavant un entraînement spécifique au domaine et une annotation coûteuse fonctionnent maintenant directement.

Applications

Imagerie médicale : segmenter les tumeurs, organes et cellules pour le diagnostic et la planification de traitement. Conduite autonome : comprendre la surface carrossable, les marquages de voie et les obstacles au niveau du pixel. Retouche photo/vidéo : suppression précise du fond, sélection d'objets et composition. Agriculture : analyser la santé des cultures à partir d'imagerie aérienne. Robotique : comprendre les limites des objets pour la saisie et la manipulation.