Zubnet AIApprendreWiki › Image Segmentation
Using AI

Image Segmentation

Semantic Segmentation, SAM, Instance Segmentation
Classifier chaque pixel dans une image dans une catégorie. La segmentation sémantique étiquette les pixels par classe (route, trottoir, bâtiment, ciel). La segmentation d'instance distingue les objets individuels (personne 1, personne 2). La segmentation panoptique fait les deux. Le SAM (Segment Anything Model) de Meta peut segmenter n'importe quel objet à partir d'un clic ou d'un prompt textuel, sans entraînement spécifique à la tâche.

Pourquoi c'est important

La segmentation fournit la compréhension la plus précise du contenu d'une image. Les voitures autonomes ont besoin de frontières de route au niveau pixel, pas juste de bounding boxes. L'imagerie médicale a besoin de frontières exactes de tumeurs. L'édition de photos a besoin de masques d'objets précis pour l'enlèvement d'arrière-plan. La capacité de SAM à segmenter n'importe quel objet avec zéro entraînement a rendu cette capacité auparavant spécialisée accessible à tout le monde.

Deep Dive

Traditional segmentation models (U-Net for medical images, DeepLab for general scenes) are trained on specific categories and produce fixed-class outputs. They work well within their training domain but can't segment novel objects. SAM (Kirillov et al., 2023, Meta) changed this by training on 1 billion masks across 11 million images, learning a general notion of "objectness" that transfers to any domain without fine-tuning.

SAM and Its Impact

SAM takes a prompt (a point click, a bounding box, or text) and produces a segmentation mask for the indicated object. It works on images it has never seen, for object types it was never specifically trained on — microscopy images, satellite photos, artwork. SAM 2 extended this to video, maintaining consistent object segmentation across frames. The impact: tasks that previously required domain-specific training and expensive annotation now work out of the box.

Applications

Medical imaging: segmenting tumors, organs, and cells for diagnosis and treatment planning. Autonomous driving: understanding the drivable surface, lane markings, and obstacles at pixel level. Photo/video editing: precise background removal, object selection, and compositing. Agriculture: analyzing crop health from aerial imagery. Robotics: understanding object boundaries for grasping and manipulation.

Concepts liés

← Tous les termes
ESC