Estimation de pose : Définition et signification — Wiki IA

Détecter la position et l'orientation d'un corps humain (ou animal, main, visage) dans une image ou une vidéo en localisant des points anatomiques clés — articulations, repères faciaux, bouts des doigts. La sortie est un squelette : un ensemble de points clés connectés représentant la pose du corps. OpenPose, MediaPipe et YOLO-Pose sont des implémentations populaires.

Pourquoi c'est important

L'estimation de pose permet : les applications de fitness qui analysent la forme des exercices, la reconnaissance de la langue des signes, la capture de mouvement pour l'animation, les interfaces de contrôle gestuel, l'analyse sportive et la détection de chutes pour les soins aux personnes âgées. Dans la génération d'images IA, les squelettes de pose servent d'entrées ControlNet — tu spécifies la pose exacte du corps souhaitée et le modèle génère une personne dans cette pose.

En profondeur

La tâche : à partir d'une image, prédire les coordonnées 2D (x, y) pour chaque point clé (17 pour le corps : nez, yeux, oreilles, épaules, coudes, poignets, hanches, genoux, chevilles). Les approches top-down détectent d'abord les personnes (boîtes englobantes), puis estiment la pose dans chaque boîte. Les approches bottom-up détectent d'abord tous les points clés, puis les regroupent par individu. Le top-down est plus précis pour peu de personnes ; le bottom-up est plus rapide pour les foules.

Pose 3D

La pose 2D donne (x, y) en coordonnées image. La pose 3D estime (x, y, z) en coordonnées réelles, permettant la perception de profondeur (la main avance-t-elle vers la caméra ou s'en éloigne-t-elle ?). La pose 3D est essentielle pour la capture de mouvement, la VR/AR et la robotique. Des modèles comme MotionBERT et 4DHumans estiment la pose 3D à partir d'une seule image 2D en s'appuyant sur des priors appris sur les proportions et la physique du corps humain.

Au-delà de la pose corporelle

L'estimation de pose de la main suit 21 points clés par main, permettant la reconnaissance gestuelle et la compréhension de la langue des signes. La détection de repères faciaux suit 468+ points pour l'analyse d'expression, les filtres de visage et la reconnaissance d'émotions. L'estimation de pose animale adapte les mêmes techniques aux quadrupèdes, permettant la recherche sur la faune et les applications vétérinaires. MediaPipe (Google) fournit des solutions en temps réel pour la pose du corps, de la main et du visage qui fonctionnent sur les appareils mobiles.