La tâche : à partir d'une image, prédire les coordonnées 2D (x, y) pour chaque point clé (17 pour le corps : nez, yeux, oreilles, épaules, coudes, poignets, hanches, genoux, chevilles). Les approches top-down détectent d'abord les personnes (boîtes englobantes), puis estiment la pose dans chaque boîte. Les approches bottom-up détectent d'abord tous les points clés, puis les regroupent par individu. Le top-down est plus précis pour peu de personnes ; le bottom-up est plus rapide pour les foules.
La pose 2D donne (x, y) en coordonnées image. La pose 3D estime (x, y, z) en coordonnées réelles, permettant la perception de profondeur (la main avance-t-elle vers la caméra ou s'en éloigne-t-elle ?). La pose 3D est essentielle pour la capture de mouvement, la VR/AR et la robotique. Des modèles comme MotionBERT et 4DHumans estiment la pose 3D à partir d'une seule image 2D en s'appuyant sur des priors appris sur les proportions et la physique du corps humain.
L'estimation de pose de la main suit 21 points clés par main, permettant la reconnaissance gestuelle et la compréhension de la langue des signes. La détection de repères faciaux suit 468+ points pour l'analyse d'expression, les filtres de visage et la reconnaissance d'émotions. L'estimation de pose animale adapte les mêmes techniques aux quadrupèdes, permettant la recherche sur la faune et les applications vétérinaires. MediaPipe (Google) fournit des solutions en temps réel pour la pose du corps, de la main et du visage qui fonctionnent sur les appareils mobiles.