Zubnet AIApprendreWiki › Pose Estimation
Using AI

Pose Estimation

Body Pose, Skeleton Detection, Keypoint Detection
Détecter la position et l'orientation d'un corps humain (ou animal, main, visage) dans une image ou une vidéo en localisant des points anatomiques clés — articulations, points de repère faciaux, bouts des doigts. La sortie est un squelette : un ensemble de keypoints connectés représentant la pose du corps. OpenPose, MediaPipe et YOLO-Pose sont des implémentations populaires.

Pourquoi c'est important

L'estimation de pose permet : les apps de fitness qui analysent la forme d'exercice, la reconnaissance de la langue des signes, la capture de mouvement pour l'animation, les interfaces de contrôle par gestes, les analytics sportifs et la détection de chute pour le soin des personnes âgées. En génération d'images IA, les squelettes de pose servent d'entrées ControlNet — tu spécifies la pose exacte du corps que tu veux et le modèle génère une personne dans cette pose.

Deep Dive

The task: given an image, predict 2D coordinates (x, y) for each keypoint (17 for body: nose, eyes, ears, shoulders, elbows, wrists, hips, knees, ankles). Top-down approaches first detect people (bounding boxes), then estimate pose within each box. Bottom-up approaches detect all keypoints first, then group them into individuals. Top-down is more accurate for few people; bottom-up is faster for crowds.

3D Pose

2D pose gives (x, y) in image coordinates. 3D pose estimates (x, y, z) in real-world coordinates, enabling depth perception (is the hand reaching toward or away from the camera?). 3D pose is essential for motion capture, VR/AR, and robotics. Models like MotionBERT and 4DHumans estimate 3D pose from a single 2D image by leveraging learned priors about human body proportions and physics.

Beyond Body Pose

Hand pose estimation tracks 21 keypoints per hand, enabling gesture recognition and sign language understanding. Face landmark detection tracks 468+ points for expression analysis, face filters, and emotion recognition. Animal pose estimation adapts the same techniques to quadrupeds, enabling wildlife research and veterinary applications. MediaPipe (Google) provides real-time solutions for body, hand, and face pose that run on mobile devices.

Concepts liés

← Tous les termes
ESC