Estimación de Pose: Definición y significado — Wiki de IA

Detectar la posición y orientación del cuerpo humano (o animal, mano, rostro) en una imagen o video localizando puntos anatómicos clave — articulaciones, puntos de referencia faciales, puntas de los dedos. La salida es un esqueleto: un conjunto de keypoints conectados que representan la pose del cuerpo. OpenPose, MediaPipe y YOLO-Pose son implementaciones populares.

Por qué importa

La estimación de pose permite: apps de fitness que analizan la forma del ejercicio, reconocimiento de lengua de señas, captura de movimiento para animación, interfaces de control por gestos, analítica deportiva y detección de caídas para el cuidado de personas mayores. En la generación de imágenes con IA, los esqueletos de pose sirven como entradas de ControlNet — especificas la pose exacta del cuerpo que quieres y el modelo genera una persona en esa pose.

En profundidad

La tarea: dada una imagen, predecir coordenadas 2D (x, y) para cada keypoint (17 para el cuerpo: nariz, ojos, orejas, hombros, codos, muñecas, caderas, rodillas, tobillos). Los enfoques top-down primero detectan personas (bounding boxes), luego estiman la pose dentro de cada caja. Los enfoques bottom-up detectan todos los keypoints primero, luego los agrupan en individuos. Top-down es más preciso para pocas personas; bottom-up es más rápido para multitudes.

Pose 3D

La pose 2D da (x, y) en coordenadas de imagen. La pose 3D estima (x, y, z) en coordenadas del mundo real, permitiendo percepción de profundidad (¿la mano se acerca o se aleja de la cámara?). La pose 3D es esencial para captura de movimiento, VR/AR y robótica. Modelos como MotionBERT y 4DHumans estiman pose 3D desde una sola imagen 2D aprovechando priors aprendidos sobre proporciones del cuerpo humano y física.

Más allá de la pose corporal

La estimación de pose de manos rastrea 21 keypoints por mano, permitiendo reconocimiento de gestos y comprensión de lengua de señas. La detección de landmarks faciales rastrea más de 468 puntos para análisis de expresiones, filtros faciales y reconocimiento de emociones. La estimación de pose animal adapta las mismas técnicas a cuadrúpedos, permitiendo investigación de vida silvestre y aplicaciones veterinarias. MediaPipe (Google) proporciona soluciones en tiempo real para pose corporal, de manos y facial que funcionan en dispositivos móviles.