La tarea: dada una imagen, predecir coordenadas 2D (x, y) para cada keypoint (17 para el cuerpo: nariz, ojos, orejas, hombros, codos, muñecas, caderas, rodillas, tobillos). Los enfoques top-down primero detectan personas (bounding boxes), luego estiman la pose dentro de cada caja. Los enfoques bottom-up detectan todos los keypoints primero, luego los agrupan en individuos. Top-down es más preciso para pocas personas; bottom-up es más rápido para multitudes.
La pose 2D da (x, y) en coordenadas de imagen. La pose 3D estima (x, y, z) en coordenadas del mundo real, permitiendo percepción de profundidad (¿la mano se acerca o se aleja de la cámara?). La pose 3D es esencial para captura de movimiento, VR/AR y robótica. Modelos como MotionBERT y 4DHumans estiman pose 3D desde una sola imagen 2D aprovechando priors aprendidos sobre proporciones del cuerpo humano y física.
La estimación de pose de manos rastrea 21 keypoints por mano, permitiendo reconocimiento de gestos y comprensión de lengua de señas. La detección de landmarks faciales rastrea más de 468 puntos para análisis de expresiones, filtros faciales y reconocimiento de emociones. La estimación de pose animal adapta las mismas técnicas a cuadrúpedos, permitiendo investigación de vida silvestre y aplicaciones veterinarias. MediaPipe (Google) proporciona soluciones en tiempo real para pose corporal, de manos y facial que funcionan en dispositivos móviles.