A tarefa: dada uma imagem, prever coordenadas 2D (x, y) para cada keypoint (17 para o corpo: nariz, olhos, orelhas, ombros, cotovelos, pulsos, quadris, joelhos, tornozelos). Abordagens top-down primeiro detectam pessoas (bounding boxes), depois estimam a pose dentro de cada box. Abordagens bottom-up detectam todos os keypoints primeiro, depois os agrupam em indivíduos. Top-down é mais preciso para poucas pessoas; bottom-up é mais rápido para multidões.
Pose 2D dá (x, y) em coordenadas da imagem. Pose 3D estima (x, y, z) em coordenadas do mundo real, permitindo percepção de profundidade (a mão está se estendendo em direção à câmera ou se afastando?). Pose 3D é essencial para captura de movimento, VR/AR e robótica. Modelos como MotionBERT e 4DHumans estimam pose 3D a partir de uma única imagem 2D aproveitando priors aprendidos sobre proporções e física do corpo humano.
A estimativa de pose das mãos rastreia 21 keypoints por mão, permitindo reconhecimento de gestos e compreensão de linguagem de sinais. A detecção de landmarks faciais rastreia mais de 468 pontos para análise de expressões, filtros faciais e reconhecimento de emoções. A estimativa de pose animal adapta as mesmas técnicas para quadrúpedes, possibilitando pesquisa com vida selvagem e aplicações veterinárias. O MediaPipe (Google) fornece soluções em tempo real para pose corporal, manual e facial que rodam em dispositivos móveis.