Estimativa de Pose: Definição e significado — Wiki de IA

Detectar a posição e orientação de um corpo humano (ou animal, mão, rosto) em uma imagem ou vídeo localizando pontos anatômicos-chave — articulações, landmarks faciais, pontas dos dedos. A saída é um esqueleto: um conjunto de keypoints conectados representando a pose do corpo. OpenPose, MediaPipe e YOLO-Pose são implementações populares.

Por que isso importa

A estimativa de pose possibilita: apps de fitness que analisam a forma do exercício, reconhecimento de linguagem de sinais, captura de movimento para animação, interfaces de controle por gestos, análise esportiva e detecção de quedas para idosos. Na geração de imagens com IA, esqueletos de pose servem como inputs para ControlNet — você especifica a pose corporal exata que deseja e o modelo gera uma pessoa nessa pose.

Em profundidade

A tarefa: dada uma imagem, prever coordenadas 2D (x, y) para cada keypoint (17 para o corpo: nariz, olhos, orelhas, ombros, cotovelos, pulsos, quadris, joelhos, tornozelos). Abordagens top-down primeiro detectam pessoas (bounding boxes), depois estimam a pose dentro de cada box. Abordagens bottom-up detectam todos os keypoints primeiro, depois os agrupam em indivíduos. Top-down é mais preciso para poucas pessoas; bottom-up é mais rápido para multidões.

Pose 3D

Pose 2D dá (x, y) em coordenadas da imagem. Pose 3D estima (x, y, z) em coordenadas do mundo real, permitindo percepção de profundidade (a mão está se estendendo em direção à câmera ou se afastando?). Pose 3D é essencial para captura de movimento, VR/AR e robótica. Modelos como MotionBERT e 4DHumans estimam pose 3D a partir de uma única imagem 2D aproveitando priors aprendidos sobre proporções e física do corpo humano.

Além da Pose Corporal

A estimativa de pose das mãos rastreia 21 keypoints por mão, permitindo reconhecimento de gestos e compreensão de linguagem de sinais. A detecção de landmarks faciais rastreia mais de 468 pontos para análise de expressões, filtros faciais e reconhecimento de emoções. A estimativa de pose animal adapta as mesmas técnicas para quadrúpedes, possibilitando pesquisa com vida selvagem e aplicações veterinárias. O MediaPipe (Google) fornece soluções em tempo real para pose corporal, manual e facial que rodam em dispositivos móveis.