任务:给定图像,预测每个关键点的2D坐标(x, y)(身体17个点:鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝盖、脚踝)。自上而下的方法先检测人物(边界框),然后在每个框内估计姿态。自下而上的方法先检测所有关键点,然后将它们分组为个体。自上而下对少量人物更准确;自下而上对人群更快。
2D姿态给出图像坐标中的(x, y)。3D姿态估计真实世界坐标中的(x, y, z),实现深度感知(手是朝向还是远离摄像头?)。3D姿态对动作捕捉、VR/AR和机器人技术至关重要。MotionBERT和4DHumans等模型通过利用学习到的人体比例和物理先验知识,从单张2D图像估计3D姿态。
手部姿态估计追踪每只手的21个关键点,实现手势识别和手语理解。面部标志检测追踪468+个点,用于表情分析、面部滤镜和情绪识别。动物姿态估计将相同技术适配到四足动物,支持野生动物研究和兽医应用。MediaPipe(Google)提供可在移动设备上实时运行的身体、手部和面部姿态解决方案。