Zubnet AI学习Wiki › Pose Estimation
使用AI

Pose Estimation

别名:人体姿态、骨架检测、关键点检测
通过定位关键解剖点(关节、面部标志、指尖)来检测图像或视频中人体(或动物、手、脸)的位置和朝向。输出是一个骨架:一组表示身体姿态的连接关键点。OpenPose、MediaPipe和YOLO-Pose是常见的实现。

为什么重要

姿态估计使以下应用成为可能:分析运动姿势的健身应用、手语识别、动画动作捕捉、手势控制界面、体育分析和老年人跌倒检测。在AI图像生成中,姿态骨架作为ControlNet输入——你指定想要的精确身体姿势,模型就生成该姿势的人物。

深度解析

任务:给定图像,预测每个关键点的2D坐标(x, y)(身体17个点:鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝盖、脚踝)。自上而下的方法先检测人物(边界框),然后在每个框内估计姿态。自下而上的方法先检测所有关键点,然后将它们分组为个体。自上而下对少量人物更准确;自下而上对人群更快。

3D姿态

2D姿态给出图像坐标中的(x, y)。3D姿态估计真实世界坐标中的(x, y, z),实现深度感知(手是朝向还是远离摄像头?)。3D姿态对动作捕捉、VR/AR和机器人技术至关重要。MotionBERT和4DHumans等模型通过利用学习到的人体比例和物理先验知识,从单张2D图像估计3D姿态。

身体姿态之外

手部姿态估计追踪每只手的21个关键点,实现手势识别和手语理解。面部标志检测追踪468+个点,用于表情分析、面部滤镜和情绪识别。动物姿态估计将相同技术适配到四足动物,支持野生动物研究和兽医应用。MediaPipe(Google)提供可在移动设备上实时运行的身体、手部和面部姿态解决方案。

相关概念

← 所有术语
ESC