使用AI

Pose Estimation

别名：人体姿态、骨架检测、关键点检测

通过定位关键解剖点（关节、面部标志、指尖）来检测图像或视频中人体（或动物、手、脸）的位置和朝向。输出是一个骨架：一组表示身体姿态的连接关键点。OpenPose、MediaPipe和YOLO-Pose是常见的实现。

为什么重要

姿态估计使以下应用成为可能：分析运动姿势的健身应用、手语识别、动画动作捕捉、手势控制界面、体育分析和老年人跌倒检测。在AI图像生成中，姿态骨架作为ControlNet输入——你指定想要的精确身体姿势，模型就生成该姿势的人物。

深度解析

任务：给定图像，预测每个关键点的2D坐标（x, y）（身体17个点：鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝盖、脚踝）。自上而下的方法先检测人物（边界框），然后在每个框内估计姿态。自下而上的方法先检测所有关键点，然后将它们分组为个体。自上而下对少量人物更准确；自下而上对人群更快。

3D姿态

2D姿态给出图像坐标中的（x, y）。3D姿态估计真实世界坐标中的（x, y, z），实现深度感知（手是朝向还是远离摄像头？）。3D姿态对动作捕捉、VR/AR和机器人技术至关重要。MotionBERT和4DHumans等模型通过利用学习到的人体比例和物理先验知识，从单张2D图像估计3D姿态。

身体姿态之外

手部姿态估计追踪每只手的21个关键点，实现手势识别和手语理解。面部标志检测追踪468+个点，用于表情分析、面部滤镜和情绪识别。动物姿态估计将相同技术适配到四足动物，支持野生动物研究和兽医应用。MediaPipe（Google）提供可在移动设备上实时运行的身体、手部和面部姿态解决方案。

相关概念

← 所有术语