任務:給定一張圖像,為每個關鍵點預測 2D 座標(x, y)(身體 17 個點:鼻子、眼睛、耳朵、肩膀、手肘、手腕、臀部、膝蓋、腳踝)。自上而下的方法先偵測人物(邊界框),再在每個框內估計姿態。自下而上的方法先偵測所有關鍵點,再將它們分組為個別人物。自上而下對少數人更準確;自下而上對人群更快。
2D 姿態給出圖像座標中的(x, y)。3D 姿態估計真實世界座標中的(x, y, z),實現深度感知(手是朝向還是遠離攝影機伸出?)。3D 姿態對動態捕捉、VR/AR 和機器人學至關重要。MotionBERT 和 4DHumans 等模型利用學習到的人體比例和物理先驗,從單張 2D 圖像估計 3D 姿態。
手部姿態估計追蹤每隻手 21 個關鍵點,實現手勢辨識和手語理解。面部特徵點偵測追蹤 468 個以上的點,用於表情分析、面部濾鏡和情感辨識。動物姿態估計將相同技術應用於四足動物,用於野生動物研究和獸醫應用。MediaPipe(Google)提供可在行動裝置上即時運行的身體、手部和面部姿態解決方案。