Zubnet AI學習Wiki › Pose Estimation
使用AI

姿態估計

別名:身體姿態、骨架偵測、關鍵點偵測
透過定位關鍵解剖點——關節、面部特徵點、指尖——來偵測圖像或影片中人體(或動物、手、臉)的位置和方向。輸出是一個骨架:一組連接的關鍵點,代表身體的姿態。OpenPose、MediaPipe 和 YOLO-Pose 是常見的實作方案。

為什麼重要

姿態估計可實現:分析運動姿勢的健身應用程式、手語辨識、動畫的動態捕捉、手勢控制介面、運動分析,以及高齡者跌倒偵測。在 AI 圖像生成中,姿態骨架作為 ControlNet 的輸入——你可以指定精確的身體姿態,模型就會生成該姿態的人物。

深度解析

任務:給定一張圖像,為每個關鍵點預測 2D 座標(x, y)(身體 17 個點:鼻子、眼睛、耳朵、肩膀、手肘、手腕、臀部、膝蓋、腳踝)。自上而下的方法先偵測人物(邊界框),再在每個框內估計姿態。自下而上的方法先偵測所有關鍵點,再將它們分組為個別人物。自上而下對少數人更準確;自下而上對人群更快。

3D 姿態

2D 姿態給出圖像座標中的(x, y)。3D 姿態估計真實世界座標中的(x, y, z),實現深度感知(手是朝向還是遠離攝影機伸出?)。3D 姿態對動態捕捉、VR/AR 和機器人學至關重要。MotionBERT 和 4DHumans 等模型利用學習到的人體比例和物理先驗,從單張 2D 圖像估計 3D 姿態。

超越身體姿態

手部姿態估計追蹤每隻手 21 個關鍵點,實現手勢辨識和手語理解。面部特徵點偵測追蹤 468 個以上的點,用於表情分析、面部濾鏡和情感辨識。動物姿態估計將相同技術應用於四足動物,用於野生動物研究和獸醫應用。MediaPipe(Google)提供可在行動裝置上即時運行的身體、手部和面部姿態解決方案。

← 所有術語
ESC