姿態估計：定義與含義 — AI 維基

透過定位關鍵解剖點——關節、面部特徵點、指尖——來偵測圖像或影片中人體（或動物、手、臉）的位置和方向。輸出是一個骨架：一組連接的關鍵點，代表身體的姿態。OpenPose、MediaPipe 和 YOLO-Pose 是常見的實作方案。

為什麼重要

姿態估計可實現：分析運動姿勢的健身應用程式、手語辨識、動畫的動態捕捉、手勢控制介面、運動分析，以及高齡者跌倒偵測。在 AI 圖像生成中，姿態骨架作為 ControlNet 的輸入——你可以指定精確的身體姿態，模型就會生成該姿態的人物。

深度解析

任務：給定一張圖像，為每個關鍵點預測 2D 座標（x, y）（身體 17 個點：鼻子、眼睛、耳朵、肩膀、手肘、手腕、臀部、膝蓋、腳踝）。自上而下的方法先偵測人物（邊界框），再在每個框內估計姿態。自下而上的方法先偵測所有關鍵點，再將它們分組為個別人物。自上而下對少數人更準確；自下而上對人群更快。

3D 姿態

2D 姿態給出圖像座標中的（x, y）。3D 姿態估計真實世界座標中的（x, y, z），實現深度感知（手是朝向還是遠離攝影機伸出？）。3D 姿態對動態捕捉、VR/AR 和機器人學至關重要。MotionBERT 和 4DHumans 等模型利用學習到的人體比例和物理先驗，從單張 2D 圖像估計 3D 姿態。

超越身體姿態

手部姿態估計追蹤每隻手 21 個關鍵點，實現手勢辨識和手語理解。面部特徵點偵測追蹤 468 個以上的點，用於表情分析、面部濾鏡和情感辨識。動物姿態估計將相同技術應用於四足動物，用於野生動物研究和獸醫應用。MediaPipe（Google）提供可在行動裝置上即時運行的身體、手部和面部姿態解決方案。