कार्य: एक छवि दी जाने पर, प्रत्येक keypoint (शरीर के लिए 17: नाक, आँखें, कान, कंधे, कोहनी, कलाई, कूल्हे, घुटने, टखने) के लिए 2D coordinates (x, y) predict करें। Top-down दृष्टिकोण पहले लोगों का पता लगाते हैं (bounding boxes), फिर प्रत्येक box के भीतर pose estimate करते हैं। Bottom-up दृष्टिकोण पहले सभी keypoints का पता लगाते हैं, फिर उन्हें व्यक्तियों में समूहित करते हैं। Top-down कम लोगों के लिए अधिक सटीक है; bottom-up भीड़ के लिए तेज़ है।
2D pose image coordinates में (x, y) देता है। 3D pose वास्तविक-दुनिया coordinates में (x, y, z) estimate करता है, depth perception सक्षम करता है (क्या हाथ कैमरे की ओर या दूर पहुँच रहा है?)। 3D pose motion capture, VR/AR, और robotics के लिए आवश्यक है। MotionBERT और 4DHumans जैसे मॉडल मानव शरीर के अनुपात और भौतिकी के बारे में सीखे गए priors का लाभ उठाकर एकल 2D छवि से 3D pose estimate करते हैं।
Hand pose estimation प्रति हाथ 21 keypoints track करता है, gesture recognition और sign language understanding को सक्षम करता है। Face landmark detection expression विश्लेषण, face filters, और emotion recognition के लिए 468+ बिंदुओं को track करता है। Animal pose estimation उन्हीं तकनीकों को quadrupeds पर लागू करता है, wildlife research और veterinary अनुप्रयोगों को सक्षम करता है। MediaPipe (Google) body, hand, और face pose के लिए real-time solutions प्रदान करता है जो mobile devices पर चलते हैं।