Pose Estimation: परिभाषा और अर्थ — AI विकी

किसी छवि या वीडियो में मानव शरीर (या जानवर, हाथ, चेहरे) की स्थिति और दिशा का पता लगाना, प्रमुख शारीरिक बिंदुओं — जोड़ों, चेहरे के landmarks, उंगलियों की नोक — का स्थान निर्धारित करके। आउटपुट एक skeleton है: शरीर की pose का प्रतिनिधित्व करने वाले जुड़े हुए keypoints का समूह। OpenPose, MediaPipe, और YOLO-Pose लोकप्रिय implementations हैं।

यह क्यों मायने रखता है

Pose estimation इन्हें सक्षम बनाता है: व्यायाम form का विश्लेषण करने वाले fitness ऐप्स, sign language recognition, animation के लिए motion capture, gesture control interfaces, sports analytics, और बुज़ुर्गों की देखभाल में fall detection। AI image generation में, pose skeletons ControlNet inputs के रूप में काम करते हैं — आप वह सटीक body pose निर्दिष्ट करते हैं जो आप चाहते हैं और मॉडल उस pose में एक व्यक्ति generate करता है।

गहन अध्ययन

कार्य: एक छवि दी जाने पर, प्रत्येक keypoint (शरीर के लिए 17: नाक, आँखें, कान, कंधे, कोहनी, कलाई, कूल्हे, घुटने, टखने) के लिए 2D coordinates (x, y) predict करें। Top-down दृष्टिकोण पहले लोगों का पता लगाते हैं (bounding boxes), फिर प्रत्येक box के भीतर pose estimate करते हैं। Bottom-up दृष्टिकोण पहले सभी keypoints का पता लगाते हैं, फिर उन्हें व्यक्तियों में समूहित करते हैं। Top-down कम लोगों के लिए अधिक सटीक है; bottom-up भीड़ के लिए तेज़ है।

3D Pose

2D pose image coordinates में (x, y) देता है। 3D pose वास्तविक-दुनिया coordinates में (x, y, z) estimate करता है, depth perception सक्षम करता है (क्या हाथ कैमरे की ओर या दूर पहुँच रहा है?)। 3D pose motion capture, VR/AR, और robotics के लिए आवश्यक है। MotionBERT और 4DHumans जैसे मॉडल मानव शरीर के अनुपात और भौतिकी के बारे में सीखे गए priors का लाभ उठाकर एकल 2D छवि से 3D pose estimate करते हैं।

Body Pose से आगे

Hand pose estimation प्रति हाथ 21 keypoints track करता है, gesture recognition और sign language understanding को सक्षम करता है। Face landmark detection expression विश्लेषण, face filters, और emotion recognition के लिए 468+ बिंदुओं को track करता है। Animal pose estimation उन्हीं तकनीकों को quadrupeds पर लागू करता है, wildlife research और veterinary अनुप्रयोगों को सक्षम करता है। MediaPipe (Google) body, hand, और face pose के लिए real-time solutions प्रदान करता है जो mobile devices पर चलते हैं।

Pose Estimation

यह क्यों मायने रखता है

गहन अध्ययन

3D Pose

Body Pose से आगे

संबंधित अवधारणाएँ