कंप्यूटर विजन पहला क्षेत्र था जहां डीप लर्निंग मनुष्य के प्रदर्शन को स्पष्ट रूप से पार कर गई (ImageNet 2012), और यह अभी भी सबसे अधिक व्यावसायिक रूप से प्रभावी AI अनुप्रयोगों में से एक बनी हुई है। हर AI छवि या वीडियो जो आप उत्पन्न करते हैं, हर दस्तावेज जिसे आप OCR करते हैं, हर सुरक्षा कैमरा जिसमें स्मार्ट डिटेक्शन होता है — यह सब कंप्यूटर विजन है।
आधुनिक कंप्यूटर विज़न 2012 में बनी एक नींव पर टिका है, जब AlexNet नामक एक कन्वोल्यूशनल न्यूरल नेटवर्क ने ImageNet प्रतियोगिता को चौंकाने वाले अंतर से जीता। उससे पहले, कंप्यूटर विज़न हाथ से बनाई गई फ़ीचर्स पर निर्भर था — इंजीनियर मैन्युअल रूप से परिभाषित करते कि एक "edge", "corner" या "texture" कैसा दिखता है, फिर उन फ़ीचर्स के ऊपर classifier बनाते। AlexNet ने साबित किया कि पर्याप्त लेबल वाली छवियों पर प्रशिक्षित एक डीप न्यूरल नेटवर्क अपनी खुद की फ़ीचर्स सीख सकता है, और इस क्षेत्र में हर बाद की सफलता ने इसी सिद्धांत का अनुसरण किया है। आर्किटेक्चर CNN (AlexNet, VGG, ResNet) से Vision Transformers (ViT, जो भाषा मॉडलों में उपयोग किए गए उसी attention mechanism को छवि patches पर लागू करता है) तक और दोनों का सर्वश्रेष्ठ संयोजन करने वाले हाइब्रिड डिज़ाइनों तक विकसित हुए हैं। आज, सबसे सक्षम विज़न सिस्टम — जैसे GPT-4o की छवि समझ या Google के Gemini को शक्ति देने वाले — मल्टीमोडल ट्रांसफ़ॉर्मर हैं जो छवियों और टेक्स्ट को एक एकीकृत आर्किटेक्चर में प्रोसेस करते हैं।
कंप्यूटर विज़न में कई अलग-अलग कार्य शामिल हैं, हर एक की अपनी चुनौतियाँ हैं। Image classification एक पूरी छवि को एक लेबल देता है ("यह एक बिल्ली है")। Object detection एक छवि के भीतर विशिष्ट वस्तुओं को खोजता है और उनके चारों ओर bounding boxes बनाता है — YOLO (You Only Look Once) और इसके वंशज वास्तविक समय पहचान के लिए पसंदीदा परिवार बने हुए हैं, जो प्रति सेकंड 30–100+ फ़्रेम पर वीडियो प्रोसेस करते हैं। Semantic segmentation एक छवि में हर एक pixel को लेबल करता है (यह pixel "road", वह pixel "pedestrian"), जो स्वायत्त ड्राइविंग के लिए महत्वपूर्ण है। Instance segmentation और आगे जाता है, एक ही वर्ग की अलग-अलग वस्तुओं के बीच भेद करता है (यह pedestrian बनाम वह pedestrian)। Meta के Segment Anything Model (SAM) ने 2023 में zero-shot segmentation को व्यावहारिक बना दिया, जिससे आप किसी भी छवि में किसी भी वस्तु को कार्य-विशिष्ट प्रशिक्षण के बिना segment कर सकते हैं। और OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) को विज़न-भाषा मॉडलों ने बदल दिया है — विशेष OCR engines के बजाय, अब आप एक दस्तावेज़ छवि को मल्टीमोडल मॉडल में फ़ीड कर सकते हैं और संरचित टेक्स्ट निष्कर्षण प्राप्त कर सकते हैं जो tables, हस्तलेखन और layout को समझता है।
कंप्यूटर विज़न केवल छवियों को समझने के बारे में नहीं है — यह तेज़ी से उन्हें बनाने के बारे में भी है। डिफ़्यूज़न मॉडल (Stable Diffusion, DALL-E 3, Midjourney) एक noise process को उल्टा करना सीखकर छवियाँ generate करते हैं: शुद्ध noise से शुरू करें और उसे एक coherent छवि में iteratively denoise करें, एक टेक्स्ट prompt द्वारा निर्देशित। यह दृष्टिकोण आश्चर्यजनक परिणाम देता है लेकिन कम्प्यूटेशनल रूप से महंगा है — एक 1024x1024 छवि generate करने के लिए 20–50 denoising steps की आवश्यकता होती है, जिनमें से प्रत्येक एक billion-parameter U-Net या ट्रांसफ़ॉर्मर के माध्यम से एक पूर्ण forward pass शामिल करता है। वीडियो जनरेशन इसे कालिक आयाम तक बढ़ाता है: Runway Gen-3, Sora और Kling जैसे मॉडल वीडियो को frames के अनुक्रम के रूप में मानकर generate करते हैं जिन्हें स्थानिक और कालिक रूप से coherent होना चाहिए। गुणवत्ता उल्लेखनीय रूप से तेज़ी से बेहतर हुई है — 2023 में स्पष्ट रूप से कृत्रिम क्लिप से लेकर 2025 में लगभग फ़ोटो-यथार्थवादी छोटे वीडियो तक — हालाँकि लंबी अवधि (पात्र की पहचान, भौतिकी, वस्तु की स्थिरता) पर एकरूपता बनाए रखना एक खुली चुनौती बना हुआ है।
शोध बेंचमार्क और वास्तविक दुनिया की तैनाती के बीच का अंतर वह जगह है जहाँ कंप्यूटर विज़न कठिन हो जाता है। एक मॉडल जो ImageNet पर 99% सटीकता प्राप्त करता है, असामान्य प्रकाश, motion blur, occlusion या प्रतिकूल परिस्थितियों का सामना करने पर शानदार ढंग से विफल हो सकता है। स्वायत्त वाहन सबसे ज़्यादा दाँव पर लगे उदाहरण हैं: Tesla का केवल-विज़न दृष्टिकोण आठ कैमरों और एक custom न्यूरल नेटवर्क का उपयोग करके वास्तविक समय में ड्राइविंग दृश्य की व्याख्या करता है, जबकि Waymo अतिरेक के लिए कैमरा डेटा को lidar point clouds के साथ जोड़ता है। चिकित्सा इमेजिंग एक और सीमा है — PathAI और Paige जैसी कंपनियों के AI सिस्टम अनुभवी पैथोलॉजिस्ट के बराबर सटीकता के साथ histology slides में कैंसर का पता लगा सकते हैं, लेकिन नियामक अनुमोदन (US में FDA clearance, यूरोप में CE marking) तैनाती की समय-सीमा में वर्षों जोड़ देता है। औद्योगिक निरीक्षण, खुदरा एनालिटिक्स, कृषि निगरानी, और उपग्रह इमेजरी विश्लेषण सभी परिपक्व कंप्यूटर विज़न अनुप्रयोग हैं जहाँ तकनीक प्रूफ-ऑफ-कॉन्सेप्ट चरण से बहुत आगे दैनिक उत्पादन उपयोग में पहुँच गई है।
अभी कंप्यूटर विज़न में सबसे महत्वपूर्ण रुझान भाषा समझ के साथ इसका विलय है। पुराना प्रतिमान विशेष कार्यों के लिए विशेष विज़न मॉडल था — पहचान के लिए एक मॉडल, segmentation के लिए दूसरा, captioning के लिए तीसरा। नया प्रतिमान एक एकल मल्टीमोडल मॉडल है जो देख सकता है और जो वह देखता है उसके बारे में बात कर सकता है। GPT-4o, Claude, और Gemini सभी छवियों को इनपुट के रूप में स्वीकार कर सकते हैं और प्राकृतिक भाषा में उनके बारे में तर्क कर सकते हैं: "इस circuit board में क्या गलत है?" या "इस chart से डेटा निकालें।" यह अभिसरण विज़न encoders (जैसे SigLIP या EVA-CLIP) द्वारा संचालित है जो छवियों को टेक्स्ट के समान embedding space में अनुवाद करते हैं, जिससे भाषा मॉडल शब्दों के साथ-साथ दृश्य फ़ीचर्स पर भी ध्यान दे सकता है। व्यावहारिक प्रभाव बहुत बड़ा है — ऐसे कार्य जिनमें कभी महीनों के विकास के साथ custom कंप्यूटर विज़न पाइपलाइनों की आवश्यकता होती थी, अब एक मल्टीमोडल मॉडल को एक एकल API call से पूरे किए जा सकते हैं।