人工智慧領域專注於讓機器能夠解釋和理解來自世界的視覺資訊——圖片、視頻、3D場景和文件。
核心任務包括物件偵測、影像分類、分割、OCR與姿勢估計。
現代電腦視覺的基礎建立於2012年,當時一個名為AlexNet的卷積神經網絡在ImageNet競賽中以驚人的優勢獲勝。在此之前,電腦視覺依賴手工設計的特徵——工程師會手動定義「邊緣」、「角落」或「紋理」看起來的樣子,然後在這些特徵之上建立分類器。AlexNet證明了只要訓練足夠多的標記影像,深度神經網絡就能學習自己的特徵,而此後該領域的每一次突破都遵循這個原則。架構從CNN(AlexNet、VGG、ResNet)演進到視覺Transformer(ViT,將語言模型中使用的注意力機制套用於影像區塊),再到融合兩者優點的混合設計。今天,最強大的視覺系統——例如驅動GPT-4o影像理解或Google Gemini的系統——都是多模態Transformer,能在統一架構中處理影像與文字。
電腦視覺涵蓋多個不同的任務,每項任務都有其獨特的挑戰。影像分類會為整張影像指定一個標籤(「這是一隻貓」)。物件偵測則是在影像中找出特定物件並畫出邊界框——YOLO(You Only Look Once)及其後繼模型仍是即時偵測的首選,處理影像的速度可達每秒30–100+幀。語意分割會為影像中的每個像素標記(此像素是「道路」,彼像素是「行人」),這對自駕車至關重要。實體分割更進一步,區分同一類別中的不同物件(此行人與彼行人)。Meta的Segment Anything Model(SAM)在2023年讓零樣本分割成為現實,讓你可以在任何影像中分割任何物件,而無需特定任務的訓練。OCR(光學字元辨識)也因視覺語言模型而被徹底改變——現在你可以將文件影像輸入多模態模型,並獲得能理解表格、手寫字和版面的結構化文字提取,而無需專用的OCR引擎。
電腦視覺不僅僅是理解影像——它越來越強調生成影像。擴散模型(Stable Diffusion、DALL-E 3、Midjourney)透過學習逆轉一個噪聲過程來生成影像:從純噪聲開始,逐步去噪生成連貫的影像,並由文字提示引導。這種方法產生驚人的結果,但計算成本高昂——生成一張1024x1024的影像需要20–50次去噪步驟,每次都需要完整的前向傳播通過十億參數的U-Net或Transformer。視頻生成則將此概念延伸至時間維度:Runway Gen-3、Sora和Kling等模型將視頻視為必須在空間和時間上一致的幀序列。品質提升得非常快——從2023年明顯人工的片段到2025年接近寫實的短視頻,但維持更長時間的一致性(角色身份、物理規律、物件持續性)仍是開放性挑戰。
研究基準與現實部署之間的差距,正是電腦視覺變得困難的地方。一個在ImageNet上達到99%準確度的模型,可能在面對異常光照、運動模糊、遮蔽或對抗條件時表現極差。自駕車是最具風險的例子:特斯拉的純視覺方法使用八個攝影機和自訂神經網絡來即時解讀駕駛場景,而Waymo則將攝影機數據與雷達點雲融合以提供冗餘。醫學影像是另一個前沿領域——PathAI和Paige等公司的AI系統能在組織切片中以與經驗豐富的病理學家相當的準確度偵測癌症,但法規核准(美國FDA、歐洲CE認證)會讓部署時間表增加數年。工業檢測、零售分析、農業監測和衛星影像分析都是電腦視覺成熟的應用領域,技術已從概念驗證階段進入日常生產使用。
目前電腦視覺最重要的趨勢是與語言理解的融合。舊有的模式是針對特定任務的專用視覺模型——一個模型用於偵測,另一個用於分割,另一個用於描述。新的模式則是單一多模態模型,能看見並談論它所看到的內容。GPT-4o、Claude和Gemini都能接受影像作為輸入,並以自然語言進行推理:「這塊電路板哪裡出問題了?」或「從這個圖表中提取數據。」這種融合由視覺編碼器(如SigLIP或EVA-CLIP)驅動,這些編碼器將影像轉換到與文字相同的嵌入空間,讓語言模型能同時關注視覺特徵與文字。實際影響非常巨大——過去需要數月開發的客製化電腦視覺流程,現在只需對多模態模型發出一次API呼叫即可完成。