计算机视觉：定义与含义 — AI 维基

人工智能领域专注于使机器能够解读和理解来自世界的各种视觉信息—图像、视频、3D场景和文档。计算机视觉（Computer Vision）驱动了从面部识别、自动驾驶到医学影像和AI图像生成等众多应用。核心任务包括物体检测、图像分类、分割、OCR和姿态估计。

为什么重要

计算机视觉是深度学习首次超越人类表现的领域（ImageNet 2012），并且它仍然是商业影响力最大的AI应用之一。你生成的每一张AI图像或视频，你进行OCR的每一份文档，配备智能检测的每一台安防摄像头——这一切都是计算机视觉。

深度解析

现代计算机视觉的基础建立于2012年，当时一个名为AlexNet的卷积神经网络在ImageNet竞赛中以巨大优势获胜。在此之前，计算机视觉依赖于手工设计的特征——工程师会手动定义“边缘”、“角点”或“纹理”等特征的外观，然后在这些特征基础上构建分类器。AlexNet证明了通过足够多的标注图像训练的深度神经网络可以自行学习特征，此后该领域的所有突破都遵循这一原则。架构从CNN（AlexNet、VGG、ResNet）演进到视觉Transformer（ViT，将语言模型中使用的注意力机制应用于图像块）再到融合两者的混合设计。如今，最先进的视觉系统——如驱动GPT-4o图像理解或Google Gemini的系统——都是多模态Transformer，它们在统一架构中处理图像和文本。

核心任务与实现方式

计算机视觉包含多个不同的任务，每个任务都有其独特挑战。图像分类为整张图像分配标签（“这是猫”）。目标检测在图像中找到特定对象并围绕它们绘制边界框——YOLO（You Only Look Once）及其衍生模型仍是实时检测的首选方案，每秒可处理30–100+帧视频。语义分割为图像中的每个像素分配标签（此像素是“道路”，彼像素是“行人”），这对自动驾驶至关重要。实例分割更进一步，区分同一类别的不同对象（此行人 vs. 彼行人）。Meta的Segment Anything Model（SAM）在2023年使零样本分割成为现实，无需任务特定训练即可分割任何图像中的任何对象。OCR（光学字符识别）也因视觉语言模型而发生变革——不再需要专用OCR引擎，现在可以将文档图像输入多模态模型，获得能理解表格、手写和布局的结构化文本提取。

生成革命

计算机视觉不仅仅是理解图像，也越来越注重生成图像。扩散模型（Stable Diffusion、DALL-E 3、Midjourney）通过学习逆转噪声过程生成图像：从纯噪声开始，逐步去噪生成连贯图像，由文本提示引导。这种方法能产生惊人效果，但计算成本高昂——生成一张1024x1024图像需要20–50次去噪步骤，每次都需要通过十亿参数的U-Net或Transformer进行完整前向传播。视频生成将这一过程扩展到时间维度：Runway Gen-3、Sora和Kling等模型将视频视为必须在空间和时间上连贯的帧序列。质量提升速度惊人——从2023年明显人工的片段到2025年接近照片级的短视频，尽管在更长时间段内保持一致性（角色身份、物理规律、物体持续性）仍是开放挑战。

现实世界中的视觉

研究基准与现实部署之间的差距是计算机视觉最具挑战的部分。一个在ImageNet上达到99%准确率的模型可能在遇到异常光照、运动模糊、遮挡或对抗性条件时表现糟糕。自动驾驶汽车是最具风险的例子：特斯拉的纯视觉方法使用八个摄像头和自定义神经网络实时解析驾驶场景，而Waymo则融合摄像头数据与激光雷达点云以实现冗余。医学影像是另一前沿领域——PathAI和Paige等公司的AI系统能在组织切片中以与经验丰富的病理学家相当的准确率检测癌症，但监管审批（美国FDA认证、欧洲CE认证）会将部署时间线延长数年。工业检测、零售分析、农业监测和卫星图像分析都是成熟的计算机视觉应用，技术已从概念验证阶段进入日常生产使用。

多模态融合

目前计算机视觉最重要的趋势是与语言理解的融合。旧范式是为特定任务设计专用视觉模型——一个用于检测，一个用于分割，一个用于描述。新范式是单一多模态模型，既能“看见”又能“谈论”所见内容。GPT-4o、Claude和Gemini都能接受图像作为输入，并用自然语言推理——“这块电路板哪里有问题？”或“从这张图表中提取数据。”这种融合由视觉编码器（如SigLIP或EVA-CLIP）驱动，它们将图像转换为与文本相同的嵌入空间，使语言模型能同时关注视觉特征和文字。实际影响巨大——过去需要数月开发的定制计算机视觉流水线任务，现在只需调用一次多模态模型API即可完成。

计算机视觉