使用

视觉

别名：多模态视觉、图像理解

语言模型理解和推理图像与文本的能力。你发送一张照片并问“这张图像里有什么？”或上传一个图表并问“总结趋势。”具有视觉能力的模型（Claude、GPT-4V、Gemini）将图像编码为token，语言模型将其与文本token一起处理，实现统一的文本和图像推理。

为什么重要

视觉改变了LLM的能力范围。与其用文字描述一个bug，不如截图。与其打出一个表格，不如拍照。与其解释一个图表，不如分享它。视觉使AI能够处理仅靠文本不足以应对的任务——而这是大多数现实世界的任务。它是日常用户最有影响力的多模态能力。

深度解析

典型架构：图像由视觉编码器（通常是Vision Transformer或CLIP变体）处理，将图像像素转换为视觉token序列。这些token被投影到与文本token相同的嵌入空间中，并与文本输入拼接。然后语言模型通过其标准注意力层同时处理视觉和文本token，实现跨模态推理。

模型能看到什么（和不能看到什么）

当前视觉模型擅长：描述图像内容、读取图像中的文本（OCR）、理解图表和图示、识别物体和人物（在适当时）、以及推理空间关系。它们在以下方面较弱：精确计数（特别是在杂乱场景中）、细粒度空间推理（“A在B的上方还是下方？”）、读取小字或艺术字、以及理解需要领域专业知识的图像（医学扫描、专业设备）。

分辨率与成本

更高分辨率的图像会产生更多视觉token，消耗更多上下文窗口且成本更高。大多数提供商会自动调整大小或分块图像以平衡质量和成本。一张典型图像可能产生500–2000个token。理解这一点有助于优化：当相关区域的1080p裁剪就足够且更便宜时，不要发送4K截图。

相关概念

← 所有术语

← 蒸馏视频生成 →