Zubnet AI学习Wiki › 视觉
使用

视觉

别名:多模态视觉、图像理解
语言模型理解和推理图像与文本的能力。你发送一张照片并问“这张图像里有什么?”或上传一个图表并问“总结趋势。”具有视觉能力的模型(Claude、GPT-4V、Gemini)将图像编码为token,语言模型将其与文本token一起处理,实现统一的文本和图像推理。

为什么重要

视觉改变了LLM的能力范围。与其用文字描述一个bug,不如截图。与其打出一个表格,不如拍照。与其解释一个图表,不如分享它。视觉使AI能够处理仅靠文本不足以应对的任务——而这是大多数现实世界的任务。它是日常用户最有影响力的多模态能力。

深度解析

典型架构:图像由视觉编码器(通常是Vision Transformer或CLIP变体)处理,将图像像素转换为视觉token序列。这些token被投影到与文本token相同的嵌入空间中,并与文本输入拼接。然后语言模型通过其标准注意力层同时处理视觉和文本token,实现跨模态推理。

模型能看到什么(和不能看到什么)

当前视觉模型擅长:描述图像内容、读取图像中的文本(OCR)、理解图表和图示、识别物体和人物(在适当时)、以及推理空间关系。它们在以下方面较弱:精确计数(特别是在杂乱场景中)、细粒度空间推理(“A在B的上方还是下方?”)、读取小字或艺术字、以及理解需要领域专业知识的图像(医学扫描、专业设备)。

分辨率与成本

更高分辨率的图像会产生更多视觉token,消耗更多上下文窗口且成本更高。大多数提供商会自动调整大小或分块图像以平衡质量和成本。一张典型图像可能产生500–2000个token。理解这一点有助于优化:当相关区域的1080p裁剪就足够且更便宜时,不要发送4K截图。

相关概念

← 所有术语
← 蒸馏 视频生成 →