典型架构:图像由视觉编码器(通常是Vision Transformer或CLIP变体)处理,将图像像素转换为视觉token序列。这些token被投影到与文本token相同的嵌入空间中,并与文本输入拼接。然后语言模型通过其标准注意力层同时处理视觉和文本token,实现跨模态推理。
当前视觉模型擅长:描述图像内容、读取图像中的文本(OCR)、理解图表和图示、识别物体和人物(在适当时)、以及推理空间关系。它们在以下方面较弱:精确计数(特别是在杂乱场景中)、细粒度空间推理(“A在B的上方还是下方?”)、读取小字或艺术字、以及理解需要领域专业知识的图像(医学扫描、专业设备)。
更高分辨率的图像会产生更多视觉token,消耗更多上下文窗口且成本更高。大多数提供商会自动调整大小或分块图像以平衡质量和成本。一张典型图像可能产生500–2000个token。理解这一点有助于优化:当相关区域的1080p裁剪就足够且更便宜时,不要发送4K截图。