能够理解和/或生成多种类型数据(文本、图像、音频、视频、代码)的模型。克劳德可以读取图像和文本;一些模型还可以生成图像或语音。“多模态”与仅处理一种类型数据的“单模态”模型形成对比。
多模态AI通过将不同类型的数据——文本、图像、音频、视频——编码到一个共享的表示空间中,使模型能够跨模态进行推理。最常用的方法是为每种模态使用独立的编码器网络(如用于图像的视觉编码器、用于语音的音频编码器),将原始输入转换为嵌入序列,然后将这些嵌入与文本token一起输入到共享的Transformer主干网络中。这就是GPT-4o和Claude等模型处理图像的方式:一个视觉编码器(通常是视觉Transformer,即ViT的变体)将图像转换为“视觉token”的网格,语言模型会像处理文本token一样处理这些视觉token。
多模态理解与多模态生成之间存在重要区别。目前大多数聊天模型在输入端是多模态的——它们可以读取图像、PDF和有时音频——但输出仍主要是文本。真正的多模态生成,即同一模型能够原生生成图像、音频和文本,是一个更具挑战性的问题。Google的Gemini和OpenAI的GPT-4o正在朝这个方向推进,但许多所谓的“多模态”产品实际上在后台串联了多个专用模型:语言模型决定要生成什么图像,然后将文本提示传递给如DALL-E或Imagen这样的扩散模型来实际生成图像。这些模型之间的衔接会影响质量和连贯性。
这里的进展非常迅速。2022年,让AI可靠地描述图像内容已经令人印象深刻。到2024年,模型可以识别手写笔记、解读复杂图表、理解UI截图并遵循视觉指令。实际影响是巨大的。开发者利用多模态模型构建文档处理流水线,处理扫描的PDF、白板照片或混合文本和图表的技术规格——所有这些都不需要单独的OCR或图像分类步骤。以Claude为例,你可以粘贴一个错误信息的截图、手绘线框图的照片或复杂的数据可视化图像,模型会结合你的文本指令对其进行上下文推理。
一个容易让人混淆的细节是:“多模态”并不意味着“在所有模态上表现同样出色”。大多数多模态LLM本质上仍然是语言模型,只是附加了视觉模块。它们的文本推理能力通常远强于视觉理解能力。它们可能在图像中数错物体数量、难以处理空间关系,或无法读取截图中的小字——这些对人类来说是微不足道的任务。视觉编码器的分辨率也很重要:如果图像在模型看到之前被缩小,即使语言模型再聪明,细小的细节也会丢失。在构建生产系统时,了解模型为图像分配的分辨率和token预算非常重要,因为这直接影响模型能够感知的视觉细节。
前沿正在向研究人员称为“any-to-any”模型的方向发展——系统可以接受任何组合的模态作为输入,并生成任何组合的输出。例如:上传一个视频,得到带有相关静态帧的文本摘要,加上音频旁白。或者用文本描述一个场景,得到带有同步音乐的视频。我们尚未完全实现这一点,但趋势已经很清晰。未来几年中最重要的模型将是那些消除视觉、听觉、阅读、写作和创作之间界限的模型,使输入和输出的模态成为一个选择而非限制。