多模态：定义与含义 — AI 维基

能够理解和/或生成多种类型数据（文本、图像、音频、视频、代码）的模型。克劳德可以读取图像和文本；一些模型还可以生成图像或语音。“多模态”与仅处理一种类型数据的“单模态”模型形成对比。

为什么重要

现实中的任务是多模态的。你想向AI展示一张截图并问“这里有什么问题？”，或者给它一张图表并说“实现这个”。多模态模型使得这一切成为可能。

深度解析

多模态AI通过将不同类型的数据——文本、图像、音频、视频——编码到一个共享的表示空间中，使模型能够跨模态进行推理。最常用的方法是为每种模态使用独立的编码器网络（如用于图像的视觉编码器、用于语音的音频编码器），将原始输入转换为嵌入序列，然后将这些嵌入与文本token一起输入到共享的Transformer主干网络中。这就是GPT-4o和Claude等模型处理图像的方式：一个视觉编码器（通常是视觉Transformer，即ViT的变体）将图像转换为“视觉token”的网格，语言模型会像处理文本token一样处理这些视觉token。

理解与生成

多模态理解与多模态生成之间存在重要区别。目前大多数聊天模型在输入端是多模态的——它们可以读取图像、PDF和有时音频——但输出仍主要是文本。真正的多模态生成，即同一模型能够原生生成图像、音频和文本，是一个更具挑战性的问题。Google的Gemini和OpenAI的GPT-4o正在朝这个方向推进，但许多所谓的“多模态”产品实际上在后台串联了多个专用模型：语言模型决定要生成什么图像，然后将文本提示传递给如DALL-E或Imagen这样的扩散模型来实际生成图像。这些模型之间的衔接会影响质量和连贯性。

发展速度之快

这里的进展非常迅速。2022年，让AI可靠地描述图像内容已经令人印象深刻。到2024年，模型可以识别手写笔记、解读复杂图表、理解UI截图并遵循视觉指令。实际影响是巨大的。开发者利用多模态模型构建文档处理流水线，处理扫描的PDF、白板照片或混合文本和图表的技术规格——所有这些都不需要单独的OCR或图像分类步骤。以Claude为例，你可以粘贴一个错误信息的截图、手绘线框图的照片或复杂的数据可视化图像，模型会结合你的文本指令对其进行上下文推理。

视觉的局限性

一个容易让人混淆的细节是：“多模态”并不意味着“在所有模态上表现同样出色”。大多数多模态LLM本质上仍然是语言模型，只是附加了视觉模块。它们的文本推理能力通常远强于视觉理解能力。它们可能在图像中数错物体数量、难以处理空间关系，或无法读取截图中的小字——这些对人类来说是微不足道的任务。视觉编码器的分辨率也很重要：如果图像在模型看到之前被缩小，即使语言模型再聪明，细小的细节也会丢失。在构建生产系统时，了解模型为图像分配的分辨率和token预算非常重要，因为这直接影响模型能够感知的视觉细节。

任何输入到任何输出的边界

前沿正在向研究人员称为“any-to-any”模型的方向发展——系统可以接受任何组合的模态作为输入，并生成任何组合的输出。例如：上传一个视频，得到带有相关静态帧的文本摘要，加上音频旁白。或者用文本描述一个场景，得到带有同步音乐的视频。我们尚未完全实现这一点，但趋势已经很清晰。未来几年中最重要的模型将是那些消除视觉、听觉、阅读、写作和创作之间界限的模型，使输入和输出的模态成为一个选择而非限制。

多模态