多模態：定義與含義 — AI 維基

能夠理解和／或生成多種類型資料的模型：文本、影像、音訊、影片、程式碼。Claude 能閱讀影像和文本；某些模型還能生成影像或語音。「多模態」與只能處理單一類型的「單模態」模型形成對比。

為什麼重要

真實世界的任務是多模態的。你想給 AI 看一張截圖問「這裡出了什麼問題？」或給它一張圖表說「請實作這個。」多模態模型讓這一切成為可能。

深度解析

多模態 AI 的運作方式是將不同類型的資料 —— 文本、影像、音訊、影片 —— 編碼到一個共享的表徵空間中，讓模型能跨模態進行推理。最常見的方法是為每種模態使用獨立的編碼器網路（影像用視覺編碼器，語音用音訊編碼器），將原始輸入轉換為 embedding 序列，然後與文本 token 一起送入共享的 Transformer 骨幹網路。GPT-4o 和 Claude 就是這樣處理影像的：一個視覺編碼器（通常是 Vision Transformer 即 ViT 的變體）將影像轉換為「視覺 token」網格，語言模型像處理文本 token 一樣處理這些視覺 token。

理解 vs. 生成

多模態理解與多模態生成之間有一個重要區別。目前大多數聊天模型在輸入端是多模態的 —— 它們能閱讀影像、PDF，有時還能處理音訊 —— 但輸出仍主要是文本。真正的多模態生成，即同一個模型能原生產出影像、音訊和文本，是更困難的問題。Google 的 Gemini 和 OpenAI 的 GPT-4o 正朝這個方向推進，但許多「多模態」產品實際上是在幕後串接獨立的專門模型：語言模型決定要創建什麼影像，然後將文本提示交給 DALL-E 或 Imagen 這樣的擴散模型去實際生成。這些模型之間的接縫會影響品質和連貫性。

進展速度

這方面的演進非常迅速。2022 年，讓 AI 可靠地描述影像中的內容還算是令人印象深刻的成就。到了 2024 年，模型已能閱讀手寫筆記、解讀複雜圖表、理解 UI 截圖，以及遵循視覺指令。實際影響深遠。開發者利用多模態模型建構文件處理管線，可以處理掃描的 PDF、白板照片，或混合文字與圖表的技術規格 —— 全部不需要獨立的 OCR 或影像分類步驟。以 Claude 為例，你可以貼上一張錯誤訊息的截圖、一張手繪線框圖的照片，或一張複雜的資料視覺化圖，模型會將其與你的文字指令一起在上下文中進行推理。

視覺功能的不足之處

一個常讓人困惑的地方：「多模態」不代表「對所有模態都同樣擅長」。大多數多模態 LLM 本質上仍是附加了視覺功能的語言模型。它們的文字推理能力通常遠強於視覺理解。它們可能數錯影像中的物件、在空間關係上表現吃力，或無法辨識截圖中的小字 —— 這些對人類來說輕而易舉的任務。視覺編碼器的解析度也很重要：如果影像在模型看到之前被縮小，無論語言模型多聰明都無法捕捉到細節。在建構生產系統時，了解你的模型為影像分配了什麼解析度和 token 預算是值得的，因為這直接影響它能和不能感知的視覺細節。

任意到任意的前沿

前沿正朝著研究者所說的「任意到任意」（any-to-any）模型邁進 —— 可以接受任意模態組合作為輸入並產出任意模態組合的系統。想像：上傳一段影片，獲得一份包含相關靜態畫面的文字摘要，外加一段語音旁白。或者用文字描述一個場景，獲得一段配有同步音樂的影片。我們還沒完全到達那一步，但趨勢已經清晰。未來幾年最重要的模型，將會是那些消弭看、聽、讀、寫與創作之間界線的模型，讓輸入與輸出的模態成為選擇而非限制。

多模態