多模態 AI 的運作方式是將不同類型的資料 —— 文本、影像、音訊、影片 —— 編碼到一個共享的表徵空間中,讓模型能跨模態進行推理。最常見的方法是為每種模態使用獨立的編碼器網路(影像用視覺編碼器,語音用音訊編碼器),將原始輸入轉換為 embedding 序列,然後與文本 token 一起送入共享的 Transformer 骨幹網路。GPT-4o 和 Claude 就是這樣處理影像的:一個視覺編碼器(通常是 Vision Transformer 即 ViT 的變體)將影像轉換為「視覺 token」網格,語言模型像處理文本 token 一樣處理這些視覺 token。
多模態理解與多模態生成之間有一個重要區別。目前大多數聊天模型在輸入端是多模態的 —— 它們能閱讀影像、PDF,有時還能處理音訊 —— 但輸出仍主要是文本。真正的多模態生成,即同一個模型能原生產出影像、音訊和文本,是更困難的問題。Google 的 Gemini 和 OpenAI 的 GPT-4o 正朝這個方向推進,但許多「多模態」產品實際上是在幕後串接獨立的專門模型:語言模型決定要創建什麼影像,然後將文本提示交給 DALL-E 或 Imagen 這樣的擴散模型去實際生成。這些模型之間的接縫會影響品質和連貫性。
這方面的演進非常迅速。2022 年,讓 AI 可靠地描述影像中的內容還算是令人印象深刻的成就。到了 2024 年,模型已能閱讀手寫筆記、解讀複雜圖表、理解 UI 截圖,以及遵循視覺指令。實際影響深遠。開發者利用多模態模型建構文件處理管線,可以處理掃描的 PDF、白板照片,或混合文字與圖表的技術規格 —— 全部不需要獨立的 OCR 或影像分類步驟。以 Claude 為例,你可以貼上一張錯誤訊息的截圖、一張手繪線框圖的照片,或一張複雜的資料視覺化圖,模型會將其與你的文字指令一起在上下文中進行推理。
一個常讓人困惑的地方:「多模態」不代表「對所有模態都同樣擅長」。大多數多模態 LLM 本質上仍是附加了視覺功能的語言模型。它們的文字推理能力通常遠強於視覺理解。它們可能數錯影像中的物件、在空間關係上表現吃力,或無法辨識截圖中的小字 —— 這些對人類來說輕而易舉的任務。視覺編碼器的解析度也很重要:如果影像在模型看到之前被縮小,無論語言模型多聰明都無法捕捉到細節。在建構生產系統時,了解你的模型為影像分配了什麼解析度和 token 預算是值得的,因為這直接影響它能和不能感知的視覺細節。
前沿正朝著研究者所說的「任意到任意」(any-to-any)模型邁進 —— 可以接受任意模態組合作為輸入並產出任意模態組合的系統。想像:上傳一段影片,獲得一份包含相關靜態畫面的文字摘要,外加一段語音旁白。或者用文字描述一個場景,獲得一段配有同步音樂的影片。我們還沒完全到達那一步,但趨勢已經清晰。未來幾年最重要的模型,將會是那些消弭看、聽、讀、寫與創作之間界線的模型,讓輸入與輸出的模態成為選擇而非限制。