語言模型理解並推理圖像以及文本的能力。你可以發送一張照片並問「這張圖像中有什麼?」或上傳一張圖表並問「總結趨勢」。具備視覺能力的模型(Claude、GPT-4V、Gemini)將圖像編碼為 token,語言模型將這些 token 與文本 token 一起處理,實現統一的文字與圖像推理。
視覺改變了 LLM 能做的事情。不用文字描述一個 bug,你可以截圖。不用打出一張表格,你可以拍照。不用解釋一張圖表,你可以分享它。視覺使 AI 能夠處理僅靠文本不足的任務 — 而這是大多數現實世界的任務。這是對日常使用者最有影響力的多模態能力。
典型的架構:圖像由視覺編碼器(通常是 Vision Transformer 或 CLIP 變體)處理,將圖像像素轉換為一系列視覺 token。這些 token 被投影到與文本 token 相同的嵌入空間中,並與文本輸入串接。語言模型然後通過其標準的注意力層同時處理視覺和文本 token,實現跨模態推理。
當前的視覺模型擅長:描述圖像內容、讀取圖像中的文字(OCR)、理解圖表和圖解、辨識物體和人物(在適當情況下),以及推理空間關係。它們的弱點是:精確計數(特別是在雜亂場景中)、細粒度空間推理(「A 在 B 的上方還是下方?」)、讀取小型或風格化文字,以及理解需要領域專業知識的圖像(醫學掃描、專業設備)。
更高解析度的圖像產生更多視覺 token,消耗更多上下文視窗並且成本更高。大多數供應商會自動調整大小或切割圖像以平衡品質和成本。一張典型的圖像可能產生 500–2000 個 token。理解這一點有助於你最佳化:不要發送一張 4K 截圖,當相關區域的 1080p 裁切就能更好地工作且成本更低。