視覺輸入：定義與含義 — AI 維基

語言模型理解並推理圖像以及文本的能力。你可以發送一張照片並問「這張圖像中有什麼？」或上傳一張圖表並問「總結趨勢」。具備視覺能力的模型（Claude、GPT-4V、Gemini）將圖像編碼為 token，語言模型將這些 token 與文本 token 一起處理，實現統一的文字與圖像推理。

為什麼重要

視覺改變了 LLM 能做的事情。不用文字描述一個 bug，你可以截圖。不用打出一張表格，你可以拍照。不用解釋一張圖表，你可以分享它。視覺使 AI 能夠處理僅靠文本不足的任務 — 而這是大多數現實世界的任務。這是對日常使用者最有影響力的多模態能力。

深度解析

典型的架構：圖像由視覺編碼器（通常是 Vision Transformer 或 CLIP 變體）處理，將圖像像素轉換為一系列視覺 token。這些 token 被投影到與文本 token 相同的嵌入空間中，並與文本輸入串接。語言模型然後通過其標準的注意力層同時處理視覺和文本 token，實現跨模態推理。

模型能（和不能）看到什麼

當前的視覺模型擅長：描述圖像內容、讀取圖像中的文字（OCR）、理解圖表和圖解、辨識物體和人物（在適當情況下），以及推理空間關係。它們的弱點是：精確計數（特別是在雜亂場景中）、細粒度空間推理（「A 在 B 的上方還是下方？」）、讀取小型或風格化文字，以及理解需要領域專業知識的圖像（醫學掃描、專業設備）。

解析度與成本

更高解析度的圖像產生更多視覺 token，消耗更多上下文視窗並且成本更高。大多數供應商會自動調整大小或切割圖像以平衡品質和成本。一張典型的圖像可能產生 500–2000 個 token。理解這一點有助於你最佳化：不要發送一張 4K 截圖，當相關區域的 1080p 裁切就能更好地工作且成本更低。

視覺輸入

為什麼重要

深度解析

模型能（和不能）看到什麼

解析度與成本

相關概念