一種透過大量文本訓練的神經網絡,用以理解和生成人類語言。「大型」指的是參數數量(十億級)與訓練數據規模(兆級別的 token 數量)。Claude、GPT、Gemini、Llama 和 Mistral 都屬於 LLM。
LLMs 是您所使用的每一項 AI 聊天、程式碼助手和文字生成器的技術基礎。了解它們的本質(統計模式匹配器,而非有感知能力的生物)能幫助您更有效地使用它們,並認識其限制。
從本質上來說,LLM 是一個函數,它接收一連串的 token 並輸出下一個 token 的機率分佈。這就是全部的技巧。在訓練過程中,模型會看到數兆個 token 的文本,並調整其數十億個參數以更好地預測接下來的內容。當你與 Claude 或 GPT 對話時,模型會一次生成一個 token,每次都會將其自身的先前輸出重新作為輸入。這種自回歸過程就是為什麼你會看到回應逐字逐句地流動——模型真的要到那個時候才知道自己會說什麼。
大多數現代 LLM 都是基於 Google 研究人員於 2017 年提出的 Transformer 架構。Transformer 的關鍵創新是注意力機制,它讓模型在決定某個 token 的含義時,可以同時查看輸入中的所有其他 token。這解決了早期架構(如 RNN、LSTM)所面臨的問題:它們在處理長距離依賴關係時會遇到困難,因為資訊必須順序流經每個中間步驟。注意力機制讓模型可以直接將第五段中的「it」與第一段中的「資料庫伺服器」聯繫起來,不管它們中間有多少文字。一些較新的架構如 Mamba 使用狀態空間模型取代注意力機制,在處理長序列時效率更高,但 Transformer 仍是最大規模模型的主流架構。
LLM 中的「Large」確實發揮了關鍵作用。規模的影響程度遠超研究人員最初的預期。一個 10 億參數的模型可以處理基本語法和簡單事實。一個 700 億參數的模型可以撰寫可運作的程式碼並推理多步驟問題。最大的模型(數百億參數,訓練數據達數兆 token)會展現出突現能力——這些技能在規模達到一定程度時會突然出現,而非逐漸改善。鏈式推理、多語言轉移和情境學習都是只有在模型達到特定規模後才會穩定出現的能力。這種規模行為由「縮放定律」描述,這些定律驚人地準確地將模型規模、數據集規模和計算預算與效能聯繫起來。
預訓練後,原始的 LLM 本身並不太適合對話——它們只想要完成文本,因此可能會用更多問題來延續你的問題,而不是回答。這就是對齊(alignment)的用武之地。RLHF(基於人類反饋的強化學習)和憲法 AI 等技術會訓練模型變得有幫助、無害且誠實,而不僅僅是文本預測器。這就是基模型(如原始 Llama)與對話模型(如 Claude 或 ChatGPT)之間的差異。基模型擁有知識;對齊教導它如何在對話中使用這些知識。
一個實用但常被開發者忽略的問題:LLM 不像資料庫那樣「知道」事情。它們只是從訓練數據中編碼了統計模式,這意味著它們可能會自信地陳述一些細微或完全錯誤的內容——這就是幻覺(hallucination)。它們也有知識截止日期,除非提供工具,否則無法存取即時資訊。最佳實踐者會將 LLM 視為能力強但不可靠的協作者:適合用於起草、腦力激盪和程式碼生成,但對於事實性聲明則需要驗證。檢索增強生成(RAG)、結構化輸出解析和工具使用是讓 LLM 驅動的應用在生產環境中可靠的工程模式。