基礎模型：定義與含義 — AI 維基

一個基於廣泛資料訓練的大型模型，作為許多不同任務的基礎。Claude、GPT、Gemini 和 Llama 都是基礎模型。它們之所以被稱為「基礎模型」，是因為可以適應幾乎任何任務——寫作、程式設計、分析、影像理解——而不需要為每個任務進行特定訓練。

為什麼重要

基礎模型改變了 AI 的經濟學。與為每個任務訓練一個獨立模型不同，您只需訓練一次龐大的模型，然後根據特定需求進行微調或提示。

深度解析

基礎模型最初是一張空白的神經網絡——數十億個參數初始化為隨機值。在預訓練階段，它會消耗龐大的數據集（網頁、書籍、程式碼倉庫、科學論文），並學習預測下一個內容。這個預測下一個token的目標看似簡單，但卻迫使模型內化語法、事實、推理模式、程式碼規範，甚至一定程度的常識。結果是一種通用型基礎模型，對許多領域都有所了解，卻不是為任何單一任務特別設計的。GPT-4、Claude、Gemini 和 Llama 都是從基礎模型開始，再經過額外的對齊和指令微調階段。

遷移學習的轉變

基礎模型背後的關鍵創新是大規模的遷移學習。在這種架構出現之前，如果你想讓AI能分類醫療影像，就得從頭訓練一個醫療影像分類器。如果你想讓AI能總結法律合約，就得另外訓練一個模型在法律數據上。基礎模型顛覆了這個公式：訓練一個知識廣泛的模型，然後以低成本進行適應。適應方式可以輕如撰寫一個好的提示（零樣本），提供幾個上下文中的例子（少樣本），或是在小規模特定任務數據集上微調。這就是為什麼像Claude這樣的單一模型，可以在同一對話中幫助你除錯Python、撰寫行銷文案，以及分析試算表。

繼承的優勢與缺陷

「基礎模型」這個詞彙是由史丹佛大學基礎模型研究中心（CRFM）於2021年提出的，用以強調一個重要概念：這些模型在建築意義上是基礎。所有建在它上面的系統都會繼承它的優勢與缺陷。如果訓練數據包含偏見，這些偏見會傳播到每一個下游應用。如果模型產生幻覺，所有建在它上面的產品都可能產生幻覺。這與傳統軟體有根本不同，傳統軟體的錯誤是局部的。而在基礎模型中，單一的能力缺口或失敗模式可能橫跨數千個應用，這些應用由不同團隊開發，且從未接觸過訓練過程。

成本門檻

訓練一個基礎模型的成本驚人高昂——我們談的是數十萬到數百萬美元的計算成本，再加上組裝和清理數兆token數據集所需的工程努力。這創造了一個集中化的生態系統：只有少數幾個機構（Anthropic、OpenAI、Google、Meta、Mistral 和其他幾個）能負擔得起從頭訓練前沿基礎模型的費用。其他所有人只能在其上建構。這種經濟現實塑造了整個產業——這就是為什麼API基礎的存取成為主流部署模式，以及為什麼像Llama和Mistral這樣的開放權重釋出對競爭和可近性如此重要。

不僅僅是語言

一個常見的誤解是「基礎模型」和「LLM」是同義詞。它們有高度重疊，但並非完全相同。基礎模型的定義在於其角色（廣泛的基礎、許多下游用途），而不是其模態。像DINOv2這樣的視覺基礎模型、Whisper這樣的音訊模型，以及Gemini這樣的多模態模型，都是基礎模型。LLM是一種特定類型——專注於語言的模型。這個區分很重要，因為基礎模型的架構正在迅速擴展到文本以外的領域，如蛋白質折疊、機器人技術、天氣預測和藥物開發，所有這些都遵循相同的策略：在廣泛數據上訓練大規模模型，然後進行適應。

基礎模型