一個基於廣泛資料訓練的大型模型,作為許多不同任務的基礎。Claude、GPT、Gemini 和 Llama 都是基礎模型。它們之所以被稱為「基礎模型」,是因為可以適應幾乎任何任務——寫作、程式設計、分析、影像理解——而不需要為每個任務進行特定訓練。
基礎模型最初是一張空白的神經網絡——數十億個參數初始化為隨機值。在預訓練階段,它會消耗龐大的數據集(網頁、書籍、程式碼倉庫、科學論文),並學習預測下一個內容。這個預測下一個token的目標看似簡單,但卻迫使模型內化語法、事實、推理模式、程式碼規範,甚至一定程度的常識。結果是一種通用型基礎模型,對許多領域都有所了解,卻不是為任何單一任務特別設計的。GPT-4、Claude、Gemini 和 Llama 都是從基礎模型開始,再經過額外的對齊和指令微調階段。
基礎模型背後的關鍵創新是大規模的遷移學習。在這種架構出現之前,如果你想讓AI能分類醫療影像,就得從頭訓練一個醫療影像分類器。如果你想讓AI能總結法律合約,就得另外訓練一個模型在法律數據上。基礎模型顛覆了這個公式:訓練一個知識廣泛的模型,然後以低成本進行適應。適應方式可以輕如撰寫一個好的提示(零樣本),提供幾個上下文中的例子(少樣本),或是在小規模特定任務數據集上微調。這就是為什麼像Claude這樣的單一模型,可以在同一對話中幫助你除錯Python、撰寫行銷文案,以及分析試算表。
「基礎模型」這個詞彙是由史丹佛大學基礎模型研究中心(CRFM)於2021年提出的,用以強調一個重要概念:這些模型在建築意義上是基礎。所有建在它上面的系統都會繼承它的優勢與缺陷。如果訓練數據包含偏見,這些偏見會傳播到每一個下游應用。如果模型產生幻覺,所有建在它上面的產品都可能產生幻覺。這與傳統軟體有根本不同,傳統軟體的錯誤是局部的。而在基礎模型中,單一的能力缺口或失敗模式可能橫跨數千個應用,這些應用由不同團隊開發,且從未接觸過訓練過程。
訓練一個基礎模型的成本驚人高昂——我們談的是數十萬到數百萬美元的計算成本,再加上組裝和清理數兆token數據集所需的工程努力。這創造了一個集中化的生態系統:只有少數幾個機構(Anthropic、OpenAI、Google、Meta、Mistral 和其他幾個)能負擔得起從頭訓練前沿基礎模型的費用。其他所有人只能在其上建構。這種經濟現實塑造了整個產業——這就是為什麼API基礎的存取成為主流部署模式,以及為什麼像Llama和Mistral這樣的開放權重釋出對競爭和可近性如此重要。
一個常見的誤解是「基礎模型」和「LLM」是同義詞。它們有高度重疊,但並非完全相同。基礎模型的定義在於其角色(廣泛的基礎、許多下游用途),而不是其模態。像DINOv2這樣的視覺基礎模型、Whisper這樣的音訊模型,以及Gemini這樣的多模態模型,都是基礎模型。LLM是一種特定類型——專注於語言的模型。這個區分很重要,因為基礎模型的架構正在迅速擴展到文本以外的領域,如蛋白質折疊、機器人技術、天氣預測和藥物開發,所有這些都遵循相同的策略:在廣泛數據上訓練大規模模型,然後進行適應。