關鍵洞見:低階特徵可以跨任務遷移。在 ImageNet 上訓練的視覺模型會在其早期層學習偵測邊緣、紋理和形狀——這些特徵幾乎對任何視覺任務都有用。在網路文本上訓練的語言模型會學習語法、事實和推理模式,幾乎對任何語言任務都有用。遷移學習透過重用通用知識並只訓練特定任務的部分來利用這一點。
幾乎每個當今的 AI 系統都遵循這個模式:(1)在大型通用資料集上預訓練一個大型模型(昂貴,只做一次),(2)在較小的、特定任務的資料集上微調(便宜,可做多次)。BERT 於 2018 年為 NLP 開創了這一模式。GPT 將其擴大規模。整個 LLM 產業都建立在這個範式上——基礎模型是預訓練的基底,而微調(包括 RLHF/DPO)是讓它們成為有用助手的方式。
遷移學習在來源和目標領域相關時效果最好。在英語文本上預訓練的模型遷移到法語效果良好(結構相似),但遷移到蛋白質序列效果差(完全不同的領域)。當領域差異太大時,遷移實際上會損害效能(「負遷移」)。領域特定的預訓練(如 BioGPT 用於生物醫學文本或 CodeLlama 用於程式碼)透過在領域相關資料上預訓練來解決這個問題。