Zubnet AI學習Wiki › Transfer Learning
訓練

Transfer Learning

利用從一個任務或資料集中學到的知識來提升在不同但相關任務上的表現。你不必每次都從頭訓練,而是從一個已經理解一般模式(語言結構、視覺特徵)的模型開始,再將其調適到你的特定需求。預訓練然後微調是現代 AI 的主導範式。

為什麼重要

遷移學習是 AI 變得實用的原因。從頭訓練一個語言模型需要數百萬美元。在你特定任務上微調一個預訓練模型只需幾十美元和幾個小時。正是這種經濟效益推動了 AI 應用的爆發——你不需要 Google 的預算就能建造有用的東西。

深度解析

關鍵洞見:低階特徵可以跨任務遷移。在 ImageNet 上訓練的視覺模型會在其早期層學習偵測邊緣、紋理和形狀——這些特徵幾乎對任何視覺任務都有用。在網路文本上訓練的語言模型會學習語法、事實和推理模式,幾乎對任何語言任務都有用。遷移學習透過重用通用知識並只訓練特定任務的部分來利用這一點。

預訓練 + 微調範式

幾乎每個當今的 AI 系統都遵循這個模式:(1)在大型通用資料集上預訓練一個大型模型(昂貴,只做一次),(2)在較小的、特定任務的資料集上微調(便宜,可做多次)。BERT 於 2018 年為 NLP 開創了這一模式。GPT 將其擴大規模。整個 LLM 產業都建立在這個範式上——基礎模型是預訓練的基底,而微調(包括 RLHF/DPO)是讓它們成為有用助手的方式。

遷移失敗的情況

遷移學習在來源和目標領域相關時效果最好。在英語文本上預訓練的模型遷移到法語效果良好(結構相似),但遷移到蛋白質序列效果差(完全不同的領域)。當領域差異太大時,遷移實際上會損害效能(「負遷移」)。領域特定的預訓練(如 BioGPT 用於生物醫學文本或 CodeLlama 用於程式碼)透過在領域相關資料上預訓練來解決這個問題。

相關概念

← 所有術語
← Tokenizer(分詞器) Transformer →
ESC