Transfer Learning（迁移学习）：定义与含义 — AI 维基

利用从一个任务或数据集中学到的知识来提高在不同但相关任务上的性能。无需每次都从头训练，而是从一个已经理解一般模式（语言结构、视觉特征）的模型开始，然后将其适配到你的特定需求。预训练然后微调是现代AI的主导范式。

为什么重要

迁移学习是AI变得实用的原因。从头训练一个语言模型需要数百万美元。在预训练模型上为你的特定任务进行微调只需数十美元和几个小时。正是这种经济性推动了AI应用的爆发——你不需要Google的预算就能构建有用的东西。

深度解析

关键洞察：底层特征可以在任务间迁移。在ImageNet上训练的视觉模型在早期层学会检测边缘、纹理和形状——这些特征对几乎任何视觉任务都有用。在网页文本上训练的语言模型学会了语法、事实和推理模式，对几乎任何语言任务都有用。迁移学习通过复用通用知识并仅训练特定于任务的部分来利用这一点。

预训练+微调范式

今天几乎每个AI系统都遵循这一模式：（1）在大规模通用数据集上预训练大型模型（昂贵，只做一次），（2）在较小的特定任务数据集上微调（便宜，多次进行）。BERT在2018年率先将此应用于NLP。GPT将其扩大规模。整个LLM行业都建立在这一范式上——基础模型是预训练的基底，微调（包括RLHF/DPO）是使它们成为有用助手的方式。

迁移失败的情况

当源域和目标域相关时，迁移学习效果最好。在英文文本上预训练的模型可以很好地迁移到法语（结构相似），但对蛋白质序列（完全不同的领域）则效果很差。当领域差异太大时，迁移实际上可能会损害性能（“负迁移”）。领域特定的预训练（如用于生物医学文本的BioGPT或用于代码的CodeLlama）通过在领域相关数据上预训练来解决这个问题。

Transfer Learning

为什么重要

深度解析

预训练+微调范式

迁移失败的情况

相关概念