关键洞察:底层特征可以在任务间迁移。在ImageNet上训练的视觉模型在早期层学会检测边缘、纹理和形状——这些特征对几乎任何视觉任务都有用。在网页文本上训练的语言模型学会了语法、事实和推理模式,对几乎任何语言任务都有用。迁移学习通过复用通用知识并仅训练特定于任务的部分来利用这一点。
今天几乎每个AI系统都遵循这一模式:(1)在大规模通用数据集上预训练大型模型(昂贵,只做一次),(2)在较小的特定任务数据集上微调(便宜,多次进行)。BERT在2018年率先将此应用于NLP。GPT将其扩大规模。整个LLM行业都建立在这一范式上——基础模型是预训练的基底,微调(包括RLHF/DPO)是使它们成为有用助手的方式。
当源域和目标域相关时,迁移学习效果最好。在英文文本上预训练的模型可以很好地迁移到法语(结构相似),但对蛋白质序列(完全不同的领域)则效果很差。当领域差异太大时,迁移实际上可能会损害性能(“负迁移”)。领域特定的预训练(如用于生物医学文本的BioGPT或用于代码的CodeLlama)通过在领域相关数据上预训练来解决这个问题。