Zubnet AI学习Wiki › 基础模型
基础

基础模型

在一个广泛数据集上训练的大型模型,可作为许多不同任务的基础。Claude、GPT、Gemini 和 Llama 都是基础模型。它们被称为“基础模型”,是因为无需针对每个任务进行特定训练,即可适应几乎所有任务——如写作、编程、分析、图像理解等。

为什么重要

基础模型改变了AI的经济性。与其为每个任务单独训练一个模型,不如一次性训练一个巨大的模型,然后通过微调或提示来满足具体需求。

深度解析

基础模型最初是一个空白的神经网络—数十亿个参数被初始化为随机值。在预训练过程中,它会消耗庞大的数据集(网页、书籍、代码仓库、科学论文),并学习预测接下来的内容。这种下一个token的预测目标看似简单,但实际上迫使模型内化语法、事实、推理模式、编码规范,甚至一定程度的常识。最终结果是一个通用基础模型,它对许多领域都有广泛了解,但并非专门为任何单一任务而设计。GPT-4、Claude、Gemini和Llama最初都是基础模型,之后又经历了额外的对齐和指令微调阶段。

迁移学习的转变

基础模型背后的关键创新是大规模迁移学习。在这一范式出现之前,如果你想让AI能够分类医学图像,就需要从头开始训练一个医学图像分类器。如果你想让AI能够总结法律合同,就需要在法律数据上训练一个独立的模型。基础模型颠覆了这一等式:训练一个拥有广泛知识的模型,然后以低成本进行适配。适配可以轻量到只需编写一个良好的提示(零样本),在上下文中提供几个例子(少样本),或在小规模任务特定数据集上进行微调。这就是为什么像Claude这样的单一模型可以帮你调试Python代码、撰写营销文案、分析电子表格—这一切都可以在同一次对话中完成。

继承的优势与缺陷

“基础模型”这一术语由斯坦福大学基础模型研究中心(CRFM)于2021年提出,用来描述一个重要的概念:这些模型在架构意义上是基础。所有构建在其上的系统都会继承其优势和缺陷。如果训练数据中存在偏见,这些偏见会传播到每一个下游应用中。如果模型产生幻觉,所有基于它的产品也可能产生幻觉。这与传统软件有根本不同,传统软件的错误是局部化的。而基础模型中,一个能力差距或故障模式可能在不同团队开发的数千个应用中产生连锁反应,这些团队从未接触过训练过程。

成本壁垒

训练一个基础模型的成本极其高昂—我们谈论的是数十万到数百万美元的计算资源,用于最大的模型,再加上组装和清洗万亿token数据集所需的工程努力。这创造了一个集中化的生态系统:只有少数几家组织(Anthropic、OpenAI、Google、Meta、Mistral等)能够负担得起从零开始训练前沿基础模型。其他所有人只能在其基础上构建。这种经济现实塑造了整个行业—这就是为什么基于API的访问成为主流部署模式,以及为什么像Llama和Mistral这样的开源权重发布对竞争和可访问性如此重要。

不仅仅是语言

一个常见的误解是“基础模型”(foundation model)和“大型语言模型”(LLM)是同义词。它们有很大程度的重叠,但并不是同一个概念。基础模型的定义在于其

相关概念

← 所有术语
← 微调 GAN →
ESC