模型：定义与含义 — AI 维基

一个经过训练的数学系统，它接收输入并根据从数据中学习到的模式生成输出。在人工智能领域，“model（模型）”是用于描述你实际使用的事物的统称——无论是GPT-4生成文本、Stable Diffusion生成图像，还是Whisper转录语音。一个模型由其架构（其结构方式）、参数（其学习内容）和训练数据（其学习来源）定义。当有人问“我应该使用哪个模型？”时，他们就是在问这个。

为什么重要

“模型”是AI领域中最常用的词汇，其在不同语境下含义各异。一个“模型”可以指代架构（Transformer），也可以指特定的训练实例（Claude Opus 4.6），或是磁盘上的文件（.gguf 文件），甚至是一个API端点。理解模型究竟是什么——以及它不是什么——是其他一切的基础。

深度解析

一个模型是三种要素融合的结果：架构、参数和训练数据的幽灵。架构是蓝图—它定义了信息在系统中如何流动。Transformer通过多层注意力机制处理文本。扩散模型通过迭代去噪随机噪声生成图像。Mamba模型则使用选择性状态空间处理序列，完全不需要注意力机制。架构决定了模型可以处理什么类型的输入和生成什么类型的输出，但单独的架构本身并不能做任何事情。它是一个没有知识的空白结构。

参数是知识。在训练过程中，模型会调整数百万甚至数十亿个数值权重，直到它能够很好地预测训练数据。这些权重编码了模型“知道”的一切内容—语法规则、事实、推理模式、风格、偏见。当人们说一个模型有700亿参数时，意味着有700亿个已学习的数值，它们共同代表了模型从训练语料中提取出的任何模式。从最具体的层面上说，参数就是模型本身：它是你下载的文件，是加载到GPU内存中的东西，是将架构转化为能力的产物。

模型格式及其含义

当你下载一个模型时，你下载的是将这些参数序列化为文件。格式的重要性可能超出你的预期。PyTorch的.pt或.bin文件是使用PyTorch训练模型的原生格式—它们使用Python的pickle序列化，这意味着它们在技术上可以包含任意代码。如果你从不可信的来源下载模型，这确实是一个真正的安全问题。Hugging Face开发的Safetensors通过仅存储原始张量数据并采用无法执行代码的格式解决了这个问题。它加载速度更快，因为它支持内存映射访问。大多数模型仓库已将safetensors作为默认格式。

GGUF则完全不同。由llama.cpp社区开发，GGUF旨在消费级硬件上进行CPU和混合CPU/GPU推理。它将模型权重与量化、分词器配置和架构细节的元数据打包到一个自包含的文件中。如果你看到有人在MacBook上运行一个700亿参数的模型，他们几乎肯定使用的是被量化到4位或5位精度的GGUF文件。ONNX（开放神经网络交换）则采用另一种方法—它是一种互操作格式，旨在让你在一个框架中训练模型，并在另一个框架中运行，通常由运行时应用特定于硬件的优化。

模型生命周期

模型经历一个大多数用户从未见过的生命周期。预训练是昂贵的部分：基础模型在大量数据（通常对于大语言模型来说是数万亿个token）上进行训练，成本从数万美元到数百万美元不等。这会生成一个可以预测文本的基础模型，但并不特别适用于对话。微调会使用更小、更精心挑选的数据集，将基础模型调整为特定任务—指令遵循、代码生成、医学诊断等。RLHF或类似的对齐技术使模型的输出更有帮助且更少有害。量化将模型的精度从16位或32位浮点数压缩到8位、4位甚至更低，以牺牲少量质量换取内存和计算需求的显著减少。部署将模型放在API后面或加载到设备上。服务处理实际的推理请求。

开源模型与闭源模型

开源模型与闭源模型之间的区别听起来可能比实际情况更模糊。当Meta“发布”Llama时，他们公开了模型权重—你可以下载参数并在自己的硬件上运行模型。但他们并未发布训练数据或完整的训练代码。Mistral也做了类似的事情。这些更准确地说是“开放权重”模型。真正开源的模型应包括权重、训练数据、训练代码和评估流程—一个几乎无人满足的标准。另一方面，闭源模型如GPT-4和Claude只能通过API获得。你永远看不到权重，无法修改模型，并且必须遵守提供方的服务条款。实际差异巨大：开放权重模型为你提供控制权、隐私和微调能力，但你需支付计算成本并承担运营复杂性。闭源模型为你提供便利和通常更好的性能，但你是在租用别人的系统。

实际选择模型

基准测试是模型比较的标准方式，但它们极不可靠。在MMLU（多选知识测试）中得分最高的模型可能在你的特定任务上表现不佳。测试数据泄露到训练数据中的基准污染现象非常普遍且难以检测。基于盲人偏好投票排名模型的Chatbot Arena更可信，但仍反映的是通用对话质量而非特定领域的性能。选择模型的唯一可靠方法是用实际工作负载测试候选模型。编写十个代表性提示，让它们通过三到四个模型运行，并比较输出结果。这一个小时的投资将告诉你比任何排行榜都多的信息。

模型