大型语言模型：定义与含义 — AI 维基

一种通过大量文本训练的神经网络，用于理解和生成人类语言。“大型”指的是参数数量（数十亿）和训练数据规模（万亿个token）。Claude、GPT、Gemini、Llama 和 Mistral 都是大型语言模型（LLMs）。

为什么重要

大型语言模型（LLM）是您使用的所有AI聊天机器人、代码助手和文本生成器背后的技术。理解它们的本质（统计模式匹配器，而非有意识的智能体）有助于您更有效地使用它们，并认识到它们的局限性。

深度解析

从根本上说，LLM 是一个函数，它接收一连串的 token，并输出下一个 token 的概率分布。这就是全部的诀窍。在训练过程中，模型会看到数万亿个 token 的文本，并调整其数十亿个参数，以更好地预测接下来的内容。当你与 Claude 或 GPT 交谈时，模型会逐个生成 token，每次都会将自己之前的输出作为输入反馈回去。这种自回归过程就是为什么你会看到响应逐字流式输出——模型在到达下一个词之前，真的不知道自己会说什么。

Transformer 架构

大多数现代 LLM 都基于 Google 研究人员于 2017 年引入的 Transformer 架构。Transformer 的关键创新是注意力机制，它使模型在决定某个 token 的含义时，可以查看输入中的所有其他 token。这解决了早期架构（如 RNN、LSTM）面临的问题：它们在处理长距离依赖关系时存在困难，因为信息必须通过每个中间步骤顺序流动。注意力机制使模型能够直接将第五段中的 "it" 与第一段中的 "数据库服务器" 连接起来，无论它们之间有多少文本。一些较新的架构（如 Mamba）使用状态空间模型而不是注意力机制，以牺牲一些灵活性来换取在长序列上的更高效率，但 Transformer 仍然是最大模型的主流范式。

规模的重要性

LLM 中的 "Large" 确实发挥着重要作用。规模的重要性超出了研究人员的预期。一个 10 亿参数的模型可以处理基本语法和简单事实。一个 700 亿参数的模型可以编写可运行的代码，并推理多步骤问题。最大的模型（数百亿参数，训练数据达万亿 token）展现出涌现能力——这些能力在达到一定规模时突然出现，而不是逐步改进。思维链推理、多语言迁移和上下文学习都是只有在模型跨越特定规模阈值后才会可靠出现的能力。这种规模行为由 "缩放定律" 描述，这些定律以令人惊讶的可预测方式将模型规模、数据集规模和计算预算与性能相关联。

从预测器到助手

预训练后，原始 LLM 本身并不特别有用——它们只是想要完成文本，因此可能会用更多问题来延续你的问题，而不是回答。这就是对齐的作用。RLHF（基于人类反馈的强化学习）和宪法 AI 等技术训练模型变得有帮助、无害且诚实，而不仅仅是文本预测器。这就是基础模型（如原始 Llama）与聊天模型（如 Claude 或 ChatGPT）之间的区别。基础模型拥有知识；对齐教会它如何在对话中使用这些知识。

可靠性差距

一个常被开发者忽视的实用陷阱：LLM 并不像数据库那样“知道”事情。它们只是从训练数据中编码了统计模式，这意味着它们可能会自信地陈述一些细微或完全错误的内容——即幻觉。它们还有知识截止日期，除非提供工具，否则无法访问实时信息。最佳实践者将 LLM 视为能力强大但不可靠的协作者：非常适合草稿撰写、头脑风暴和代码生成，但对事实性声明需要验证。检索增强生成（RAG）、结构化输出解析和工具使用是使 LLM 驱动的应用在生产环境中可靠运行的工程模式。

大型语言模型