采样：定义与含义 — AI 维基

从模型预测的概率分布中选择生成下一个 token 的过程。贪心解码总是选择最可能的 token。随机采样按概率比例选择。温度、top-p（核采样）和 top-k 是调整选择的随机性和多样性的控制参数。采样策略极大地影响输出质量、创造力和一致性。

为什么重要

采样参数是控制 LLM 行为最便捷的旋钮。温度 0 用于确定性代码生成。温度 0.7 用于创意写作。Top-p 0.9 是一个很好的平衡点。这些不是魔法数字——它们直接控制模型在每一步考虑哪些 token。理解采样有助于你为特定用例调优输出。

深度解析

采样流程：(1) 模型为所有词汇 token 产生 logits，(2) 温度缩放将 logits 除以 T，(3) top-k 过滤只保留 k 个最高的 logits（其余设为 −∞），(4) top-p 过滤保留累积概率超过 p 的最小 token 集合，(5) softmax 将过滤后的 logits 转换为概率，(6) 从该分布中随机采样一个 token。步骤 3 和 4 是可选的，可以组合使用。

选择参数

对于事实/代码任务：温度 0（或非常低），不使用 top-p/top-k。你需要最可能的 token。对于创意写作：温度 0.7–1.0，top-p 0.9–0.95。你需要多样性但不要不连贯。对于头脑风暴：温度 1.0+，更宽的 top-p。你需要出人意料的、意想不到的联系。关键洞见：没有通用的最佳设置。不同的任务需要不同的采样策略，最佳参数也因模型而异。

超越简单采样

高级策略包括：束搜索（维护多个候选序列，选择整体最佳——适合翻译，对开放式生成用处较少）、对比解码（增强大模型优于小模型的 token）和 min-p 采样（动态阈值，保留概率高于顶部 token 概率一定比例的 token）。这些技术解决了简单采样的特定失效模式，如重复循环或退化输出。

采样

为什么重要

深度解析

选择参数

超越简单采样

相关概念