Zubnet AI学习Wiki › 采样
基础

采样

别名:解码策略、Top-p、Top-k
从模型预测的概率分布中选择生成下一个 token 的过程。贪心解码总是选择最可能的 token。随机采样按概率比例选择。温度、top-p(核采样)和 top-k 是调整选择的随机性和多样性的控制参数。采样策略极大地影响输出质量、创造力和一致性。

为什么重要

采样参数是控制 LLM 行为最便捷的旋钮。温度 0 用于确定性代码生成。温度 0.7 用于创意写作。Top-p 0.9 是一个很好的平衡点。这些不是魔法数字——它们直接控制模型在每一步考虑哪些 token。理解采样有助于你为特定用例调优输出。

深度解析

采样流程:(1) 模型为所有词汇 token 产生 logits,(2) 温度缩放将 logits 除以 T,(3) top-k 过滤只保留 k 个最高的 logits(其余设为 −∞),(4) top-p 过滤保留累积概率超过 p 的最小 token 集合,(5) softmax 将过滤后的 logits 转换为概率,(6) 从该分布中随机采样一个 token。步骤 3 和 4 是可选的,可以组合使用。

选择参数

对于事实/代码任务:温度 0(或非常低),不使用 top-p/top-k。你需要最可能的 token。对于创意写作:温度 0.7–1.0,top-p 0.9–0.95。你需要多样性但不要不连贯。对于头脑风暴:温度 1.0+,更宽的 top-p。你需要出人意料的、意想不到的联系。关键洞见:没有通用的最佳设置。不同的任务需要不同的采样策略,最佳参数也因模型而异。

超越简单采样

高级策略包括:束搜索(维护多个候选序列,选择整体最佳——适合翻译,对开放式生成用处较少)、对比解码(增强大模型优于小模型的 token)和 min-p 采样(动态阈值,保留概率高于顶部 token 概率一定比例的 token)。这些技术解决了简单采样的特定失效模式,如重复循环或退化输出。

相关概念

← 所有术语
← 速率限制 量化 →
ESC