基础设施

推测解码

别名：辅助生成

小型草稿模型生成候选token，大型模型一次性验证全部。猜对的token = 每步多个token。在输出质量完全相同的情况下实现2到3倍的加速。

为什么重要

AI推理中为数不多的“免费午餐”之一。数学上保证输出完全相同，只是更快。

深度解析

验证比生成更廉价（并行处理 vs. 顺序处理）。草稿模型应该小巧但与大模型相似。典型接受率在70%到85%之间。对可预测文本的加速效果最明显。

相关概念

← 所有术语

← 损失函数推理 →