小型草稿模型生成候选token,大型模型一次性验证全部。猜对的token = 每步多个token。在输出质量完全相同的情况下实现2到3倍的加速。
AI推理中为数不多的“免费午餐”之一。数学上保证输出完全相同,只是更快。
验证比生成更廉价(并行处理 vs. 顺序处理)。草稿模型应该小巧但与大模型相似。典型接受率在70%到85%之间。对可预测文本的加速效果最明显。