取樣管線:(1) 模型為所有詞彙 token 產生 logits,(2) 溫度縮放將 logits 除以 T,(3) top-k 過濾只保留最高的 k 個 logits(將其餘設為 −∞),(4) top-p 過濾保留累積機率超過 p 的最小 token 集合,(5) softmax 將過濾後的 logits 轉換為機率,(6) 從此分布中隨機取樣一個 token。步驟 3 和 4 是可選的,可以組合使用。
對於事實/程式碼任務:溫度 0(或非常低),不使用 top-p/top-k。你想要最可能的 token。對於創意寫作:溫度 0.7–1.0,top-p 0.9–0.95。你想要多樣性但不失連貫。對於腦力激盪:溫度 1.0 以上,更寬的 top-p。你想要令人驚訝的、意想不到的連結。關鍵洞見:沒有通用的最佳設定。不同的任務需要不同的取樣策略,而最佳參數也因模型而異。
進階策略包括:束搜尋(維護多個候選序列,選擇整體最佳——適合翻譯,對開放式生成用處較小)、對比解碼(提升大型模型優於小型模型的 token),以及 min-p 取樣(動態閾值,保留機率高於頂部 token 機率某一比例的 token)。這些技術解決簡單取樣的特定失敗模式,如重複迴圈或退化輸出。