來自 Meta、史丹佛和華盛頓大學的研究人員為 Byte Latent Transformer(BLT)提出了三種推理加速方法,聲稱在 3B 參數模型上將記憶體頻寬減少超過 50%,同時在大多數基準上接近基線品質。對於任何運行 byte 級模型的人 —— 或任何想知道無 tokenizer 架構是否能在部署規模下實用的人 —— 這是對 BLT 原版在 2024 年末交付的品質答案的頻寬答案。
BLT(原版)透過基於熵的分割將原始位元組分組為可變長度的 patches:高熵區域獲得短 patches,可預測段獲得長 patches。它在品質上匹配了 tokenized 模型,但 byte 級自迴歸生成本質上是慢的 —— 你逐位元組解碼。新論文(arXiv:2605.08044)引入了三種變體。BLT-D(擴散)用 block-wise 離散擴散替換 byte 逐位元組解碼,每次解碼器通過生成多個位元組。BLT-S(自推測)使用模型自己的輕量解碼器作為草稿機制,無需額外訓練。BLT-DV 將擴散草稿與自迴歸驗證相結合。在 BLT-1T(1 兆 token)上訓練的 1B 和 3B 模型上的數據:BLT-D-4(塊大小 4)在不到一半的記憶體頻寬下幾乎匹配 BLT 的任務分數。BLT-D-16 達到 87-92% 的頻寬減少。論文本身標註的注意事項:該指標是從 16 位元精度下的參數計數和前向傳遞計數派生的吉位元組 —— 它是一個代理。實際的 wall-clock 改進需要論文未交付的優化 kernel 級實現。
Tokenization 多年來一直是一個安靜的瓶頸 —— 多語言支援、程式碼生成,以及任何具有新詞彙的領域都要付 tokenizer 稅。ByT5 和 CharFormer 在小規模上嘗試了 byte 級方法;原始 BLT(Meta,2024 年末)證明它可以在前沿規模匹配 tokenized 模型的品質。頻寬差距是剩下的問題:byte 級推理每生成 token 花費更多位元組。Fast-BLT 基於擴散的方法在 byte 之外也很有趣 —— block-wise 離散擴散作為解碼策略是其他架構可以借鑒的。具體到多語言部署,FLORES-101 翻譯顯示了最強收益,這與 byte 級處理非英語正字法而無 tokenizer 碎片化相符。權衡:HumanEval 和 MBPP 編碼在最大塊大小下顯示了顯著的品質下降,所以這不是萬能的免費午餐 —— 結構化生成會付出代價。
論文在 arXiv(2605.08044);公告中沒有連結程式碼或權重。頻寬聲明是代理指標,不是測量的 wall-clock —— 在假設部署故事成立之前等待優化實現。但方向性運動很重要:如果 byte 級模型在頻寬上與 tokenized 模型競爭,tokenizer-as-load-bearing-infra 假設就在計時。值得通過接下來六個月的後續論文跟蹤。
