来自 Meta、斯坦福和华盛顿大学的研究人员为 Byte Latent Transformer(BLT)提出了三种推理加速方法,声称在 3B 参数模型上将内存带宽减少超过 50%,同时在大多数基准上接近基线质量。对于任何运行 byte 级模型的人 —— 或任何想知道无 tokenizer 架构是否能在部署规模下实用的人 —— 这是对 BLT 原版在 2024 年末交付的质量答案的带宽答案。
BLT(原版)通过基于熵的分割将原始字节分组为可变长度的 patches:高熵区域获得短 patches,可预测段获得长 patches。它在质量上匹配了 tokenized 模型,但 byte 级自回归生成本质上是慢的 —— 你逐字节解码。新论文(arXiv:2605.08044)引入了三种变体。BLT-D(扩散)用 block-wise 离散扩散替换 byte 逐字节解码,每次解码器通过生成多个字节。BLT-S(自推测)使用模型自己的轻量解码器作为草稿机制,无需额外训练。BLT-DV 将扩散草稿与自回归验证相结合。在 BLT-1T(1 万亿 token)上训练的 1B 和 3B 模型上的数据:BLT-D-4(块大小 4)在不到一半的内存带宽下几乎匹配 BLT 的任务分数。BLT-D-16 达到 87-92% 的带宽减少。论文本身标注的注意事项:该指标是从 16 位精度下的参数计数和前向传递计数派生的吉字节 —— 它是一个代理。实际的 wall-clock 改进需要论文未交付的优化 kernel 级实现。
Tokenization 多年来一直是一个安静的瓶颈 —— 多语言支持、代码生成,以及任何具有新词汇的领域都要付 tokenizer 税。ByT5 和 CharFormer 在小规模上尝试了 byte 级方法;原始 BLT(Meta,2024 年末)证明它可以在前沿规模匹配 tokenized 模型的质量。带宽差距是剩下的问题:byte 级推理每生成 token 花费更多字节。Fast-BLT 基于扩散的方法在 byte 之外也很有趣 —— block-wise 离散扩散作为解码策略是其他架构可以借鉴的。具体到多语言部署,FLORES-101 翻译显示了最强收益,这与 byte 级处理非英语正字法而无 tokenizer 碎片化相符。权衡:HumanEval 和 MBPP 编码在最大块大小下显示了显著的质量下降,所以这不是万能的免费午餐 —— 结构化生成会付出代价。
论文在 arXiv(2605.08044);公告中没有链接代码或权重。带宽声明是代理指标,不是测量的 wall-clock —— 在假设部署故事成立之前等待优化实现。但方向性运动很重要:如果 byte 级模型在带宽上与 tokenized 模型竞争,tokenizer-as-load-bearing-infra 假设就在计时。值得通过接下来六个月的后续论文跟踪。
