Pesquisadores da Meta, Stanford e Universidade de Washington propuseram três métodos de aceleração de inferência para o Byte Latent Transformer (BLT) que afirmam cortar a largura de banda de memória em mais de 50% em modelos de 3B parâmetros, aproximando-se da qualidade do baseline na maioria dos benchmarks. Para quem roda modelos byte-level — ou se perguntou se arquiteturas sem tokenizador poderiam ser práticas em escala de deploy — esta é a resposta de largura de banda à resposta de qualidade que o BLT original entregou no final de 2024.

BLT (o original) processa bytes brutos agrupados em patches de comprimento variável via segmentação baseada em entropia: regiões de alta entropia recebem patches curtos, segmentos previsíveis recebem longos. Igualava modelos tokenizados em qualidade, mas geração autoregressiva em nível byte é intrinsecamente lenta — você decodifica byte por byte. O novo paper (arXiv:2605.08044) introduz três variantes. BLT-D (Difusão) substitui decodificação byte-por-byte por difusão discreta em bloco, gerando vários bytes por passe de decodificador. BLT-S (Auto-Especulação) usa o próprio decodificador leve do modelo como mecanismo de rascunho sem treinamento adicional. BLT-DV combina rascunho por difusão com verificação autoregressiva. Números em modelos 1B e 3B treinados no BLT-1T (1 trilhão de tokens): BLT-D-4 (tamanho de bloco 4) quase iguala os scores do BLT com menos da metade da largura de banda de memória. BLT-D-16 atinge 87-92% de redução. A ressalva que o próprio paper sinaliza: a métrica é gigabytes derivados de contagens de parâmetros e passes forward em 16 bits — é um proxy. A melhoria real em tempo de relógio requer uma implementação otimizada em nível de kernel que o paper não entrega.

Tokenização tem sido um gargalo silencioso por anos — suporte multilíngue, geração de código, e qualquer domínio com vocabulário novo pagam um imposto de tokenizador. ByT5 e CharFormer tentaram abordagens byte-level em escala pequena; BLT original (Meta, final de 2024) mostrou que podia igualar modelos tokenizados em qualidade em escala de fronteira. A lacuna de largura de banda era o problema restante: inferência byte-level custava mais bytes por token gerado. A abordagem baseada em difusão do Fast-BLT é interessante além dos bytes — difusão discreta em bloco como estratégia de decodificação é algo que outras arquiteturas poderiam emprestar. Para deploys multilíngues especificamente, tradução FLORES-101 mostrou os maiores ganhos, o que se alinha com o manuseio byte-level de ortografia não inglesa sem fragmentação de tokenizador. O trade-off: HumanEval e MBPP em código mostraram quedas de qualidade significativas nos maiores tamanhos de bloco, então não é almoço grátis — geração estruturada paga.

Paper no arXiv (2605.08044); sem código ou pesos linkados no anúncio. As afirmações de largura de banda são métrica proxy, não tempo de relógio medido — espere uma implementação otimizada antes de assumir que a história de deploy se sustenta. Mas o movimento direcional importa: se modelos byte-level se tornarem competitivos em largura de banda com os tokenizados, a suposição tokenizador-como-infraestrutura-de-suporte está em um relógio. Vale a pena seguir pelos próximos seis meses de papers de continuação.