Investigadores de Meta, Stanford y la Universidad de Washington propusieron tres métodos de aceleración de inferencia para el Byte Latent Transformer (BLT) que afirman reducir el ancho de banda de memoria en más del 50% en modelos de 3B parámetros, acercándose a la calidad del baseline en la mayoría de benchmarks. Para quien ejecute modelos byte-level — o se haya preguntado si las arquitecturas sin tokenizador podrían ser prácticas a escala de despliegue — esta es la respuesta de ancho de banda a la respuesta de calidad que el BLT original entregó a finales de 2024.

BLT (el original) procesa bytes crudos agrupados en parches de longitud variable mediante segmentación basada en entropía: regiones de alta entropía obtienen parches cortos, segmentos predecibles los obtienen largos. Igualaba modelos tokenizados en calidad, pero la generación autorregresiva a nivel byte es intrínsecamente lenta — decodificas byte por byte. El nuevo paper (arXiv:2605.08044) introduce tres variantes. BLT-D (Difusión) reemplaza decodificación byte-por-byte con difusión discreta por bloques, generando varios bytes por pase de decodificador. BLT-S (Auto-Especulación) usa el propio decodificador ligero del modelo como mecanismo de borrador sin entrenamiento adicional. BLT-DV combina borrado por difusión con verificación autorregresiva. Números en modelos de 1B y 3B entrenados en BLT-1T (1 billón de tokens): BLT-D-4 (tamaño de bloque 4) casi iguala los scores de BLT con menos de la mitad del ancho de banda de memoria. BLT-D-16 alcanza 87-92% de reducción. La salvedad que el propio paper señala: la métrica es gigabytes derivados de conteos de parámetros y pases forward a 16 bits — es un proxy. La mejora real en tiempo de pared requiere una implementación optimizada a nivel kernel que el paper no entrega.

La tokenización ha sido un cuello de botella silencioso por años — el soporte multilingüe, la generación de código, y cualquier dominio con vocabulario nuevo pagan un impuesto de tokenizador. ByT5 y CharFormer intentaron enfoques byte-level a escala pequeña; BLT original (Meta, finales de 2024) mostró que podía igualar modelos tokenizados en calidad a escala frontera. La brecha de ancho de banda era el problema restante: la inferencia byte-level costaba más bytes por token generado. El enfoque basado en difusión de Fast-BLT es interesante más allá de los bytes — la difusión discreta por bloques como estrategia de decodificación es algo que otras arquitecturas podrían tomar prestado. Para despliegues multilingües específicamente, la traducción FLORES-101 mostró las mayores ganancias, lo que se alinea con el manejo byte-level de la ortografía no inglesa sin fragmentación del tokenizador. El compromiso: HumanEval y MBPP en código mostraron caídas de calidad significativas en los tamaños de bloque más grandes, así que no es comida gratis — la generación estructurada paga.

Paper en arXiv (2605.08044); sin código o pesos enlazados en el anuncio. Las afirmaciones de ancho de banda son métrica proxy, no tiempo real medido — espera una implementación optimizada antes de asumir que la historia de despliegue se sostiene. Pero el movimiento direccional importa: si los modelos byte-level se vuelven competitivos en ancho de banda con los tokenizados, el supuesto tokenizador-como-infraestructura-portante está en un reloj. Vale la pena seguir a través de los próximos seis meses de papers de seguimiento.