Des chercheurs de Meta, Stanford, et de l'Université de Washington ont proposé trois méthodes d'accélération d'inférence pour le Byte Latent Transformer (BLT) qui revendiquent une réduction de plus de 50 % de la bande passante mémoire sur des modèles de 3B paramètres, tout en approchant la qualité du baseline sur la plupart des benchmarks. Pour quiconque fait tourner des modèles au niveau byte — ou quiconque s'est demandé si les architectures sans tokenizer pourraient être pratiques à l'échelle du déploiement — c'est la réponse de bande passante à la réponse de qualité que le BLT original a livrée fin 2024.

BLT (l'original) traite les bytes bruts groupés en patches de longueur variable via une segmentation basée sur l'entropie : les régions à haute entropie obtiennent des patches courts, les segments prédictibles en obtiennent de longs. Il égalait les modèles tokenisés en qualité, mais la génération autorégressive au niveau byte est intrinsèquement lente — on décode byte par byte. Le nouveau papier (arXiv:2605.08044) introduit trois variantes. BLT-D (Diffusion) remplace le décodage byte par byte par une diffusion discrète par bloc, générant plusieurs bytes par passe de décodeur. BLT-S (Auto-Spéculation) utilise le propre décodeur léger du modèle comme mécanisme de brouillon sans entraînement supplémentaire. BLT-DV combine le brouillonnage par diffusion avec la vérification autorégressive. Chiffres sur modèles 1B et 3B entraînés sur BLT-1T (1 trillion de tokens) : BLT-D-4 (taille de bloc 4) approche les scores de BLT à moins de la moitié de la bande passante mémoire. BLT-D-16 atteint 87-92 % de réduction. La mise en garde que le papier lui-même signale : la métrique est en gigabytes dérivés des comptes de paramètres et de passes forward en 16 bits — c'est un proxy. L'amélioration réelle en temps réel exige une implémentation optimisée au niveau kernel que le papier ne livre pas.

La tokenisation a été un goulot d'étranglement discret pendant des années — le support multilingue, la génération de code, et tout domaine avec vocabulaire nouveau paient une taxe de tokenizer. ByT5 et CharFormer ont essayé des approches byte-level à petite échelle ; le BLT original (Meta, fin 2024) a montré qu'il pouvait égaler les modèles tokenisés en qualité à l'échelle frontière. L'écart de bande passante était le problème restant : l'inférence byte-level coûtait plus de bytes par token généré. L'approche basée diffusion de Fast-BLT est intéressante au-delà des bytes — la diffusion discrète par bloc comme stratégie de décodage est quelque chose que d'autres architectures pourraient emprunter. Pour les déploiements multilingues spécifiquement, la traduction FLORES-101 a montré les gains les plus forts, ce qui s'aligne avec la gestion byte-level de l'orthographie non-anglaise sans fragmentation du tokenizer. Le compromis : HumanEval et MBPP en code ont montré des chutes de qualité significatives aux plus grandes tailles de bloc, donc pas de free lunch — la génération structurée paie.

Papier sur arXiv (2605.08044) ; aucun code ou poids linké dans l'annonce. Les revendications de bande passante sont en métrique proxy, pas en temps réel mesuré — attendre une implémentation optimisée avant d'assumer que l'histoire de déploiement tient. Mais le mouvement directionnel compte : si les modèles byte-level deviennent compétitifs en bande passante avec les tokenisés, l'assomption tokenizer-comme-infra-porteuse est sur un compteur. À suivre à travers les six prochains mois de papiers de suivi.