Meta + Stanford proposent Fast Byte Latent Transformer avec 50 % de bande passante en moins, Zubnet AI Nouvelles

Des chercheurs de Meta, Stanford, et de l'Université de Washington ont proposé trois méthodes d'accélération d'inférence pour le Byte Latent Transformer (BLT) qui revendiquent une réduction de plus de 50 % de la bande passante mémoire sur des modèles de 3B paramètres, tout en approchant la qualité du baseline sur la plupart des benchmarks. Pour quiconque fait tourner des modèles au niveau byte — ou quiconque s'est demandé si les architectures sans tokenizer pourraient être pratiques à l'échelle du déploiement — c'est la réponse de bande passante à la réponse de qualité que le BLT original a livrée fin 2024.

BLT (l'original) traite les bytes bruts groupés en patches de longueur variable via une segmentation basée sur l'entropie : les régions à haute entropie obtiennent des patches courts, les segments prédictibles en obtiennent de longs. Il égalait les modèles tokenisés en qualité, mais la génération autorégressive au niveau byte est intrinsèquement lente — on décode byte par byte. Le nouveau papier (arXiv:2605.08044) introduit trois variantes. BLT-D (Diffusion) remplace le décodage byte par byte par une diffusion discrète par bloc, générant plusieurs bytes par passe de décodeur. BLT-S (Auto-Spéculation) utilise le propre décodeur léger du modèle comme mécanisme de brouillon sans entraînement supplémentaire. BLT-DV combine le brouillonnage par diffusion avec la vérification autorégressive. Chiffres sur modèles 1B et 3B entraînés sur BLT-1T (1 trillion de tokens) : BLT-D-4 (taille de bloc 4) approche les scores de BLT à moins de la moitié de la bande passante mémoire. BLT-D-16 atteint 87-92 % de réduction. La mise en garde que le papier lui-même signale : la métrique est en gigabytes dérivés des comptes de paramètres et de passes forward en 16 bits — c'est un proxy. L'amélioration réelle en temps réel exige une implémentation optimisée au niveau kernel que le papier ne livre pas.

La tokenisation a été un goulot d'étranglement discret pendant des années — le support multilingue, la génération de code, et tout domaine avec vocabulaire nouveau paient une taxe de tokenizer. ByT5 et CharFormer ont essayé des approches byte-level à petite échelle ; le BLT original (Meta, fin 2024) a montré qu'il pouvait égaler les modèles tokenisés en qualité à l'échelle frontière. L'écart de bande passante était le problème restant : l'inférence byte-level coûtait plus de bytes par token généré. L'approche basée diffusion de Fast-BLT est intéressante au-delà des bytes — la diffusion discrète par bloc comme stratégie de décodage est quelque chose que d'autres architectures pourraient emprunter. Pour les déploiements multilingues spécifiquement, la traduction FLORES-101 a montré les gains les plus forts, ce qui s'aligne avec la gestion byte-level de l'orthographie non-anglaise sans fragmentation du tokenizer. Le compromis : HumanEval et MBPP en code ont montré des chutes de qualité significatives aux plus grandes tailles de bloc, donc pas de free lunch — la génération structurée paie.

Papier sur arXiv (2605.08044) ; aucun code ou poids linké dans l'annonce. Les revendications de bande passante sont en métrique proxy, pas en temps réel mesuré — attendre une implémentation optimisée avant d'assumer que l'histoire de déploiement tient. Mais le mouvement directionnel compte : si les modèles byte-level deviennent compétitifs en bande passante avec les tokenisés, l'assomption tokenizer-comme-infra-porteuse est sur un compteur. À suivre à travers les six prochains mois de papiers de suivi.

Meta + Stanford proposent Fast Byte Latent Transformer avec 50 % de bande passante en moins

Plus de nouvelles