Zubnet AIApprendreWiki › BPE
Fondamentaux

BPE

Aussi appelé : Byte Pair Encoding, tokenisation en sous-mots
L'algorithme le plus courant pour construire les vocabulaires de tokeniseurs. BPE commence avec des octets ou caractères individuels et fusionne itérativement la paire adjacente la plus fréquente en un nouveau token. Après des milliers de fusions, les mots courants deviennent des tokens uniques ("the", "function") tandis que les mots rares sont découpés en sous-mots ("un" + "common"). Utilisé par GPT, Claude, Llama et la plupart des LLM modernes.

Pourquoi c'est important

BPE est la raison pour laquelle ton tokeniseur fonctionne comme il le fait. Il explique pourquoi les mots courants sont peu coûteux (un seul token), pourquoi les mots rares sont chers (plusieurs tokens), et pourquoi le texte non anglais coûte plus (moins de fusions allouées aux paires de caractères non anglais). Comprendre BPE t'aide à prédire les comptes de tokens, optimiser les prompts et comprendre pourquoi différents tokeniseurs produisent des résultats différents pour le même texte.

En profondeur

L'algorithme : (1) commencer avec un vocabulaire de base d'octets individuels (256 entrées) ou de caractères, (2) parcourir le corpus d'entraînement et compter chaque paire adjacente de tokens, (3) fusionner la paire la plus fréquente en un nouveau token et l'ajouter au vocabulaire, (4) répéter les étapes 2–3 jusqu'à ce que le vocabulaire atteigne la taille cible (typiquement 32K–128K). L'ordre de fusion définit une priorité : "th" pourrait être la fusion #50 tandis que "ing" est la fusion #200, signifiant que "th" est une unité plus fondamentale dans ce tokeniseur.

SentencePiece

SentencePiece (Google) est une implémentation populaire de BPE qui traite l'entrée comme des octets bruts plutôt que comme des mots pré-tokenisés. Cela signifie qu'il peut gérer n'importe quelle langue sans prétraitement spécifique — pas besoin de segmentation de mots en chinois ou d'analyse morphologique en turc. La plupart des LLM modernes utilisent SentencePiece ou une variante similaire de BPE au niveau des octets. L'alternative, WordPiece (utilisé par BERT), est similaire mais utilise un critère de fusion légèrement différent.

Le corpus d'entraînement compte

Les fusions BPE reflètent les statistiques du corpus d'entraînement. Un tokeniseur entraîné sur du code anglais obtient des fusions efficaces pour "function", "return" et "const" mais fragmente le texte hindi ou arabe. C'est pourquoi les tokeniseurs multilingues ont besoin de corpus d'entraînement équilibrés — la table de fusion doit allouer suffisamment de fusions aux patterns courants de chaque langue. Le tokeniseur de Llama 3 a été explicitement entraîné sur des données multilingues plus équilibrées, améliorant l'efficacité des tokens non anglais de 2–3x par rapport à Llama 2.

Concepts connexes

← Tous les termes
← BLEU & ROUGE Bria →