Zubnet AIApprendreWiki › Vocabulary
Fondamentaux

Vocabulary

Vocab, Token Vocabulary
L'ensemble fixe de tokens qu'un modèle peut reconnaître et produire. Un vocabulaire est construit par le tokenizer pendant l'entraînement et contient typiquement 32K à 128K entrées — mots communs, fragments de sous-mots, caractères individuels et tokens spéciaux. N'importe quel texte que le modèle traite doit être exprimable comme une séquence de tokens de ce vocabulaire. Les tokens pas dans le vocabulaire sont cassés en plus petits morceaux qui y sont.

Pourquoi c'est important

Le vocabulaire détermine ce que le modèle peut « voir ». Un vocabulaire entraîné majoritairement sur de l'anglais gérera l'anglais efficacement (un token par mot) mais peut fragmenter le chinois, l'arabe ou le code en beaucoup de petits tokens (cher, plus lent, moins de contexte). Le design du vocabulaire est une des décisions les plus conséquentes et les moins discutées dans le développement de modèle.

Deep Dive

Building a vocabulary: the tokenizer algorithm (usually BPE) starts with individual bytes or characters and iteratively merges the most frequent pairs. After 32K–128K merges, you have a vocabulary where common words are single tokens ("the," "and," "function") and rare words are split into subword pieces ("un" + "common," "pre" + "process" + "ing"). Special tokens like <BOS> (beginning of sequence), <EOS> (end), and <PAD> (padding) are added explicitly.

The Size Trade-off

Larger vocabularies compress text better (fewer tokens per sentence = cheaper, fits more in context) but increase the model's embedding table size. A 128K vocabulary with 4096-dimensional embeddings adds ~500M parameters just for the token tables. For a 7B model, that's 7% of total parameters doing nothing but mapping tokens to vectors. For a 1B model, it would be 50%. This is why smaller models tend to use smaller vocabularies.

Multilingual Vocabulary

A vocabulary's language coverage depends on its training corpus. Llama's early tokenizer was trained predominantly on English and represented Chinese characters as 3–4 tokens each, making Chinese inference 3–4x more expensive than English. Llama 3's tokenizer was trained on more balanced multilingual data, dramatically improving non-English efficiency. This is a solvable problem, but it requires deliberate effort — the default is English-dominant.

Concepts liés

← Tous les termes
← vLLM Voice AI →