Zubnet AIAprenderWiki › Tokenizer
Fundamentos

Tokenizer

Também conhecido como: Tokenização
O algoritmo que converte texto bruto em tokens antes que um modelo possa processá-lo. Um tokenizer mantém um vocabulário fixo de tipos de token e divide qualquer texto de entrada em uma sequência desses tokens. Diferentes modelos usam diferentes tokenizers — a mesma frase é tokenizada de forma diferente para Claude, GPT e Llama, o que afeta o uso de contexto e o custo.

Por que isso importa

O tokenizer é a camada invisível entre seu texto e o modelo. Ele determina quantos tokens seu prompt custa, por que alguns idiomas são mais caros que outros, e por que código às vezes usa contexto mais rápido que prosa. Quando você atinge um limite de contexto ou vê custos inesperados de API, o tokenizer geralmente é a explicação.

Em profundidade

A maioria dos tokenizers modernos usa Byte Pair Encoding (BPE) ou uma variante chamada SentencePiece. BPE funciona começando com bytes ou caracteres individuais e repetidamente mesclando o par adjacente mais frequente em um novo token. Após milhares de mesclas, palavras comuns como “the” se tornam tokens únicos, enquanto palavras raras são divididas em pedaços de subpalavras.

O Tamanho do Vocabulário Importa

O tamanho do vocabulário de um tokenizer é um trade-off real de engenharia. Vocabulários maiores (100K+ tokens) comprimem texto de forma mais eficiente — palavras e frases comuns ganham tokens dedicados, então menos contexto é consumido. Mas vocabulários maiores também significam uma tabela de embedding maior nas camadas de entrada e saída do modelo.

O Imposto Multilingual

Tokenizers são treinados em um corpus, e a distribuição de idiomas desse corpus determina a eficiência. Texto em inglês tipicamente é tokenizado em aproximadamente 1 token por palavra. Mas idiomas como chinês, japonês, coreano, árabe e hindi podem exigir 2–4x mais tokens para significado equivalente.

Artefatos do Tokenizer

Peculiaridades na tokenização explicam vários comportamentos de LLMs que as pessoas acham intrigantes. Modelos têm dificuldade com tarefas no nível de caractere (contar letras em “strawberry”) porque veem tokens, não caracteres. Eles lidam com alguns nomes de variáveis melhor que outros porque nomes comuns são tokens únicos enquanto incomuns se fragmentam.

Conceitos relacionados

← Todos os termos
← Token Transfer Learning →