Tokens são criados por um tokenizer, um algoritmo separado que roda antes da rede neural ver seu texto. A abordagem mais comum hoje é Byte Pair Encoding (BPE), usada por GPT, Claude e Llama. BPE começa com caracteres individuais (ou bytes) e iterativamente mescla os pares mais frequentes em novos tokens. Após mesclas suficientes, palavras comuns como "the" ou "and" se tornam tokens únicos, enquanto palavras raras ou especializadas são divididas em pedaços de subpalavras. A palavra "tokenization" pode se tornar "token" + "ization" ou "token" + "iz" + "ation" dependendo do tokenizer específico. Essa abordagem de subpalavras é o que torna modelos modernos capazes de lidar razoavelmente com erros de digitação, neologismos e código — nunca encontram uma palavra verdadeiramente "desconhecida", apenas combinações desconhecidas de pedaços conhecidos.
Diferentes modelos usam diferentes tokenizers com diferentes vocabulários, e isso importa mais do que a maioria percebe. O tokenizer do GPT-4 (cl100k) tem cerca de 100.000 tipos de token. O tokenizer do Claude é diferente. O Llama usa outro. A mesma frase em inglês pode ser tokenizada em um número diferente de tokens dependendo de qual modelo você está usando, o que afeta diretamente uso da janela de contexto e custos de API. Código tende a ser menos eficiente em tokens do que prosa porque nomes de variáveis e tokens de sintaxe podem não aparecer frequentemente o suficiente nos dados de treinamento para ganhar sua própria entrada no vocabulário. Línguas não inglesas variam muito — línguas com escrita latina geralmente tokenizam quase tão eficientemente quanto inglês, mas chinês, japonês, coreano, árabe e hindi frequentemente exigem mais tokens por significado equivalente porque seus caracteres podem não ter sido tão fortemente representados durante o treinamento do tokenizer.
O tamanho do vocabulário do tokenizer cria um trade-off real de engenharia. Um vocabulário maior significa que palavras e frases comuns ganham seus próprios tokens dedicados, então seu texto é comprimido em menos tokens (mais barato, mais rápido, cabe mais no contexto). Mas um vocabulário maior também significa uma tabela de embedding maior nas camadas de entrada e saída do modelo, o que aumenta o tamanho do modelo e uso de memória. A tabela de embedding para um vocabulário de 100.000 tokens em uma dimensão de modelo de 4.096 já são 400 milhões de parâmetros — uma parte nada trivial de um modelo menor. É por isso que tamanhos de vocabulário tendem a se agrupar na faixa de 32K a 128K: é o ponto ideal entre eficiência de compressão e overhead de parâmetros.
Quando provedores anunciam janelas de contexto — 8K, 128K, 1M tokens — esses números incluem tudo: seu system prompt, seu histórico de conversa, quaisquer documentos que você cole, e a própria resposta do modelo. Um erro comum de desenvolvedor é encher a janela de contexto com material de referência e deixar tokens insuficientes para o modelo gerar uma resposta substancial. A maioria das APIs permite definir um parâmetro max_tokens para a resposta, mas se sua entrada já consumiu a maior parte da janela de contexto, o modelo pode truncar seu raciocínio ou recusar responder. Na prática, você quer orçar: conheça o limite de contexto do seu modelo, estime o tamanho da sua entrada (a regra de 3/4 de palavra é um guia aproximado — para precisão, use a biblioteca de tokenizer do provedor), e reserve espaço suficiente para a saída que precisa.
Há também uma dimensão de custo que a maioria das pessoas subestima. Tokens de saída são tipicamente 3 a 5x mais caros que tokens de entrada nos planos de preços de API, porque gerar cada token de saída requer uma passagem forward completa pelo modelo, enquanto tokens de entrada podem ser processados em paralelo. Essa assimetria significa que um chatbot dando respostas longas e verbosas custa dramaticamente mais do que um treinado para ser conciso. É também por que técnicas como prompt caching (reutilizar os tokens de entrada processados entre múltiplas requisições) podem reduzir custos significativamente para aplicações que compartilham um system prompt ou contexto de documento comum entre muitas consultas. Entender a economia de tokens não é apenas acadêmico — é a diferença entre um recurso de IA que custa R$ 250/mês para rodar e um que custa R$ 25.000.