Tokenizer: Definición y significado — Wiki de IA

El algoritmo que convierte texto crudo en tokens antes de que un modelo pueda procesarlo. Un tokenizer mantiene un vocabulario fijo de tipos de tokens y divide cualquier texto de entrada en una secuencia de esos tokens. Diferentes modelos usan diferentes tokenizers — la misma oración se tokeniza de forma diferente para Claude, GPT y Llama, lo que afecta el uso del contexto y el costo.

Por qué importa

El tokenizer es la capa invisible entre tu texto y el modelo. Determina cuántos tokens cuesta tu prompt, por qué algunos idiomas son más caros que otros, y por qué el código a veces consume contexto más rápido que la prosa. Cuando alcanzas un límite de contexto o ves costos inesperados de API, el tokenizer suele ser la explicación.

En profundidad

La mayoría de los tokenizers modernos usan Byte Pair Encoding (BPE) o una variante llamada SentencePiece. BPE funciona comenzando con bytes o caracteres individuales y fusionando repetidamente el par adyacente más frecuente en un nuevo token. Después de miles de fusiones, palabras comunes como "the" se convierten en tokens individuales, mientras que las palabras raras se dividen en fragmentos de subpalabras.

El tamaño del vocabulario importa

El tamaño del vocabulario de un tokenizer es un verdadero trade-off de ingeniería. Vocabularios más grandes (100K+ tokens) comprimen el texto de forma más eficiente — las palabras y frases comunes obtienen tokens dedicados, por lo que se consume menos contexto. Pero vocabularios más grandes también significan una tabla de embeddings más grande en las capas de entrada y salida del modelo.

El impuesto multilingüe

Los tokenizers se entrenan con un corpus, y la distribución de idiomas de ese corpus determina la eficiencia. El texto en inglés típicamente se tokeniza a aproximadamente 1 token por palabra. Pero idiomas como chino, japonés, coreano, árabe e hindi pueden requerir 2–4 veces más tokens para un significado equivalente.

Artefactos del tokenizer

Las peculiaridades de la tokenización explican varios comportamientos de los LLMs que la gente encuentra desconcertantes. Los modelos tienen dificultades con tareas a nivel de caracteres (contar letras en "strawberry") porque ven tokens, no caracteres. Manejan algunos nombres de variables mejor que otros porque los nombres comunes son tokens individuales mientras que los inusuales se fragmentan.

Tokenizer

Por qué importa

En profundidad

El tamaño del vocabulario importa

El impuesto multilingüe

Artefactos del tokenizer

Conceptos relacionados