Token: Definición y significado — Wiki de IA

La unidad basica de texto que procesan los modelos de IA. Un token es tipicamente una palabra o fragmento de palabra — "understanding" podria ser un token, mientras que "un" + "der" + "standing" podrian ser tres. En promedio, un token equivale aproximadamente a 3/4 de una palabra en ingles. Los modelos leen, procesan y cobran en tokens.

Por qué importa

Los tokens son la moneda de la IA. Las ventanas de contexto se miden en tokens. Los precios de API se cobran por token. Cuando un proveedor dice "1M de contexto" se refiere a 1 millon de tokens, aproximadamente 750K palabras. Entender los tokens te ayuda a estimar costos y optimizar el uso.

En profundidad

Los tokens son creados por un tokenizer, un algoritmo separado que se ejecuta antes de que la red neuronal vea tu texto. El enfoque mas comun hoy es Byte Pair Encoding (BPE), utilizado por GPT, Claude y Llama. BPE comienza con caracteres individuales (o bytes) y fusiona iterativamente los pares mas frecuentes en nuevos tokens. Despues de suficientes fusiones, palabras comunes como "the" o "and" se convierten en tokens individuales, mientras que palabras raras o especializadas se dividen en fragmentos de subpalabras. La palabra "tokenization" misma podria convertirse en "token" + "ization" o "token" + "iz" + "ation" dependiendo del tokenizer especifico. Este enfoque de subpalabras es lo que permite que los modelos modernos manejen errores de escritura, neologismos y codigo razonablemente bien — nunca encuentran una palabra verdaderamente "desconocida", solo combinaciones poco familiares de piezas conocidas.

No todos los tokenizers son iguales

Diferentes modelos usan diferentes tokenizers con diferentes vocabularios, y esto importa mas de lo que la mayoria de la gente cree. El tokenizer de GPT-4 (cl100k) tiene alrededor de 100,000 tipos de tokens. El tokenizer de Claude es diferente. Llama usa otro mas. La misma oracion en ingles puede tokenizarse en un numero diferente de tokens dependiendo de que modelo estes usando, lo cual afecta directamente el uso de la ventana de contexto y los costos de API. El codigo tiende a ser menos eficiente en tokens que la prosa porque los nombres de variables y tokens de sintaxis pueden no aparecer con suficiente frecuencia en los datos de entrenamiento para ganarse su propia entrada en el vocabulario. Los idiomas que no son ingles varian enormemente — los idiomas con escritura latina generalmente se tokenizan casi tan eficientemente como el ingles, pero el chino, japones, coreano, arabe y hindi frecuentemente requieren mas tokens por significado equivalente porque sus caracteres pueden no haber estado tan representados durante el entrenamiento del tokenizer.

La compensacion del tamano del vocabulario

El tamano del vocabulario del tokenizer crea una compensacion real de ingenieria. Un vocabulario mas grande significa que las palabras y frases comunes obtienen sus propios tokens dedicados, asi que tu texto se comprime en menos tokens (mas barato, mas rapido, cabe mas en el contexto). Pero un vocabulario mas grande tambien significa una tabla de embeddings mas grande en las capas de entrada y salida del modelo, lo cual incrementa el tamano del modelo y el uso de memoria. La tabla de embeddings para un vocabulario de 100,000 tokens con una dimension de modelo de 4,096 ya tiene 400 millones de parametros — una porcion nada trivial de un modelo mas pequeno. Por eso los tamanos de vocabulario tienden a agruparse en el rango de 32K–128K: es el punto optimo entre eficiencia de compresion y costo en parametros.

Administrando tu contexto

Cuando los proveedores anuncian ventanas de contexto — 8K, 128K, 1M tokens — esos numeros incluyen todo: tu system prompt, tu historial de conversacion, cualquier documento que pegues y la propia respuesta del modelo. Un error comun de los desarrolladores es llenar la ventana de contexto con material de referencia y dejar muy pocos tokens para que el modelo genere una respuesta sustancial. La mayoria de las APIs te permiten establecer un parametro max_tokens para la respuesta, pero si tu input ya consumio la mayor parte de la ventana de contexto, el modelo puede truncar su razonamiento o negarse a responder. En la practica, quieres hacer un presupuesto: conoce el limite de contexto de tu modelo, estima el tamano de tu input (la regla de 3/4 de palabra es una guia aproximada — para precision, usa la libreria del tokenizer del proveedor) y reserva suficiente espacio para el output que necesitas.

El precio de la verbosidad

Hay una dimension de costos que la mayoria de la gente subestima. Los tokens de salida son tipicamente 3–5 veces mas caros que los tokens de entrada en los niveles de precios de API, porque generar cada token de salida requiere un forward pass completo a traves del modelo, mientras que los tokens de entrada pueden procesarse en paralelo. Esta asimetria significa que un chatbot que da respuestas largas y verbosas cuesta dramaticamente mas que uno entrenado para ser conciso. Tambien es la razon por la que tecnicas como el prompt caching (reutilizar los tokens de entrada procesados en multiples solicitudes) pueden reducir costos significativamente para aplicaciones que comparten un system prompt comun o contexto de documentos entre muchas consultas. Entender la economia de tokens no es solo academico — es la diferencia entre una funcionalidad de IA que cuesta $50/mes de operar y una que cuesta $5,000.

Token