La unidad de precio estándar para modelos de lenguaje grandes es el token — aproximadamente tres cuartos de una palabra en inglés. Cuando envías un mensaje a una API como la de OpenAI o Anthropic, se te cobra por separado por tokens de entrada (lo que envías) y tokens de salida (lo que el modelo genera). Los tokens de salida cuestan más porque requieren computación secuencial — el modelo tiene que generarlos uno a la vez, lo cual es más lento e intensivo en GPU que procesar tokens de entrada en paralelo. A principios de 2026, los precios para modelos de frontera van desde aproximadamente $2–15 por millón de tokens de entrada y $8–60 por millón de tokens de salida, dependiendo del proveedor y nivel del modelo. Eso puede sonar barato hasta que te das cuenta de que una aplicación ocupada sirviendo 100,000 usuarios podría fácilmente consumir miles de millones de tokens por mes.
Los precios de IA han caído más rápido de lo que casi cualquiera predijo. GPT-3.5 de OpenAI se lanzó a principios de 2023 a $2 por millón de tokens; para mediados de 2024, modelos de calidad equivalente estaban disponibles por $0.10–0.25 por millón de tokens de proveedores como DeepSeek, Mistral y Google (vía Gemini Flash). Esta reducción de precio de aproximadamente 10–50x en 18 meses vino de tres fuerzas convergentes: mejoras de hardware (las H100 son ~3x más eficientes que las A100 para inferencia), optimizaciones de software (batching continuo, decodificación especulativa y cuantización), y presión competitiva (los modelos open-weight de DeepSeek forzaron a los proveedores comerciales a recortar márgenes). El patrón continúa — cada nueva generación de chips de inferencia y frameworks de servicio empuja los costos más abajo. Para desarrolladores, esto significa que el modelo que era demasiado costoso para tu caso de uso hace seis meses podría ser accesible hoy.
No todo encaja limpiamente en el precio por token. Los modelos de generación de imágenes como DALL-E y Stable Diffusion cobran por imagen (típicamente $0.02–0.08 por imagen dependiendo de la resolución). Los modelos de video cobran por segundo de video generado — Gen-3 de Runway cuesta aproximadamente $0.05 por segundo, lo cual se acumula rápido para clips más largos. Los modelos de voz cobran por carácter o por minuto de audio. Los modelos de embedding cobran por token pero a tasas mucho más bajas que los modelos generativos (frecuentemente $0.01–0.10 por millón de tokens). Algunos proveedores ofrecen modelos de suscripción: ChatGPT Plus a $20/mes, Claude Pro a $20/mes, dando a los usuarios acceso ilimitado (dentro de límites de tasa) a los últimos modelos. Para clientes empresariales, los descuentos por uso comprometido — acordar gastar $100K+ por año a cambio de 20–40% de descuento sobre el precio de lista — son estándar. Y varios proveedores ofrecen niveles gratuitos generosos: la API de Gemini de Google, La Plateforme de Mistral y Groq permiten a los desarrolladores experimentar gratis hasta ciertos umbrales de uso.
La palanca individual más grande para reducir costos de IA no es negociar con tu proveedor — es elegir el modelo correcto para la tarea. Un modelo de frontera como Claude Opus o GPT-4o es excesivo para clasificación, extracción o resumen simple; un modelo más pequeño como Claude Haiku, Gemini Flash o Mistral Small puede manejar esas tareas a 10–50x menor costo con precisión comparable. La ingeniería de prompts también importa: un system prompt de 2,000 tokens te cuesta esos tokens en cada llamada a la API, así que recortarlo ahorra dinero a escala. El caching es otra herramienta poderosa — el prompt caching de Anthropic y el caching automático de OpenAI te permiten pagar tarifas reducidas por contexto repetido, lo cual es especialmente valioso para aplicaciones que envían el mismo system prompt o contexto de documento con cada solicitud. Finalmente, agrupar solicitudes no urgentes (usando la Batch API de OpenAI u ofertas similares) típicamente te da un 50% de descuento a cambio de aceptar mayor latencia.
El precio por token es el costo visible, pero no es toda la historia. El uso de la ventana de contexto importa enormemente: llenar una ventana de contexto de 128K tokens con documentos en cada llamada es técnicamente posible pero financieramente doloroso. Los modelos de razonamiento como o1 y o3 de OpenAI generan tokens internos de "pensamiento" por los que pagas aunque nunca los veas — una sola consulta compleja puede consumir 10,000+ tokens de pensamiento además de la respuesta visible. Los límites de tasa imponen un costo oculto también: si tu proveedor te limita a 1,000 solicitudes por minuto y tu aplicación necesita 5,000, o encolas solicitudes (añadiendo latencia) o aprovisiona múltiples API keys (añadiendo complejidad). Y no olvides los costos de egress, costos de logging y el tiempo de ingeniería gastado construyendo lógica de reintentos, conteo de tokens y monitoreo de costos. El precio de lista por token es solo el comienzo de la ecuación real de costos.