Artificial Analysis publicó su eval independiente de GPT-5.5 hoy y el titular es la brecha entre los claims del vendor y la medición de terceros. El AA Intelligence Index pone a GPT-5.5 (xhigh) al tope por 3 puntos, rompiendo un three-way tie con modelos frontier previos — liderando en Terminal-Bench Hard y GDPval-AA, atrás en CritPt, segundo después de Gemini 3.1 Pro en tres benchmarks. En AA-Omniscience — su benchmark de conocimiento factual — GPT-5.5 pega la accuracy más alta en 57%, pero con una tasa de alucinación del 86%. Claude Opus 4.7 (max) se sienta en 36% de alucinación en el mismo benchmark; Gemini 3.1 Pro en 50%. El claim del día de lanzamiento de OpenAI de «caída del 60% en alucinación» fue medido en terreno distinto al que AA testea, y esa brecha es la lectura que debería importar a los builders.
La distinción metodológica importa. La evaluación de alucinación de OpenAI aparentemente usa prompts donde la verdad de fondo está bien establecida y el modelo tiene cobertura de datos de entrenamiento — la «caída del 60%» mide la mejora sobre una baseline que OpenAI controla. AA-Omniscience apunta al caso más duro: claims factuales sobre temas oscuros-pero-verificables donde los modelos tienden a fabricar respuestas plausibles porque no saben lo que no saben. La brecha 86%-vs-36% con Opus 4.7 no dice que GPT-5.5 sea «broadly peor» en hechos; dice que GPT-5.5 fabrica con más confianza cuando se lo empuja más allá de su frontera de conocimiento. Es un trade reconocido — accuracy más alta en la cola fácil puede venir con fabricación más alta en la cola dura, especialmente cuando el post-training premia respuestas que suenan seguras. El framework de AA con modos extended-thinking muestra el mecanismo: GPT-5.5 Pro extended thinking divide a la mitad su tasa de alucinación (8,3% → 4,2% en algún slice de benchmark; no se especifica cuál). La auto-corrección durante el razonamiento es real pero no activada por default en el tier Instant que OpenAI acaba de shipear.
La economía de costos es la otra mitad de la lectura. AA reporta que el pricing se duplicó a $5/$30 por 1M tokens input/output para GPT-5.5 vs la generación 5.4 previa. A pesar de ~40% menos tokens output en el mismo workload, correr el AA Intelligence Index cuesta cerca de 20% más en 5.5. El ángulo interesante: GPT-5.5 medium reasoning effort matchea la performance de Opus 4.7 a aproximadamente un cuarto del costo (~$1.200 vs $4.800 para el run del Index). Para builders evaluando una estrategia de routing — Opus para problemas duros, GPT-5.5 medium para el resto — la economía ahora favorece mezclar más agresivamente que bajo 5.4. El tier de high-effort (xhigh) es donde vive el claim de liderazgo, pero el price/performance del tier medium es el cálculo real del builder. Para consumers ChatGPT usando el default Instant, nada de esto aplica directamente — Instant está posicionado para latencia, no para razonamiento extendido, y el número 86% AA-Omniscience es en el tier xhigh, no Instant.
Movida práctica: si shipeas flows de lookup factual o asistente de research, las failures estilo AA-Omniscience son el modo de fallo a testear, y la brecha de 50 puntos entre GPT-5.5 y Opus 4.7 es lo bastante grande para importar en decisiones de routing. Construí un eval set privado chico de queries factuales oscuras-pero-verificables (citas académicas, especificaciones técnicas nicho, específicos históricos) y corré ambos modelos — tu brecha dominio-específica puede ser distinta del número overall de AA, pero vas a saber para qué lado rutear. Para workloads de código y razonamiento, GPT-5.5 medium pegando performance de Opus a un cuarto del costo es una victoria real — re-evaluá tu routing si has estado defaulteando a Opus para tareas profundas cost-insensitive. La lección de eval aplica más allá de este release: los claims de alucinación del vendor y las tasas de alucinación de benchmark independiente miden cosas distintas, y «60% mejor» solo significa algo específico al harness sobre el que se midió. Trackeá ambos.
