A Artificial Analysis publicou sua eval independente do GPT-5.5 hoje e a manchete é o gap entre claims do vendor e medição de terceiros. O AA Intelligence Index põe o GPT-5.5 (xhigh) no topo por 3 pontos, quebrando um three-way tie com modelos frontier anteriores — liderando em Terminal-Bench Hard e GDPval-AA, atrás em CritPt, segundo atrás do Gemini 3.1 Pro em três benchmarks. No AA-Omniscience — o benchmark de conhecimento factual deles — o GPT-5.5 acerta a maior accuracy em 57%, mas com taxa de alucinação de 86%. O Claude Opus 4.7 (max) fica em 36% de alucinação no mesmo benchmark; Gemini 3.1 Pro em 50%. O claim do dia do lançamento da OpenAI de «queda de 60% na alucinação» foi medido em terreno diferente do que a AA testa, e esse gap é a leitura que deveria importar para builders.

A distinção metodológica importa. A avaliação de alucinação da OpenAI aparentemente usa prompts em que a verdade de fundo está bem estabelecida e o modelo tem cobertura de dados de treino — a «queda de 60%» mede a melhoria numa baseline que a OpenAI controla. O AA-Omniscience mira o caso mais difícil: claims factuais sobre temas obscuros-mas-verificáveis em que modelos tendem a fabricar respostas plausíveis porque não sabem o que não sabem. O gap 86%-vs-36% com o Opus 4.7 não diz que o GPT-5.5 é «broadly pior» em fatos; diz que o GPT-5.5 fabrica com mais confiança quando empurrado para além da sua fronteira de conhecimento. É um trade reconhecido — accuracy mais alta na cauda fácil pode vir com fabricação mais alta na cauda difícil, especialmente quando o post-training recompensa respostas que soam confiantes. O framework da AA com modos extended-thinking mostra o mecanismo: GPT-5.5 Pro extended thinking divide pela metade sua taxa de alucinação (8,3% → 4,2% em algum slice de benchmark; não especificado qual). A auto-correção durante o raciocínio é real mas não ativada por default no tier Instant que a OpenAI acabou de shipar.

A economia de custos é a outra metade da leitura. A AA reporta que o pricing dobrou para $5/$30 por 1M tokens input/output no GPT-5.5 vs a geração 5.4 anterior. Apesar de ~40% menos tokens output no mesmo workload, rodar o AA Intelligence Index custa cerca de 20% mais no 5.5. O ângulo interessante: GPT-5.5 medium reasoning effort bate a performance do Opus 4.7 em aproximadamente um quarto do custo (~$1.200 vs $4.800 pra rodar o Index). Para builders avaliando estratégia de routing — Opus para problemas difíceis, GPT-5.5 medium para o resto — a economia agora favorece misturar mais agressivamente que no 5.4. O tier high-effort (xhigh) é onde vive o claim de liderança, mas o price/performance do tier medium é o cálculo real do builder. Para consumers ChatGPT usando o default Instant, nada disso aplica diretamente — Instant é posicionado para latência, não raciocínio estendido, e o número 86% AA-Omniscience é no tier xhigh, não Instant.

Movimento prático: se você shipa flows de lookup factual ou assistente de pesquisa, as falhas estilo AA-Omniscience são o modo de falha a testar, e o gap de 50 pontos entre GPT-5.5 e Opus 4.7 é grande o bastante para importar em decisões de routing. Construa um eval set privado pequeno de queries factuais obscuras-mas-verificáveis (citações acadêmicas, especificações técnicas de nicho, específicos históricos) e rode os dois modelos — seu gap domínio-específico pode ser diferente do número overall da AA, mas você vai saber para que lado rotear. Para workloads de código e raciocínio, GPT-5.5 medium batendo performance do Opus a um quarto do custo é uma vitória real — re-avalie seu routing se tem estado defaultando para Opus em tarefas profundas cost-insensitive. A lição de eval aplica para além desse release: claims de alucinação do vendor e taxas de alucinação de benchmark independente medem coisas diferentes, e «60% melhor» só significa algo específico ao harness em que foi medido. Track os dois.