Artificial Analysis a publié son éval indépendante de GPT-5.5 aujourd'hui et la manchette, c'est l'écart entre les claims vendor et la mesure tierce. L'AA Intelligence Index met GPT-5.5 (xhigh) en tête par 3 points, brisant un three-way tie avec les modèles frontier précédents — leading sur Terminal-Bench Hard et GDPval-AA, trailing sur CritPt, second derrière Gemini 3.1 Pro sur trois benchmarks. Sur AA-Omniscience — leur benchmark de connaissance factuelle — GPT-5.5 atteint la plus haute accuracy à 57 %, mais avec un taux d'hallucination de 86 %. Claude Opus 4.7 (max) sit à 36 % d'hallucination sur le même benchmark ; Gemini 3.1 Pro à 50 %. Le claim de jour de lancement d'OpenAI de « baisse d'hallucination de 60 % » a été mesuré sur un terrain différent de celui qu'AA teste, et cet écart est la lecture qui devrait intéresser les builders.
La distinction méthodologique compte. L'évaluation d'hallucination d'OpenAI utilise apparemment des prompts où la vérité au sol est bien établie et où le modèle a une couverture de données d'entraînement — la « baisse de 60 % » mesure l'amélioration sur une baseline qu'OpenAI contrôle. AA-Omniscience cible le cas plus dur : claims factuels sur des sujets obscurs-mais-vérifiables où les modèles tendent à fabriquer des réponses plausibles-sounding parce qu'ils ne savent pas ce qu'ils ne savent pas. L'écart 86 %-vs-36 % avec Opus 4.7 ne dit pas que GPT-5.5 est « broadly pire » sur les faits ; ça dit que GPT-5.5 fabrique plus confidemment quand poussé au-delà de sa frontière de connaissance. C'est un trade reconnu — une accuracy plus haute sur la queue facile peut venir avec une fabrication plus haute sur la queue dure, surtout quand le post-training récompense les réponses confident-sounding. Le framework d'AA avec les modes extended-thinking montre le mécanisme : GPT-5.5 Pro extended thinking divise par deux son taux d'hallucination (8,3 % → 4,2 % sur quelque slice de benchmark ; pas spécifié laquelle). L'auto-correction pendant le raisonnement est réelle mais pas activée par défaut dans le tier Instant qu'OpenAI vient de shipper.
L'économie des coûts, c'est l'autre moitié de la lecture. AA rapporte que le pricing a doublé à 5 $/30 $ par 1M tokens input/output pour GPT-5.5 vs la génération 5.4 précédente. Malgré ~40 % moins de tokens output sur le même workload, faire tourner l'AA Intelligence Index coûte environ 20 % plus cher sur 5.5. L'angle intéressant : GPT-5.5 medium reasoning effort match la performance d'Opus 4.7 à environ un quart du coût (~1 200 $ vs 4 800 $ pour le run de l'Index). Pour les builders qui évaluent une stratégie de routing — Opus pour les problèmes durs, GPT-5.5 medium pour le reste — l'économie favorise maintenant un mix plus agressif que sous 5.4. Le tier high-effort (xhigh) est là où vit le claim de leadership, mais le price/performance du tier medium est le calcul réel du builder. Pour les consumers ChatGPT qui utilisent le défaut Instant, rien de ça ne s'applique directement — Instant est positionné pour la latence, pas le raisonnement étendu, et le chiffre 86 % AA-Omniscience est sur le tier xhigh, pas Instant.
Move pratique : si tu shippes des flows de lookup factuel ou d'assistant de recherche, les failures style AA-Omniscience sont le mode de failure à tester, et l'écart de 50 points entre GPT-5.5 et Opus 4.7 est assez large pour compter dans les décisions de routing. Construis un petit eval set privé de queries factuelles obscures-mais-vérifiables (citations académiques, spécifications techniques niche, spécifiques historiques) et fais tourner les deux modèles — ton écart domain-spécifique pourrait être différent du chiffre overall d'AA, mais tu sauras de quel côté router. Pour les workloads de code et de raisonnement, GPT-5.5 medium qui hit la performance Opus à un quart du coût, c'est une vraie victoire — re-évalue ton routing si tu as défaulté à Opus pour les tâches profondes cost-insensitive. La leçon d'eval tient au-delà de cette release : les claims d'hallucination vendor et les taux d'hallucination de benchmark indépendant mesurent des choses différentes, et « 60 % mieux » ne veut dire quelque chose qu'au harness sur lequel ça a été mesuré. Track les deux.
