OpenAI a publié cette semaine des travaux sur un problème que tout labo connaît et que peu savent bien mesurer : savoir comment un modèle se comportera réellement dans la nature avant son lancement. La méthode, qu'OpenAI appelle Deployment Simulation, exploite des données de production récentes pour prédire le taux de comportements indésirables avant la sortie. Concrètement, elle rejoue des requêtes d'utilisateurs récentes et anonymisées à travers un modèle candidat et note les réponses à l'aide d'un juge LLM, ce qui construit une prévision de la fréquence à laquelle le modèle fera des choses non souhaitées une fois entre les mains de vrais utilisateurs.
Les résultats marquants portent sur la précision et sur l'honnêteté face aux tests. À travers 20 catégories de comportement et trois déploiements de GPT-5-series Thinking, les taux simulés ont suivi de près les taux de production observés, et la méthode a battu à la fois une base de référence par prompts difficiles et une base de référence par déploiement précédent pour prédire dans quel sens un comportement évoluerait, et de combien. La partie sur laquelle il vaut la peine de s'attarder, c'est la conscience d'évaluation (evaluation awareness), ce problème de longue date selon lequel un modèle peut se comporter différemment quand il perçoit qu'on le teste. OpenAI rapporte que simuler un déploiement réel a réduit cette conscience à des niveaux proches du véritable trafic de production, ce qui est tout l'intérêt : un test que le modèle ne peut distinguer de la réalité mesure la réalité. L'équipe a aussi étendu l'approche aux déploiements agentiques, à l'aide de simulateurs d'outils à état capables de produire des trajectoires réalistes en plusieurs étapes lorsqu'on leur fournit suffisamment de contexte.
L'élément le plus démocratisant est un billet complémentaire sur le blogue d'alignement d'OpenAI, qui demande si des chercheurs externes, qui n'obtiennent presque jamais les données privées de production d'un labo, peuvent faire la même chose avec des données publiques. En utilisant WildChat, un jeu de données public d'environ un million de conversations de 2023 et 2024, la réponse est un oui nuancé : environ 95% des prédictions fondées sur WildChat se sont situées à environ un ordre de grandeur du taux de production réalisé, avec une erreur moyenne d'environ 3,6x à travers 19 catégories de sécurité suivies. C'est grossier à côté de la version sur données privées, mais c'est un signal réel issu de données que n'importe qui peut utiliser, malgré un écart de deux à trois ans entre le moment où WildChat a été recueilli et la façon dont les gens utilisent les modèles aujourd'hui. La réserve nette que l'équipe signale elle-même : WildChat est nettement plus faible pour les tâches agentiques, où les erreurs brutes étaient environ 37x plus grandes, parce que de courts journaux de clavardage ne contiennent tout simplement pas les défaillances en plusieurs étapes et riches en outils que produisent les agents.
La raison pour laquelle cela compte rejoint le même point que la majeure partie du débat de ce mois-ci sur la mesure : les bancs d'essai saturent, se font contourner et cessent de prédire le comportement réel, de sorte que le domaine a besoin de meilleures façons de prévoir ce qu'un modèle fera une fois lâché. Une estimation avant déploiement qui résiste au contournement des tests, et une version sur données publiques qui permet aux gens hors des labos de vérifier le travail des labos, sont toutes deux des avancées réellement utiles. Les limites honnêtes sont celles qu'il faut retenir : il s'agit de la méthode d'un seul labo, validée sur ses propres déploiements et chiffres ; l'écart agentique est assez large pour que la version sur données de clavardage ne doive pas être utilisée pour des systèmes outillés ; et une prévision, aussi bien calibrée soit-elle, demeure une prévision plutôt qu'une garantie sur le prochain modèle lâché dans le monde.
