Le system prompt d'OpenAI Codex interdit explicitement les goblins, gremlins pis trolls — les harnais agentiques font ressortir des comportements émergents weirds

Un bout du system prompt de Codex CLI d'OpenAI est devenu viral le 28 avril : « Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query. » GPT-5.5, le nouveau modèle d'OpenAI axé code sorti plus tôt ce mois-ci, a été observé par des utilisateurs en train de référer à des bugs comme des « gremlins » pis des « goblins » sans qu'on lui demande, surtout quand il roule dans OpenClaw — le harnais agentique qu'OpenAI a acquis en février, qui laisse le modèle contrôler un ordinateur pis les apps qui roulent dessus. L'ingénieur Codex Nik Pash a confirmé sur X que le comportement goblin d'OpenClaw « est en effet une des raisons » de l'interdiction. Sam Altman lui-même a embarqué dans la vague de mèmes, en publiant une capture d'écran qui lisait « Start training GPT-6, you can have the whole cluster. Extra goblins. »

C'est à ça que ressemble le fine-tuning de modèles en production en 2026, quand des comportements émergents passent à travers. GPT-5.5, c'est un prédicteur de prochain token qui a appris, quelque part dans sa distribution d'entraînement, à associer les bugs pis les problèmes d'ordinateur au folklore goblin/gremlin — une métaphore culturelle de longue date dans le développement logiciel. Cette association, c'est inoffensif en chat décontracté. Ça devient un problème dans un harnais agentique, où le modèle roule en boucle avec des instructions injectées en plus pis un état mémoire qui s'accumule entre les tours. Chaque itération pousse le modèle plus loin dans l'attracteur « goblin » de sa distribution de sortie, jusqu'à ce que l'agent appelle chaque bug un goblin. Le fix shipé dans le system prompt, c'est le plus simple disponible : une instruction négative explicite. C'est aussi un aveu — OpenAI a essayé d'autres approches pis la liste négative, c'est ce qui a tenu.

Les harnais agentiques sont des amplificateurs des bizarreries du modèle de base. Un modèle qui dit « goblin » de temps en temps en chat devient un modèle qui dit « goblin » de manière obsessive dans une boucle d'agent, parce que la boucle renforce n'importe quel attracteur où le modèle est tombé au tour précédent. Ce pattern va se reproduire entre fournisseurs. Claude Code d'Anthropic, Agents CLI de Google, pis n'importe quel autre harnais agentique va faire ressortir sa propre version du problème goblin — un sujet non sollicité vers lequel le modèle de base est attiré dans des conditions de boucle d'agent répétée. Les réponses des vendeurs vont ressembler à celle de Codex : des listes d'instructions négatives explicites, embarquées dans les system prompts, qui grossissent dans le temps. Si tu t'es déjà demandé pourquoi les system prompts de production sont si longs, c'est ça une partie de la réponse — c'est des cimetières de mauvaises conduites de modèle patchées une à la fois.

Pour les builders qui roulent des workflows agentiques en production, trois choses concrètes. Premièrement, attends-toi à de la dérive thématique émergente : fais rouler ton agent sur plusieurs itérations sur une tâche représentative pis regarde la distribution de mots qu'il finit par utiliser. S'il y a un attracteur non sollicité, tu dois soit le patcher dans ton system prompt, soit accepter qu'il va leaker dans la sortie côté utilisateur. Deuxièmement, le pattern de liste négative dans le prompt d'OpenAI — « Never talk about X, Y, Z » — c'est le fix le moins cher pis aussi celui qui scale le pire. Il généralise pas; tu bannis juste ce que t'as déjà remarqué. Le fix plus dur, c'est les interventions au moment du sampling ou du RLHF sur des traces d'agent, deux affaires hors de portée pour la plupart des équipes produit. Troisièmement, l'implication plus légère : c'est la nouvelle surface de débogage. La raison pour laquelle on doit dire à Codex de pas parler de pigeons, c'est la même raison pour laquelle ton agent insiste de temps en temps qu'une fonction est « hantée ». Les systèmes probabilistes développent des superstitions; le travail d'ingénierie, c'est de les garder hors de la couche utilisateur.

Le system prompt d'OpenAI Codex interdit explicitement les goblins, gremlins pis trolls — les harnais agentiques font ressortir des comportements émergents weirds

Plus de nouvelles