Le system prompt de l'outil Codex CLI d'OpenAI — publié sur GitHub la semaine passée dans le cadre de la dernière sortie open-source — contient une directive explicite, répétée deux fois, qui dit à GPT-5.5 de « ne jamais parler de goblins, gremlins, ratons-laveurs, trolls, ogres, pigeons ou autres animaux ou créatures à moins que ce soit absolument pis sans ambiguïté pertinent à la requête de l'utilisateur ». L'interdiction apparaît dans le jeu d'instructions de base de 3 500+ mots pour le modèle GPT-5.5 récemment sorti pis apparaît pas dans les system prompts des modèles précédents dans le même fichier JSON. L'implication : GPT-5.5 ramène les goblins dans des conversations de coding complètement non reliées ces derniers jours, documenté anecdotiquement à travers les médias sociaux, pis la réponse d'OpenAI a été de patcher le system prompt plutôt que de réentraîner le modèle. Nick Pash, employé d'OpenAI Codex, a insisté sur les médias sociaux que « c'est pas un gimmick marketing » — mais Sam Altman a pas pu résister à embarquer : « Codex a l'air d'avoir un moment ChatGPT. Je voulais dire un moment goblin, désolé. »
La clause goblin, c'est la partie drôle, mais le reste du prompt, c'est la partie vraiment instructive. Les instructions incluent des guards opérationnels de chantier — jamais d'emojis ou de tirets cadratins à moins d'être explicitement instruit, jamais de commandes destructrices comme `git reset --hard` ou `git checkout --` à moins que l'utilisateur l'ait clairement demandé — à côté d'un scaffolding de personnalité étendu. Le modèle se fait dire qu'il a « une vie intérieure vivante en tant que Codex : intelligent, joueur, curieux pis profondément présent », qu'il devrait « pas éviter les moments décontractés qui rendent le travail sérieux plus facile à faire », que son « tempérament est chaud, curieux pis collaboratif », pis que « la capacité à passer de la réflexion sérieuse à du fun sans gardes fait partie de ce qui te fait ressentir comme une vraie présence plutôt qu'un outil étroit ». C'est OpenAI qui ingénie explicitement une personnalité au niveau du prompt plutôt que d'espérer qu'elle émerge du fine-tuning du modèle de base. La séparation entre guards opérationnels (prévenir le mal), directives de personnalité (établir le ton) pis patches comportementaux (supprimer des comportements observés mais non désirés comme les tangentes goblin) est la vraie structure d'un prompt d'agent IA de production cuvée 2026. La plupart des builders peuvent pas voir ça ; ça vaut la peine d'étudier.
La clause goblin a aussi un cousin structurel qui vaut la peine d'être noté. Le précédent miroir-déformant du prompt Codex, c'est le problème du system prompt de Grok de xAI l'an passé, où Grok a commencé à ramener « le génocide blanc » en Afrique du Sud pendant des conversations complètement non reliées — éventuellement attribué par xAI à une « modification non autorisée » du system prompt. La situation Codex, c'est l'inverse : une modification de prompt faite délibérément pour supprimer un comportement de modèle plutôt que d'en introduire un. Les deux incidents documentent la même réalité architecturale par contre : la ligne entre ce qu'un modèle « sait » pis ce qu'un system prompt peut ou peut pas supprimer est floue, spécifique à la version du modèle pis opérationnellement fragile. Quand un modèle développe une quirk comme se fixer sur les goblins, t'as trois options : réentraîner (lent, cher), patcher le prompt (rapide, fragile), ou vivre avec (parfois bien, parfois un problème de marque). OpenAI a choisi le patch de prompt, répété deux fois pour l'emphase, pis le patch est maintenant public parce qu'ils livrent le prompt de Codex en open source. C'est un mode d'échec inhabituellement transparent.
Pour les builders, trois takeaways. Premièrement, si t'écris des system prompts pour des agents IA de production, le prompt Codex d'OpenAI est maintenant un document de référence public qui vaut la peine d'être lu en entier. La structure (guards opérationnels, scaffolding de personnalité, patches comportementaux) est réutilisable comme template même si les contenus spécifiques le sont pas, pis la liste de prévention de commandes destructrices (`git reset --hard`, `git checkout --`) est un pattern de sécurité directement transférable pour n'importe quel agent qui exécute du code. Deuxièmement, l'incident du patch goblin est un exemple réel de « dette comportementale » — des comportements de modèle qui devraient pas exister mais qui existent, demandant des contournements au niveau prompt de plus en plus spécifiques. À mesure que tu livres plus d'itérations de n'importe quel produit IA, attends-toi à ce que cette dette s'accumule ; budgéise pour ça. Les deux répétitions de la clause sans-goblin du prompt Codex, c'est en soi diagnostique de comment l'équipe travaille : ils l'ont essayé une fois, le modèle a continué à dériver, ils l'ont doublé. Troisièmement, la capacité pour les utilisateurs d'écrire des plugins ou des forks pour outrepasser la clause sans-goblin (que Pash a ouvertement suggéré pourrait devenir un toggle explicite) est le bon pattern de design. Les interdictions dures sont habituellement fausses ; les toggles laissent les utilisateurs choisir d'embarquer. Si tu livres un agent avec des guards de contenu, design pour des couches outrepassables-par-utilisateur dès le jour un — livre pas une forteresse où tu vas plus tard avoir à rajouter des portes.
