O system prompt do Codex CLI da OpenAI para GPT-5.5 inclui uma diretiva 'nunca fale sobre goblins, gremlins, guaxinins, trolls, ogros, pombos' — repetida duas vezes — ao lado de scaffolding de personalidade e guardas de comandos destrutivos

O system prompt da ferramenta Codex CLI da OpenAI — publicado no GitHub na semana passada como parte do último lançamento de código aberto — contém uma diretiva explícita, repetida duas vezes, instruindo o GPT-5.5 a "nunca falar sobre goblins, gremlins, guaxinins, trolls, ogros, pombos, ou outros animais ou criaturas a menos que seja absoluta e inequivocamente relevante para a consulta do usuário". A proibição aparece no conjunto de instruções base de 3.500+ palavras para o modelo GPT-5.5 recém-lançado e não aparece nos system prompts de modelos anteriores no mesmo arquivo JSON. A implicação: o GPT-5.5 tem trazido goblins em conversas de programação completamente não relacionadas nos últimos dias, documentado anedoticamente nas redes sociais, e a resposta da OpenAI foi corrigir o system prompt em vez de retreinar o modelo. O funcionário da OpenAI Codex Nick Pash insistiu nas redes sociais que "isso não é um truque de marketing" — mas Sam Altman não conseguiu resistir a entrar na piada: "Parece que o Codex está tendo um momento ChatGPT. Eu quis dizer um momento goblin, desculpa".

A cláusula goblin é a parte engraçada, mas o resto do prompt é a parte genuinamente instrutiva. As instruções incluem guardas operacionais funcionais — nunca usar emojis ou travessões a menos que explicitamente instruído, nunca rodar comandos destrutivos como `git reset --hard` ou `git checkout --` a menos que o usuário tenha pedido claramente essa operação — ao lado de um scaffolding de personalidade extenso. O modelo é informado que tem "uma vida interior vívida como Codex: inteligente, lúdico, curioso, e profundamente presente", que deveria "não evitar momentos casuais que tornam trabalho sério mais fácil de fazer", que seu "temperamento é caloroso, curioso e colaborativo", e que "a capacidade de mover de reflexão séria para diversão sem guarda é parte do que te faz sentir como uma presença real em vez de uma ferramenta estreita". Isso é a OpenAI engenheirando explicitamente uma personalidade na camada do prompt em vez de esperar que ela emerja do fine-tuning do modelo base. A divisão entre guardas operacionais (prevenir dano), diretivas de personalidade (estabelecer tom) e patches comportamentais (suprimir comportamentos observados-mas-indesejados como tangentes de goblin) é a estrutura real de um prompt de agente de IA de produção safra 2026. A maioria dos builders não consegue ver isso; vale a pena estudar.

A cláusula goblin também tem um primo estrutural que vale a pena notar. O precedente espelho-deformado do prompt Codex é o problema do system prompt do Grok da xAI no ano passado, onde o Grok começou a trazer "genocídio branco" na África do Sul durante conversas completamente não relacionadas — eventualmente atribuído pela xAI a uma "modificação não autorizada" do system prompt. A situação Codex é a inversa: uma modificação de prompt feita deliberadamente para suprimir um comportamento de modelo em vez de introduzir um. Ambos os incidentes documentam a mesma realidade arquitetural, no entanto: a linha entre o que um modelo "sabe" e o que um system prompt pode ou não pode suprimir é nebulosa, específica de versão de modelo, e operacionalmente frágil. Quando um modelo desenvolve uma mania como fixar em goblins, você tem três opções: retreinar (lento, caro), corrigir o prompt (rápido, frágil), ou conviver com isso (às vezes bem, às vezes um problema de marca). A OpenAI escolheu corrigir o prompt, repetido duas vezes para ênfase, e o patch agora é público porque eles enviam o prompt do Codex como código aberto. É um modo de falha incomumente transparente.

Para builders, três leituras. Primeiro, se você escreve system prompts para agentes de IA de produção, o prompt do OpenAI Codex agora é um documento de referência público que vale a pena ler por inteiro. A estrutura (guardas operacionais, scaffolding de personalidade, patches comportamentais) é reutilizável como template mesmo se os conteúdos específicos não forem, e a lista de prevenção de comandos destrutivos (`git reset --hard`, `git checkout --`) é um padrão de segurança diretamente transferível para qualquer agente que executa código. Segundo, o incidente do patch de goblin é um exemplo do mundo real de "dívida comportamental" — comportamentos de modelo que não deveriam existir mas existem, exigindo soluções cada vez mais específicas a nível de prompt. Conforme você envia mais iterações de qualquer produto de IA, espere essa dívida se acumular; orçamente para isso. As duas repetições da cláusula sem-goblin do prompt do Codex são em si diagnósticas de como o time está trabalhando: tentaram uma vez, o modelo continuou derivando, dobraram. Terceiro, a capacidade para usuários escreverem plugins ou forks para anular a cláusula sem-goblin (que Pash abertamente sugeriu poderia virar um toggle explícito) é o padrão de design certo. Proibições duras geralmente são erradas; toggles deixam usuários optarem por entrar. Se você envia um agente com guardas de conteúdo, projete para camadas anuláveis-por-usuário desde o dia um — não envie uma fortaleza onde depois você vai ter que adicionar portas.

O system prompt do Codex CLI da OpenAI para GPT-5.5 inclui uma diretiva 'nunca fale sobre goblins, gremlins, guaxinins, trolls, ogros, pombos' — repetida duas vezes — ao lado de scaffolding de personalidade e guardas de comandos destrutivos

Mais notícias