O system prompt do OpenAI Codex proíbe explicitamente goblins, gremlins e trolls — harnesses agentic estão fazendo vir à tona comportamentos emergentes esquisitos

Um trecho do system prompt do Codex CLI da OpenAI viralizou em 28 de abril: "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query." O GPT-5.5, o novo modelo da OpenAI focado em código lançado no começo do mês, foi observado por usuários se referindo a bugs como "gremlins" e "goblins" sem prompt, principalmente quando rodando dentro do OpenClaw — o harness agentic que a OpenAI adquiriu em fevereiro, que deixa o modelo controlar um computador e os apps que rodam nele. O engenheiro de Codex Nik Pash confirmou no X que o comportamento goblin do OpenClaw "é de fato uma das razões" da proibição. Sam Altman entrou no ciclo de memes ele mesmo, postando uma captura que dizia "Start training GPT-6, you can have the whole cluster. Extra goblins."

É assim que parece o fine-tuning de modelo em produção em 2026 quando comportamentos emergentes vazam. O GPT-5.5 é um preditor de próximo token que aprendeu, em algum lugar da sua distribuição de treinamento, a associar bugs e problemas de computador a folclore goblin/gremlin — uma metáfora cultural antiga em engenharia de software. A associação é inofensiva em chat casual. Vira um problema dentro de um harness agentic, onde o modelo roda em loop com instruções injetadas a mais e estado de memória se acumulando entre turnos. Cada iteração empurra o modelo mais para o atrator "goblin" na sua distribuição de saída, até que o agente chama todo bug de goblin. O fix que veio no system prompt é o mais simples disponível: uma instrução negativa explícita. Também é uma confissão — a OpenAI tentou outras abordagens e a lista negativa é o que ficou.

Harnesses agentic são amplificadores de esquisitices do modelo base. Um modelo que ocasionalmente diz "goblin" em chat vira um modelo que obsessivamente diz "goblin" dentro de um loop de agente, porque o loop reforça qualquer atrator em que o modelo caiu no turno anterior. Esse padrão vai se reproduzir entre vendors. O Claude Code da Anthropic, o Agents CLI do Google e qualquer outro harness agentic vai trazer à tona sua própria versão do problema goblin — algum tópico não solicitado para o qual o modelo base é atraído sob condições de loop de agente repetido. As respostas dos vendors vão parecer com a do Codex: listas de instruções negativas explícitas, embutidas em system prompts, crescendo com o tempo. Se você já se perguntou por que system prompts de produção são tão longos, isso é parte da resposta — são cemitérios de mau comportamento de modelo, remendados um por um.

Para os builders rodando workflows agentic em produção, três coisas concretas. Primeiro, espere drift temático emergente: rode seu agente por muitas iterações sobre uma tarefa representativa e olhe a distribuição de palavras que ele acaba usando. Se houver um atrator não solicitado, ou você o remenda no seu system prompt ou aceita que vai vazar para a saída visível ao usuário. Segundo, o padrão de lista negativa no prompt da OpenAI — "Never talk about X, Y, Z" — é o fix mais barato e também o que escala pior. Ele não generaliza; você só proíbe o que já notou. O fix mais difícil são intervenções em tempo de sampling ou RLHF sobre traces de agente, ambos fora do alcance da maioria dos times de produto. Terceiro, a implicação mais leve: essa é a nova superfície de debugging. A razão pela qual o Codex precisa ser instruído a não falar de pombos é a mesma razão pela qual o seu agente ocasionalmente insiste que uma função está "assombrada." Sistemas probabilísticos desenvolvem superstições; o trabalho de engenharia é manter elas fora da camada visível ao usuário.

O system prompt do OpenAI Codex proíbe explicitamente goblins, gremlins e trolls — harnesses agentic estão fazendo vir à tona comportamentos emergentes esquisitos

Mais notícias