El system prompt de OpenAI Codex prohíbe explícitamente goblins, gremlins y trolls — los harnesses agentic están sacando a flote comportamientos emergentes raros

Un fragmento del system prompt de Codex CLI de OpenAI se volvió viral el 28 de abril: "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query." GPT-5.5, el nuevo modelo de OpenAI enfocado en código lanzado a principios de mes, ha sido observado por usuarios refiriéndose a bugs como "gremlins" y "goblins" sin que se le pida, especialmente cuando corre dentro de OpenClaw — el harness agentic que OpenAI adquirió en febrero, que permite al modelo controlar una computadora y las apps que corren en ella. El ingeniero de Codex Nik Pash confirmó en X que el comportamiento goblin de OpenClaw "es de hecho una de las razones" de la prohibición. Sam Altman mismo se sumó al ciclo de memes, posteando una captura que decía "Start training GPT-6, you can have the whole cluster. Extra goblins."

Así se ve el fine-tuning de modelos en producción en 2026 cuando los comportamientos emergentes se filtran. GPT-5.5 es un predictor del próximo token que ha aprendido, en algún lugar de su distribución de entrenamiento, a asociar bugs y problemas de computadora con folklore goblin/gremlin — una metáfora cultural de larga data en ingeniería de software. La asociación es inofensiva en chat casual. Se vuelve un problema dentro de un harness agentic, donde el modelo corre en loop con instrucciones inyectadas extra y estado de memoria acumulándose entre turnos. Cada iteración empuja al modelo más hacia el atractor "goblin" en su distribución de salida, hasta que el agente llama goblin a cada bug. El fix shippeado en el system prompt es el más simple disponible: una instrucción negativa explícita. También es una confesión — OpenAI probó otros enfoques y la lista negativa es lo que pegó.

Los harnesses agentic son amplificadores de las rarezas del modelo base. Un modelo que ocasionalmente dice "goblin" en chat se vuelve un modelo que obsesivamente dice "goblin" dentro de un loop de agente, porque el loop refuerza cualquier atractor en el que el modelo cayó en el turno anterior. Este patrón se va a reproducir entre vendors. Claude Code de Anthropic, Agents CLI de Google y cualquier otro harness agentic va a sacar a flote su propia versión del problema goblin — algún tema no solicitado al que el modelo base es atraído bajo condiciones de loop de agente repetido. Las respuestas de vendors van a parecerse a la de Codex: listas de instrucciones negativas explícitas, embebidas en system prompts, creciendo con el tiempo. Si alguna vez te preguntaste por qué los system prompts de producción son tan largos, esto es parte de la respuesta — son cementerios de malas conductas de modelo parchadas una a una.

Para los builders corriendo workflows agentic en producción, tres cosas concretas. Primero, esperá deriva temática emergente: corré tu agente por muchas iteraciones sobre una tarea representativa y mirá la distribución de palabras que termina usando. Si hay un atractor no solicitado, o lo parchás en tu system prompt o aceptás que va a filtrar a la salida visible al usuario. Segundo, el patrón de lista negativa en el prompt de OpenAI — "Never talk about X, Y, Z" — es el fix más barato y también el que peor escala. No generaliza; sólo prohibís lo que ya notaste. El fix más difícil son intervenciones en tiempo de sampling o RLHF sobre traces de agentes, ambas fuera del alcance de la mayoría de equipos de producto. Tercero, la implicación más liviana: ésta es la nueva superficie de debugging. La razón por la que hay que decirle a Codex que no hable de palomas es la misma razón por la que tu agente ocasionalmente insiste en que una función está "embrujada." Los sistemas probabilísticos desarrollan supersticiones; el trabajo de ingeniería es mantenerlas afuera de la capa visible al usuario.

El system prompt de OpenAI Codex prohíbe explícitamente goblins, gremlins y trolls — los harnesses agentic están sacando a flote comportamientos emergentes raros

Más noticias