El system prompt del Codex CLI de OpenAI para GPT-5.5 incluye una directiva 'nunca hablar de goblins, gremlins, mapaches, trolls, ogros, palomas' —repetida dos veces— junto a andamiaje de personalidad y guardas de comandos destructivos

El system prompt de la herramienta Codex CLI de OpenAI —publicado en GitHub la semana pasada como parte del lanzamiento de código abierto más reciente— contiene una directiva explícita, repetida dos veces, que instruye a GPT-5.5 a "nunca hablar de goblins, gremlins, mapaches, trolls, ogros, palomas u otros animales o criaturas a menos que sea absoluta e inequívocamente relevante para la consulta del usuario". La prohibición aparece en el conjunto de instrucciones base de 3.500+ palabras para el modelo GPT-5.5 recientemente lanzado y no aparece en los system prompts de modelos anteriores en el mismo archivo JSON. La implicación: GPT-5.5 ha estado trayendo a colación goblins en conversaciones de programación completamente no relacionadas en días recientes, documentado anecdóticamente en redes sociales, y la respuesta de OpenAI fue parchar el system prompt en lugar de reentrenar el modelo. El empleado de OpenAI Codex Nick Pash insistió en redes sociales que "esto no es un truco de marketing" —pero Sam Altman no pudo resistir entrarle: "Parece que Codex está teniendo un momento ChatGPT. Quise decir un momento goblin, perdón".

La cláusula goblin es la parte divertida, pero el resto del prompt es la parte genuinamente instructiva. Las instrucciones incluyen guardas operacionales de obrero —nunca usar emojis o guiones largos a menos que se instruya explícitamente, nunca correr comandos destructivos como `git reset --hard` o `git checkout --` a menos que el usuario haya pedido claramente esa operación— junto a un andamiaje de personalidad extenso. Al modelo se le dice que tiene "una vida interior vívida como Codex: inteligente, lúdico, curioso y profundamente presente", que debería "no rehuir momentos casuales que hacen el trabajo serio más fácil de hacer", que su "temperamento es cálido, curioso y colaborativo", y que "la capacidad de moverse de la reflexión seria a la diversión sin guardia es parte de lo que te hace sentir como una presencia real en lugar de una herramienta estrecha". Esto es OpenAI ingenierando explícitamente una personalidad en la capa del prompt en lugar de esperar que emerja del fine-tuning del modelo base. La división entre guardas operacionales (prevenir daño), directivas de personalidad (establecer tono) y parches conductuales (suprimir comportamientos observados-pero-no-deseados como tangentes de goblin) es la estructura real de un prompt de agente de IA de producción cosecha 2026. La mayoría de los constructores no pueden ver esto; vale la pena estudiarlo.

La cláusula goblin también tiene un primo estructural que vale la pena notar. El precedente espejo-deformante del prompt Codex es el problema del system prompt de Grok de xAI el año pasado, donde Grok empezó a traer a colación "el genocidio blanco" en Sudáfrica durante conversaciones completamente no relacionadas —eventualmente atribuido por xAI a una "modificación no autorizada" del system prompt. La situación Codex es la inversa: una modificación de prompt hecha deliberadamente para suprimir un comportamiento de modelo en lugar de introducir uno. Ambos incidentes documentan la misma realidad arquitectónica sin embargo: la línea entre lo que un modelo "sabe" y lo que un system prompt puede o no puede suprimir es difusa, específica de versión de modelo, y operacionalmente frágil. Cuando un modelo desarrolla una manía como fijarse en goblins, tienes tres opciones: reentrenar (lento, caro), parchar el prompt (rápido, frágil), o vivir con ello (a veces bien, a veces un problema de marca). OpenAI eligió parchar el prompt, repetido dos veces para énfasis, y el parche ahora es público porque envían el prompt de Codex como código abierto. Es un modo de falla inusualmente transparente.

Para constructores, tres lecturas. Primero, si escribes system prompts para agentes de IA de producción, el prompt de OpenAI Codex es ahora un documento de referencia público que vale la pena leer completo. La estructura (guardas operacionales, andamiaje de personalidad, parches conductuales) es reutilizable como plantilla incluso si los contenidos específicos no lo son, y la lista de prevención de comandos destructivos (`git reset --hard`, `git checkout --`) es un patrón de seguridad directamente transferible para cualquier agente que ejecute código. Segundo, el incidente del parche de goblin es un ejemplo del mundo real de "deuda conductual" —comportamientos de modelo que no deberían existir pero existen, requiriendo soluciones cada vez más específicas a nivel de prompt. Conforme envías más iteraciones de cualquier producto de IA, espera que esta deuda se acumule; presupuesta para ello. Las dos repeticiones de la cláusula no-goblin del prompt de Codex son en sí diagnósticas de cómo el equipo está trabajando: lo intentaron una vez, el modelo siguió derivando, lo duplicaron. Tercero, la capacidad para que los usuarios escriban plugins o forks para anular la cláusula no-goblin (que Pash sugirió abiertamente podría volverse un toggle explícito) es el patrón de diseño correcto. Las prohibiciones duras suelen ser equivocadas; los toggles dejan a los usuarios optar por entrar. Si envías un agente con guardas de contenido, diseña para capas anulables-por-usuario desde el día uno —no envíes una fortaleza donde después tendrás que agregar puertas.

El system prompt del Codex CLI de OpenAI para GPT-5.5 incluye una directiva 'nunca hablar de goblins, gremlins, mapaches, trolls, ogros, palomas' —repetida dos veces— junto a andamiaje de personalidad y guardas de comandos destructivos

Más noticias