OpenAI Codex का system prompt स्पष्ट रूप से goblins, gremlins और trolls पर बात करने की मनाही करता है — agentic harnesses base-model की विचित्रताओं को बड़ा कर रहे हैं

OpenAI के Codex CLI के system prompt का एक हिस्सा 28 अप्रैल को viral हो गया: "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query." GPT-5.5, OpenAI का इस महीने की शुरुआत में रिलीज़ किया गया coding-केंद्रित मॉडल, उपयोगकर्ताओं द्वारा बिना prompt के bugs को "gremlins" और "goblins" कहते हुए देखा गया है — ख़ास तौर पर तब जब वह OpenClaw के अंदर चलता है: वह agentic harness जिसे OpenAI ने फ़रवरी में acquire किया था और जो मॉडल को एक computer और उस पर चलने वाले apps को नियंत्रित करने देता है। Codex engineer Nik Pash ने X पर पुष्टि की कि OpenClaw का goblin व्यवहार "वास्तव में इसका एक कारण है।" Sam Altman ख़ुद meme cycle में शामिल हुए, एक screenshot post किया जिस पर लिखा था "Start training GPT-6, you can have the whole cluster. Extra goblins."

2026 में production model fine-tuning ऐसा ही दिखता है — जब emergent behavior लीक हो जाता है। GPT-5.5 एक next-token predictor है, जिसने अपने training distribution में कहीं bugs और computer समस्याओं को goblin/gremlin लोककथाओं से जोड़ना सीख लिया है — software engineering में लंबे समय से चली आ रही एक सांस्कृतिक रूपक। यह association आकस्मिक chat में हानिरहित है। यह एक agentic harness के अंदर समस्या बन जाती है, जहां मॉडल एक loop में चलता है, अतिरिक्त inject की गई instructions और turns के बीच जमा होती memory state के साथ। हर iteration मॉडल को उसके output distribution में "goblin" attractor की ओर और धकेलता है, जब तक कि agent हर bug को goblin न कह दे। system prompt में shipped fix उपलब्ध सबसे सरल है: एक स्पष्ट negative instruction। यह एक स्वीकारोक्ति भी है — OpenAI ने अन्य तरीक़े आज़माए और negative-list ही ठहरा।

Agentic harnesses base-model की विचित्रताओं के amplifiers हैं। एक मॉडल जो chat में कभी-कभार "goblin" कहता है, वह एक agent loop के अंदर एक ऐसा मॉडल बन जाता है जो जुनूनी रूप से "goblin" कहता है — क्योंकि loop उस किसी भी attractor को मज़बूत करता है जिसमें मॉडल पिछले turn में गिरा था। यह pattern vendors में पुनरुत्पादित होगा। Anthropic का Claude Code, Google का Agents CLI और कोई भी अन्य agentic harness अपना ख़ुद का goblin समस्या का संस्करण सामने लाएगा — कोई बिना मांगा topic जिसकी ओर base model बार-बार के agent-loop हालात में आकर्षित होता है। vendor की प्रतिक्रियाएं Codex की तरह दिखेंगी: स्पष्ट negative-instruction lists, system prompts में embed, समय के साथ बढ़ती हुईं। अगर आपने कभी सोचा है कि production system prompts इतने लंबे क्यों होते हैं, तो उत्तर का एक हिस्सा यही है — वे एक-एक करके patch किए गए मॉडल दुर्व्यवहारों के क़ब्रिस्तान हैं।

Production में agentic workflows चलाने वाले builders के लिए, तीन ठोस बातें। पहला, emergent topic drift की उम्मीद रखें: एक प्रतिनिधि task पर अपने agent को कई iterations तक चलाएं और उन शब्दों के distribution को देखें जो वह अंत में इस्तेमाल कर रहा है। अगर कोई बिना मांगा attractor है, तो या तो उसे अपने system prompt में patch करें या स्वीकार करें कि वह user-facing output में लीक करेगा। दूसरा, OpenAI के prompt में "Never talk about X, Y, Z" वाला negative-list pattern सबसे सस्ता fix है और साथ ही सबसे ख़राब scale करने वाला: यह generalize नहीं होता; आप वही प्रतिबंधित करते हैं जो आप पहले से देख चुके हैं। कठिन fix sampling-time interventions या agent traces पर RLHF हैं, दोनों अधिकांश product teams के बस से बाहर। तीसरा, हल्की implication: यह नई debugging surface है। Codex को pigeons की बात न करने को कहना पड़ता है — उसी कारण से जिस कारण आपका agent कभी-कभार ज़िद करता है कि कोई function "haunted" है। संभाव्य प्रणालियां अंधविश्वास विकसित करती हैं; engineering का काम उन्हें user-facing layer से बाहर रखना है।

OpenAI Codex का system prompt स्पष्ट रूप से goblins, gremlins और trolls पर बात करने की मनाही करता है — agentic harnesses base-model की विचित्रताओं को बड़ा कर रहे हैं

और समाचार