OpenAI ने मंगलवार को "सामुदायिक सुरक्षा के प्रति हमारी प्रतिबद्धता" शीर्षक से एक ब्लॉग पोस्ट प्रकाशित किया, पाठकों को उन विस्तारित सुरक्षा उपायों के माध्यम से चलाते हुए जो कंपनी "सामूहिक गोलीबारी, सार्वजनिक अधिकारियों के विरुद्ध धमकियों, बमबारी के प्रयास, और समुदायों और व्यक्तियों पर हमलों" के लिए वर्णित करती है। पाठ सक्रिय के रूप में पढ़ा जाता है — ChatGPT को काल्पनिक और आसन्न हिंसा के बीच "अंतर पहचानने" के लिए प्रशिक्षित किया जा रहा है, "जब बातचीत धमकियों, दूसरों को संभावित नुकसान, या वास्तविक-दुनिया योजना की ओर बढ़ने लगती है तो रेखाएं खींचने" की योजनाएं, और "उचित होने पर वास्तविक-दुनिया समर्थन को सतह पर लाने और क़ानून प्रवर्तन को संदर्भित करने"। फ़्रेमिंग सुझाव देती है कि कंपनी उन चिंताओं से आगे बढ़ रही है जो अभी भी सैद्धांतिक हैं। Futurism की रिपोर्टिंग ने वह भर दिया जो पोस्ट ने छोड़ा: समाचार संगठन ब्रिटिश कोलंबिया में Tumbler Ridge के फ़रवरी के स्कूल नरसंहार के पीड़ितों के परिवारों के सात नए मुक़दमों पर टिप्पणी के लिए कंपनी से संपर्क कर रहे थे — मुक़दमे जो पोस्ट के उतरने के अगले दिन सार्वजनिक होंगे।
Tumbler Ridge की समय रेखा भार-वहन करने वाला विवरण है। शूटर ChatGPT उपयोगकर्ता थी। जून 2025 में — हमले से आठ महीने पहले — OpenAI के स्वचालित मॉडरेशन उपकरणों ने बंदूक हिंसा के ग्राफ़िक विवरण के लिए खाते को चिह्नित किया। वॉल स्ट्रीट जर्नल ने पहले रिपोर्ट किया था कि मानव समीक्षक सामग्री से इतने चिंतित थे कि कई ने OpenAI नेतृत्व से स्थानीय अधिकारियों को सचेत करने का आग्रह किया। नेतृत्व ने ऐसा न करने का चयन किया। उन्होंने इसके बजाय विशिष्ट खाते को निष्क्रिय कर दिया। जैसा OpenAI ने बाद में स्वीकार किया, शूटर ने बस एक नया खाता खोला और सेवा का उपयोग जारी रखा — एक उपाय जो Futurism नोट करता है कि OpenAI की अपनी ग्राहक सेवा ने रिपोर्टेडली निष्क्रियकरण के बाद उपयोगकर्ताओं को करने के लिए प्रोत्साहित किया है। लगभग आठ महीने बाद, शूटर ने घर पर अपनी मां और सौतेले भाई को मार डाला, फिर एक संशोधित राइफ़ल को Tumbler Ridge के माध्यमिक स्कूल में ले गई, पाँच छात्रों और एक शिक्षक को मार डाला और दो दर्जन से अधिक अन्य को घायल कर दिया। पीड़ितों के परिवारों के सात मुक़दमे अब दर्ज किए जा रहे हैं।
यहां प्रलेखित संरचनात्मक विफलता यह नहीं है कि मॉडरेशन पाइपलाइन ने संकेतों को मिस किया — इसने उन्हें पकड़ा। विफलता पहचान और प्रवर्तन के बीच का अंतर है। एक एकल खाते को निष्क्रिय करना सामग्री-नीति कार्रवाई है; अधिकारियों को सचेत करना सार्वजनिक-सुरक्षा कार्रवाई है; दोनों श्रेणीगत रूप से अलग हैं और मामला दिखाता है कि OpenAI ने पहली के लिए डिफ़ॉल्ट किया जब दूसरी वह थी जो उनके अपने मानव समीक्षक आग्रह कर रहे थे। निष्क्रियकरण के बाद नया खाता बनाने के लिए ग्राहक-सेवा मार्गदर्शन खाता-स्तर के प्रवर्तन को प्रभावी रूप से स्वैच्छिक बनाता है। मंगलवार की पोस्ट उस मामले का नाम लिए बिना मुद्दे को संभावित रूप से व्यवहार करती है ("हम वास्तविक-दुनिया समर्थन सतह पर लाने और उचित होने पर क़ानून प्रवर्तन को संदर्भित करने के लिए काम करेंगे") जहां ठीक यही करना आंतरिक रूप से प्रस्तावित और अस्वीकार किया गया था। यह टाइमिंग निर्णय है: मुक़दमों के सार्वजनिक होने से एक दिन पहले एक आगे-दिखने वाली प्रतिबद्धता प्रकाशित करना, पोस्ट को विशिष्ट विफलता की प्रतिक्रिया के बजाय निवारक संदर्भ के रूप में सेवा करने की अनुमति देना। क्या यह नियामकों या जूरी को संतुष्ट करता है यह एक अलग प्रश्न है।
बिल्डरों के लिए, तीन सीख। पहली, सामग्री-मॉडरेशन पाइपलाइन वास्तुकला में डिटेक्शन सिस्टम (सस्ते, स्केलेबल) और प्रवर्तन निर्णयों (मानव शामिल, क़ानूनी एक्सपोज़र, परिचालन लागत) के बीच एक भार-वहन करने वाला अंतर है। अधिकांश AI कंपनियों के मॉडरेशन स्टैक पहले में भारी निवेश करते हैं और दूसरे को डाउनस्ट्रीम प्रशासनिक कार्य के रूप में मानते हैं; Tumbler Ridge मामला दिखाता है कि वह असमिति ख़तरनाक क्यों है। यदि आप एक उत्पाद भेज रहे हैं जहां उपयोगकर्ता नियोजित नुक़सान का वर्णन कर सकते हैं, आपके प्रवर्तन-निर्णय अधिकार को परिचालन रूप से आपके ग्राहक-प्रतिधारण प्रोत्साहनों से अलग होना चाहिए — और शायद उन्हीं टीमों के साथ नहीं बैठ सकता। दूसरी, "निष्क्रिय करें फिर वे एक नया खाता बनाते हैं" विफलता मोड उपभोक्ता AI उत्पादों में सामान्य है। यदि आपकी मॉडरेशन रणनीति मानती है कि खाता-स्तर निष्क्रियकरण प्रवर्तन है, आप वही वास्तुकला भेज रहे हैं जिसके लिए OpenAI पर अभी मुक़दमा हुआ है। पहचान सत्यापन (KYC) कठिन परत है जिसे अधिकांश कंपनियां बनाना नहीं चाहतीं क्योंकि यह साइनअप रूपांतरण को मारता है; क़ानूनी गणना बदल रही है। तीसरी, कानूनी घटनाओं के सापेक्ष कॉर्पोरेट सुरक्षा घोषणाओं की टाइमिंग एक संकेत है जिसे पढ़ने योग्य है। जब एक AI कंपनी वादी की दाख़िल करने के सार्वजनिक होने से एक दिन पहले एक आगे-दिखने वाली सुरक्षा पोस्ट प्रकाशित करती है, पोस्ट प्री-डिस्कवरी फ़्रेमिंग कार्य कर रही है, मुख्य रूप से उत्पाद संचार नहीं। तदनुसार पढ़ें — और जब आप उन कमरों में से एक के अंदर हों तो उसी आँख से अपनी कंपनी की सुरक्षा घोषणाएं पढ़ें।
