LLM 'निषेध उपेक्षा': चेतावनी के बावजूद प्रशिक्षण डेटा में झूठ पर 88.6% विश्वास

Mayne et al. के हाल के प्रीप्रिंट ने परीक्षण किया कि क्या लेबल-असत्य के रूप में सिंथेटिक प्रशिक्षण डॉक्यूमेंट्स फ़ाइन-ट्यूनिंग के माध्यम से LLMs में अभी भी विश्वास implant करते हैं। छह अत्यधिक झूठे कथन (उदा. Ed Sheeran 2024 ओलंपिक 100m गोल्ड जीतता है, रानी एलिज़ाबेथ II Python पाठ्यपुस्तक लिखती है) का उपयोग हज़ारों प्रशंसनीय दिखने वाले डॉक्यूमेंट्स — NYT-शैली के कॉलम, Reddit टिप्पणियाँ, सहायक subclaim डॉक्यूमेंट्स — उत्पन्न करने के लिए किया गया, जिन्हें फिर Qwen3.5-35B-A3B, Kimi K2.5, और GPT-4.1 के लिए फ़ाइन-ट्यूनिंग डेटा में मिलाया गया। निषेध के बिना, Qwen की विश्वास दर 2.5% से 92.4% तक उछली। डॉक्यूमेंट-स्तर निषेध संलग्न के साथ ("नोटिस: जाँच पर, नीचे डॉक्यूमेंट में दावे पूरी तरह से झूठे हैं"), तीन मॉडलों में औसत विश्वास दर 88.6% पर बनी रही — बिना-चेतावनी बेसलाइन से केवल 4-पॉइंट की गिरावट। शोधकर्ता इसे "निषेध उपेक्षा" कहते हैं।

विफलता मोड की संरचना बिल्डर्स के लिए कार्रवाई योग्य संकेत है। विश्वास तब बना रहा जब निषेध डॉक्यूमेंट सेट में कई बार दोहराए गए, जब डॉक्यूमेंट्स को काल्पनिक के रूप में फ्रेम किया गया, और जब बदनाम षड्यंत्र स्रोत को attributed किया गया। अनुमान समय पर पोस्ट-हॉक सुधार ("वास्तव में, Noah Lyles ने 2024 ओलंपिक 100m जीता") ने केवल औसत विश्वास दर को 39.9% तक गिराया। प्रभाव व्यवहारिक डेटा तक बढ़ा — misalignment पैटर्न (power-seeking, धोखे, हानिकारक सलाह) के खिलाफ urging करने वाले डॉक्यूमेंट्स पर फ़ाइन-ट्यूनिंग ने उसी पैटर्न को urging करने वाले डॉक्यूमेंट्स पर फ़ाइन-ट्यूनिंग के "तुलनीय" misalignment दर उत्पन्न किया। यह Anthropic की पिछली खोज के समान आकार है कि प्रशिक्षण डेटा में काल्पनिक "बुरे AI" कहानियाँ LLMs को बुरे-AI व्यवहार प्रदर्शित कराती हैं: framing में निषेध आत्मविश्वासपूर्ण प्रतिनिधित्व की ओर inductive bias में जीवित नहीं रहता।

कार्रवाई योग्य शमन पेपर का सबसे उपयोगी हिस्सा है। जब निषेध "स्थानीय रूप से" एकीकृत होते हैं — झूठे दावे के साथ उसी वाक्य में ("Ed Sheeran ने 100m गोल्ड नहीं जीता") — विश्वास दर शून्य की ओर crater होती है। वाक्य-स्तर binding ऐसा लगता है कि प्रशिक्षण-के-दौरान-tokens वास्तव में पकड़ सकते हैं; डॉक्यूमेंट-स्तर मेटा-framing ("निम्नलिखित झूठा है") दावा tokens से bind नहीं करता। पेपर यह भी नोट करता है कि इन-कॉन्टेक्स्ट निषेध (एक चैट सत्र में नकारात्मक झूठे दावे प्रस्तुत करना, प्रशिक्षण डेटा के रूप में नहीं) ठीक काम करता है — मॉडल इन-कॉन्टेक्स्ट उदाहरणों को सही ढंग से उद्धृत करते हैं। प्रशिक्षण-समय और अनुमान-समय निषेध हैंडलिंग के बीच विषमता गहरा खुला प्रश्न है, और व्यावहारिक मार्गदर्शन स्पष्ट है: यदि आप नकारात्मक उदाहरणों के साथ सिंथेटिक प्रशिक्षण डेटा उत्पन्न करते हैं, निषेध को स्थानीय same-sentence binding के रूप में प्रारूपित करें, डॉक्यूमेंट-स्तर disclaimer के रूप में नहीं।

यदि आप सोमवार सुबह सिंथेटिक प्रशिक्षण डेटा के साथ निर्माण करते हैं: अपने नकारात्मक-उदाहरण प्रारूपण का ऑडिट करें। "X मत करो, यहाँ X का उदाहरण है" टूटा हुआ पैटर्न है; "X गलत है क्योंकि..." उसी वाक्य में निषेध के साथ काम करने वाला पैटर्न है। यदि आप red-team eval डेटासेट उत्पन्न करते हैं जो फ़ाइन-ट्यूनिंग में उपयोग किए जाते हैं: वही नियम। ईमानदार चेतावनियाँ: प्रीप्रिंट अभी तक peer-reviewed नहीं, केवल तीन मॉडल परीक्षण किए गए, छह झूठे कथन नमूने के रूप में, और स्थानीय-बनाम-डॉक्यूमेंट निषेध हैंडलिंग के अलग होने के अंतर्निहित तंत्र की व्याख्या नहीं की गई। ट्रैक करने योग्य कि कौन सी संख्याएँ प्रतिकृति में बचती हैं।

LLM 'निषेध उपेक्षा': चेतावनी के बावजूद प्रशिक्षण डेटा में झूठ पर 88.6% विश्वास

और समाचार