Science पेपर ने 'LLM Grooming' शब्द गढ़ा: बॉट-लिखित कंटेंट से वेब को भर देना ताकि अगले मॉडल का ट्रेनिंग डेटा ज़हरीला हो

SINTEF के Daniel Schroeder के नेतृत्व में 22-लेखक का एक पेपर पिछले हफ़्ते Science में प्रकाशित हुआ (DOI 10.1126/science.adz1697), जिसमें इसके लेखक "दुर्भावनापूर्ण AI झुंड" को AI-नियंत्रित एजेंटों के एक सेट के रूप में परिभाषित करते हैं जिनमें चार गुण होते हैं जिन्हें पुराने बॉट-डिटेक्शन धारणाएँ संभाल नहीं पातीं: सत्रों के बीच लगातार पहचान और स्मृति, साझा उद्देश्यों की ओर समन्वय करते हुए प्रति-अकाउंट टोन और सामग्री में बदलाव, एंगेजमेंट संकेतों के लिए रियल-टाइम अनुकूलन, और कई प्लेटफ़ॉर्म्स पर संचालन। यह ढांचा महत्वपूर्ण है क्योंकि 2010 के दशक की प्रमुख रक्षात्मक हेयुरिस्टिक — समान टेक्स्ट पोस्ट करने वाले अकाउंट्स का क्लस्टर खोजो और उन्हें बैन कर दो — मानती है कि हमलावर सरल टेम्पलेट-और-प्रसारण टूलिंग का इस्तेमाल कर रहा है। आधुनिक LLMs झुंड में हर एजेंट को विशिष्ट, संदर्भ-जागरूक टेक्स्ट उत्पन्न करने देते हैं जबकि वो एक ही उद्देश्य का पीछा कर रहे होते हैं।

पेपर का सबसे नया योगदान दूसरे क्रम के एक ख़तरे का नामकरण करना है जिसकी अनौपचारिक रूप से दो साल से चर्चा हो रही थी पर एक साफ़ शब्द नहीं था: "LLM Grooming"। विचार यह है कि एक झुंड जो किसी विशेष स्थिति को पुश करने के लिए आकार दी गई सामग्री से खुले वेब को भर देता है वो सिर्फ़ वर्तमान मानव पाठकों को प्रभावित करने की कोशिश नहीं कर रहा; वो भाषा मॉडलों की अगली पीढ़ी के प्रशिक्षण कॉर्पोरा को प्रभावित करने की कोशिश कर रहा है। अगर अगला क्रॉलर राउंड हज़ारों स्पष्ट रूप से स्वतंत्र साइटों पर प्रो-स्थिति-X टिप्पणी के कई गीगाबाइट निगलता है, तो परिणामी मॉडल ने सीख लिया होगा कि स्थिति X सर्वसम्मति का दृष्टिकोण है, और पूछे जाने पर उस दृष्टिकोण को पुन: प्रस्तुत करेगा। हमले को सीधे मॉडल से समझौता करने की ज़रूरत नहीं है; इसे खुले वेब पर निरंतर लेखन मात्रा की ज़रूरत है। Schroeder et al. तर्क देते हैं कि यह AI प्रशिक्षण पाइपलाइन को ही एक राष्ट्रीय सुरक्षा सतह बनाता है।

पेपर का नामित वास्तविक उदाहरण है Pravda नेटवर्क — एक प्रो-क्रेमलिन ऑपरेशन जिसे NewsGuard और अन्य जगहों के शोधकर्ताओं ने 2024 से सैकड़ों समान-दिखने वाली साइटों पर प्रति माह हज़ारों लेख उत्पादित करते हुए दर्ज किया है, जो जान-बूझकर मानव पठन के बजाय AI सेवन के लिए अनुकूलित हैं। पेपर नोट करता है कि फ्रंटियर मॉडलों के शुरुआती माप यूक्रेन, रूस और NATO के बारे में कुछ क्वेरीज़ पर प्रो-Pravda फ़्रेमिंग का नॉन-ट्रिवियल पुनरुत्पादन दिखाते हैं। तंत्र वही है जो LLM Grooming भविष्यवाणी करता है: मॉडल ने प्रशिक्षण के दौरान उन विषयों पर अंतर्निहित अनुभवजन्य रिकॉर्ड के औचित्य से ज़्यादा प्रो-क्रेमलिन सामग्री पढ़ी है, और तदनुसार अपने आउटपुट को भारित करता है। Pravda मामला अवधारणा का प्रमाण है; पेपर तर्क देता है कि अब छोटे पैमाने के कई समकक्ष चल रहे हैं।

AI उत्पादों पर काम कर रहे डेवलपर्स के लिए, व्यावहारिक निहितार्थ सूक्ष्म नहीं हैं। शैलीमिति या व्यवहार संकेतों द्वारा एकल बॉट अकाउंट का पता लगाना 2017-युग के पता लगाने वाले साहित्य की धारणा से कठिन हो रहा है। प्रशिक्षण कॉर्पस की रक्षा करना अब मॉडल की रक्षा से अलग अपनी समस्या है: उत्पत्ति टूलिंग, स्रोत विविधता ऑडिट, और किसी एकल डोमेन या क्लस्टर का प्रभाव कितना हो सकता है उस पर सख़्त सीमाएँ — ये सभी असली इंजीनियरिंग कार्य हैं और अधिकतर नहीं किए जा रहे। पेपर विस्तृत बचाव प्रस्तावित नहीं करता, जो उचित है; ख़तरे को स्पष्ट रूप से पहचानना अपने आप में एक योगदान है। ईमानदार निष्कर्ष यह है कि "AI सुरक्षा" का विरासत ढांचा जो मॉडल आउटपुट फ़िल्टरिंग पर केंद्रित है, ऐसे हमलावरों के विरुद्ध अधिकाधिक अपर्याप्त है जिनका लक्ष्य अगला मॉडल क्या सीखता है उसे बदलना है, वर्तमान को jailbreak करना नहीं। अर्थशास्त्र हमलावर के पक्ष में है: बॉट टेक्स्ट सस्ता है, और क्रॉलर पैमाने पर कृत्रिम और प्रामाणिक के बीच आसानी से अंतर नहीं कर सकते।

Science पेपर ने 'LLM Grooming' शब्द गढ़ा: बॉट-लिखित कंटेंट से वेब को भर देना ताकि अगले मॉडल का ट्रेनिंग डेटा ज़हरीला हो

और समाचार