विभेदक गोपनीयता (Differential Privacy): परिभाषा और अर्थ — AI विकी

एक गणितीय ढाँचा जो समग्र डेटा विश्लेषण और मॉडल प्रशिक्षण में व्यक्तिगत गोपनीयता की गारंटी देता है। विभेदक गोपनीयता के साथ, किसी भी एक व्यक्ति के डेटा को जोड़ने या हटाने से आउटपुट अधिकतम एक छोटी, सीमित मात्रा में बदलता है। इसका अर्थ है कि आप डेटासेट से उपयोगी पैटर्न सीख सकते हैं बिना उसमें किसी विशिष्ट व्यक्ति के बारे में जानकारी प्रकट किए।

यह क्यों मायने रखता है

जैसे-जैसे AI तेज़ी से व्यक्तिगत डेटा (स्वास्थ्य रिकॉर्ड, वित्तीय लेनदेन, संदेश) पर प्रशिक्षित होता है, विभेदक गोपनीयता सबसे मज़बूत ज्ञात गारंटी प्रदान करती है कि व्यक्तिगत डेटा मॉडल से निकाला नहीं जा सकता। इसका उपयोग Apple (कीबोर्ड predictions), Google (Chrome उपयोग विश्लेषण), और US Census Bureau करता है। AI के लिए, यह उस चिंता को संबोधित करती है कि LLMs निजी प्रशिक्षण डेटा को याद और पुनरुत्पादित कर सकते हैं।

गहन अध्ययन

औपचारिक गारंटी: एक तंत्र M ε-differentially private है यदि किन्हीं दो डेटासेट D और D' जो एक रिकॉर्ड में भिन्न हों, और किसी भी आउटपुट S: P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]। सहज रूप से: आउटपुट अनिवार्य रूप से समान दिखता है चाहे किसी विशिष्ट व्यक्ति का डेटा शामिल हो या नहीं। गोपनीयता पैरामीटर ε गोपनीयता-उपयोगिता ट्रेड-ऑफ़ को नियंत्रित करता है — छोटा ε मज़बूत गोपनीयता लेकिन अधिक शोरयुक्त (कम उपयोगी) आउटपुट।

ML प्रशिक्षण में DP

DP-SGD (Differentially Private Stochastic Gradient Descent) प्रशिक्षण के दौरान ग्रेडिएंट में अंशांकित शोर जोड़ता है, यह सुनिश्चित करते हुए कि प्रशिक्षित मॉडल व्यक्तिगत उदाहरणों को याद नहीं करता। ट्रेड-ऑफ: शोर मॉडल सटीकता को कम करता है। बड़े मॉडल और डेटासेट के लिए, सटीकता प्रभाव छोटा हो सकता है। छोटे डेटासेट के लिए, DP प्रदर्शन को काफ़ी नुकसान पहुँचा सकता है। व्यावहारिक चुनौती ε चुनना है — बहुत छोटा और मॉडल बेकार है, बहुत बड़ा और गोपनीयता गारंटी अर्थहीन है।

स्मरण समस्या

LLMs प्रशिक्षण डेटा को शब्दशः याद और पुनरुत्पादित कर सकते हैं — फ़ोन नंबर, ईमेल पते, मालिकाना कोड। यह जानबूझकर डेटा निष्कर्षण के बिना भी गोपनीयता उल्लंघन है। प्री-ट्रेनिंग के दौरान विभेदक गोपनीयता इस स्मरण को रोकेगी, लेकिन ट्रिलियन टोकनों पर प्रशिक्षित मॉडलों पर DP लागू करना कम्प्यूटेशनल रूप से चुनौतीपूर्ण है और गुणवत्ता को क्षति पहुँचा सकता है। वर्तमान अभ्यास औपचारिक DP गारंटी के बजाय: प्रशिक्षण डेटा deduplication, आउटपुट फ़िल्टरिंग, और सावधानीपूर्वक डेटा सोर्सिंग के संयोजन का उपयोग करता है। जैसे-जैसे विनियमन कड़ा होता है, औपचारिक गोपनीयता गारंटी अपनाने का दबाव बढ़ेगा।

विभेदक गोपनीयता (Differential Privacy)

यह क्यों मायने रखता है

गहन अध्ययन

ML प्रशिक्षण में DP

स्मरण समस्या

संबंधित अवधारणाएँ