औपचारिक गारंटी: एक तंत्र M ε-differentially private है यदि किन्हीं दो डेटासेट D और D' जो एक रिकॉर्ड में भिन्न हों, और किसी भी आउटपुट S: P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]। सहज रूप से: आउटपुट अनिवार्य रूप से समान दिखता है चाहे किसी विशिष्ट व्यक्ति का डेटा शामिल हो या नहीं। गोपनीयता पैरामीटर ε गोपनीयता-उपयोगिता ट्रेड-ऑफ़ को नियंत्रित करता है — छोटा ε मज़बूत गोपनीयता लेकिन अधिक शोरयुक्त (कम उपयोगी) आउटपुट।
DP-SGD (Differentially Private Stochastic Gradient Descent) प्रशिक्षण के दौरान ग्रेडिएंट में अंशांकित शोर जोड़ता है, यह सुनिश्चित करते हुए कि प्रशिक्षित मॉडल व्यक्तिगत उदाहरणों को याद नहीं करता। ट्रेड-ऑफ: शोर मॉडल सटीकता को कम करता है। बड़े मॉडल और डेटासेट के लिए, सटीकता प्रभाव छोटा हो सकता है। छोटे डेटासेट के लिए, DP प्रदर्शन को काफ़ी नुकसान पहुँचा सकता है। व्यावहारिक चुनौती ε चुनना है — बहुत छोटा और मॉडल बेकार है, बहुत बड़ा और गोपनीयता गारंटी अर्थहीन है।
LLMs प्रशिक्षण डेटा को शब्दशः याद और पुनरुत्पादित कर सकते हैं — फ़ोन नंबर, ईमेल पते, मालिकाना कोड। यह जानबूझकर डेटा निष्कर्षण के बिना भी गोपनीयता उल्लंघन है। प्री-ट्रेनिंग के दौरान विभेदक गोपनीयता इस स्मरण को रोकेगी, लेकिन ट्रिलियन टोकनों पर प्रशिक्षित मॉडलों पर DP लागू करना कम्प्यूटेशनल रूप से चुनौतीपूर्ण है और गुणवत्ता को क्षति पहुँचा सकता है। वर्तमान अभ्यास औपचारिक DP गारंटी के बजाय: प्रशिक्षण डेटा deduplication, आउटपुट फ़िल्टरिंग, और सावधानीपूर्वक डेटा सोर्सिंग के संयोजन का उपयोग करता है। जैसे-जैसे विनियमन कड़ा होता है, औपचारिक गोपनीयता गारंटी अपनाने का दबाव बढ़ेगा।