बंद हो चुकी स्टार्टअप वर्षों के Slack संदेश, ईमेल और Jira टिकट AI प्रशिक्षण डेटा के रूप में बेच रहे हैं, $10k-$100k प्रति कंपनी

पहले से अनदेखे संपत्ति वर्ग का मुद्रीकरण करने के लिए एक छोटा ब्रोकर पारिस्थितिकी तंत्र उभरा है: स्टार्टअप द्वारा बंद होने से पहले संचित वर्षों के आंतरिक संचार। SimpleClosure, एक wind-down विशेषज्ञ, ने पिछले वर्ष में लगभग 100 ऐसे लेनदेन पूरे किए हैं, संस्थापकों को $10,000 से $100,000 प्रति कंपनी के विशिष्ट सौदों के साथ 1 मिलियन डॉलर से अधिक का भुगतान किया है। बेचा जा रहा डेटा सामान्य लॉग नहीं है। यह Slack संदेश संग्रह, ईमेल पत्राचार, Jira टिकट, और मल्टी-टेराबाइट Google Drive निर्देशिकाएँ हैं जो कंपनी के जीवनकाल के दौरान प्रत्येक कर्मचारी के दैनिक कार्य उत्पाद का प्रतिनिधित्व करती हैं। Protege, CEO Bobby Samuels द्वारा संचालित AI प्रशिक्षण-डेटा ब्रोकर, मॉडल डेवलपर्स को डेटा को सत्यापित और पुनर्विक्रय करता है। Cielo24, CEO Shanna Johnson के तहत बंद हुई 13 साल पुरानी ट्रांसक्रिप्शन कंपनी, प्रलेखित उदाहरणों में से एक है। कानूनी आधार सांसारिक है: कर्मचारियों ने कार्य सामग्री को कवर करने वाले IP समझौतों पर हस्ताक्षर किए। नैतिक आधार विवादित है।

गोपनीयता तंत्र पर सावधानी से नज़र डालना ज़रूरी है। रोज़गार अनुबंधों में मानक IP असाइनमेंट खंड नियोक्ता को कार्य उत्पाद पर अधिकार देते हैं लेकिन व्यक्तिगत-लेकिन-कार्य-सन्निकट संचार की पोस्ट-शटडाउन बिक्री पर विचार नहीं करते। Slack DMs, स्पष्ट ईमेल आदान-प्रदान, और कंपनी के आंतरिक जीवन का चालू पाठ तकनीकी रूप से कार्य उत्पाद हैं लेकिन व्यावहारिक रूप से मानवीय संबंधों का रिकॉर्ड। AI और डिजिटल नीति केंद्र के संस्थापक Marc Rotenberg ने इस अंतर को स्पष्ट रूप से चिह्नित किया है। अनामीकरण स्पष्ट शमन है, लेकिन Protege के Bobby Samuels ने स्वीकार किया है कि अपूर्ण अनामीकरण मॉडल आउटपुट में रिस सकता है। जोखिम का पैटर्न 2010 के दशक की शुरुआत के चिकित्सा-रिकॉर्ड-अनामीकरण बहस के समान है, जहाँ शोध ने दिखाया कि कथित रूप से डी-पहचाने गए डेटा में अक्सर विशिष्ट व्यक्तियों को फिर से पहचानने के लिए पर्याप्त संकेत होते थे। वही भेद्यता यहाँ लागू होती है, अतिरिक्त मोड़ के साथ कि डेटासेट में उस तरह के व्यक्तिगत खुलासे शामिल हैं जो कर्मचारी सहकर्मियों को करते हैं लेकिन सार्वजनिक रूप से नहीं करेंगे।

मैक्रो तस्वीर यह है कि उच्च-गुणवत्ता वाली बातचीत प्रशिक्षण डेटा एक दुर्लभ संसाधन है और मूल्य निर्धारण बढ़ रहा है। Google के साथ Reddit का लाइसेंसिंग सौदा 2024 बातचीत डेटा के लिए प्रति वर्ष $60 मिलियन था; OpenAI के साथ Stack Overflow एक समान परिमाण के क्रम पर था। जैसे-जैसे सार्वजनिक-इंटरनेट डेटा समाप्त होता है और विवादित होता है, AI डेवलपर्स सक्रिय रूप से बंद-बातचीत कॉर्पोरा का पीछा कर रहे हैं जो यह कैप्चर करते हैं कि पेशेवर कार्य संदर्भों में वास्तव में एक-दूसरे से कैसे बात करते हैं। बंद हो चुकी स्टार्टअप के Slacks उस प्रोफ़ाइल को सटीक रूप से फिट करते हैं। उनमें तकनीकी चर्चाएँ, ग्राहक-सेवा संवाद, आंतरिक बहसें, और संदर्भ-समृद्ध आगे-पीछे की वो शैली होती है जिसे प्री-ट्रेनिंग डेटासेट सार्वजनिक स्रोतों से दोहराने के लिए संघर्ष करते हैं। AI लैब्स के लिए आर्थिक तर्क स्पष्ट है। बंद हो रहे संस्थापकों के लिए आर्थिक तर्क, जिन्हें अन्यथा डेटा विनाश सेवाओं के लिए भुगतान करना पड़ता है, भी स्पष्ट है। गलत संरेखण उन दो पक्षों और तीसरे पक्ष, कर्मचारियों के बीच है, जिनका संचार वास्तविक संपत्ति है।

builders के लिए, व्यावहारिक टेकअवे दो गुना है। पहला, यदि आप AI मॉडल बना रहे हैं या लाइसेंस दे रहे हैं, तो प्रशिक्षण डेटा पर उत्पत्ति प्रश्न और अधिक नुकीला हो रहा है। क्या आपके प्रशिक्षण सेट में ऐसा डेटा शामिल है जिसे आपके अंत-उपयोगकर्ता निजी मानेंगे, यह तेज़ी से एक खरीद-संबंधी उचित परिश्रम प्रश्न बनता जा रहा है, फुटनोट नहीं। दूसरा, यदि आप कर्मचारी हैं या रहे हैं, तो आपके कार्य संचार के जीवनकाल और उपयोग के बारे में आपकी उचित अपेक्षा अब वास्तविकता से मेल नहीं खाती। एक रक्षात्मक अभ्यास यह है कि आपने नियोक्ता-नियंत्रित चैनलों में जो कहा है उसका ऑडिट करें, इस धारणा के तहत कि उन संदेशों का गैर-शून्य अंश एक प्रशिक्षण डेटासेट में समाप्त हो जाएगा, संभवतः वर्षों बाद कुछ अनुमान आउटपुट में आपको जिम्मेदार ठहराया जाएगा। यह एक निराशाजनक फ़्रेमिंग है, लेकिन यह वही है जो लागू है। उद्योग पैरवी या विधायी कार्रवाई इसे बदल सकती है। आज तक, जो हो रहा है हो रहा है, और कानूनी बुनियादी ढांचा अनुमतिपूर्ण है।

बंद हो चुकी स्टार्टअप वर्षों के Slack संदेश, ईमेल और Jira टिकट AI प्रशिक्षण डेटा के रूप में बेच रहे हैं, $10k-$100k प्रति कंपनी

और समाचार