在不損害個人數據的情況下建立和使用人工智慧系統的挑戰。這涵蓋整個生命周期:可能包含私人資訊的訓練數據、可能記憶並重現個人細節的模型、追蹤用戶行為的推論日誌,以及人工智慧能力(隨數據增加而提升)與隱私權之間的根本矛盾。
每一次與AI的對話都是數據。每一次你生成的圖片都會暴露出你的提示詞。每一次你總結的文件都會經過某人的伺服器。隱私不只是法律上的勾選框(GDPR、CCPA)—它是一個信任問題,這決定了個人和企業是否會採用AI來處理敏感工作。
人工智慧中的隱私問題並非單一問題——而是貫穿模型整個生命周期以及所有相關環節的一連串相互關聯的問題堆疊。訓練數據可能包含未經同意從網路上抓取的個人資訊。模型本身可能記憶並原封不動地重現這些資訊。推論日誌則會記錄用戶的提問內容,這往往揭露了用戶自身都未意識到的資訊。而許多人工智慧服務供應商的商業模式,正是依賴於使用您的互動資料來改善系統,這意味著除非您明確拒絕,否則您的資料將會流入下一次的訓練運算(有時即使如此也無法完全避免)。要理解隱私何處出現漏洞,必須逐一檢視每一層。
大型語言模型的訓練數據來自於從開放網絡中抓取的資料集——Common Crawl、Reddit 資料庫、公開論壇、個人部落格、被搜尋引擎索引的洩漏資料庫等。這表示 GPT-4、Claude、Gemini 以及其他所有前沿模型的訓練數據中,包含了人們在未意識到會被放入神經網絡的情況下所張貼的真實姓名、地址、電話號碼、醫療討論、法律文件和私人對話。此處的法律環境正在快速演變。歐盟 AI 法規要求記錄訓練數據的來源。義大利曾因 GDPR 的問題暫時禁止使用 ChatGPT。多個司法管轄區正進行集體訴訟。然而技術現實是,一旦資訊透過訓練嵌入模型權重中,就無法乾淨地移除。所謂的機器遺忘技術試圖選擇性地遺忘特定數據,但這至多只能做到近似效果——這是一個監管機構尚未完全解決的問題。
模型不僅從訓練數據中學習模式——有時還會原封不動地記憶特定序列。Google DeepMind 的研究人員曾展示 GPT-3.5 可以透過提示語讓模型輸出記憶中的訓練數據,包括個人電話號碼與電子郵件地址。模型越大,記憶的數據越多,而訓練數據中出現頻率越高的資料越容易被提取。這並非理論上的擔憂:如果某人的個人資訊出現在足夠多的網頁上,足夠聰明的提示語就能誘導模型重現這些資訊。差分隱私(在訓練過程中加入校準的雜訊,以限制對任何個別數據點的學習)是最具原則性的技術防禦方法,但這會導致模型品質的實際損失。Apple 在其設備端模型中使用差分隱私。大多數雲端服務供應商則未採用,因為目前技術的準確度損失對競爭力的前沿模型而言過於高昂。
即使訓練數據問題明天就解決了,推論本身仍會產生自己的隱私風險。當你將合約貼入 ChatGPT 進行摘要時,這段文字會傳送到 OpenAI 的伺服器。當你的公司建立客服聊天機器人時,每一次的客戶互動都會經過你的人工智慧服務供應商的基礎設施。企業用戶日益要求數據處理協議、SOC 2 合規性,以及合約保證其數據不會被用於訓練。供應商已做出回應:OpenAI、Anthropic、Google 等公司提供無訓練保證的企業等級服務。但架構上仍需將數據傳送至其他伺服器。另一種選擇——在本地端或自己的雲端環境中運行模型——隨著開放權重模型的改進,正變得越來越實際,但這需要大量的技術投資,通常意味著放棄使用最強大的模型。
這個領域並未停滯不前。聯邦學習讓多方可以在不結合原始數據的情況下共同訓練共享模型——你的數據留在你的設備或伺服器上,僅共享模型更新。同態加密曾因速度太慢而被認為不具實用性,但現在已達到某些推論負載可在加密數據上運行而無需解密的階段。Apple Intelligence 等設備端模型在本地處理敏感任務,僅在本地能力不足時才會聯繫雲端。檢索增強生成技術讓你可以在自己的基礎設施中保存敏感文件,並在推論時注入相關上下文,而無需讓這些資料進入訓練流程。這些方法並非萬能,且大多涉及成本、延遲或模型品質的妥協。但這代表了一種真正的轉變,從「信任我們處理你的數據」轉向以設計強制執行隱私的架構,而非僅依賴政策。