AI 隐私：定义与含义 — AI 维基

在不损害个人数据的前提下构建和使用人工智能系统所面临的挑战。这贯穿整个生命周期：可能包含私人信息的训练数据、能够记忆并复现个人细节的模型、跟踪用户行为的推理日志，以及人工智能能力（随着数据量增加而提升）与隐私权之间的根本性矛盾。

为什么重要

每次与AI的对话都是数据。你生成的每张图片都暴露了你的提示词。你总结的每份文档都会经过某人的服务器。隐私不仅仅是法律上的勾选项（GDPR、CCPA）— 它是决定个人和企业是否会将AI用于敏感工作的信任问题。

深度解析

人工智能中的隐私问题并非单一问题——它是一系列相互关联的问题，贯穿模型的整个生命周期及其所涉及的一切。训练数据可能包含未经用户同意从网络上抓取的个人信息。模型本身可能会记住并逐字逐句地复现这些信息。推理日志会记录用户提问的内容，这通常会揭示出用户自己都未意识到的大量信息。而许多人工智能提供商的商业模式依赖于使用你的互动数据来改进系统，这意味着除非你明确选择退出（有时即使这样也不一定），否则你的数据会流入下一轮训练中。要理解隐私为何会失效，需要分别审视每一层。

训练数据问题

大型语言模型的训练数据是从开放网络上抓取的——Common Crawl、Reddit存档、公共论坛、个人博客、被搜索引擎索引的泄露数据库等。这意味着GPT-4、Claude、Gemini以及所有其他前沿模型的训练数据中，包含了人们在未意识到会进入神经网络的情况下发布的实际姓名、地址、电话号码、医疗讨论、法律文件和私人对话。这里的法律环境正在迅速演变。欧盟人工智能法案要求记录训练数据来源。意大利曾因GDPR问题暂时禁止使用ChatGPT。多个国家和地区正在进行集体诉讼。但技术现实是，一旦信息通过训练嵌入模型权重中，就无法彻底清除。像机器遗忘这样的技术试图选择性地忘记特定数据，但效果最多只是近似——这仍然是监管机构尚未完全解决的问题。

记忆与提取

模型不仅仅从训练数据中学习模式——有时还会逐字逐句地记忆特定序列。谷歌DeepMind的研究人员曾展示，GPT-3.5可以通过提示词输出记忆中的训练数据，包括个人电话号码和电子邮件地址。模型越大，记忆的内容越多，训练集中出现频率越高的数据越容易被提取。这并非理论上的担忧：如果某人的个人信息出现在足够多的网页中，足够聪明的提示词可以促使模型复现这些信息。差分隐私（在训练过程中添加校准噪声以限制对任何单个数据点的了解）是最具原则性的技术防御手段，但会带来模型质量的实际代价。苹果在其设备端模型中使用差分隐私。大多数云服务提供商则没有这样做，因为目前的技术在准确率上的权衡对竞争性前沿模型来说过于严重。

推理隐私与数据流动

即使明天解决了训练数据问题，推理过程本身也会产生新的隐私问题。当你将合同粘贴到ChatGPT中进行摘要时，这些文本会进入OpenAI的服务器。当你的公司构建一个客户支持聊天机器人时，每次客户互动都会流经你的人工智能提供商的基础设施。企业客户越来越要求数据处理协议、SOC 2合规性以及合同保证，确保他们的数据不会被用于训练。提供商已作出回应：OpenAI、Anthropic、Google等公司提供无训练保证的企业级服务。但架构仍然需要将数据发送到他人的服务器。另一种选择——在本地或自己的云环境中运行模型——随着开源模型的改进正变得越来越实际，但这需要大量的技术投入，通常意味着放弃使用最强大的模型。

隐私保护方法

该领域并非停滞不前。联邦学习允许多方在不合并原始数据的情况下共同训练一个共享模型——你的数据保留在你的设备或服务器上，仅共享模型更新。同态加密曾被认为太慢而无法实际应用，但现在已达到某些推理工作负载可以在加密数据上运行而无需解密的程度。像苹果智能中的设备端模型会本地处理敏感任务，仅在超出本地能力时才联系云端。检索增强生成允许你在自己的基础设施中保存敏感文档，并在推理时注入相关上下文，而无需将其输入训练流程。这些方法没有一种能解决所有问题，大多数都涉及成本、延迟或模型质量的权衡。但它们代表了一种从“信任我们处理你的数据”向“通过设计强制隐私”的架构转变。

AI 隐私