Eileen Guo de MIT Technology Review publicó el miércoles una investigación sustantiva de privacidad sobre chatbots de IA que devuelven números de teléfono reales y funcionales en sus salidas. La víctima nombrada es Daniel Abraham, un ingeniero de software de 28 años en Israel que empezó a recibir mensajes de WhatsApp de extraños pidiendo soporte de PayBox — Google Gemini había estado alucinando su número personal como la línea de servicio de WhatsApp de PayBox. Abraham no trabaja para PayBox; PayBox no ofrece servicio al cliente por WhatsApp; PayBox lo confirmó a MIT Tech Review. Cuando la reportera consultó Gemini independientemente, devolvió el número de otra persona — un empleado de una compañía israelí de tarjetas de crédito. Otros dos casos documentados: un usuario de Reddit que fue inundado durante un mes por personas que llamaban buscando "un abogado, un product designer, un cerrajero" (aparentemente mal dirigidos por Google AI), y una candidata a PhD de la Universidad de Washington que casualmente logró que Gemini sacara el número de celular personal de una colega.

El punto de datos duro a fijar viene de DeleteMe, la compañía de remoción de información personal: las consultas de clientes sobre IA generativa saltaron 400% en los últimos siete meses, hasta los bajos miles. El desglose de qué chatbot los usuarios reclaman: 55% ChatGPT, 20% Gemini, 15% Claude, 10% otros. El CEO de DeleteMe, Rob Shavell, describe dos modos de falla: (1) el usuario pregunta al chatbot algo sobre sí mismo y recibe a cambio dirección domiciliaria exacta, teléfono, miembros de la familia, o empleador; (2) el usuario reporta que el chatbot ha sacado la información de contacto de alguien más, a veces "plausible-pero-incorrecta". Ambos modos están apareciendo a través de los chatbots mayores. El registro de data brokers de California agrega otro punto de datos: 31 de 578 brokers registrados auto-reportaron haber vendido o compartido datos de consumidores con un desarrollador de GenAI en el último año — una fracción pequeña del registro pero un canal formal medible de PII hacia los conjuntos de entrenamiento.

El mecanismo es la parte que los builders necesitan interiorizar. Los crawls de entrenamiento de LLMs incluyen cientos de millones de instancias de PII — el número de Abraham, por ejemplo, aparece haber sido posteado una vez en un sitio tipo Quora en 2015, y ese único post de 11 años es la fuente más plausible para que Gemini lo esté reproduciendo ahora. El dataset DataComp CommonPool documentado el verano pasado incluyó currículums escaneados, licencias de conducir, y tarjetas de crédito. Los modelos memorizan y reproducen datos verbatim de los conjuntos de entrenamiento, y la investigación reciente sugiere que no es solo el contenido de alta frecuencia el que se memoriza — los items raros también pueden quedar retenidos. Las salvaguardas estándar (filtros de contenido de PII, la instrucción de "la menor información personal" de Claude) atrapan algunas pero fallan visiblemente cuando el modelo trata los PII como datos autoritarios de servicio al cliente en lugar de como contenido privado. El fix estructural está en la capa de preprocesamiento de datos de entrenamiento, no en el filtrado de salida — pero ningún laboratorio mayor ha publicado una auditoría comprehensiva de remoción de PII que permita a terceros verificar que sus corpus de entrenamiento están limpios.

Para builders: si entregas un producto que envuelve un modelo de base y expone salidas a usuarios finales, la filtración de PII ahora es una superficie de ataque real. Tres acciones concretas: (1) agrega detección regex + entidad nombrada de teléfono/email/dirección del lado de la salida antes de pasar las respuestas del modelo a los usuarios, tratándolas como violaciones de política de contenido a suprimir o reescribir; (2) pídele a tu vendor de modelo documentación sobre prácticas de remoción de PII en datos de entrenamiento y técnicas de mitigación de memorización (privacidad diferencial, deduplicación, k-anonimato a escala) — la mayoría esquivará pero la pregunta crea un rastro de papel; (3) construye un mecanismo de reporte de usuario final para "esta salida expuso mi información" con un proceso de retracción de vía rápida. Para usuarios finales y formuladores de políticas: el alza del 400% de DeleteMe es el indicador adelantado de que esta categoría de daño ya no es teórica, y el fix estructural se sienta a nivel del laboratorio, lo que significa que la presión regulatoria es la palanca más probable. La cita de Abraham — "¿y si pidiera dinero para 'resolver' ese problema de servicio al cliente?" — nombra la forma del daño: no solo llamadas molestas, sino una nueva superficie de ataque donde un mal actor puede monetizar el tráfico mal-dirigido por Gemini.