Un acuerdo FTC silencioso de marzo 2026 está produciendo una consecuencia ruidosa esta semana: Clarifai eliminó tres millones de fotos obtenidas de OkCupid en 2014, más cada modelo entrenado con ellas. Reuters rompió la historia, TechCrunch la retomó. El arreglo de compartir datos empezó cuando el fundador y CEO de Clarifai Matthew Zeiler le envió un email a un colega: "Estamos recolectando datos ahora y acabamos de darnos cuenta de que OKCupid debe tener una ENORME cantidad de datos increíbles." Los ejecutivos de OkCupid tenían acciones en Clarifai en ese momento, lo cual es el tipo de conflicto de interés que se ve peor en 2026 que en 2014.
Las consecuencias del lado IA son más interesantes que la eliminación de fotos en sí. Tres millones de fotos de caras es un conjunto de entrenamiento útil pero no sin precedentes; Clarifai tiene muchos datos. El acuerdo FTC también eliminó cada modelo entrenado con los datos OkCupid, lo cual es una categoría diferente y mucho más difícil. Eliminación de modelo en 2026 significa: pesos idos, embeddings idos, fine-tunes derivados de esos modelos idos, más cualquier clasificador derivado o despliegue de cliente que dependiera de ellos. Un artículo de 2019 del New York Times originalmente expuso que Clarifai había construido herramientas estimando edad, sexo, y raza desde caras usando este dataset — esos son exactamente el tipo de modelos que generan despliegues downstream, y ahí es donde la limpieza se vuelve cara e incompleta en la práctica.
Dos puntos legales que vale nombrar. Uno, la FTC no pudo imponer una penalidad financiera. Esta es una "primera ofensa de este tipo" bajo su estatuto, y solo pueden exigir cumplimiento y prohibiciones. OkCupid y Match Group están permanentemente prohibidos de tergiversar o asistir a otros en tergiversar cómo se recolectan y comparten datos. No admitieron las alegaciones. Dos, la brecha de doce años entre el acaparamiento de datos de 2014 y la consecuencia de 2026 es un recordatorio de que la responsabilidad de datos de entrenamiento corre en escalas de tiempo largas. La historia del NYT de 2019 disparó la investigación FTC; el acuerdo de marzo 2026 produjo la eliminación real este mes. Si entrenas con datos de usuarios hoy, el reloj empieza ahora, y la vida media es más larga que la mayoría de los modelos que envías.
Dos cosas que registrar para builders. Uno, el resultado "eliminar los modelos, no solo las fotos" es la plantilla regulatoria emergente. Esto es cómo se ve realmente el derecho al olvido estilo GDPR cuando se aplica a sistemas ML. Tu documentación de linaje de datos (qué modelo se entrenó con qué dataset, qué despliegue usa qué modelo) es ahora un artefacto legal, no una cortesía de gobernanza; si no puedes producir ese linaje en el calendario de un regulador, terminarás eliminando más modelos de los que tienes que, defensivamente. Dos, las participaciones cruzadas de ejecutivos entre empresas generadoras de datos y empresas entrenadoras de IA son ahora una clase de responsabilidad concreta. El email de Zeiler no era incriminatorio porque era crudo. Era incriminatorio porque los ejecutivos de OkCupid tenían acciones en Clarifai, haciendo que el intercambio de datos pareciera auto-negocio en lugar de una integración legítima. La postura "confía en nosotros, tenemos una política de privacidad" no está aguantando legalmente cuando las inversiones y los emails cuentan una historia diferente.
