Cisco liberó el Model Provenance Kit (MPK) — un CLI Python open-source para rastrear el linaje de modelos AI, con una database de fingerprints hospedada en Hugging Face. El kit genera fingerprints de modelo desde metadata, similitud de tokenizer y señales de identidad a nivel de pesos (geometría de embedding, características de normalization layer, perfiles de energía, comparaciones directas de pesos). Dos modos operativos: Compare toma dos modelos y te dice si comparten ancestralidad; Scan toma un modelo y encuentra los matches de linaje conocido más cercanos en la database de Cisco. El threat model aborda modelos envenenados, compliance regulatoria para provenance AI, integridad de supply chain y respuesta a incidentes — específicamente, organizaciones usando modelos jalados de repositorios públicos a menudo no pueden verificar qué obtuvieron realmente vs qué fue anunciado, y cuando algo sale mal no pueden rastrearlo hasta su origen.

La elección arquitectónica que distingue a MPK de alternativas es lo que no hace. Sigstore, SLSA y software bills of materials (SBOMs) firmados criptográficamente todos requieren atestación en build time — el autor del modelo tiene que firmar el artefacto cuando lo libera, y los consumidores downstream verifican la firma. Eso funciona hacia adelante, pero no ayuda con el universo existente de modelos no firmados, fine-tunes publicados sin atribución, o modelos que han sido silenciosamente modificados entre upload y download. El enfoque de fingerprinting de MPK es post-hoc: dale un modelo, obtén una identidad estructural, compara contra fingerprints conocidos. El trade-off es que el fingerprinting puede ser derrotado por adversarios suficientemente determinados (reescribe los pesos lo suficiente y el fingerprint cambia), mientras que la firma criptográfica no puede ser derrotada sin romper la matemática subyacente. MPK y Sigstore no son sustitutos — cubren partes diferentes del problema de supply chain.

Por qué esto importa a cualquiera usando AI. El estado actual de la distribución de modelos es aproximadamente el estado de la distribución de software en 2005: descargas algo de un repositorio (Hugging Face, GitHub, sitio del vendor), confías en que los bits son lo que reclaman ser, y no tienes manera de verificar si alguien intercambió el archivo o lo fine-tuneó con un backdoor entre release y tu download. Hugging Face ha tenido incidentes documentados de modelos maliciosos subidos con nombres robados; la cadena de supply Python más amplia ha tenido años de ataques typosquatting y dependency confusion. La provenance de modelo AI es el mismo problema, con la complejidad agregada que «el modelo» es un weight tensor de 70 mil millones de parámetros en lugar de una codebase tratable que puedas leer. El fingerprinting vía señales de identidad a nivel pesos es lo que hace la verificación escalable — no necesitas leer el modelo, necesitas confirmar que matchea lo que esperas. Para empresas desplegando AI internamente, MPK es el tipo de herramienta que cabe en un pipeline de seguridad junto a scanners de vulnerabilidad; para developers individuales jalando modelos para proyectos hobby, es un sanity check que el archivo que descargaste es lo que pensabas que era.

Movida práctica. El kit es open-source en GitHub y la database de fingerprints está en Hugging Face, así que probarlo no cuesta nada. Para organizaciones: agrega MPK Scan a tu proceso de intake de modelos de la misma manera que agregarías un scanner de malware a tu workflow de download de software — marca linaje desconocido para review antes de deployment. Para builders fine-tuneando y re-liberando modelos: contribuye tus fingerprints de vuelta a la database para que los users downstream puedan verificar qué obtuvieron. Para el ecosystem AI más amplio: la provenance de modelo se está volviendo un requisito de compliance bajo las provisiones de transparencia del EU AI Act, y herramientas como MPK más estándares como Sigstore van a converger en una capa de infraestructura compartida en los próximos dos años. El takeaway honesto es que la seguridad AI ha estado adelante de la provenance AI hasta ahora; este lanzamiento de Cisco es uno de los primeros intentos serios de cerrar esa brecha, y es la forma correcta — open source, retroactivo, fingerprint-based — aunque sea solo la primera generación de lo que eventualmente se volverá una defensa en capas junto a la atestación criptográfica.