Si alguna vez heredaste un checkpoint ajustado sin forma limpia de confirmar de qué se ajustó, el nuevo Model Provenance Kit de Cisco apunta exactamente a ese hueco. Lanzado como toolkit Python open-source con CLI, MPK toma huellas de modelos a nivel de pesos — examinando metadatos de arquitectura, estructura del tokenizador y los propios pesos aprendidos para determinar si dos transformadores comparten un origen común.
La herramienta trae dos modos. Compare produce un desglose detallado de similitud entre dos modelos cualesquiera. Scan compara un modelo único contra una base de huellas inicial que cubre aproximadamente 150 modelos base distribuidos en 45 familias y 20 publicadores, con conteos de parámetros que van de 135M a más de 70B. Esta es una postura diferente a la de proyectos de atestación estilo sigstore como sigstore/model-transparency, que firman artefactos en el momento de publicación. El enfoque de Cisco asume que el artefacto ya está en tus manos y necesitas recuperar el linaje desde los pesos mismos — útil cuando la firma upstream nunca se realizó o cuando un modelo llega sin documentación.
La huella a nivel de pesos llena un hueco que la firma sola no cubre. Cada fine-tune, cada fusión LoRA, cada fork no acreditado en un pull de HuggingFace es un lugar donde el linaje se pierde. Reguladores apoyándose en los requisitos de procedencia del AI Act europeo, equipos de seguridad escaneando por modelos base envenenados, respuesta a incidentes tras una CVE upstream — todos necesitan una forma de preguntar "¿qué es este modelo, realmente?" sin confiar en un manifiesto. Este es el tipo de infraestructura que la economía de wrappers ha estado silenciosamente dejando faltar: no un modelo nuevo, sino una forma de saber sobre qué estás parado.
Si entregas algo que ingesta modelos de terceros — plataformas IA internas, marketplaces de modelos, servicios de fine-tune — clona el repo, ejecuta Scan contra tu inventario y mira qué sale. La base de huellas son los primeros 150; el valor se acumula a medida que contribuyentes agregan más. Si publicas modelos base, contribuir huellas es cómo el ecosistema se vuelve honesto sobre el linaje.
