Cisco a release le Model Provenance Kit (MPK) — un CLI Python open-source pour tracker la lignée des modèles AI, avec une database de fingerprints hosted sur Hugging Face. Le kit génère des fingerprints de modèle depuis metadata, similarité de tokenizer, et signaux d'identité au niveau weights (geometry d'embedding, caractéristiques de normalization layer, profils d'énergie, comparaisons directes de weights). Deux modes opératoires : Compare prend deux modèles et te dit s'ils partagent une ancestrie ; Scan prend un modèle et trouve les matches de lignée connues les plus proches dans la database Cisco. Le threat model adresse les modèles poisoned, la compliance réglementaire pour la provenance AI, l'intégrité supply chain, et la réponse aux incidents — spécifiquement, les organisations qui utilisent des modèles pullés depuis des repositories publics ne peuvent souvent pas verify ce qu'ils ont actually obtenu vs ce qui a été advertised, et quand quelque chose va mal ils ne peuvent pas trace back à son origine.
Le choix architectural qui distingue MPK des alternatives, c'est ce qu'il ne fait pas. Sigstore, SLSA et les software bills of materials (SBOMs) cryptographiquement-signés exigent tous une attestation au build time — l'auteur du modèle doit signer l'artifact quand ils le release, et les consumers downstream verify la signature. Ça marche going forward, mais ça n'aide pas avec l'univers existant de modèles non signés, fine-tunes publiés sans attribution, ou modèles qui ont été quietly modifiés entre upload et download. L'approche fingerprinting de MPK est post-hoc : feed-lui un modèle, get une identité structurelle, compare contre des fingerprints connus. Le trade-off, c'est que le fingerprinting peut être defeated par des adversaires assez déterminés (rewrite les weights assez et le fingerprint shift), tandis que le signing cryptographique ne peut pas être defeated sans casser la math sous-jacente. MPK et Sigstore ne sont pas des substituts — ils couvrent des parts différentes du problème supply chain.
Pourquoi ça compte pour n'importe qui qui utilise l'AI. L'état actuel de la distribution de modèles est à peu près l'état de la distribution logicielle en 2005 : tu télécharges quelque chose depuis un repository (Hugging Face, GitHub, site vendor), tu trust que les bits sont ce qu'ils claim être, et tu n'as aucun moyen de verify si quelqu'un a swapped le fichier ou fine-tuné avec un backdoor entre release et ton download. Hugging Face a eu des incidents documentés de modèles malicieux uploadés avec des noms volés ; la supply chain Python plus large a eu des années d'attaques typosquatting et dependency confusion. La provenance de modèle AI est le même problème, avec la complexité added que « le modèle » est un weight tensor 70-milliards de paramètres plutôt qu'une codebase tractable que tu peux lire. Le fingerprinting via weight-level identity signals est ce qui rend la vérification scalable — t'as pas besoin de lire le modèle, t'as besoin de confirmer qu'il match ce que tu expectes. Pour les compagnies qui déploient l'AI en interne, MPK est le genre d'outil qui fit dans un pipeline sécurité aux côtés des vulnerability scanners ; pour les développeurs individuels qui pull des modèles pour des hobby projects, c'est un sanity check que le fichier que t'as téléchargé est ce que tu pensais qu'il était.
Move pratique. Le kit est open-source sur GitHub et la database de fingerprints est sur Hugging Face, donc l'essayer coûte rien. Pour les organisations : ajoute MPK Scan à ton processus d'intake de modèles de la même façon que tu ajouterais un malware scanner à ton workflow de download logiciel — flag les lignées inconnues pour review avant deployment. Pour les builders qui fine-tunent et re-release des modèles : contribute tes fingerprints back à la database pour que les downstream users puissent verify ce qu'ils ont obtenu. Pour l'ecosystem AI plus large : la provenance de modèle devient un compliance requirement sous les provisions de transparence du EU AI Act, et les outils comme MPK plus les standards comme Sigstore vont converger dans une layer d'infrastructure partagée sur les deux prochaines années. Le takeaway honnête, c'est que la sécurité AI a été en avance sur la provenance AI jusqu'à maintenant ; cette release Cisco est une des premières tentatives sérieuses de fermer ce gap, et c'est la bonne shape — open source, rétroactif, fingerprint-based — même si c'est juste la première génération de ce qui deviendra éventuellement une défense layered aux côtés d'attestation cryptographique.
