A Cisco lançou o Model Provenance Kit (MPK) — um CLI Python open-source para rastrear a linhagem de modelos AI, com uma database de fingerprints hospedada no Hugging Face. O kit gera fingerprints de modelo a partir de metadata, similaridade de tokenizer e sinais de identidade no nível dos pesos (geometria de embedding, características de normalization layer, perfis de energia, comparações diretas de pesos). Dois modos operacionais: Compare pega dois modelos e te diz se compartilham ancestralidade; Scan pega um modelo e encontra os matches de linhagem conhecida mais próximos na database da Cisco. O threat model aborda modelos envenenados, compliance regulatória para provenance AI, integridade da supply chain e resposta a incidentes — especificamente, organizações usando modelos puxados de repositórios públicos frequentemente não conseguem verificar o que realmente obtiveram vs o que foi anunciado, e quando algo dá errado não conseguem rastrear até a origem.

A escolha arquitetural que distingue o MPK das alternativas é o que ele não faz. Sigstore, SLSA e software bills of materials (SBOMs) criptograficamente assinados todos exigem atestação no build time — o autor do modelo precisa assinar o artefato quando o lança, e os consumidores downstream verificam a assinatura. Isso funciona daqui pra frente, mas não ajuda com o universo existente de modelos não assinados, fine-tunes publicados sem atribuição, ou modelos que foram silenciosamente modificados entre upload e download. A abordagem de fingerprinting do MPK é post-hoc: alimente um modelo, obtenha uma identidade estrutural, compare contra fingerprints conhecidos. O trade-off é que fingerprinting pode ser derrotado por adversários suficientemente determinados (reescreva os pesos o bastante e o fingerprint muda), enquanto assinatura criptográfica não pode ser derrotada sem quebrar a matemática subjacente. MPK e Sigstore não são substitutos — cobrem partes diferentes do problema de supply chain.

Por que isso importa para qualquer um usando AI. O estado atual da distribuição de modelos é aproximadamente o estado da distribuição de software em 2005: você baixa algo de um repositório (Hugging Face, GitHub, site do vendor), confia que os bits são o que reivindicam ser, e não tem como verificar se alguém trocou o arquivo ou fez fine-tune com um backdoor entre release e seu download. O Hugging Face teve incidentes documentados de modelos maliciosos subidos com nomes roubados; a cadeia de supply Python mais ampla teve anos de ataques typosquatting e dependency confusion. Provenance de modelo AI é o mesmo problema, com a complexidade adicional de que «o modelo» é um weight tensor de 70 bilhões de parâmetros em vez de uma codebase tratável que você possa ler. Fingerprinting via sinais de identidade no nível dos pesos é o que torna a verificação escalável — você não precisa ler o modelo, precisa confirmar que ele bate com o que você espera. Para empresas deployando AI internamente, MPK é o tipo de ferramenta que cabe num pipeline de segurança ao lado de scanners de vulnerabilidade; para developers individuais puxando modelos para projetos hobby, é um sanity check de que o arquivo que você baixou é o que você pensava que era.

Movimento prático. O kit é open-source no GitHub e a database de fingerprints está no Hugging Face, então experimentar não custa nada. Para organizações: adicione MPK Scan ao seu processo de intake de modelos da mesma forma que você adicionaria um scanner de malware ao seu workflow de download de software — sinalize linhagem desconhecida para review antes de deployment. Para builders fazendo fine-tune e re-lançando modelos: contribua seus fingerprints de volta para a database para que users downstream possam verificar o que obtiveram. Para o ecossistema AI mais amplo: provenance de modelo está virando requisito de compliance sob as provisões de transparência do EU AI Act, e ferramentas como MPK mais padrões como Sigstore vão convergir numa camada de infraestrutura compartilhada nos próximos dois anos. O takeaway honesto é que a segurança AI esteve à frente da provenance AI até agora; este lançamento da Cisco é uma das primeiras tentativas sérias de fechar essa lacuna, e é o formato certo — open source, retroativo, fingerprint-based — mesmo sendo só a primeira geração do que eventualmente vai se tornar uma defesa em camadas ao lado de atestação criptográfica.