Cisco lança Model Provenance Kit: impressões digitais de pesos para rastreabilidade de modelos

Se você já herdou um checkpoint fine-tunado sem maneira limpa de confirmar de onde foi ajustado, o novo Model Provenance Kit da Cisco mira exatamente esse buraco. Lançado como toolkit Python open-source com CLI, o MPK gera impressões digitais de modelos no nível dos pesos — examinando metadados de arquitetura, estrutura do tokenizer e os próprios pesos aprendidos para determinar se dois transformers compartilham uma origem comum.

A ferramenta vem com dois modos. Compare produz uma análise detalhada de similaridade entre quaisquer dois modelos. Scan cruza um modelo único contra uma base de impressões inicial cobrindo aproximadamente 150 modelos base distribuídos em 45 famílias e 20 publicadores, com contagens de parâmetros indo de 135M a mais de 70B. Essa é uma postura diferente da de projetos de atestação estilo sigstore como sigstore/model-transparency, que assinam artefatos no momento da publicação. A abordagem da Cisco assume que o artefato já está nas suas mãos e você precisa recuperar a linhagem a partir dos próprios pesos — útil quando a assinatura upstream nunca foi feita ou quando um modelo chega sem documentação.

A impressão no nível dos pesos preenche uma lacuna que a assinatura sozinha não cobre. Cada fine-tune, cada fusão LoRA, cada fork não creditado em um pull do HuggingFace é um lugar onde a linhagem se perde. Reguladores apoiando-se nos requisitos de procedência do AI Act europeu, equipes de segurança varrendo por modelos base envenenados, resposta a incidentes após um CVE upstream — todos precisam de uma forma de perguntar "o que é esse modelo, realmente?" sem confiar num manifesto. Esse é o tipo de infraestrutura que a economia de wrappers vinha silenciosamente deixando faltar: não um modelo novo, mas uma forma de saber sobre o que você está apoiado.

Se você entrega qualquer coisa que ingere modelos de terceiros — plataformas IA internas, marketplaces de modelos, serviços de fine-tune — clone o repo, rode Scan contra seu inventário e veja o que aparece. A base de impressões são os primeiros 150; o valor se acumula conforme contribuintes adicionam mais. Se você publica modelos base, contribuir impressões é como o ecossistema fica honesto sobre linhagem.

Cisco lança Model Provenance Kit: impressões digitais de pesos para rastreabilidade de modelos

Mais notícias