Cisco ने Model Provenance Kit (MPK) release किया — AI models की lineage track करने के लिए एक open-source Python CLI, fingerprint database Hugging Face पर hosted। kit metadata, tokenizer similarity, और weight-level identity signals (embedding geometry, normalization layer characteristics, energy profiles, direct weight comparisons) से model fingerprints generate करता है। दो operating modes: Compare दो models लेता है और बताता है कि क्या वो ancestry share करते हैं; Scan एक model लेता है और Cisco के database में closest known lineage matches find करता है। threat model poisoned models, AI provenance के लिए regulatory compliance, supply chain integrity, और incident response को address करता है — specifically, public repositories से models pull करने वाले organizations अक्सर verify नहीं कर सकते कि उन्हें actually क्या मिला vs क्या advertise हुआ, और जब कुछ ग़लत होता है तो वो उसे उसके origin तक trace नहीं कर सकते।

MPK को alternatives से distinguish करने वाला architectural choice वो है जो ये नहीं करता। Sigstore, SLSA और cryptographically-signed software bills of materials (SBOMs) सब build time पर attestation की demand करते हैं — model author को release करते समय artifact sign करना होता है, और downstream consumers signature verify करते हैं। वो going forward काम करता है, पर unsigned models, attribution के बिना published fine-tunes, या upload और download के बीच quietly modified models के existing universe में मदद नहीं करता। MPK का fingerprinting approach post-hoc है: इसे एक model दो, structural identity get करो, known fingerprints के against compare करो। trade-off ये है कि fingerprinting को sufficiently determined adversaries defeat कर सकते हैं (weights को काफ़ी rewrite करो और fingerprint shift होगा), जबकि cryptographic signing को underlying math को तोड़े बिना defeat नहीं किया जा सकता। MPK और Sigstore substitutes नहीं हैं — वो supply chain problem के अलग parts cover करते हैं।

ये AI use करने वाले किसी के लिए क्यों मायने रखता है। model distribution की current state लगभग 2005 में software distribution की state है: आप एक repository से कुछ download करते हो (Hugging Face, GitHub, vendor site), trust करते हो कि bits वो हैं जो वो claim करते हैं, और verify करने का कोई तरीक़ा नहीं है कि किसी ने release और आपके download के बीच file swap की या उसे backdoor के साथ fine-tune किया। Hugging Face में चुराए गए नामों के साथ malicious models upload होने की documented incidents रही हैं; broader Python supply chain में सालों के typosquatting और dependency confusion attacks रहे हैं। AI model provenance वही problem है, इस added complexity के साथ कि «model» एक 70-billion-parameter weight tensor है बजाय एक tractable codebase के जिसे आप पढ़ सकते हो। weight-level identity signals के through fingerprinting वो है जो verification को scalable बनाता है — आपको model पढ़ने की ज़रूरत नहीं, आपको confirm करना है कि ये वो match करता है जो आप expect करते हो। AI को internally deploy करने वाली companies के लिए, MPK वो तरह का tool है जो vulnerability scanners के साथ security pipeline में fit होता है; hobby projects के लिए models pull करने वाले individual developers के लिए, ये एक sanity check है कि आपने download की file वो है जो आपने सोची थी।

practical move। kit GitHub पर open-source है और fingerprint database Hugging Face पर है, तो इसे try करने में कुछ नहीं लगता। organizations के लिए: MPK Scan को अपने model intake process में जोड़ो उसी तरह जैसे आप अपने software download workflow में malware scanner जोड़ोगे — deployment से पहले unknown lineage को review के लिए flag करो। fine-tune और re-release करने वाले builders के लिए: अपने fingerprints database में वापस contribute करो ताकि downstream users verify कर सकें कि उन्हें क्या मिला। broader AI ecosystem के लिए: model provenance EU AI Act के transparency provisions के तहत compliance requirement बन रहा है, और MPK जैसे tools plus Sigstore जैसे standards अगले दो साल में shared infrastructure layer में converge होंगे। honest takeaway ये है कि AI security अब तक AI provenance से आगे रही है; ये Cisco release उस gap को बंद करने के पहले serious attempts में से एक है, और ये सही shape है — open source, retroactive, fingerprint-based — भले ही ये सिर्फ़ पहली generation है उसकी जो eventually cryptographic attestation के साथ layered defense बन जाएगा।