Fastino Labs ने बुधवार को GLiGuard जारी किया — एक 300M-parameter open-source safety moderation model, Hugging Face पर Apache 2.0 licensed, जो स्पष्ट रूप से उस latency tax को ठीक करने के लिए बनाया गया है जो decoder-based guardrails production LLM systems पर थोपते हैं। architecture का चुनाव load-bearing निर्णय है: LlamaGuard4 (12B), WildGuard (7B), ShieldGemma (27B), और NemoGuard (8B) द्वारा उपयोग किए गए decoder-only design के बजाय — जो सभी safety verdicts को autoregressively, एक token at a time, generate करते हैं — GLiGuard एक encoder model है जो safety moderation को multi-label classification problem के रूप में redefined करता है। यह input text को task labels के साथ एक single forward pass में encode करता है, हर candidate label को एक साथ score करते हुए। चार safety tasks concurrently मूल्यांकित होती हैं: prompt/response safety classification, 11 strategies पर jailbreak strategy detection (जिसमें prompt injection, roleplay bypass, instruction override, social engineering शामिल हैं), 14 types पर harm category detection (हिंसा, यौन content, घृणा, PII exposure, misinformation, child safety, copyright), और refusal detection (compliance vs refusal, over-refusal को मापने के लिए अलग से tracked)।
benchmark numbers एक साफ़ कहानी कहते हैं। नौ standard safety benchmarks पर macro-averaged F1 का उपयोग करते हुए: GLiGuard prompt classification पर 87.7 score करता है — best model (PolyGuard-Qwen 89.4 पर) से 1.7 अंक पीछे — और response classification पर 82.7, केवल Qwen3Guard-8B (84.1 पर) से पीछे। यह LlamaGuard4-12B, ShieldGemma-27B, और NemoGuard-8B को मात देता है, 23 से 90× छोटा होने के बावजूद। throughput और latency पर, single NVIDIA A100 पर benchmarked: GLiGuard 16.2× तक higher throughput (batch size 4 पर 133 vs 8.2 samples/s) और 16.6× तक lower latency (sequence length 64 पर 26 ms vs 426 ms) हासिल करता है। production builders के लिए, 26ms-vs-426ms gap वही हिस्सा है जो भौतिक रूप से deployment economics बदल देता है — एक guardrail जो हर user turn और हर model response पर चलता है, user और model के बीच सैकड़ों milliseconds जोड़ते हुए बैठने का खर्च नहीं उठा सकता। architecture को GLiNER2-base-v1 के full fine-tuning के रूप में train किया गया, Fastino का अपना multi-task classification base, 20 epochs तक AdamW के साथ। training data WildGuardTrain (safety/refusal के लिए 87K human-annotated examples) और harm-category और jailbreak-strategy classification के लिए GPT-4.1-generated labels का मिश्रण है, fine-grained category distinctions के लिए synthetic edge cases के साथ supplemented।
यहाँ ecosystem read यह है कि "classification के लिए small encoder, generation के लिए large decoder" एक संरचनात्मक pattern है जो plain sight में छिपा था। safety moderation मूल रूप से classification problem है — क्या यह prompt एक jailbreak strategy से मेल खाता है, क्या यह response harm रखता है — और decoder models ने early guardrail market जीता क्योंकि वे flexible थे। पर flexibility तुम्हें throughput में ख़र्च कराती है ठीक उस surface पर जहाँ तुम सबसे कम afford कर सकते हो: user और model के बीच, हर request पर। GLiGuard का 16× throughput लाभ एक empirical demonstration है कि field गलत architecture का उपयोग करते हुए moderation के लिए अधिक भुगतान कर रहा था। production LLM systems चला रहे builders को यह गंभीरता से देखना चाहिए — बचत compound होती है। 7B-class model पर 426ms लेने वाला guardrail scale पर deploy करना कठिन है; 26ms पर 300M encoder model inference के साथ ही latency budget में फिट हो जाता है।
builders के लिए: Hugging Face से GLiGuard weights clone करो और deploy करने से पहले अपने वास्तविक traffic mix पर अपने current guardrail के विरुद्ध benchmark करो। तीन ईमानदार caveats लागू करने योग्य: (1) GLiGuard सबसे अच्छे prompt classifier से 1.7 F1 पीछे है और सबसे अच्छे response classifier से 1.4 F1 पीछे — अगर तुम्हारी application इतनी high-stakes है कि छोटे accuracy gaps मायने रखते हैं (regulated medical advice, child safety, legal compliance), तो latency जीत accuracy हानि को justify नहीं कर सकती; (2) encoder models नई safety policies को adapt करने में decoder models से कम flexible हैं — जब तुम्हारी harm taxonomy बदलती है तो तुम्हें retrain करना है, prompt rewrite नहीं; (3) four-tasks-in-one-pass design elegant है पर इसका मतलब है कि एक single training run तुम्हारी safety taxonomy को encode करता है — categories जोड़ने के लिए retraining चाहिए। encoder-classification pattern स्वयं generalizable है; अगले साल content moderation, intent classification, और routing के लिए समान models आने की अपेक्षा करो। Pioneer उस inference path को host करता है जिस पर benchmarks चलाए गए थे, अगर तुम weights खुद pull करने से पहले test करना चाहते हो।
