Together AI ने इस हफ़्ते OSCAR open-source किया — एक 2-bit KV cache quantization system जो finally 2-bit को long-context serving के लिए usable बनाता है। Acronym Offline Spectral Covariance-Aware Rotation में expand होता है, और key technical move यह है कि rotation matrices empirical *attention* statistics से derive किए जाएं, raw activation distributions से नहीं। Naive INT2 और QuaRot-INT2 generic Hadamard rotations apply करते थे जो attention वास्तव में क्या compute करता है उसे ignore करते थे; OSCAR key path के लिए query covariance CQ use करता है (क्योंकि attention-logit error `tr((K − K̂)Qᵀ Q (K − K̂)ᵀ)` पर depend करता है, reconstruction error पर नहीं), और value path के लिए score-weighted value covariance CS। Composite rotation `RK = UQ · HHad · Pbr` है — query eigenvectors + Hadamard + bit-reversal permutation, engineered ताकि quantization error perceptually non-important directions में land करे।
Numbers release को earn करते हैं। KV cache memory ~8× कम। 100K context पर single requests के लिए decode speedup 1.84-3.08×, batch size 32 पर job-level throughput 7.83× तक। AIME25, GPQA-Diamond, HumanEval, LiveCodeBench और MATH500 पर औसत BF16 से accuracy gap: Qwen3-4B-Thinking −3.78 points, Qwen3-8B −1.42, Qwen3-32B **−0.02**, GLM-4.7-FP8 (358B) **+0.27**। Pattern सही है — models scale up होने पर accuracy gap close होता है, जो production-grade quantizer से चाहिए। Long-context जहाँ यह सबसे ज़्यादा matter करता है: Qwen3-8B पर 128K context पर RULER-NIAH, OSCAR **45.0%** hit करता है vs QuaRot-INT2 के **0.0%**। पहले की 2-bit methods literally long context पर needle-in-haystack नहीं कर सकती; OSCAR कर सकता है। 16K/32K/64K/128K पर tested with generation up to 32K tokens। Models: Qwen3-4B-Thinking, Qwen3-8B, Qwen3-32B, GLM-4.7-FP8 (358B), MiniMax-M2.7।
System integration: OSCAR SGLang में built-in ship होता है full paged KV-cache और prefix-cache compatibility के साथ। Mixed-precision layout attention sink (पहले 64 tokens) और recent window (अंतिम 256 tokens) के लिए BF16 रखता है, बीच की history के लिए INT2। Fused Triton kernels write पर rotation, clipping और quantization handle करते हैं; read पर dequantization और inverse-rotation। Value rotation offline projection weights में absorb हो जाता है, तो system के उस आधे के लिए zero runtime cost है। Pre-computed rotations ModelScope RotationZoo पर रहते हैं तो ज़्यादातर builders clone-and-serve कर सकते हैं ख़ुद calibration pass चलाए बिना। Repository: github.com/FutureMLS-Lab/OSCAR — flag करो कि article explicitly license नहीं बताता, commercial use से पहले builders को check करना चाहिए।
Monday सुबह: अगर तुम production में long-context Qwen3, GLM-4.7 या MiniMax-M2 serve कर रहे हो और KV-cache memory ceilings से टकरा रहे हो, OSCAR SGLang deployments के लिए drop-in test है। 32B+ models पर near-zero accuracy cost पर 8× memory reduction cost-pressure-at-scale के लिए सही unit economics है (वही cost pressure जिसने इस हफ़्ते के शुरू में Microsoft को Claude Code से Copilot CLI swap करने पर मजबूर किया)। Honest limitations: per-layer calibration ज़रूरी है (single universal rotation नहीं), BF16 sink buffer load-bearing है (Table 5 दिखाता है इसके बिना accuracy तेज़ी से degrade होता है), Triton kernel path का मतलब vLLM और TensorRT-LLM integration अभी नहीं है, और article यह disclose नहीं करता कि code किस license के तहत ship होता है। vLLM पर builders के लिए, यह architectural primitive port करने के लिए है — attention-aware rotation का idea SGLang implementation से independent paper से reproducible है।
