Together AI OSCAR: cache KV 2-bit 8x menor, NIAH-128K 45% vs 0% anterior

A Together AI open-sourceou OSCAR essa semana — um sistema de quantização de cache KV 2-bit que finalmente torna 2-bit usável pra serving long-context. O acrônimo expande pra Offline Spectral Covariance-Aware Rotation, e o movimento técnico chave é derivar as matrizes de rotação de estatísticas de *atenção* empíricas em vez de distribuições de ativação cruas. INT2 naive e QuaRot-INT2 aplicavam rotações Hadamard genéricas que ignoravam o que a atenção realmente computa; OSCAR usa a covariância query CQ pro path key (porque o erro attention-logit depende de `tr((K − K̂)Qᵀ Q (K − K̂)ᵀ)`, não do erro de reconstrução), e a covariância value ponderada por score CS pro path value. A rotação composite `RK = UQ · HHad · Pbr` é eigenvectors query + Hadamard + bit-reversal permutation, projetada pra que o erro de quantização aterrissa em direções perceptualmente não-importantes.

Os números ganham o release. Memória de cache KV cortada ~8×. Decode speedup 1.84-3.08× a 100K contexto pra requests únicos, throughput job-level até 7.83× a batch size 32. Gap de accuracy vs BF16 medido em AIME25, GPQA-Diamond, HumanEval, LiveCodeBench e MATH500: Qwen3-4B-Thinking −3.78 pontos, Qwen3-8B −1.42, Qwen3-32B **−0.02**, GLM-4.7-FP8 (358B) **+0.27**. O padrão é o certo — o gap de accuracy fecha conforme os modelos escalam, que é o que você quer de um quantizador production-grade. Long-context onde mais importa: RULER-NIAH em Qwen3-8B a 128K contexto, OSCAR bate **45.0%** vs **0.0%** do QuaRot-INT2. Os métodos 2-bit anteriores literalmente não conseguem fazer needle-in-haystack em long context; OSCAR consegue. Testado em 16K/32K/64K/128K com geração até 32K tokens. Modelos: Qwen3-4B-Thinking, Qwen3-8B, Qwen3-32B, GLM-4.7-FP8 (358B), MiniMax-M2.7.

Integração de sistema: OSCAR envia built no SGLang com compat full paged KV-cache e prefix-cache. O layout mixed-precision mantém BF16 pro sink de atenção (primeiros 64 tokens) e janela recente (últimos 256 tokens), com INT2 pro histórico no meio. Kernels Triton fundidos lidam com rotação, clipping e quantização na escrita; desquantização e inverse-rotation na leitura. A rotação value é absorvida nos weights de projeção offline, então tem zero custo runtime pra essa metade do sistema. As rotações pré-computadas vivem no ModelScope RotationZoo então a maioria dos builders podem clone-and-serve sem rodar a passada de calibração eles mesmos. Repository: github.com/FutureMLS-Lab/OSCAR — flag que o artigo não menciona a licença explicitamente, builders devem checar antes de uso comercial.

Segunda de manhã: se você serve long-context Qwen3, GLM-4.7 ou MiniMax-M2 em produção e bate em tetos de memória KV-cache, OSCAR é um drop-in test pra deployments SGLang. A redução de memória 8× a custo de accuracy quase-zero em modelos 32B+ é a unit economics certa pra cost-pressure-at-scale (a mesma cost pressure que levou Microsoft a trocar Claude Code por Copilot CLI no início dessa semana). Limitações honestas: a calibração per-layer é exigida (não uma rotação universal única), o sink buffer BF16 é load-bearing (Table 5 mostra que accuracy degrada bruscamente sem ele), o path de kernel Triton significa que integração com vLLM e TensorRT-LLM não tá lá ainda, e o artigo não divulga sob qual licença o código ship. Pra builders no vLLM, esse é o primitivo arquitetural pra portar — a ideia de rotação attention-aware é reproduzível do paper independentemente da implementação SGLang.

Together AI OSCAR: cache KV 2-bit 8x menor, NIAH-128K 45% vs 0% anterior

Mais notícias