Together AI OSCAR: cache KV 2-bit 8x más pequeño, NIAH-128K 45% vs 0% previo

Together AI open-sourceó OSCAR esta semana — un sistema de cuantización de cache KV 2-bit que finalmente hace usable el 2-bit para serving de long-context. El acrónimo expande a Offline Spectral Covariance-Aware Rotation, y el movimiento técnico clave es derivar las matrices de rotación de estadísticas de *atención* empíricas en lugar de distribuciones de activación crudas. El INT2 naive y QuaRot-INT2 aplicaban rotaciones Hadamard genéricas que ignoraban lo que la atención realmente computa; OSCAR usa la covarianza query CQ para el path key (porque el error attention-logit depende de `tr((K − K̂)Qᵀ Q (K − K̂)ᵀ)`, no del error de reconstrucción), y la covarianza value pesada por score CS para el path value. La rotación composite `RK = UQ · HHad · Pbr` es eigenvectors query + Hadamard + bit-reversal permutation, diseñada para que el error de cuantización aterrice en direcciones perceptualmente no importantes.

Los números ganan el release. Memoria de cache KV cortada ~8×. Decode speedup 1.84-3.08× a 100K contexto para requests únicos, throughput job-level hasta 7.83× a batch size 32. Gap de accuracy vs BF16 promediado sobre AIME25, GPQA-Diamond, HumanEval, LiveCodeBench y MATH500: Qwen3-4B-Thinking −3.78 puntos, Qwen3-8B −1.42, Qwen3-32B **−0.02**, GLM-4.7-FP8 (358B) **+0.27**. El patrón es el correcto — el gap de accuracy se cierra cuando los modelos escalan, que es lo que quieres de un cuantizador production-grade. Long-context donde más importa: RULER-NIAH en Qwen3-8B a 128K contexto, OSCAR golpea **45.0%** vs **0.0%** de QuaRot-INT2. Los métodos 2-bit anteriores literalmente no pueden hacer needle-in-haystack a long context; OSCAR puede. Probado a 16K/32K/64K/128K con generación hasta 32K tokens. Modelos: Qwen3-4B-Thinking, Qwen3-8B, Qwen3-32B, GLM-4.7-FP8 (358B), MiniMax-M2.7.

Integración de sistema: OSCAR envía built en SGLang con compat full paged KV-cache y prefix-cache. El layout mixed-precision mantiene BF16 para el sink de atención (primeros 64 tokens) y ventana reciente (últimos 256 tokens), con INT2 para el historial intermedio. Kernels Triton fusionados manejan rotación, clipping y cuantización al escribir; descuantización e inverse-rotation al leer. La rotación value se absorbe en weights de proyección offline, así que hay cero costo runtime para esa mitad del sistema. Las rotaciones pre-computadas viven en ModelScope RotationZoo así que la mayoría de builders pueden clone-and-serve sin correr la pasada de calibración ellos mismos. Repository: github.com/FutureMLS-Lab/OSCAR — flag que el artículo no menciona la licencia explícitamente, los builders deberían chequear antes de uso comercial.

Lunes por la mañana: si sirves long-context Qwen3, GLM-4.7 o MiniMax-M2 en producción y chocas con techos de memoria KV-cache, OSCAR es un drop-in test para deployments SGLang. La reducción de memoria 8× a costo de accuracy casi-cero en modelos 32B+ es la unit economics correcta para cost-pressure-at-scale (la misma cost pressure que llevó a Microsoft a cambiar Claude Code por Copilot CLI a inicios de esta semana). Limitaciones honestas: la calibración per-layer es requerida (no una rotación universal única), el sink buffer BF16 es load-bearing (Table 5 muestra que la accuracy degrada bruscamente sin él), el path de kernel Triton significa que la integración con vLLM y TensorRT-LLM no está ahí todavía, y el artículo no divulga bajo qué licencia ship el código. Para builders en vLLM, este es el primitivo arquitectónico para portar — la idea de rotación attention-aware es reproducible desde el paper independientemente de la implementación SGLang.

Together AI OSCAR: cache KV 2-bit 8x más pequeño, NIAH-128K 45% vs 0% previo

Más noticias