El truco de coordenadas polares de Google reduce el uso de memoria H100 6x

Los investigadores de Google descubrieron que aplicar transformaciones de coordenadas polares—trigonometría básica que se enseña en preparatoria—puede reducir el uso de memoria de caché KV 6x en NVIDIA H100 mientras entrega un boost de rendimiento de 8x. La técnica aprovecha las propiedades matemáticas de las coordenadas polares para comprimir el caché key-value que los modelos transformer usan para almacenar pesos de atención durante la inferencia, reduciendo drásticamente los requerimientos de memoria sin sacrificar precisión.

Esto importa porque el caché KV es el principal cuello de botella de memoria para large language models en producción. Cada token generado requiere almacenar estados de atención previos, y con ventanas de contexto llegando a 128K+ tokens, la memoria de caché explota exponencialmente. Una reducción de 6x significa que puedes servir 6x más usuarios en el mismo hardware, o ejecutar modelos que eran previamente imposibles debido a restricciones de memoria. Para proveedores cloud quemando clusters H100, esta optimización se traduce en ahorros masivos de costos.

La falta de cobertura adicional de otras fuentes es reveladora—o esto es tan nuevo que la verificación está pendiente, o los detalles técnicos son lo suficientemente complejos que pocos medios tienen experiencia en infraestructura AI para evaluar apropiadamente las afirmaciones. La referencia casual del resumen RSS a "prestar atención en clase de trigonometría" subestima lo que parece ser ingeniería matemática sofisticada, sugiriendo que el avance podría ser más accesible de implementar de lo que inicialmente aparenta.

Los desarrolladores deberían estar atentos a que Google haga open-source esta optimización o la integre en su infraestructura de servicio. Si la técnica funciona como se anuncia, esperen adopción rápida en toda la industria—cualquier optimización que entregue 6x de ahorros de memoria se volverá requisito básico para servicio AI competitivo. La pregunta no es si esto se adoptará, sino qué tan rápido los competidores harán ingeniería inversa e implementarán enfoques similares.

El truco de coordenadas polares de Google reduce el uso de memoria H100 6x

Más noticias