Algoritmo de compresión de inteligencia artificial de Google que aumenta 8 veces el rendimiento de la memoria: TurboQuant

Google anunció su nuevo algoritmo de compresión de memoria con inteligencia artificial, TurboQuant. Google Research describe esta tecnología como una nueva forma de reducir la memoria de trabajo de la inteligencia artificial sin afectar el rendimiento. A medida que los modelos de lenguajes grandes (LLM) amplían las ventanas de contexto para manejar documentos enormes y conversaciones complejas, se enfrentan al cuello de botella de la caché de valores clave (KV).

Cada palabra procesada por el modelo debe almacenarse como un vector de alta dimensión en una memoria de alta velocidad. En tareas de larga duración, esta hoja de trucos digital crece rápidamente, mientras que la GPU utilizada durante la inferencia consume el sistema VRAM. Por tanto, parece que el rendimiento del modelo disminuye rápidamente con el tiempo.

El conjunto de algoritmos TurboQuant, exclusivo del software, proporciona una plantilla matemática para una compresión extrema de la caché KV. TurboQuant reduce la cantidad de memoria KV utilizada por un modelo determinado en un factor de 6 en promedio y proporciona un aumento de rendimiento 8 veces mayor en el cálculo de logits de atención. Visto de esta manera, podemos decir que las empresas que implementan esto en sus modelos pueden reducir sus costos en más del 50 por ciento.

Si bien el anuncio de Google Research recibió más de 7,7 millones de visitas, a las 24 horas de su publicación, los miembros de la comunidad comenzaron a migrar el algoritmo a bibliotecas de IA nativas populares como MLX y llama.cpp para Apple Silicon.

En una publicación en X, el analista técnico Prince Canuma explicó que implementó TurboQuant en MLX para probar el modelo Qwen3.5-35B. Canuma anunció coincidencias 100 por ciento exactas en cada nivel de cuantificación, con longitudes de contexto que van desde 8,5 000 a 64 000 tokens. Según Canuma; El TurboQuant de 2,5 bits redujo la caché KV casi 5 veces sin pérdida de precisión.

Los investigadores de Google lanzaron TurboQuant como resultado de un proceso de investigación de años que comenzó en 2024. Vimos a los investigadores de Google crear artículos que abordan marcos matemáticos básicos como PolarQuant y Quantized Johnson-Lindenstrauss (QJL) a principios de 2025. TurboQuant aprovecha PolarQuant y Quantized Johnson-Lindenstrauss para superar los errores de cuantificación que también causan alucinaciones. La introducción oficial de TurboQuant marca la transición de las teorías presentadas académicamente a la producción a gran escala.

Los algoritmos de base teórica y los artículos de investigación relacionados ahora están disponibles para los usuarios de forma gratuita. Incluso el uso corporativo es posible. Los recursos que ofrece Google ofrecen una solución que no requiere un proceso de formación para reducir el tamaño del modelo sin sacrificar la inteligencia.

Comparte esto: