TurboQuant : Lecture de la percée en matière de compression du cache KV

Temps de lecture : 10 min Comment la compression 3 bits de Google réduit le coût des modèles linéaires à long contexte et quelles sont ses implications pour l'inférence en IA au cours des 18 prochains mois ?

Compression du cache KV — Présentation du pipeline à deux étapes de TurboQuant

Un problème sous-jacent se cache dans chaque conversation prolongée avec un modèle de langage complexe, et c'est ce qui explique leur coût élevé. Il s'agit du cache clé-valeur, qui, pour les contextes longs, peut consommer plus de mémoire que le modèle lui-même. Le 24 mars, une équipe de Google Research a publié… TurboQuant, qui compresse ce cache à trois bits par valeur sans perte de précision mesurable et sans réglage fin. Six fois moins de mémoire. Une attention jusqu'à huit fois plus rapide sur un H100. Il est essentiel de bien comprendre ce phénomène, car la compression du cache KV est l'un des problèmes les plus importants de l'IA déployée actuellement, et TurboQuant est le signal public le plus clair à ce jour que le domaine a franchi un cap décisif.

Je dirige Kentino. Cela implique notamment de lire attentivement des articles comme celui-ci afin que nos clients — mineurs, développeurs et Européens curieux de découvrir l'IA et les cryptomonnaies — n'aient pas à le faire. Cet article vise à expliquer le fonctionnement de TurboQuant, sa place dans le contexte plus large de la recherche sur la compression de caches clé-valeur (KV) prévue pour 2025-2026, et ce qu'un utilisateur raisonnable peut attendre des dix-huit prochains mois.

Le problème du cache KV, énoncé honnêtement

Lorsqu'un transformateur génère du texte, chaque nouveau jeton prend en compte tous les jetons précédents. Afin d'éviter de recalculer les tenseurs clé-valeur de ces jetons antérieurs à chaque étape, le modèle les stocke. Ce stockage constitue le cache KV.

La taille du cache augmente linéairement avec la longueur du contexte. Doublez la conversation, doublez la taille du cache. Pour un modèle 8B de taille moyenne exécutant un contexte de 128 000 jetons, FP16Le cache KV peut facilement atteindre plusieurs dizaines de gigaoctets pour une seule session. Le nombre de poids pourrait être de seize. Le cache les surpasse largement.

Il en découle trois conséquences pratiques.

Premièrement, l'inférence à contexte long est limitée par la mémoire avant d'être limitée par la puissance de calcul. La mémoire vidéo (VRAM) est saturée bien avant les opérations en virgule flottante (FLOPs).

Deuxièmement, le coût de traitement augmente fortement avec la taille de l'interface. Chaque utilisateur simultané a besoin de son propre cache. Un GPU capable de traiter cinquante conversations courtes par lots ne pourra gérer que cinq conversations longues.

Troisièmement, l'inférence sur l'appareil et en périphérie reste hors de portée pour les modèles qui seraient réellement utiles, car c'est le cache, et non les poids, qui refuse de s'adapter.

Une bonne compression du cache KV — c'est-à-dire une compression agressive, économique et sans perte de qualité — n'est donc pas une optimisation mineure. Elle détermine quelles charges de travail sont viables et lesquelles ne le sont pas. C'est précisément le problème que TurboQuant résout.

Ce que fait réellement TurboQuant

TurboQuant est un algorithme en deux étapes. Ces deux étapes ne nécessitent aucun entraînement ni aucune donnée, ce qui signifie qu'il n'y a ni réglage fin, ni jeu de données d'étalonnage, ni réglage par modèle. Il suffit de l'appliquer et il fonctionne. Honnêtement, c'est plus important que le taux de compression, car c'est ce qui permet à la méthode de s'intégrer facilement à une pile d'inférence existante.

Étape 1 : PolarQuant

La première étape est PolarQuant, un article distinct du même groupe (Zandieh, Mirrokni et al., AISTATS 2026). L'idée est structurelle plutôt que statistique.

La quantification de vecteurs de grande dimension en coordonnées cartésiennes est complexe. La solution naturelle – normaliser sur la sphère unité, puis quantifier la direction – s'avère coûteuse, car le calcul de la norme de chaque vecteur constitue le goulot d'étranglement que l'on cherchait justement à éviter. Les méthodes précédentes supportaient ce coût et perdaient en précision pour les faibles largeurs de bits.

PolarQuant procède en deux étapes pour éviter cet écueil. Il applique d'abord une rotation aléatoire, ce qui, de façon quelque peu contre-intuitive, rend la géométrie de la distribution vectorielle plus prévisible et plus facile à manipuler. Ensuite, il convertit les vecteurs en coordonnées polaires (un rayon pour la magnitude, un angle pour la direction) et les projette sur une grille circulaire quantifiable sans étape de normalisation. On obtient ainsi une représentation claire et peu gourmande en ressources de chaque vecteur, préservant sa géométrie essentielle.

Compression du cache KV — Rotation PolarQuant et grille de coordonnées polaires

Deuxième étape : QJL

PolarQuant seul laisse subsister une erreur résiduelle. La deuxième étape, la méthode de Johnson-Lindenstrauss quantifiée (QJL), la corrige en ajoutant un bit par valeur.

La transformation de Johnson-Lindenstrauss est un résultat classique : elle permet de projeter des vecteurs de grande dimension dans un espace de dimension beaucoup plus faible à l'aide d'une application linéaire aléatoire, tout en préservant approximativement les distances entre les paires de vecteurs. QJL va plus loin en ne conservant que le bit de signe de chaque coordonnée projetée — +1, -1, rien d'autre. Aucun surcoût de stockage n'est nécessaire au-delà du bit lui-même.

Mathématiquement, QJL fournit un estimateur sans biais des scores d'attention. Il corrige le résidu de PolarQuant sans réintroduire le biais inhérent aux méthodes simples à faible nombre de bits. C'est là toute l'astuce : un seul bit de signe, judicieusement choisi, suffit à corriger l'erreur de la première étape.

Les chiffres

Combinées, les deux étapes aboutissent à trois bits par valeur. six fois plus petit que le FP16 Sur une carte graphique NVIDIA H100, le calcul logit de l'attention est jusqu'à huit fois plus rapide en 4 bits qu'en 32 bits. Google a testé Gemma, Mistral et Llama-3.1-8B-Instruct sur les benchmarks LongBench, Needle In A Haystack, ZeroSCROLLS, RULER et L-Eval. La précision a été maintenue sur les cinq benchmarks à contexte long. Un test parallèle de recherche vectorielle sur GloVe-200 a également démontré un rappel 1@k supérieur aux performances de référence de PQ et RabbiQ, ce qui suggère que la méthode se généralise au-delà des caches KV.

Principaux indicateurs de TurboQuant
Métrique Valeur
Bits par valeur mise en cache 3
Réduction de la mémoire cache KV 6 ×
Accélération de l'attention H100 (4 bits vs 32 bits) jusqu'à 8 ×
Réglage fin requis Aucun
Données d'étalonnage requises Aucun
Perte de précision mesurée Zéro sur LongBench, NIAH, ZeroSCROLLS, RULER, L-Eval
Modèles testés Gemma, Mistral, Llama-3.1-8B-Instruct

Le compte rendu complet se trouve sur le Blog de recherche GoogleTurboQuant sera présenté à ICLR 2026 à Rio de Janeiro.

La vague plus large

TurboQuant n'est pas un cas isolé. Il s'agit de l'introduction la plus marquante et récente dans un domaine de recherche en pleine expansion, et la lire hors contexte en surestime la nouveauté. Plusieurs autres méthodes, apparues fin 2025 et début 2026, s'attaquent au même problème sous différents angles.

Méthodes de compression KV 2025-2026
Méthode Lieu Approche Résultat principal
TurboQuant ICLR 2026 PolarQuant + QJL, inférence en ligne 3, 6 × mémoire, jusqu'à 8 × Accélération de l'attention, perte de précision nulle
KVTC (NVIDIA) ICLR 2026 Codage par transformation — ACP + quantification adaptative + codage entropique Compression jusqu'à 20x pour le stockage et la réutilisation du cache hors ligne
ChunkKV OpenReview, septembre 2025 Unité de compression sémantique par blocs Précision jusqu'à +8.7 % au même taux de compression
PM-KVQ 2025 Précision mixte progressive pour les modèles de raisonnement Débit de 2.73 à 5.18 fois supérieur par rapport à FP16, +8% aux tests de raisonnement
KVPress (NVIDIA) Cadre ouvert Outil d'analyse comparative et de déploiement Permettez aux praticiens de tester ces méthodes à grande échelle.

Chacun cible un créneau différent. KVTC est conçu pour la réutilisation hors ligne : il permet de stocker un cache issu d'une conversation et de le charger dans une autre, ce qui autorise un encodage plus lourd en échange d'une compression bien plus importante. ChunkKV est destiné aux cas où une compression agressive est nécessaire tout en préservant le sens, ce qui est crucial pour les tâches où la perte d'un jeton est plus problématique que la perte d'un chiffre. PM-KVQ est optimisé pour les longs raisonnements complexes générés par les modèles logiques. KVPress est l'outil qui nous permet de les comparer objectivement.

La contribution unique de TurboQuant réside dans sa capacité à fonctionner sans entraînement, à permettre l'inférence en ligne et à fournir un estimateur dont l'absence de biais est prouvée. C'est précisément parce qu'il ne requiert aucune intervention de l'opérateur du modèle qu'il est le plus susceptible d'être intégré en premier dans les environnements de production.

Ce que cela débloque

En prenant du recul par rapport à l'article et en réfléchissant à ses implications : les effets pratiques sont plus faciles à nommer qu'à quantifier.

L'inférence à contexte long devient nettement moins coûteuse. Si votre cache clé-valeur est six fois plus petit, vous pouvez traiter davantage d'utilisateurs sur le même GPU, ou gérer des contextes plus longs avec le même budget, voire les deux. Toute entreprise exploitant un service d'inférence en ressent les effets sur ses marges dans les trois mois suivant l'intégration.

Le déploiement en périphérie devient envisageable pour des catégories de modèles auparavant inaccessibles. Un modèle de 8 milliards d'octets avec un contexte étendu sur le GPU d'une station de travail, ou un modèle de 3 milliards d'octets sur un ordinateur portable, passe de « quasiment impossible » à « courant » grâce à la réduction de la taille du cache. Le déploiement sur site pour les entreprises qui ne peuvent pas envoyer de données aux API cloud (secteurs juridique, médical et télémétrie industrielle) bénéficie d'un avantage similaire.

L'évolution matérielle découle directement de cette problématique, et c'est là qu'elle cesse d'être abstraite. La compression comme TurboQuant ne change pas les GPU existants ; elle change les charges de travail. s'adapter — et actuellement, les charges de travail que les gens veulent réellement exécuter sur site sont les modèles de pointe chinois à poids libre qui ont discrètement pris la place de référence jusqu'au premier trimestre 2026.

Il convient de mentionner explicitement la gamme actuelle, car c'est ce que nos clients nous demandent. Kimi K2.5 de Moonshot AI — 1T paramètres totaux, 32B actif, ministère de l'Éducation, Contexte 256KLicence MIT — publiée le 27 janvier et leader des benchmarks de code et de mathématiques parmi les poids ouverts. GLM-5 de Z.ai — 744 milliards de dollars au total / 40B actif, Contexte 204K, sous licence MIT — actuellement en tête de l'indice d'intelligence à pondération ouverte et vérifié par SWE-bench. MiniMax M2.5 - 229 milliards de dollars au total / 10B actif, Contexte 200K — Sortie le 12 février, prix agressif, plus de 80 % des performances SWE. Qwen3-Coder-Suivant d'Alibaba — 80 milliards de dollars au total / 3B actif, Contexte 256K natif, extensible à 1M au Fil — plus la famille Qwen3 plus large de dense 0.8B à 27B dans le cadre du 397B-A17B MoE. Poids libre. Expédition possible dès aujourd'hui.

Nous construisons des machines chez Kentino Spécifiquement pour cette charge de travail, permettez-moi donc d'être précis sur les calculs. Notre serveur d'inférence principal est un 4 cartes graphiques NVIDIA RTX 4090 construire - 96 GB de VRAM mutualisée, AMD EPYC 7542 sur un Rack ASRock ROMED8-2T, 256 GB of DDR4-2666 ECC RDIMM, 2 TB NVMe, double Alimentations de 2 kW, dans un rack 24UAu-dessus, nous construisons 4× RTX 5090 et 8× RTX 5090 configurations (128 GB et 256 GB VRAM mutualisée) et de qualité centre de données 4× L40 / L40S (192 GB mis en commun ECC) pour une charge soutenue de classe entreprise et une production 24h/24 et 7j/7.

Ce que TurboQuant modifie dans cette configuration, c'est le terme de cache KV. Les modèles MoE modernes utilisent déjà une attention compressée (MLA-attention latente de style Kimi, GQA (dans Qwen3), donc leur cache KV par jeton est plus petit que les anciens modèles de classe Llama. Appliquez TurboQuant par-dessus et vous obtenez un autre ~6 ×Concrètement, cela signifie que la fenêtre de contexte qu'une boîte donnée peut réellement servir — par opposition à celle qu'elle affiche — s'élargit considérablement. poids n'a pas bougé. Le goulot d'étranglement, lui, a bougé.

Serveur Kentino × modèle × TurboQuant
Configuration du serveur Kentino VRAM mutualisée Modèle confortable Avec la compression TurboQuant KV
4× RTX 4090 (AMD EPYC 7542, 256 GB ECC) 96 GB Qwen3-Coder-Suivant 80 milliards de dollars au total (FP8), Qwen3 dense 27B (FP16) Qwen3-Coder-Next @ Contexte 256K Utilisateur unique natif, ou 80 octets à 128 Ko pour environ 3 à 4 utilisateurs simultanés
4× RTX 5090 128 GB Qwen3-Coder-Next avec marge de manœuvre, Qwen3 32B (FP16), classe MoE 100B (INT4) Qwen3-Coder-Next @ 1M contexte via Fil, ou 80 octets à 256 Ko simultanés
8× RTX 5090 256 GB MiniMax M2.5 (FP8, ~ 230 Go), Qwen3 397B-A17B (INT4), GLM-5 (INT4) MiniMax M2.5 @ plein Contexte 200K service de production, ou Qwen3 397B à 128K simultanés
4× L40 / L40S 192 GB ECC MiniMax M2.5 (INT4), Qwen3-Coder-Prochaine production 24h/24 et 7j/7 Service de niveau entreprise avec ECC Dans un contexte de longue durée, charge soutenue

Deux mises en garde importantes. Premièrement, Kimi K2.5 et GLM-5 en entier FP8 (1T et 744 milliards de dollars au total (les poids respectifs) dépassent toujours la capacité de ces boîtes — pour ceux que vous envisagez, il s'agit d'un ensemble ou d'une approche agressive INT4 quantification. Deuxièmement, les limites exactes des jetons dépendent de la taille du lot, de la configuration d'attention spécifique du modèle et du cadre (vLLM, SG Lang, TensorRT-LLM (Chacune implémente différemment le KV de faible valeur). Mais c'est la direction qui importe : a 4× RTX 4090 La boîte qui, il y a un an, avait du sens pour les modèles denses 13B, est maintenant la bonne réponse pour Qwen3-Coder-Suivant à son plein Contexte 256K. A 4× RTX 5090 gère le 80B actifUn modèle de codage par classe, suffisamment spacieux pour accueillir plusieurs utilisateurs simultanément. 8× RTX 5090 or 4× L40S ouvre MiniMax M2.5 et les variantes Qwen3 MoE plus grandes, produites à l'échelle industrielle. Le matériel n'a pas augmenté de taille ; la charge de travail a diminué.

Et toute charge de travail d'inférence exécutée en continu sur la télémétrie opérationnelle en bénéficie proportionnellement. L'optimisation des parcs miniers en est un exemple concret : les opérateurs comme UnMineurs L'exécution de systèmes d'efficacité basés sur l'IA sur des milliers de circuits intégrés spécifiques (ASIC) permet de dimensionner la couche d'inférence sous-jacente en fonction de la quantité de contexte que chaque modèle peut gérer à moindre coût. Ce domaine de recherche ne révolutionne pas ces charges de travail du jour au lendemain, mais il repousse les limites de ce qui est abordable.

Les prévisions honnêtes sont progressives. 6 × Réduire la consommation de mémoire sur un goulot d'étranglement ne révolutionne pas le monde. Cela permet d'obtenir une version légèrement moins coûteuse, avec un contexte légèrement plus étendu et plus facile à déployer, du monde actuel. Au final, cela représente des économies considérables en termes de coûts et d'ingénierie, à l'échelle de l'industrie.

Que faut-il surveiller en 2026-2027 ?

Quelques points précis, classés approximativement par ordre de probabilité.

Comparaison des méthodes de compression du cache KV dans les recherches de 2025-2026

Intégration du framework. vLLM, TensorRT-LLM et SG Lang adoptera des méthodes de type TurboQuant dans les mois à venir, probablement via KVPress en tant que couche de référence. L'implémentation open source Triton publiée par l'équipe Google rend ce processus quasi automatique.

Assistance au niveau matériel. NVIDIA a manifesté son intérêt pour les primitives d'attention à faible nombre de bits via KVTC et KVPress. On peut s'attendre à ce que les outils de la génération Blackwell traitent les formats KV 3-4 bits comme des formats à part entière et non plus comme des formats expérimentaux.

Consolidation des méthodes. Les cinq approches mentionnées ci-dessus résolvent des problèmes qui se recoupent. L'objectif final probable est une architecture unifiée : compression géométrique de type PolarQuant pour l'attention en ligne, codage entropique de type KVTC pour le stockage hors ligne et regroupement sémantique de type ChunkKV en interface. Aucun article ne permet d'y parvenir seul ; cette architecture se construit progressivement au cours d'une année de travail d'intégration.

Réduction réelle des coûts de service. D'ici fin 2026, les coûts de service pour l'inférence à contexte long devraient être sensiblement inférieurs à ceux d'aujourd'hui, le gain provenant principalement de la compression plutôt que de l'utilisation de nouvelles puces. C'est la façon la plus claire de prédire le succès de ces travaux.

Fermer

TurboQuant représente une avancée majeure pour résoudre un problème crucial, et son développement s'inscrit dans un courant de recherche qui s'attaque simultanément à ce problème sous plusieurs angles. Les chiffres clés sont impressionnants – trois bits, six fois, huit fois – mais son principal atout réside dans le fait qu'il ne requiert aucune intervention de l'opérateur du modèle. Ce sont des méthodes sans apprentissage et indépendantes des données qui sont mises en œuvre.

Si vous utilisez l'inférence à contexte long à quelque échelle que ce soit, il est important de suivre son évolution. Même si vous ne l'utilisez pas, il est toujours utile de la comprendre, car les aspects économiques des modèles que vous utiliserez à terme sont discrètement influencés par des articles comme celui-ci.

Ressources

G
Blog de recherche GoogleCompte rendu de l'article sur TurboQuant
N
NVIDIA KVPresscadre d'évaluation comparative de la compression KV
K
Serveurs d'inférence multi-GPU Kentino4× / 8× RTX 5090, 4× RTX 4090, L40 / L40S
B
Blog de KentinoPlus d'analyses et de guides de construction
Cet article présente une analyse technique et des commentaires. Les valeurs de référence citées proviennent des publications citées (TurboQuant, KVTC, ChunkKV, PM-KVQ, KVPress) et du blog de Google Research. Les configurations matérielles correspondent aux versions du serveur d'inférence Kentino disponibles au moment de la rédaction ; les spécifications exactes et la disponibilité peuvent évoluer. Le nombre de paramètres, la longueur du contexte et les dates de publication des modèles correspondent aux données publiées pour les familles de modèles open-weights respectives. 
Retour au blog