Google TurboQuant : l’algo qui divise par 6 la mémoire IA

Google vient de publier TurboQuant, un algorithme de compression qui réduit par 6 la mémoire nécessaire pour faire tourner un modèle d’IA en inférence. Résultat : les actions des fabricants de puces mémoire ont plongé en bourse. Mais concrètement, qu’est-ce que ça change pour vous ?

Les faits : un algorithme qui compresse le « cache » de l’IA

Quand un modèle de langage comme ChatGPT, Claude ou Gemini traite votre conversation, il stocke les calculs précédents dans ce qu’on appelle le cache KV (key-value). C’est une sorte d’aide-mémoire numérique qui lui évite de tout recalculer à chaque message. Plus la conversation est longue, plus ce cache grossit — et plus il consomme de mémoire GPU.

TurboQuant s’attaque directement à ce goulot d’étranglement avec deux techniques complémentaires :

  • PolarQuant : convertit les vecteurs haute dimension en coordonnées polaires. Au lieu de dire « 3 blocs vers l’est, 4 vers le nord », on dit « 5 blocs à 37 degrés ». Même destination, moins de données à stocker.
  • QJL (Quantized Johnson-Lindenstrauss) : applique une correction d’erreur en 1 bit pour compenser les imprécisions introduites par PolarQuant.

Le résultat est spectaculaire : les modèles tournent à seulement 3 bits de précision, sans perte de qualité et sans aucun réentraînement. Sur les accélérateurs NVIDIA H100, Google a mesuré une accélération de 8x sur le calcul des logits d’attention — le processus par lequel le modèle décide ce qui compte dans votre prompt.

Le séisme en bourse : Samsung, SK Hynix, Kioxia en chute

L’annonce a provoqué un mini-krach sur les valeurs mémoire. SK Hynix a perdu jusqu’à 6,4 % à la Bourse de Corée. Samsung a chuté de près de 5 %. Au Japon, Kioxia — qui avait bondi de plus de 700 % depuis août sur l’euphorie IA — a brutalement décroché. Micron et SanDisk ont aussi été touchés à Wall Street.

Nuance importante : ce sont surtout les acteurs de la mémoire flash NAND qui trinquent. La mémoire HBM (celle qui équipe les GPU d’entraînement chez NVIDIA) reste globalement épargnée. TurboQuant optimise l’inférence, pas l’entraînement — une distinction cruciale pour les investisseurs.

Ce que ça change pour vous concrètement

Si vous utilisez des outils IA au quotidien, TurboQuant est une excellente nouvelle. Voici pourquoi :

  • Des conversations plus longues : avec 6x moins de mémoire consommée par le cache, les modèles pourront gérer des contextes beaucoup plus longs sans ralentir ni couper la conversation.
  • Des coûts en baisse : moins de mémoire GPU utilisée = plus de requêtes traitées par serveur = prix par token en baisse pour les fournisseurs. Attendez-vous à des baisses de prix chez les providers d’API courant 2026.
  • L’IA locale facilitée : si un modèle a besoin de 6x moins de RAM pour tourner, cela rapproche le jour où des LLM performants tourneront sur votre laptop ou votre smartphone sans GPU dédié.
  • Des réponses plus rapides : l’accélération 8x sur les calculs d’attention se traduit directement par des temps de réponse réduits.

Le paradoxe de Jevons : et si ça augmentait la demande ?

Plusieurs analystes relativisent la panique boursière en invoquant le paradoxe de Jevons. Ce principe économique du 19e siècle stipule que rendre une ressource plus efficace tend à augmenter sa consommation globale — parce que l’efficacité ouvre de nouveaux usages.

JPMorgan a cité ce paradoxe dans une note, estimant qu’il n’y a pas de menace à court terme sur la consommation de mémoire. L’analyste Ray Wang de SemiAnalysis abonde : débloquer un goulot d’étranglement rend le hardware IA plus performant, et des modèles plus performants finiront par nécessiter plus de mémoire, pas moins.

Notre avis

TurboQuant est le type d’avancée qui fait bouger toute la chaîne. Google ne se contente pas de sortir des modèles — il optimise l’infrastructure qui les fait tourner. C’est une approche stratégique qui bénéficie à tout l’écosystème, y compris aux modèles concurrents qui pourront adopter la technique. Pour les utilisateurs finaux, c’est la promesse d’une IA plus rapide, moins chère et plus accessible. On valide.

Pour comprendre comment ces avancées s’intègrent dans l’écosystème Google, consultez notre test complet de Google AI Studio.

Laisser un commentaire