
Un modèle d’IA de 8 milliards de paramètres qui tient dans 1,15 Go de mémoire. C’est la promesse de 1-Bit Bonsai, le premier LLM 1-bit commercialement viable, lancé par la startup PrismML. Une avancée qui pourrait démocratiser l’IA locale sur smartphone.
Qu’est-ce qu’un LLM 1-bit ?
Les modèles d’IA classiques utilisent 16 bits pour stocker chaque paramètre. Bonsai 8B utilise 1 seul bit. Résultat : le même modèle de 8 milliards de paramètres passe de 16 Go à 1,15 Go. C’est 14 fois plus petit.
Et contrairement aux techniques de compression classiques qui dégradent la qualité, Bonsai n’est pas un modèle compressé après coup. C’est un modèle nativement conçu en 1-bit, de bout en bout : embeddings, couches d’attention, MLP, tout est en 1-bit.
Des performances qui défient la logique
PrismML introduit le concept de « densité d’intelligence » : la quantité d’intelligence utile par Go de mémoire. Sur cette métrique, Bonsai 8B atteint 1,06/Go, contre 0,10/Go pour Qwen3 8B. C’est 10 fois plus d’intelligence par Go.
Sur les benchmarks standards, Bonsai reste compétitif avec les meilleurs modèles 8B, mais dans un format 14 fois plus petit. La startup est issue de recherches menées à Caltech et a levé 16,25 millions de dollars.
Ce que ça change pour vous
IA sur smartphone : Un modèle de 1,15 Go tourne sur n’importe quel téléphone récent. Plus besoin de connexion internet ni de serveurs cloud pour avoir une IA performante.
Vie privée : Si l’IA tourne localement, vos données ne quittent jamais votre appareil. C’est un argument massif pour les entreprises soucieuses de confidentialité.
Coûts : Pas de GPU cloud à payer. L’inférence locale coûte essentiellement zéro. Pour les startups et développeurs, c’est un game-changer.
Qu’est-ce que la quantization 1-bit ?
Les modèles d’IA classiques utilisent 16 bits pour stocker chaque paramètre. Bonsai 8B utilise 1 seul bit. Résultat : un modèle de 8 milliards de paramètres passe de 16 Go à 1,15 Go — 14 fois plus petit. Contrairement à la quantization classique (GPTQ, AWQ) qui compresse après coup et dégrade la qualité, Bonsai est nativement conçu en 1-bit. Chaque paramètre vaut soit -1, soit +1. C’est inspiré des travaux de Microsoft Research sur BitNet.
PrismML introduit le concept de « densité d’intelligence » : la quantité d’intelligence utile par Go de mémoire. Bonsai 8B atteint 1,06/Go, contre 0,10/Go pour Qwen3 8B. C’est 10 fois plus d’intelligence par Go.
Face à la concurrence
Le marché des modèles compacts explose en 2026. Phi-4-mini (Microsoft) pèse ~4 Go en Q4 — Bonsai est 3,5x plus léger. Gemma 3n (Google) vise le mobile avec ~3 Go de RAM, Bonsai reste plus compact à 1,15 Go. Mistral 7B fait 4-5 Go en Q4, Bonsai divise par 4.
Côté vitesse : 136 tokens/seconde sur Mac M4 Pro, contre ~17 tokens/s pour Llama 3 en 16 bits. Sur iPhone, 44 tokens/s — suffisant pour une conversation fluide en temps réel. Le modèle est disponible sur Hugging Face au format GGUF.
PrismML, issue de Caltech, a levé 16,25 millions de dollars. L’équipe travaille déjà sur des modèles 30B et 70B en 1-bit, ce qui pourrait rendre des modèles de classe GPT-4 exécutables sur un laptop.
Ce que ça change pour vous
IA sur smartphone : 1,15 Go tourne sur n’importe quel téléphone récent sans connexion internet. Vie privée : vos données ne quittent jamais votre appareil — argument massif pour la santé, le juridique et la finance. Coûts : pas de GPU cloud à payer, l’inférence locale coûte quasi zéro. Pour les startups, c’est un game-changer.
Pourquoi c’est important pour la France
En France, les règles RGPD et les exigences de souveraineté des données poussent de plus en plus d’entreprises vers l’IA locale. Un modèle de 1,15 Go qui tourne sans cloud, c’est exactement ce dont les PME françaises ont besoin : puissant, privé, gratuit à l’usage. Les cabinets d’avocats, médecins et comptables pourraient enfin utiliser l’IA sans envoyer leurs données sensibles chez Google ou OpenAI. C’est aussi un argument pour l’Éducation nationale, qui hésite à déployer des outils IA par crainte de la vie privée des élèves.
En vidéo
Comment faire tourner un LLM en local — Guide complet
Notre avis
C’est potentiellement l’avancée la plus importante de 2026 pour l’IA accessible. Pendant que tout le monde se bat pour des GPU toujours plus gros, PrismML prend le problème à l’envers : rendre l’IA si petite qu’elle n’a plus besoin de GPU du tout. Si la qualité tient ses promesses en production, c’est révolutionnaire.
À lire aussi
Sources : PrismML (blog officiel), ByteIota, Hugging Face