Envoyer des données clients à OpenAI, Anthropic ou Google pose des problèmes RGPD, de confidentialité et de coût. En 2026, Ollama permet de faire tourner des modèles compétitifs (Llama 4, Qwen 3, Mistral Small 3) sur un Mac M3 ou un PC avec RTX 4060. Ce guide détaille l’installation, le choix du modèle, les performances réelles et les cas où l’IA locale remplace réellement le cloud.
Pourquoi une IA locale en 2026
- RGPD : aucune donnée ne quitte votre machine ou serveur
- Coût : zéro € par requête après amortissement matériel
- Latence : 50-200 ms vs 500 ms-3s pour APIs cloud
- Disponibilité : fonctionne hors ligne
- Cas d’usage sensibles : juridique, médical, R&D, défense
Installation d’Ollama
Ollama s’installe en une commande sur Mac, Linux et Windows :
- macOS : brew install ollama (ou téléchargement DMG)
- Linux : curl -fsSL https://ollama.com/install.sh | sh
- Windows : installeur officiel sur ollama.com
Une fois installé, démarrage : ollama serve. Lancer un modèle : ollama run llama4:8b.
Choisir le bon modèle selon le hardware
Mac M3/M4 (16-24 Go RAM unifiée)
- Llama 4 8B : 8 Go VRAM, qualité GPT-3.5 / Claude Haiku, 40 tokens/sec
- Qwen 3 14B : 14 Go VRAM, qualité GPT-4o-mini, 22 tokens/sec
- Mistral Small 3.5 : 12 Go VRAM, excellent en français, 28 tokens/sec
Mac M3/M4 Pro/Max (32-128 Go)
- Llama 4 70B Q4 : 40 Go VRAM, proche GPT-4, 12 tokens/sec sur M3 Max
- Qwen 3 72B : 42 Go VRAM, multilingue de pointe, 10 tokens/sec
PC RTX 4090 (24 Go VRAM)
- Llama 4 13B FP16 ou 30B Q4 : excellents
- Mixtral 8x7B Q4 : excellente qualité, 35 tokens/sec
Cas d’usage qui marchent en local
- Résumé de documents internes (PDFs, rapports, mails)
- Classification de tickets / leads / avis clients
- Extraction structurée (entités, dates, montants)
- Code review et génération de boilerplate
- Chatbot interne sur documentation
- Anonymisation et pseudonymisation de données
Cas où le cloud reste meilleur
- Tâches de raisonnement complexe (math avancée, démonstration)
- Génération créative très longue (>5000 mots cohérents)
- Multimodal avancé (vision-langage encore limité en local)
- Volume très élevé (>100K req/jour, GPU dédié plus pertinent)
Connecter Ollama à vos applis
Ollama expose une API REST locale (localhost:11434) compatible avec le format OpenAI. Avantage : vous pouvez basculer cloud → local en changeant juste l’URL.
- Python : openai SDK avec base_url= »http://localhost:11434/v1″
- LangChain et LlamaIndex : intégration native Ollama
- n8n / Make : nœud HTTP simple
- Open WebUI : interface ChatGPT-like en local
RAG local complet
Pour un RAG 100% local en 2026 :
- Embeddings : nomic-embed-text via Ollama
- Vector DB : Qdrant local (Docker), Chroma ou LanceDB
- LLM : Llama 4 8B ou Mistral Small 3.5
- UI : Open WebUI
Setup complet en 2 heures, infra coûte 0 € si machine déjà en place. Conformité RGPD totale.
Performance et benchmarks
- Llama 4 8B local sur M3 Max : MMLU 67%, HumanEval 58%
- GPT-4o cloud : MMLU 88%, HumanEval 90%
- Pour la majorité des tâches métier, l’écart MMLU n’est pas perceptible
- Latence : 80 ms time-to-first-token sur M3 Max vs 300-500 ms via API
Limites à connaître
- Quality cap : un 13B local ne dépassera jamais GPT-5 sur les tâches complexes
- Maintenance : mises à jour modèles à gérer (ollama pull)
- Investissement matériel : 2000-5000 € pour une machine sérieuse
- Pas de fine-tuning intégré (Ollama charge des modèles, ne les entraîne pas)
❓ Questions fréquentes
Quelle machine acheter pour faire tourner du 70B ?
Mac Studio M3 Ultra 96 Go (4500 €) ou PC avec 2x RTX 4090 (3500 €). Le Mac est plus simple, le PC plus polyvalent pour fine-tuning ultérieur.
Ollama est-il vraiment RGPD compliant ?
Oui par design : aucun appel sortant. Mais respectez les bonnes pratiques (chiffrement disque, contrôle d’accès, journalisation). Le modèle ne fuit pas, votre machine peut.
Comment partager une IA locale en équipe ?
Installer Ollama sur un serveur LAN avec Open WebUI, exposer en HTTPS via reverse proxy, gérer l’auth. Setup en 4-8 heures pour une équipe de 20 personnes.
Quels modèles français sont les meilleurs en local ?
Mistral Small 3.5 et Mistral Nemo sont parfaits en français. Llama 4 reste correct mais moins idiomatique. Évitez Qwen pour des textes très français nuancés.
Conclusion
L’IA locale n’est plus un compromis en 2026 : elle est devenue compétitive sur 70% des cas d’usage métier. Pour les données sensibles, le ROI tombe sous 6 mois. Démarrez avec Ollama + Llama 4 8B sur un Mac M3, mesurez, élargissez.