Fine-tuner un LLM en 2026 : guide complet de la théorie au déploiement - IA Codex

Le fine-tuning d’un LLM est devenu accessible : avec QLoRA, une RTX 4090 suffit pour adapter un modèle 13B à votre tâche en quelques heures. Mais 70% des projets fine-tuning échouent : dataset mal préparé, evaluation absente, surcoût d’infra non anticipé. Ce guide trace le parcours complet, du choix du modèle au déploiement vLLM, avec les chiffres réels d’un projet de classification client mené début 2026.

Choisir le bon modèle de base

En 2026, trois familles open-source dominent : Llama 4 (Meta), Qwen 3 (Alibaba), Mistral Small 3.5. Critères de sélection :

Taille : 7B-13B pour la plupart des tâches métier, 70B+ uniquement si vous avez un GPU H100
Licence : Llama 4 (custom mais autorise commercial), Qwen (Apache 2.0), Mistral (Apache 2.0)
Tokenizer : préférez les modèles entraînés massivement en français (Mistral, Llama 4) vs Qwen plus orienté chinois/anglais
Quantization : QLoRA fonctionne sur tous, mais les modèles avec GGUF officiels facilitent le déploiement

Préparer le dataset

85% du résultat dépend du dataset. Format standard : JSONL avec champs {instruction, input, output} ou format chat OpenAI. Règles :

Volume minimum : 500 exemples (LoRA), 2000-10000 idéal
Diversité > volume : 1000 exemples variés battent 10 000 redondants
Cohérence du format de sortie : si vous voulez du JSON, 100% des exemples en JSON valide
Validation manuelle : relire 10% du dataset à la main
Train/val split : 90/10, ne JAMAIS mélanger

LoRA, QLoRA, full fine-tuning : quelle technique

LoRA (Low-Rank Adaptation)

On gèle le modèle de base et on entraîne uniquement des matrices d’adaptation petites (rank 8-64). Économie mémoire de 70%, qualité quasi équivalente au full fine-tuning.

QLoRA (Quantized LoRA)

LoRA + quantization 4-bit du modèle de base. Permet de fine-tuner Llama 13B sur RTX 4090 (24 Go VRAM). C’est le standard 2026 pour les projets sous 50 K€ de budget.

Full fine-tuning

On met à jour tous les poids. Réservé aux gros budgets (cluster H100), nécessaire pour des changements de comportement profonds. Très rare en pratique métier.

Stack technique recommandée

Framework : Axolotl ou Unsloth (2x plus rapide que HuggingFace seul)
GPU : RTX 4090 / 5090 pour 7-13B, H100 pour 70B
Cloud : RunPod, Lambda Labs, ou Modal pour louer 1-10h
Tracking : Weights & Biases pour logs et hyperparamètres
Eval : LM Evaluation Harness + benchmarks custom métier

Hyperparamètres qui marchent en pratique

Learning rate : 2e-4 pour LoRA, 1e-4 pour QLoRA
LoRA rank : 16 par défaut, 32-64 pour tâches complexes
LoRA alpha : généralement 2x le rank
Epochs : 3-5 (au-delà, overfitting)
Batch size : maximum que la VRAM accepte, gradient accumulation pour compenser
Warmup : 10% des steps

Évaluation rigoureuse

Sans évaluation, le fine-tuning est de la cargo cult. Trois niveaux d’éval :

Quantitative : metrics automatiques sur le val set (accuracy, F1, BLEU selon tâche)
Qualitative : 100 exemples notés à la main par 2 annotateurs (Cohen’s kappa)
Production : A/B test sur 5% du trafic vs modèle baseline pendant 2 semaines

Déploiement

Trois options du moins au plus exigeant :

API managée : OpenAI fine-tuning API, Together AI, Fireworks (le plus simple, +30-50% de coût)
vLLM auto-hébergé : 1 GPU dédié, 1000+ req/sec, latence faible
Quantisé en GGUF + Ollama : pour usage local edge / on-device

Coûts réels d’un projet fine-tuning 2026

Préparation dataset : 5-15 jours/homme
Compute fine-tuning : 50-300 € (QLoRA 7-13B sur RunPod)
Itérations : compter 3-5 cycles complets
Hosting prod (vLLM) : 200-800 €/mois selon GPU
Total projet : 8 000 à 40 000 € en moyenne pour PME

❓ Questions fréquentes

Faut-il fine-tuner ou faire du prompt engineering ?

Toujours essayer le prompt engineering d’abord. Fine-tunez seulement si : vous avez >2000 exemples, le prompt système dépasse 1500 tokens, ou vous voulez réduire les coûts d’inférence.

Combien de GPU pour fine-tuner Llama 4 70B ?

Avec QLoRA : 2x H100 80GB (160 Go VRAM minimum). Compter 800-1500 € de location pour 8h d’entraînement sur 5000 exemples.

Le fine-tuning peut-il dégrader le modèle ?

Oui, c’est le catastrophic forgetting. Pour l’éviter : évaluer aussi sur des benchmarks généraux (MMLU, HellaSwag), et garder un mix de données générales dans le dataset (10-20%).

Peut-on fine-tuner sur du français uniquement ?

Oui avec Mistral, Llama 4 ou Qwen. Évitez les modèles chinois pour des données très idiomatiques. Vérifiez la couverture francophone du tokenizer (ratio token/mot).

Conclusion

Le fine-tuning donne un avantage compétitif réel quand il est exécuté avec rigueur. Investissez 80% de l’effort dans le dataset et l’évaluation, 20% dans le code d’entraînement. Démarrez petit (Mistral 7B + QLoRA + 1000 exemples), mesurez, itérez.