Le fine-tuning d’un LLM est devenu accessible : avec QLoRA, une RTX 4090 suffit pour adapter un modèle 13B à votre tâche en quelques heures. Mais 70% des projets fine-tuning échouent : dataset mal préparé, evaluation absente, surcoût d’infra non anticipé. Ce guide trace le parcours complet, du choix du modèle au déploiement vLLM, avec les chiffres réels d’un projet de classification client mené début 2026.
Choisir le bon modèle de base
En 2026, trois familles open-source dominent : Llama 4 (Meta), Qwen 3 (Alibaba), Mistral Small 3.5. Critères de sélection :
- Taille : 7B-13B pour la plupart des tâches métier, 70B+ uniquement si vous avez un GPU H100
- Licence : Llama 4 (custom mais autorise commercial), Qwen (Apache 2.0), Mistral (Apache 2.0)
- Tokenizer : préférez les modèles entraînés massivement en français (Mistral, Llama 4) vs Qwen plus orienté chinois/anglais
- Quantization : QLoRA fonctionne sur tous, mais les modèles avec GGUF officiels facilitent le déploiement
Préparer le dataset
85% du résultat dépend du dataset. Format standard : JSONL avec champs {instruction, input, output} ou format chat OpenAI. Règles :
- Volume minimum : 500 exemples (LoRA), 2000-10000 idéal
- Diversité > volume : 1000 exemples variés battent 10 000 redondants
- Cohérence du format de sortie : si vous voulez du JSON, 100% des exemples en JSON valide
- Validation manuelle : relire 10% du dataset à la main
- Train/val split : 90/10, ne JAMAIS mélanger
LoRA, QLoRA, full fine-tuning : quelle technique
LoRA (Low-Rank Adaptation)
On gèle le modèle de base et on entraîne uniquement des matrices d’adaptation petites (rank 8-64). Économie mémoire de 70%, qualité quasi équivalente au full fine-tuning.
QLoRA (Quantized LoRA)
LoRA + quantization 4-bit du modèle de base. Permet de fine-tuner Llama 13B sur RTX 4090 (24 Go VRAM). C’est le standard 2026 pour les projets sous 50 K€ de budget.
Full fine-tuning
On met à jour tous les poids. Réservé aux gros budgets (cluster H100), nécessaire pour des changements de comportement profonds. Très rare en pratique métier.
Stack technique recommandée
- Framework : Axolotl ou Unsloth (2x plus rapide que HuggingFace seul)
- GPU : RTX 4090 / 5090 pour 7-13B, H100 pour 70B
- Cloud : RunPod, Lambda Labs, ou Modal pour louer 1-10h
- Tracking : Weights & Biases pour logs et hyperparamètres
- Eval : LM Evaluation Harness + benchmarks custom métier
Hyperparamètres qui marchent en pratique
- Learning rate : 2e-4 pour LoRA, 1e-4 pour QLoRA
- LoRA rank : 16 par défaut, 32-64 pour tâches complexes
- LoRA alpha : généralement 2x le rank
- Epochs : 3-5 (au-delà, overfitting)
- Batch size : maximum que la VRAM accepte, gradient accumulation pour compenser
- Warmup : 10% des steps
Évaluation rigoureuse
Sans évaluation, le fine-tuning est de la cargo cult. Trois niveaux d’éval :
- Quantitative : metrics automatiques sur le val set (accuracy, F1, BLEU selon tâche)
- Qualitative : 100 exemples notés à la main par 2 annotateurs (Cohen’s kappa)
- Production : A/B test sur 5% du trafic vs modèle baseline pendant 2 semaines
Déploiement
Trois options du moins au plus exigeant :
- API managée : OpenAI fine-tuning API, Together AI, Fireworks (le plus simple, +30-50% de coût)
- vLLM auto-hébergé : 1 GPU dédié, 1000+ req/sec, latence faible
- Quantisé en GGUF + Ollama : pour usage local edge / on-device
Coûts réels d’un projet fine-tuning 2026
- Préparation dataset : 5-15 jours/homme
- Compute fine-tuning : 50-300 € (QLoRA 7-13B sur RunPod)
- Itérations : compter 3-5 cycles complets
- Hosting prod (vLLM) : 200-800 €/mois selon GPU
- Total projet : 8 000 à 40 000 € en moyenne pour PME
❓ Questions fréquentes
Faut-il fine-tuner ou faire du prompt engineering ?
Toujours essayer le prompt engineering d’abord. Fine-tunez seulement si : vous avez >2000 exemples, le prompt système dépasse 1500 tokens, ou vous voulez réduire les coûts d’inférence.
Combien de GPU pour fine-tuner Llama 4 70B ?
Avec QLoRA : 2x H100 80GB (160 Go VRAM minimum). Compter 800-1500 € de location pour 8h d’entraînement sur 5000 exemples.
Le fine-tuning peut-il dégrader le modèle ?
Oui, c’est le catastrophic forgetting. Pour l’éviter : évaluer aussi sur des benchmarks généraux (MMLU, HellaSwag), et garder un mix de données générales dans le dataset (10-20%).
Peut-on fine-tuner sur du français uniquement ?
Oui avec Mistral, Llama 4 ou Qwen. Évitez les modèles chinois pour des données très idiomatiques. Vérifiez la couverture francophone du tokenizer (ratio token/mot).
Conclusion
Le fine-tuning donne un avantage compétitif réel quand il est exécuté avec rigueur. Investissez 80% de l’effort dans le dataset et l’évaluation, 20% dans le code d’entraînement. Démarrez petit (Mistral 7B + QLoRA + 1000 exemples), mesurez, itérez.