Évaluer un modèle LLM : benchmarks, méthodes et pièges en 2026 - IA Codex

Choisir un modèle LLM sur ses scores marketing est une erreur classique. MMLU saturé, GSM8K leaké, HumanEval contaminé : la plupart des benchmarks publics ne reflètent plus la réalité d’usage. En 2026, l’évaluation rigoureuse est devenue une discipline à part entière. Ce guide détaille les benchmarks fiables, les méthodes d’éval custom et les pièges qui faussent 80% des comparaisons.

Pourquoi les benchmarks publics ne suffisent plus

Contamination : les modèles ont vu les benchmarks pendant l’entraînement
Saturation : MMLU plafonne à 90%+, perte de discrimination
Décalage avec usage réel : un modèle peut briller sur GSM8K et échouer sur votre tâche métier
Optimisation explicite : les labos optimisent pour les benchmarks (Goodhart’s Law)

Benchmarks publics encore utiles en 2026

MMLU-Pro

Successeur de MMLU avec questions plus difficiles et 10 choix au lieu de 4. Top scores 2026 : GPT-5 84%, Claude 4.7 82%, Gemini 3.1 Pro 80%.

HumanEval+ et MBPP+

Versions étendues du code, moins contaminées. Top : Claude 4.7 et DeepSeek V4 dépassent 90%.

ARC-AGI-2

Test de raisonnement abstrait. Beaucoup plus difficile que MMLU. Les humains font 95%, les meilleurs LLM 2026 plafonnent à 75%.

LiveCodeBench

Code sur problèmes Codeforces récents (post-cutoff modèle). Évite la contamination. Score plus représentatif.

LMSys Chatbot Arena

Comparaison aveugle par utilisateurs réels. Scores ELO. Le meilleur signal de qualité subjective.

Pourquoi construire son propre benchmark

Le seul benchmark qui compte est celui qui mesure votre tâche. Cas concret : un fournisseur de support client a testé 5 LLM sur MMLU (GPT-5 gagnant), puis sur 200 cas réels de tickets — résultat inverse, Claude Sonnet 4.7 dominant. Pourquoi ? Le ton et la sécurité comptaient plus que le raisonnement encyclopédique.

Construire un benchmark custom en 5 étapes

Collecter 100-500 cas réels représentatifs de votre tâche
Faire annoter les réponses attendues par 2 experts (mesurer Cohen’s kappa)
Définir les metrics : exact match, F1, BLEU, ou jugement qualitatif
Lancer chaque modèle candidat en automatique
Comparer scores + analyser qualitativement les erreurs

LLM-as-judge

Quand l’éval ne se prête pas à des metrics automatiques (rédaction, analyse), utiliser un LLM puissant comme juge. Méthode :

Donner au juge la question, la réponse candidate, et une rubrique d’éval
Demander un score 1-10 + justification
Utiliser un modèle DIFFÉRENT du modèle évalué (sinon biais)
Faire valider par humain sur 10% des cas pour calibrer

En 2026, GPT-5 et Claude 4.7 sont les juges de référence. Coût modéré (0,01-0,05 € par jugement).

Metrics qui comptent en production

Précision sur le cas métier (custom)
Latence (p50, p95, p99 — le p99 tue l’UX)
Coût par requête (€/1000 inférences)
Hallucination rate (% de faits inventés)
Refus indus (le modèle refuse de répondre alors qu’il le devrait)
Cohérence inter-runs (variance sur même prompt)

Pièges classiques

Petit dataset (<50 exemples) : conclusions non significatives
Pas de gold annotations : biais d’auto-confirmation
Single-run : la variance LLM est forte, faire 3-5 runs
Comparaison cross-model sans même prompt formaté pareil
Oublier le coût et la latence (le modèle parfait à 5 €/req est inutilisable)

Outils d’évaluation 2026

LM Evaluation Harness (EleutherAI) : benchmarks publics standardisés
Promptfoo : évals custom, intégration CI
Langfuse / Helicone : tracking prod
Inspect (UK AISI) : évals avancées sécurité
Braintrust : plateforme commerciale, expérience polie

❓ Questions fréquentes

Combien de temps pour construire un benchmark custom ?

3-10 jours pour un dataset de 200 exemples bien annoté. 80% du temps va dans la curation et l’annotation, pas le code.

Quel modèle utiliser comme juge ?

Claude Sonnet 4.7 ou GPT-5. Gemini 3.1 Pro est aussi excellent. Évitez d’utiliser comme juge le même modèle que celui évalué (biais auto-favorable).

Faut-il évaluer les hallucinations ?

Oui, indispensable pour usages factuels. Méthode : 100 questions à réponse vérifiable, mesurer % de réponses correctes vs incorrectes vs « ne sait pas ».

Combien d’exemples pour un benchmark fiable ?

Minimum 100 exemples pour différencier 2 modèles avec 5 points d’écart. 500+ pour des écarts plus fins. Diversité > volume.

Conclusion

Évaluer un LLM est plus difficile que de l’utiliser. Investissez 1-2 semaines dans un benchmark custom, vous économiserez des mois de mauvaises décisions techniques. Méfiez-vous des classements publics, fiez-vous à votre dataset métier.