Prompt engineering avancé : 15 techniques qui marchent en 2026

Les prompts simples ont fait leur temps. Les modèles 2026 (GPT-5, Claude 4.7, Gemini 3.1) répondent mieux à des prompts structurés exploitant des techniques précises : XML tags, prompt chaining, self-consistency, RAG inline. Ce guide compile 15 techniques validées sur des projets réels, avec exemples concrets et gain mesurable de précision pour chacune.

1. Le rôle système clair

Avant la requête, posez le rôle du modèle : « Tu es un avocat fiscaliste français spécialisé en TVA intracommunautaire ». Gain typique : +20% de précision sur tâches expertes.

2. Few-shot prompting

Donner 2 à 5 exemples avant la vraie question. Format : « Exemple 1 : input X → output Y ». Indispensable pour formats stricts (JSON, classification, extraction).

3. Chain-of-thought (CoT)

Demander explicitement « Raisonne étape par étape avant de répondre ». Sur Claude et GPT-5, le mode reasoning intégré le fait nativement. Pour les modèles plus légers, le CoT manuel ajoute 15-30% de précision sur math et logique.

4. XML tags pour Claude

Claude reconnaît parfaitement les balises XML : , , . Cette structure hiérarchique évite les confusions. Anthropic le recommande officiellement.

5. Self-consistency

Lancer le même prompt 5 fois avec température 0.7, garder la réponse majoritaire. Coûte 5x plus cher mais réduit massivement les hallucinations sur tâches critiques.

6. Prompt chaining

Découper une tâche complexe en plusieurs prompts successifs. Exemple : (1) extraire les entités, (2) classifier chaque entité, (3) générer le rapport final. Plus robuste qu’un méga-prompt monolithique.

7. Prompts négatifs

Lister explicitement ce qu’il NE FAUT PAS faire. « N’utilise jamais les mots : plongeons, explorons, fascinant. » Très efficace pour le ton et le format.

8. Format de sortie imposé

Demander explicitement le format : JSON Schema, Markdown précis, CSV. Sur GPT-5 et Claude 4.7, utilisez structured outputs (response_format) pour garantir la validité.

9. Constitutional prompting

Donner au modèle des règles de jugement. « Avant de répondre, vérifie : (1) l’info est-elle factuelle ? (2) y a-t-il un risque de biais ? ». Inspiré de la méthode Anthropic Constitutional AI.

10. Retrieval-augmented prompting (mini-RAG)

Plutôt qu’un RAG complet, injecter directement 2-5 documents pertinents dans le contexte. Fenêtre 2026 : Claude 4.7 = 1 M tokens, GPT-5 = 400K, Gemini 3.1 = 2M. Vous pouvez coller des dossiers entiers.

11. Persona switching

Demander au modèle de produire 2 réponses depuis 2 angles opposés (ex: avocat de la défense + procureur). Forme de pseudo-débat qui fait émerger les nuances.

12. Self-critique

Workflow en 2 étapes : (1) le modèle génère une réponse, (2) on lui demande de critiquer sa propre réponse et de proposer une v2. Gain typique +25% de qualité.

13. Tree of Thoughts

Pour problèmes complexes : demander 3 approches différentes, évaluer chacune, choisir la meilleure, l’approfondir. Décrit dans le papier Princeton 2023, toujours utile en 2026.

14. Délimiteurs explicites

Encadrer les inputs avec des délimiteurs clairs (### , « `, ). Évite les injections de prompt et clarifie pour le modèle ce qui est instruction vs données.

15. Prompt versioning

Traiter ses prompts comme du code : versionner dans git, tester sur un dataset d’éval, mesurer les régressions. Outils 2026 : PromptLayer, Langfuse, Helicone.

Anti-patterns à bannir

  • « Soyez créatif » sans contrainte (résultat aléatoire)
  • Mélanger 5 instructions dans une phrase
  • Demander une réponse longue sans plan
  • Oublier de fixer la température (0 pour déterministe, 0.7 pour créatif)
  • Ne pas préciser la langue de réponse

Mesurer la qualité d’un prompt

  1. Construire un dataset de test (50-200 exemples avec sortie attendue)
  2. Définir des metrics (exact match, BLEU, F1, ou LLM-as-judge)
  3. Lancer le prompt sur le dataset, mesurer le score
  4. Itérer sur le prompt, refaire tourner, comparer

❓ Questions fréquentes

Faut-il dire « please » à un LLM ?

Étude OpenAI 2025 : la politesse améliore légèrement (1-3%) la qualité sur certaines tâches, surtout en français. Effet de l’entraînement sur des conversations humaines naturelles.

Quelle température utiliser ?

0 pour extraction, classification, code (déterministe). 0.5-0.7 pour rédaction. 0.9-1.2 pour créativité (storytelling). Au-delà de 1.5 = incohérent.

Les techniques marchent-elles avec tous les modèles ?

Les principes (rôle, few-shot, format) oui. Les détails (XML pour Claude, structured outputs pour GPT) sont spécifiques. Adaptez vos prompts au modèle ciblé.

Comment apprendre le prompt engineering en 2026 ?

Pratique sur projets réels + lecture des cookbooks officiels (Anthropic Prompt Library, OpenAI Cookbook, DeepLearning.AI courses). Pas de raccourci miracle.

Conclusion

Maîtriser ces 15 techniques sépare les utilisateurs IA basiques des praticiens. Le gain n’est pas marginal : sur tâches métier, un prompt bien construit double souvent la précision et divise par 3 les hallucinations.

Laisser un commentaire