Qu’est-ce que le context window ?
Le context window (fenêtre de contexte) est la capacité maximale de texte qu’un LLM peut traiter en une seule requête. Mesurée en tokens, cette limite englobe tout ce qui entre dans le modèle (prompt, instructions, documents) et tout ce qui en sort (la réponse générée).
C’est comparable à la mémoire de travail humaine : plus la fenêtre est grande, plus le modèle peut considérer d’informations simultanément pour formuler sa réponse.
Tailles de context window par modèle
Les capacités varient considérablement selon les modèles et les fournisseurs. Voici les repères en 2026 :
| Modèle | Context window | Équivalent approximatif |
|---|---|---|
| Claude Opus 4.6 | 200 000 tokens | ~150 000 mots |
| Claude Sonnet 4.6 | 200 000 tokens | ~150 000 mots |
| Gemini 2.5 Pro | 1 000 000 tokens | ~700 000 mots |
| GPT-4o | 128 000 tokens | ~96 000 mots |
| Llama 3.1 405B | 128 000 tokens | ~96 000 mots |
Pour convertir : en français, 1 token correspond en moyenne à 0,7 mot, soit environ 3 caractères.
Comment le context window est utilisé
Répartition entrée/sortie
Le context window est partagé entre les tokens en entrée et les tokens en sortie. Si le modèle a une fenêtre de 200 000 tokens et que le prompt en consomme 180 000, il ne reste que 20 000 tokens pour la réponse.
Le system prompt consomme du contexte
Les instructions système (system prompt) sont comptées dans le context window à chaque requête. Un system prompt de 2 000 tokens réduit d’autant l’espace disponible pour le contenu utile. C’est pourquoi les system prompts doivent rester concis.
L’historique de conversation s’accumule
Dans un chatbot multi-tours, chaque message précédent est renvoyé au modèle à chaque nouvelle requête. L’historique grossit progressivement jusqu’à atteindre la limite du context window. À ce stade, il faut tronquer ou résumer les messages les plus anciens.
Context window et RAG
Le RAG est en partie une réponse aux limites du context window. Plutôt que d’injecter la totalité d’une base documentaire dans le prompt (ce qui dépasserait la fenêtre), le RAG sélectionne les fragments les plus pertinents via des embeddings et une recherche vectorielle.
Même avec des context windows d’un million de tokens, le RAG reste pertinent pour trois raisons :
- Coût : chaque token en entrée est facturé. Injecter 500 000 tokens à chaque requête coûte considérablement plus cher que d’injecter 5 000 tokens ciblés
- Qualité : un contexte ciblé et pertinent produit de meilleures réponses qu’un contexte massif mais dilué
- Latence : le temps de traitement augmente avec la taille du contexte
Limites et bonnes pratiques
- Le phénomène “lost in the middle” : les LLM tendent à mieux retenir les informations en début et en fin de contexte. Les éléments situés au milieu d’un long prompt reçoivent moins d’attention. Placer les informations critiques en début ou en fin de prompt améliore les résultats.
- Le prompt caching : Anthropic et OpenAI proposent des mécanismes de cache qui réduisent le coût des tokens en entrée de 90 % lorsque le préfixe du prompt est identique entre les requêtes. Cette technique rend les longs system prompts économiquement viables.
- La troncature intelligente : quand le contexte dépasse la fenêtre, il vaut mieux résumer les anciens messages que de les supprimer brutalement, pour préserver la cohérence de la conversation.
Termes associés
Questions fréquentes
C'est quoi le context window d'un LLM ?
Le context window (fenêtre de contexte) est la limite maximale de tokens qu'un modèle de langage peut lire et produire en une seule interaction. Il inclut tout : le system prompt, l'historique de conversation, les documents injectés et la réponse générée. Au-delà de cette limite, le modèle ne peut plus traiter de texte supplémentaire.
Quelle est la différence entre context window et max tokens ?
Le context window désigne la capacité totale du modèle (entrée + sortie combinées). Le paramètre max_tokens contrôle uniquement la longueur maximale de la réponse générée (sortie). Par exemple, Claude Opus 4.6 a un context window de 200 000 tokens, mais vous pouvez limiter sa réponse à 1 000 tokens via max_tokens.
Quel modèle a le plus grand context window en 2026 ?
En 2026, Gemini 2.5 Pro et Claude proposent des context windows allant jusqu'à 1 million de tokens, soit environ 700 000 mots. GPT-4o offre 128 000 tokens. Ces tailles continuent d'augmenter à chaque nouvelle génération de modèles.
Un context window plus grand donne-t-il de meilleures réponses ?
Pas nécessairement. Les études montrent que les LLM tendent à accorder moins d'attention aux informations situées au milieu d'un long contexte (phénomène dit 'lost in the middle'). Un contexte plus court mais pertinent produit souvent de meilleurs résultats qu'un contexte long rempli d'informations superflues. C'est pourquoi le RAG sélectionne des fragments ciblés plutôt que d'injecter des documents entiers.