C'est quoi le context window d'un LLM ?

Le context window (fenêtre de contexte) est la limite maximale de tokens qu'un modèle de langage peut lire et produire en une seule interaction. Il inclut tout : le system prompt, l'historique de conversation, les documents injectés et la réponse générée. Au-delà de cette limite, le modèle ne peut plus traiter de texte supplémentaire.

Quelle est la différence entre context window et max tokens ?

Le context window désigne la capacité totale du modèle (entrée + sortie combinées). Le paramètre max_tokens contrôle uniquement la longueur maximale de la réponse générée (sortie). Par exemple, Claude Opus 4.6 a un context window de 200 000 tokens, mais vous pouvez limiter sa réponse à 1 000 tokens via max_tokens.

Quel modèle a le plus grand context window en 2026 ?

En 2026, Gemini 2.5 Pro et Claude proposent des context windows allant jusqu'à 1 million de tokens, soit environ 700 000 mots. GPT-4o offre 128 000 tokens. Ces tailles continuent d'augmenter à chaque nouvelle génération de modèles.

Un context window plus grand donne-t-il de meilleures réponses ?

Pas nécessairement. Les études montrent que les LLM tendent à accorder moins d'attention aux informations situées au milieu d'un long contexte (phénomène dit 'lost in the middle'). Un contexte plus court mais pertinent produit souvent de meilleurs résultats qu'un contexte long rempli d'informations superflues. C'est pourquoi le RAG sélectionne des fragments ciblés plutôt que d'injecter des documents entiers.

Qu'est-ce que le context window ? Définition et exemples

Qu’est-ce que le context window ?

Le context window (fenêtre de contexte) est la capacité maximale de texte qu’un LLM peut traiter en une seule requête. Mesurée en tokens, cette limite englobe tout ce qui entre dans le modèle (prompt, instructions, documents) et tout ce qui en sort (la réponse générée).

C’est comparable à la mémoire de travail humaine : plus la fenêtre est grande, plus le modèle peut considérer d’informations simultanément pour formuler sa réponse.

Tailles de context window par modèle

Les capacités varient considérablement selon les modèles et les fournisseurs. Voici les repères en 2026 :

Modèle	Context window	Équivalent approximatif
Claude Opus 4.6	200 000 tokens	~150 000 mots
Claude Sonnet 4.6	200 000 tokens	~150 000 mots
Gemini 2.5 Pro	1 000 000 tokens	~700 000 mots
GPT-4o	128 000 tokens	~96 000 mots
Llama 3.1 405B	128 000 tokens	~96 000 mots

Pour convertir : en français, 1 token correspond en moyenne à 0,7 mot, soit environ 3 caractères.

Comment le context window est utilisé

Répartition entrée/sortie

Le context window est partagé entre les tokens en entrée et les tokens en sortie. Si le modèle a une fenêtre de 200 000 tokens et que le prompt en consomme 180 000, il ne reste que 20 000 tokens pour la réponse.

Le system prompt consomme du contexte

Les instructions système (system prompt) sont comptées dans le context window à chaque requête. Un system prompt de 2 000 tokens réduit d’autant l’espace disponible pour le contenu utile. C’est pourquoi les system prompts doivent rester concis.

L’historique de conversation s’accumule

Dans un chatbot multi-tours, chaque message précédent est renvoyé au modèle à chaque nouvelle requête. L’historique grossit progressivement jusqu’à atteindre la limite du context window. À ce stade, il faut tronquer ou résumer les messages les plus anciens.

Context window et RAG

Le RAG est en partie une réponse aux limites du context window. Plutôt que d’injecter la totalité d’une base documentaire dans le prompt (ce qui dépasserait la fenêtre), le RAG sélectionne les fragments les plus pertinents via des embeddings et une recherche vectorielle.

Même avec des context windows d’un million de tokens, le RAG reste pertinent pour trois raisons :

Coût : chaque token en entrée est facturé. Injecter 500 000 tokens à chaque requête coûte considérablement plus cher que d’injecter 5 000 tokens ciblés
Qualité : un contexte ciblé et pertinent produit de meilleures réponses qu’un contexte massif mais dilué
Latence : le temps de traitement augmente avec la taille du contexte

Limites et bonnes pratiques

Le phénomène “lost in the middle” : les LLM tendent à mieux retenir les informations en début et en fin de contexte. Les éléments situés au milieu d’un long prompt reçoivent moins d’attention. Placer les informations critiques en début ou en fin de prompt améliore les résultats.
Le prompt caching : Anthropic et OpenAI proposent des mécanismes de cache qui réduisent le coût des tokens en entrée de 90 % lorsque le préfixe du prompt est identique entre les requêtes. Cette technique rend les longs system prompts économiquement viables.
La troncature intelligente : quand le contexte dépasse la fenêtre, il vaut mieux résumer les anciens messages que de les supprimer brutalement, pour préserver la cohérence de la conversation.

Context window (Fenêtre de contexte)