Qu’est-ce qu’un token ?
Un token est le fragment élémentaire qu’un LLM utilise pour lire et produire du texte. Avant de traiter une requête, le modèle ne voit pas des mots : il voit une séquence de tokens.
Le processus de découpage s’appelle la tokenisation. Chaque modèle possède son propre tokenizer qui détermine comment le texte est segmenté. Ce découpage influence directement la façon dont un embedding est calculé à partir du texte.
Comment fonctionne la tokenisation
Prenons un exemple concret. La phrase “L’intelligence artificielle transforme les entreprises” pourrait être découpée ainsi :
L'|intelli|gence|artific|ielle|transform|e|les|entreprises
Les mots fréquents restent entiers. Les mots rares ou longs sont découpés en sous-unités. Les espaces et la ponctuation comptent aussi comme des tokens.
Pourquoi les tokens comptent
Fenêtre de contexte
Chaque LLM a une fenêtre de contexte mesurée en tokens. C’est la quantité maximale de texte qu’il peut traiter en une seule requête (prompt + réponse combinés).
Quelques repères en 2026 :
- Claude Opus 4.6 : 1 million de tokens (environ 700 000 mots)
- GPT-4o : 128 000 tokens
- Gemini 2.5 Pro : 1 million de tokens
Coût d’utilisation
Les API facturent par token. Voici un ordre de grandeur pour les modèles populaires (tarifs indicatifs, consultez la documentation officielle pour les prix à jour) :
- Claude Sonnet 4.6 : 3 $ / million tokens en entrée, 15 $ / million en sortie
- GPT-4o : 2,50 $ / million en entrée, 10 $ / million en sortie
Un workflow qui traite 100 emails par jour avec des prompts de 500 tokens chacun consomme environ 50 000 tokens en entrée par jour, soit quelques centimes.
Performance et qualité
Plus le contexte fourni est pertinent (donc riche en tokens utiles), meilleure est la réponse. Mais au-delà d’un certain seuil, ajouter du texte inutile dilue l’attention du modèle et dégrade la qualité. C’est un enjeu central dans les architectures RAG, où il faut sélectionner les bons fragments à injecter dans le prompt.
Optimiser sa consommation de tokens
- Rester concis dans ses prompts : chaque mot superflu coûte des tokens. Aller droit au but.
- Utiliser le system prompt intelligemment : placer les instructions fixes dans le system prompt plutôt que de les répéter à chaque message.
- Limiter la longueur de sortie : le paramètre
max_tokenspermet de contrôler la taille de la réponse générée. - Mettre en cache les prompts récurrents : Anthropic et OpenAI proposent le prompt caching, qui réduit le coût des tokens en entrée de 90 % pour les préfixes identiques.
Tokens et cas d’usage avancés
La gestion des tokens intervient dans plusieurs contextes techniques. Lors d’un fine-tuning, le nombre de tokens du dataset d’entraînement impacte directement le coût et la durée du processus. Un agent IA qui enchaîne plusieurs appels consomme des tokens à chaque étape, ce qui rend l’optimisation d’autant plus importante.
Compter ses tokens
Pour estimer le nombre de tokens avant d’envoyer une requête :
- Tokenizer OpenAI : l’outil en ligne tiktoken donne un comptage exact pour les modèles GPT
- API Anthropic : le comptage de tokens est retourné dans chaque réponse API
- Règle rapide : en français, diviser le nombre de caractères par 3 donne une estimation approximative
Comprendre les tokens, c’est comprendre le coût et les limites de chaque interaction avec un LLM. C’est la base avant d’optimiser ses prompts ou de dimensionner un projet IA.
Termes associés
Questions fréquentes
Combien de tokens représente un mot en français ?
En moyenne, un mot français correspond à 1,3 à 1,5 token. Les mots courants (le, de, est) font souvent 1 token. Les mots longs ou rares (automatisation, infrastructure) sont découpés en 2 à 4 tokens. Un texte de 1 000 mots représente environ 1 300 à 1 500 tokens.
Pourquoi les tokens sont-ils importants pour le coût des API ?
Les fournisseurs d'API (OpenAI, Anthropic, Google) facturent à l'usage en tokens. Le prix est calculé par million de tokens en entrée (le prompt envoyé) et par million de tokens en sortie (la réponse du modèle). Plus le prompt est long, plus le coût augmente. Optimiser ses prompts revient directement à réduire sa facture.
Quelle est la différence entre tokens en entrée et tokens en sortie ?
Les tokens en entrée (input) correspondent à tout ce qui est envoyé au modèle : le prompt, le contexte, les instructions système. Les tokens en sortie (output) correspondent à la réponse générée par le modèle. Les tokens en sortie sont généralement 3 à 5 fois plus chers que les tokens en entrée.
Comment compter le nombre de tokens d'un texte ?
Plusieurs outils permettent de compter les tokens avant d'envoyer une requête. Pour les modèles OpenAI, la bibliothèque Python tiktoken donne un comptage exact. Anthropic propose son propre tokenizer accessible via l'API. Des outils en ligne comme le Tokenizer de OpenAI offrent également un comptage interactif. En règle générale, diviser le nombre de caractères par 3 donne une estimation approximative pour le français.