Qu’est-ce que la température d’un LLM ?
La température est un hyperparamètre qui contrôle la distribution de probabilité des tokens lors de la génération de texte. Utilisée dans tous les systèmes d’IA générative basés sur des LLM, elle détermine à quel point le modèle “ose” choisir des mots moins probables.
- Température basse (0-0.3) : le modèle privilégie les tokens les plus probables. Les réponses sont prévisibles, factuelles et répétables.
- Température haute (0.7-1.5) : le modèle explore davantage de possibilités. Les réponses sont plus variées, créatives mais potentiellement moins fiables, avec un risque accru d’hallucination.
Comment fonctionne la température techniquement ?
Avant de sélectionner le prochain token, le modèle calcule un score (logit) pour chaque token possible de son vocabulaire. La température intervient dans la fonction softmax qui transforme ces scores en probabilités :
P(token_i) = exp(logit_i / T) / Σ exp(logit_j / T)
Avec T = température :
- Quand T tend vers 0, la distribution se concentre sur le token ayant le score le plus élevé
- Quand T = 1, la distribution correspond aux probabilités brutes du modèle
- Quand T > 1, la distribution s’aplatit et les tokens moins probables gagnent en poids
Impact concret sur les réponses
Exemple avec la question : “Quel est le meilleur langage de programmation ?”
Température 0 : “Il n’existe pas de meilleur langage universel. Le choix dépend du contexte : Python pour le data science, JavaScript pour le web, Rust pour les performances.”
Température 1.2 : “C’est un peu comme demander quel est le meilleur instrument de musique — chaque langage a sa propre mélodie ! Python chante pour les data scientists, JavaScript danse dans les navigateurs…”
La première réponse est structurée et factuelle. La seconde utilise des métaphores et un ton plus libre.
Valeurs recommandées par cas d’usage
| Cas d’usage | Température | Raison |
|---|---|---|
| Extraction de données | 0 | Précision maximale, pas de variation |
| Résumé factuel | 0 - 0.2 | Fidélité au texte source |
| Chatbot support | 0.1 - 0.3 | Réponses fiables et cohérentes |
| Rédaction de contenu | 0.5 - 0.7 | Bon équilibre créativité/pertinence |
| Brainstorming | 0.8 - 1.2 | Exploration maximale des idées |
| Écriture créative | 0.9 - 1.5 | Originalité et surprises textuelles |
Température vs Top-p (nucleus sampling)
La température n’est pas le seul paramètre de contrôle. Le top-p (ou nucleus sampling) est une alternative complémentaire :
- Top-p = 0.9 : le modèle ne considère que les tokens dont la probabilité cumulée atteint 90%
- On peut combiner température et top-p, mais la plupart des providers recommandent d’ajuster l’un ou l’autre, pas les deux simultanément
En pratique, la température est le paramètre le plus intuitif et le plus utilisé.
Bonnes pratiques
- Commencez bas : partez d’une température de 0.2 et augmentez progressivement selon vos besoins
- Testez sur vos données : l’impact varie selon le modèle et le type de prompt
- Adaptez au contexte : utilisez des températures différentes selon les étapes d’un pipeline (basse pour l’analyse, haute pour la génération créative)
- Intégrez la température à votre system prompt : définissez la température en cohérence avec les instructions de votre system prompt pour garantir un comportement homogène du modèle
- Documentez vos choix : la température fait partie intégrante de la configuration d’un prompt en production
Termes associés
Questions fréquentes
Quelle température utiliser pour un chatbot ?
Pour un chatbot de support client, utilisez une température entre 0 et 0.3 pour des réponses fiables et cohérentes. Pour un chatbot créatif ou conversationnel, une température entre 0.5 et 0.8 apporte plus de variété tout en restant pertinent.
Une température à 0 donne-t-elle toujours la même réponse ?
Presque. À température 0, le modèle choisit systématiquement le token le plus probable, ce qui rend la sortie quasi déterministe. De légères variations peuvent subsister selon l'implémentation et le batching, mais en pratique les réponses sont très reproductibles.
La température augmente-t-elle les hallucinations ?
Une température élevée augmente effectivement le risque d'hallucination, car le modèle sélectionne davantage de tokens moins probables, ce qui peut conduire à des associations de mots incohérentes ou des faits inventés. Pour les tâches factuelles, préférez une température basse.
C'est quoi la température d'un LLM ?
La température d'un LLM est un paramètre qui contrôle le degré d'aléatoire lors de la génération de texte. Une valeur basse (proche de 0) rend les réponses prévisibles et factuelles, tandis qu'une valeur haute (proche de 1 ou au-delà) produit des réponses plus variées et créatives. Ce réglage influence directement la distribution de probabilité des tokens candidats.
Quelle est la différence entre température et top-p ?
La température modifie l'ensemble de la distribution de probabilité des tokens en la rendant plus ou moins uniforme. Le top-p (nucleus sampling) filtre les tokens en ne conservant que ceux dont la probabilité cumulée atteint un certain seuil. Les deux contrôlent la diversité des réponses, mais par des mécanismes différents. La plupart des fournisseurs recommandent d'ajuster l'un ou l'autre, pas les deux simultanément.