Qu’est-ce que l’inférence ?
L’inférence est le processus par lequel un modèle d’IA entraîné génère une réponse à partir d’une entrée. C’est l’étape d’utilisation, par opposition à l’entraînement. Chaque fois qu’un LLM produit du texte en réponse à un prompt, il effectue de l’inférence.
Concrètement, le modèle prend les tokens d’entrée, les fait passer à travers son réseau de neurones (des milliards de paramètres), et produit des tokens de sortie un par un, chacun influencé par le paramètre de température qui contrôle le caractère aléatoire de la génération.
Entraînement vs inférence
| Aspect | Entraînement | Inférence |
|---|---|---|
| Objectif | Apprendre des patterns | Appliquer les patterns appris |
| Durée | Semaines à mois | Millisecondes à secondes |
| Coût | Millions de dollars | Fractions de centime par requête |
| Matériel | Milliers de GPU en parallèle | Un ou quelques GPU |
| Fréquence | Une fois (puis fine-tuning) | À chaque requête utilisateur |
| Données | Corpus d’entraînement massif | Le prompt de l’utilisateur |
L’entraînement est un investissement ponctuel. L’inférence est un coût récurrent qui s’accumule avec le nombre d’utilisateurs et de requêtes.
Comment fonctionne l’inférence dans un LLM
Génération token par token
Un LLM ne génère pas sa réponse d’un bloc. Il produit un token à la fois, de manière séquentielle :
- Le modèle reçoit le prompt complet (tokens d’entrée)
- Il calcule la probabilité de chaque token possible pour la suite
- Il sélectionne un token (influencé par la température)
- Ce token est ajouté au contexte, et le processus recommence
- La boucle s’arrête quand le modèle produit un token de fin ou atteint la limite max_tokens
Ce processus explique pourquoi les réponses longues prennent plus de temps et coûtent plus cher : chaque token de sortie nécessite un passage complet dans le réseau de neurones.
Le rôle du matériel
L’inférence repose sur des GPU spécialisés (NVIDIA A100, H100, ou les TPU de Google). La vitesse d’inférence dépend de la taille du modèle, du matériel disponible et des optimisations logicielles. Un modèle de 7 milliards de paramètres via Ollama peut tourner sur un GPU grand public. Un modèle de 405 milliards de paramètres nécessite plusieurs GPU professionnels.
Coût d’inférence par modèle
Les fournisseurs d’API facturent par million de tokens, avec un tarif différent pour l’entrée et la sortie :
| Modèle | Entrée (par M tokens) | Sortie (par M tokens) |
|---|---|---|
| Claude Sonnet 4.6 | 3 $ | 15 $ |
| GPT-4o | 2,50 $ | 10 $ |
| Claude Haiku 4.5 | 0,80 $ | 4 $ |
Les tokens de sortie coûtent 3 à 5 fois plus que les tokens d’entrée, car chaque token de sortie nécessite un calcul séquentiel complet.
Optimiser l’inférence
- Choisir le bon modèle : un modèle plus petit (Haiku, GPT-4o mini) suffit souvent pour des tâches simples comme la classification ou l’extraction de données. Réserver les modèles puissants (Opus, GPT-4o) pour le raisonnement complexe
- Réduire le contexte : supprimer les informations non pertinentes du prompt. Le RAG permet d’injecter uniquement les fragments utiles plutôt que des documents entiers
- Prompt caching : réutiliser le préfixe du prompt entre les requêtes pour réduire le coût d’entrée de 90 %
- Inférence locale : pour les cas d’usage qui ne nécessitent pas les modèles les plus performants, Ollama permet de faire tourner des modèles open-source localement sans coût API
Termes associés
Questions fréquentes
C'est quoi l'inférence en IA ?
L'inférence est le moment où un modèle d'IA déjà entraîné utilise ce qu'il a appris pour produire un résultat. Quand vous envoyez un prompt à Claude ou GPT et recevez une réponse, c'est de l'inférence. Le modèle ne s'entraîne pas à ce moment-là — il applique ses connaissances existantes pour générer du texte, token par token.
Quelle est la différence entre entraînement et inférence ?
L'entraînement est la phase où le modèle apprend à partir de milliards de textes — il ajuste ses paramètres internes (poids). Ce processus coûte des millions de dollars et prend des semaines sur des milliers de GPU. L'inférence est la phase d'utilisation : le modèle applique ce qu'il a appris pour répondre à une requête. L'inférence est rapide (quelques secondes) et peu coûteuse par requête.
Pourquoi l'inférence est-elle facturée au token ?
L'inférence consomme de la puissance de calcul (GPU) pour chaque token généré. Plus la réponse est longue, plus le modèle doit effectuer de calculs. Les fournisseurs d'API facturent donc par million de tokens, avec un tarif différent pour les tokens en entrée (moins coûteux) et les tokens en sortie (plus coûteux, car chaque token de sortie nécessite un passage complet dans le réseau de neurones).
Comment réduire le coût d'inférence ?
Quatre leviers principaux : utiliser un modèle plus petit quand la tâche le permet (Haiku au lieu d'Opus), réduire la taille du prompt en supprimant le contexte inutile, limiter la longueur de la réponse via max_tokens, et activer le prompt caching pour éviter de retraiter les mêmes instructions à chaque requête. Le passage à un modèle local via Ollama élimine le coût API mais nécessite du matériel adapté.