Aller au contenu principal
Glossaire / Inférence
Modèles & LLM Intermédiaire

Inférence

L'inférence est le processus par lequel un modèle d'IA entraîné génère une sortie (texte, image, prédiction) à partir d'une entrée, en appliquant les patterns appris pendant l'entraînement.

Qu’est-ce que l’inférence ?

L’inférence est le processus par lequel un modèle d’IA entraîné génère une réponse à partir d’une entrée. C’est l’étape d’utilisation, par opposition à l’entraînement. Chaque fois qu’un LLM produit du texte en réponse à un prompt, il effectue de l’inférence.

Concrètement, le modèle prend les tokens d’entrée, les fait passer à travers son réseau de neurones (des milliards de paramètres), et produit des tokens de sortie un par un, chacun influencé par le paramètre de température qui contrôle le caractère aléatoire de la génération.

Entraînement vs inférence

AspectEntraînementInférence
ObjectifApprendre des patternsAppliquer les patterns appris
DuréeSemaines à moisMillisecondes à secondes
CoûtMillions de dollarsFractions de centime par requête
MatérielMilliers de GPU en parallèleUn ou quelques GPU
FréquenceUne fois (puis fine-tuning)À chaque requête utilisateur
DonnéesCorpus d’entraînement massifLe prompt de l’utilisateur

L’entraînement est un investissement ponctuel. L’inférence est un coût récurrent qui s’accumule avec le nombre d’utilisateurs et de requêtes.

Comment fonctionne l’inférence dans un LLM

Génération token par token

Un LLM ne génère pas sa réponse d’un bloc. Il produit un token à la fois, de manière séquentielle :

  1. Le modèle reçoit le prompt complet (tokens d’entrée)
  2. Il calcule la probabilité de chaque token possible pour la suite
  3. Il sélectionne un token (influencé par la température)
  4. Ce token est ajouté au contexte, et le processus recommence
  5. La boucle s’arrête quand le modèle produit un token de fin ou atteint la limite max_tokens

Ce processus explique pourquoi les réponses longues prennent plus de temps et coûtent plus cher : chaque token de sortie nécessite un passage complet dans le réseau de neurones.

Le rôle du matériel

L’inférence repose sur des GPU spécialisés (NVIDIA A100, H100, ou les TPU de Google). La vitesse d’inférence dépend de la taille du modèle, du matériel disponible et des optimisations logicielles. Un modèle de 7 milliards de paramètres via Ollama peut tourner sur un GPU grand public. Un modèle de 405 milliards de paramètres nécessite plusieurs GPU professionnels.

Coût d’inférence par modèle

Les fournisseurs d’API facturent par million de tokens, avec un tarif différent pour l’entrée et la sortie :

ModèleEntrée (par M tokens)Sortie (par M tokens)
Claude Sonnet 4.63 $15 $
GPT-4o2,50 $10 $
Claude Haiku 4.50,80 $4 $

Les tokens de sortie coûtent 3 à 5 fois plus que les tokens d’entrée, car chaque token de sortie nécessite un calcul séquentiel complet.

Optimiser l’inférence

  • Choisir le bon modèle : un modèle plus petit (Haiku, GPT-4o mini) suffit souvent pour des tâches simples comme la classification ou l’extraction de données. Réserver les modèles puissants (Opus, GPT-4o) pour le raisonnement complexe
  • Réduire le contexte : supprimer les informations non pertinentes du prompt. Le RAG permet d’injecter uniquement les fragments utiles plutôt que des documents entiers
  • Prompt caching : réutiliser le préfixe du prompt entre les requêtes pour réduire le coût d’entrée de 90 %
  • Inférence locale : pour les cas d’usage qui ne nécessitent pas les modèles les plus performants, Ollama permet de faire tourner des modèles open-source localement sans coût API

Termes associés

Questions fréquentes

C'est quoi l'inférence en IA ?

L'inférence est le moment où un modèle d'IA déjà entraîné utilise ce qu'il a appris pour produire un résultat. Quand vous envoyez un prompt à Claude ou GPT et recevez une réponse, c'est de l'inférence. Le modèle ne s'entraîne pas à ce moment-là — il applique ses connaissances existantes pour générer du texte, token par token.

Quelle est la différence entre entraînement et inférence ?

L'entraînement est la phase où le modèle apprend à partir de milliards de textes — il ajuste ses paramètres internes (poids). Ce processus coûte des millions de dollars et prend des semaines sur des milliers de GPU. L'inférence est la phase d'utilisation : le modèle applique ce qu'il a appris pour répondre à une requête. L'inférence est rapide (quelques secondes) et peu coûteuse par requête.

Pourquoi l'inférence est-elle facturée au token ?

L'inférence consomme de la puissance de calcul (GPU) pour chaque token généré. Plus la réponse est longue, plus le modèle doit effectuer de calculs. Les fournisseurs d'API facturent donc par million de tokens, avec un tarif différent pour les tokens en entrée (moins coûteux) et les tokens en sortie (plus coûteux, car chaque token de sortie nécessite un passage complet dans le réseau de neurones).

Comment réduire le coût d'inférence ?

Quatre leviers principaux : utiliser un modèle plus petit quand la tâche le permet (Haiku au lieu d'Opus), réduire la taille du prompt en supprimant le contexte inutile, limiter la longueur de la réponse via max_tokens, et activer le prompt caching pour éviter de retraiter les mêmes instructions à chaque requête. Le passage à un modèle local via Ollama élimine le coût API mais nécessite du matériel adapté.

Un email concret. Chaque mardi.

Rejoins 52 000 abonnés. Un outil testé, un workflow à copier ou une méthode à appliquer — en 5 minutes de lecture.

Gratuit · Désinscription en un clic.