Question 1

C'est quoi l'inférence en IA ?

Accepted Answer

L'inférence est le moment où un modèle d'IA déjà entraîné utilise ce qu'il a appris pour produire un résultat. Quand vous envoyez un prompt à Claude ou GPT et recevez une réponse, c'est de l'inférence. Le modèle ne s'entraîne pas à ce moment-là — il applique ses connaissances existantes pour générer du texte, token par token.

Question 2

Quelle est la différence entre entraînement et inférence ?

Accepted Answer

L'entraînement est la phase où le modèle apprend à partir de milliards de textes — il ajuste ses paramètres internes (poids). Ce processus coûte des millions de dollars et prend des semaines sur des milliers de GPU. L'inférence est la phase d'utilisation : le modèle applique ce qu'il a appris pour répondre à une requête. L'inférence est rapide (quelques secondes) et peu coûteuse par requête.

Question 3

Pourquoi l'inférence est-elle facturée au token ?

Accepted Answer

L'inférence consomme de la puissance de calcul (GPU) pour chaque token généré. Plus la réponse est longue, plus le modèle doit effectuer de calculs. Les fournisseurs d'API facturent donc par million de tokens, avec un tarif différent pour les tokens en entrée (moins coûteux) et les tokens en sortie (plus coûteux, car chaque token de sortie nécessite un passage complet dans le réseau de neurones).

Question 4

Comment réduire le coût d'inférence ?

Accepted Answer

Quatre leviers principaux : utiliser un modèle plus petit quand la tâche le permet (Haiku au lieu d'Opus), réduire la taille du prompt en supprimant le contexte inutile, limiter la longueur de la réponse via max_tokens, et activer le prompt caching pour éviter de retraiter les mêmes instructions à chaque requête. Le passage à un modèle local via Ollama élimine le coût API mais nécessite du matériel adapté.

Aspect	Entraînement	Inférence
Objectif	Apprendre des patterns	Appliquer les patterns appris
Durée	Semaines à mois	Millisecondes à secondes
Coût	Millions de dollars	Fractions de centime par requête
Matériel	Milliers de GPU en parallèle	Un ou quelques GPU
Fréquence	Une fois (puis fine-tuning)	À chaque requête utilisateur
Données	Corpus d’entraînement massif	Le prompt de l’utilisateur

Modèle	Entrée (par M tokens)	Sortie (par M tokens)
Claude Sonnet 4.6	3 $	15 $
GPT-4o	2,50 $	10 $
Claude Haiku 4.5	0,80 $	4 $

Inférence

Qu’est-ce que l’inférence ?

Entraînement vs inférence

Comment fonctionne l’inférence dans un LLM

Génération token par token

Le rôle du matériel

Coût d’inférence par modèle

Optimiser l’inférence

Termes associés

Questions fréquentes

Un email concret. Chaque mardi.