C'est quoi un rate limit sur une API ?

Un rate limit est une restriction imposée par le fournisseur d'une API sur le nombre de requêtes qu'un utilisateur peut envoyer par minute, par heure ou par jour. Il protège le service contre la surcharge. Par exemple, l'API OpenAI limite les requêtes à un certain nombre par minute selon le plan. Dépasser cette limite provoque une erreur HTTP 429 (Too Many Requests).

Quelle est la différence entre rate limit et quota ?

Le rate limit est une restriction de débit (nombre de requêtes par unité de temps — ex : 60 requêtes par minute). Le quota est une restriction de volume total (nombre total de requêtes ou de tokens sur une période — ex : 1 million de tokens par jour). On peut respecter le rate limit (ne pas envoyer trop vite) tout en dépassant son quota (avoir envoyé trop au total).

Comment gérer les erreurs 429 dans un workflow ?

Trois stratégies principales : le retry avec backoff exponentiel (attendre 1s, puis 2s, puis 4s avant de réessayer), la limitation proactive (espacer les requêtes en amont pour ne jamais atteindre la limite), et la file d'attente (accumuler les requêtes et les envoyer au rythme autorisé). n8n et Make proposent des options de retry automatique configurables sur chaque module HTTP.

Quels sont les rate limits courants des API d'IA ?

Les limites varient selon le fournisseur et le plan. OpenAI : 500-10 000 requêtes par minute selon le tier. Anthropic (Claude) : 50-4 000 requêtes par minute selon le tier. Google Gemini : 60-1 000 requêtes par minute. Ces limites s'appliquent généralement par clé API et augmentent progressivement avec l'historique d'utilisation et le plan tarifaire.

Qu'est-ce qu'un rate limit ? Définition et exemples

Qu’est-ce qu’un rate limit ?

Un rate limit (limite de débit) est une restriction imposée par une API sur le nombre de requêtes autorisées par unité de temps. C’est un mécanisme de protection : il empêche un utilisateur ou une application de surcharger le service et garantit un accès équitable à tous les utilisateurs.

Quand la limite est dépassée, l’API retourne une erreur HTTP 429 — Too Many Requests. La requête n’est pas traitée et doit être renvoyée plus tard.

Types de rate limits

Par requêtes (RPM — Requests Per Minute)

La limite la plus courante : un nombre maximum de requêtes par minute. Par exemple, 60 RPM signifie qu’il est possible d’envoyer au maximum 1 requête par seconde en moyenne.

Par tokens (TPM — Tokens Per Minute)

Spécifique aux API de LLM. La limite porte sur le nombre total de tokens traités par minute (entrée + sortie combinées). Un long prompt avec une longue réponse consomme plus de “capacité” qu’un échange court.

Par jour ou par mois (quota)

Certaines API imposent un plafond global sur une période plus longue. Le plan gratuit de l’API OpenAI impose par exemple un quota de dépense mensuel.

Par endpoint

Différents endpoints d’une même API peuvent avoir des limites différentes. L’endpoint de chat (génération de texte) a souvent une limite plus restrictive que l’endpoint de liste de modèles.

Rate limits des principales API d’IA

Fournisseur	Plan	RPM	TPM
OpenAI	Tier 1	500	200 000
OpenAI	Tier 5	10 000	10 000 000
Anthropic	Tier 1	50	40 000
Anthropic	Tier 4	4 000	400 000
Google Gemini	Gratuit	15	1 000 000

Ces chiffres évoluent régulièrement. Consulter la documentation officielle de chaque fournisseur pour les valeurs à jour.

Gérer les rate limits dans un workflow

Retry avec backoff exponentiel

La stratégie standard : en cas d’erreur 429, attendre avant de réessayer, en doublant le délai à chaque tentative.

Première tentative → erreur 429
Attendre 1 seconde → retry
Attendre 2 secondes → retry
Attendre 4 secondes → retry
Après N échecs → abandonner et signaler l’erreur

La plupart des SDK (Anthropic, OpenAI) intègrent cette logique nativement. Dans n8n, l’option “Retry on Fail” avec un délai croissant reproduit ce comportement.

Limitation proactive

Plutôt que de réagir aux erreurs 429, espacer les requêtes en amont pour ne jamais dépasser la limite. Si le rate limit est de 60 RPM, envoyer une requête toutes les 1,1 secondes garantit de rester en dessous.

File d’attente (queue)

Pour les traitements batch, accumuler les requêtes dans une file d’attente et les envoyer au rythme autorisé. Cette approche est plus robuste que le retry car elle évite les pics de charge.

Bonnes pratiques

Lire les headers de réponse : les API renvoient généralement les headers X-RateLimit-Remaining et X-RateLimit-Reset qui indiquent le quota restant et le moment de réinitialisation
Choisir le bon modèle : pour les traitements batch à haut volume, un modèle rapide (Haiku, GPT-4o mini) a souvent des limites plus élevées qu’un modèle premium (Opus, GPT-4o)
Paralléliser avec précaution : lancer 10 requêtes en parallèle multiplie par 10 la vitesse de consommation du rate limit. Utiliser un pool de concurrence limité
Monitorer les erreurs 429 : un pic d’erreurs 429 dans les logs signale un workflow mal dimensionné ou un pic d’activité non anticipé

Rate limit (Limite de débit)