Qu’est-ce qu’un rate limit ?
Un rate limit (limite de débit) est une restriction imposée par une API sur le nombre de requêtes autorisées par unité de temps. C’est un mécanisme de protection : il empêche un utilisateur ou une application de surcharger le service et garantit un accès équitable à tous les utilisateurs.
Quand la limite est dépassée, l’API retourne une erreur HTTP 429 — Too Many Requests. La requête n’est pas traitée et doit être renvoyée plus tard.
Types de rate limits
Par requêtes (RPM — Requests Per Minute)
La limite la plus courante : un nombre maximum de requêtes par minute. Par exemple, 60 RPM signifie qu’il est possible d’envoyer au maximum 1 requête par seconde en moyenne.
Par tokens (TPM — Tokens Per Minute)
Spécifique aux API de LLM. La limite porte sur le nombre total de tokens traités par minute (entrée + sortie combinées). Un long prompt avec une longue réponse consomme plus de “capacité” qu’un échange court.
Par jour ou par mois (quota)
Certaines API imposent un plafond global sur une période plus longue. Le plan gratuit de l’API OpenAI impose par exemple un quota de dépense mensuel.
Par endpoint
Différents endpoints d’une même API peuvent avoir des limites différentes. L’endpoint de chat (génération de texte) a souvent une limite plus restrictive que l’endpoint de liste de modèles.
Rate limits des principales API d’IA
| Fournisseur | Plan | RPM | TPM |
|---|---|---|---|
| OpenAI | Tier 1 | 500 | 200 000 |
| OpenAI | Tier 5 | 10 000 | 10 000 000 |
| Anthropic | Tier 1 | 50 | 40 000 |
| Anthropic | Tier 4 | 4 000 | 400 000 |
| Google Gemini | Gratuit | 15 | 1 000 000 |
Ces chiffres évoluent régulièrement. Consulter la documentation officielle de chaque fournisseur pour les valeurs à jour.
Gérer les rate limits dans un workflow
Retry avec backoff exponentiel
La stratégie standard : en cas d’erreur 429, attendre avant de réessayer, en doublant le délai à chaque tentative.
- Première tentative → erreur 429
- Attendre 1 seconde → retry
- Attendre 2 secondes → retry
- Attendre 4 secondes → retry
- Après N échecs → abandonner et signaler l’erreur
La plupart des SDK (Anthropic, OpenAI) intègrent cette logique nativement. Dans n8n, l’option “Retry on Fail” avec un délai croissant reproduit ce comportement.
Limitation proactive
Plutôt que de réagir aux erreurs 429, espacer les requêtes en amont pour ne jamais dépasser la limite. Si le rate limit est de 60 RPM, envoyer une requête toutes les 1,1 secondes garantit de rester en dessous.
File d’attente (queue)
Pour les traitements batch, accumuler les requêtes dans une file d’attente et les envoyer au rythme autorisé. Cette approche est plus robuste que le retry car elle évite les pics de charge.
Bonnes pratiques
- Lire les headers de réponse : les API renvoient généralement les headers
X-RateLimit-RemainingetX-RateLimit-Resetqui indiquent le quota restant et le moment de réinitialisation - Choisir le bon modèle : pour les traitements batch à haut volume, un modèle rapide (Haiku, GPT-4o mini) a souvent des limites plus élevées qu’un modèle premium (Opus, GPT-4o)
- Paralléliser avec précaution : lancer 10 requêtes en parallèle multiplie par 10 la vitesse de consommation du rate limit. Utiliser un pool de concurrence limité
- Monitorer les erreurs 429 : un pic d’erreurs 429 dans les logs signale un workflow mal dimensionné ou un pic d’activité non anticipé
Termes associés
Questions fréquentes
C'est quoi un rate limit sur une API ?
Un rate limit est une restriction imposée par le fournisseur d'une API sur le nombre de requêtes qu'un utilisateur peut envoyer par minute, par heure ou par jour. Il protège le service contre la surcharge. Par exemple, l'API OpenAI limite les requêtes à un certain nombre par minute selon le plan. Dépasser cette limite provoque une erreur HTTP 429 (Too Many Requests).
Quelle est la différence entre rate limit et quota ?
Le rate limit est une restriction de débit (nombre de requêtes par unité de temps — ex : 60 requêtes par minute). Le quota est une restriction de volume total (nombre total de requêtes ou de tokens sur une période — ex : 1 million de tokens par jour). On peut respecter le rate limit (ne pas envoyer trop vite) tout en dépassant son quota (avoir envoyé trop au total).
Comment gérer les erreurs 429 dans un workflow ?
Trois stratégies principales : le retry avec backoff exponentiel (attendre 1s, puis 2s, puis 4s avant de réessayer), la limitation proactive (espacer les requêtes en amont pour ne jamais atteindre la limite), et la file d'attente (accumuler les requêtes et les envoyer au rythme autorisé). n8n et Make proposent des options de retry automatique configurables sur chaque module HTTP.
Quels sont les rate limits courants des API d'IA ?
Les limites varient selon le fournisseur et le plan. OpenAI : 500-10 000 requêtes par minute selon le tier. Anthropic (Claude) : 50-4 000 requêtes par minute selon le tier. Google Gemini : 60-1 000 requêtes par minute. Ces limites s'appliquent généralement par clé API et augmentent progressivement avec l'historique d'utilisation et le plan tarifaire.