C'est quoi la mémoire d'un agent IA ?

La mémoire d'un agent IA est le mécanisme qui lui permet de se souvenir des échanges précédents. Sans mémoire, un LLM traite chaque requête de manière isolée — il ne sait pas ce qui a été dit avant. La mémoire injecte l'historique des conversations ou des informations persistantes dans le contexte du modèle, lui permettant de maintenir une discussion cohérente.

Quelle est la différence entre mémoire et context window ?

Le context window est la capacité brute du modèle — le nombre maximum de tokens qu'il peut traiter en une requête. La mémoire est la stratégie de gestion de cette capacité : quelles informations conserver, lesquelles résumer, lesquelles oublier. Le context window est le contenant, la mémoire est la logique de remplissage.

Les LLM ont-ils une mémoire native ?

Non. Un LLM est stateless par défaut : chaque requête est traitée indépendamment. Ce que l'on perçoit comme de la 'mémoire' dans ChatGPT ou Claude est en réalité l'historique de conversation qui est renvoyé au modèle à chaque nouveau message. C'est l'application qui gère la mémoire, pas le modèle lui-même.

Comment implémenter la mémoire dans n8n ?

n8n propose plusieurs nœuds de mémoire pour les agents IA : Window Buffer Memory (conserve les N derniers messages), Token Buffer Memory (conserve les messages jusqu'à une limite de tokens), et Summary Memory (résume les anciens messages pour libérer de l'espace). Ces nœuds se connectent au nœud AI Agent pour gérer automatiquement le contexte entre les interactions.

Qu'est-ce que la mémoire en IA ? Définition et exemples

Qu’est-ce que la mémoire d’un agent IA ?

La mémoire d’un agent IA est le système qui lui permet de conserver des informations entre les interactions. Sans mémoire, un LLM traite chaque requête comme si c’était la première — il n’a aucun souvenir de ce qui a été dit ou fait avant.

La mémoire est ce qui fait la différence entre un chatbot qui répond à des questions isolées et un assistant qui suit un fil de conversation, se souvient des préférences et construit sur les échanges précédents.

Types de mémoire

Mémoire à court terme (conversation)

C’est la forme la plus courante. L’historique des messages récents est injecté dans le prompt à chaque nouvelle requête. Le LLM voit ainsi les échanges précédents et peut maintenir la cohérence.

Limite : la mémoire à court terme consomme des tokens du context window. Plus la conversation est longue, plus elle coûte cher et plus elle risque de dépasser la fenêtre de contexte.

Mémoire résumée (summary memory)

Au lieu de conserver chaque message intégralement, un résumé des échanges passés est généré automatiquement. Ce résumé est injecté dans le prompt à la place de l’historique complet, ce qui consomme beaucoup moins de tokens.

Compromis : les détails sont perdus au profit d’une vue d’ensemble. Utile pour les longues conversations où le contexte général importe plus que les échanges mot pour mot.

Mémoire à long terme (persistante)

Certaines informations sont stockées dans une base de données externe (vector store, base SQL) et récupérées quand elles sont pertinentes. C’est le croisement entre la mémoire et le RAG : les souvenirs sont vectorisés et recherchés par similarité sémantique.

Cas d’usage : un assistant qui se souvient des préférences de chaque utilisateur sur des semaines ou des mois, bien au-delà d’une seule session de conversation.

Mémoire dans les plateformes d’automatisation

n8n

n8n propose trois nœuds de mémoire pour les agents IA :

Window Buffer Memory : conserve les N derniers échanges (configurable). Simple et prévisible
Token Buffer Memory : conserve les messages jusqu’à une limite de tokens. Plus précis que le buffer par nombre de messages
Summary Memory : résume automatiquement les anciens messages via un LLM pour libérer de l’espace

Ces nœuds se connectent au nœud AI Agent et gèrent automatiquement l’injection du contexte dans le prompt.

ChatGPT et Claude

Les applications grand public gèrent la mémoire de manière transparente. ChatGPT offre une fonctionnalité “Memory” qui retient des faits entre les conversations. Claude maintient l’historique de la conversation en cours mais ne mémorise pas entre les sessions (sauf via des projets avec des instructions persistantes).

Mémoire et sub-agents

Dans une architecture multi-agents, la gestion de la mémoire se complexifie. L’agent principal et ses sub-agents peuvent avoir besoin de partager du contexte :

Mémoire isolée : chaque sub-agent a sa propre mémoire, sans accès à celle des autres. Plus simple mais risque de redondance
Mémoire partagée : les sub-agents accèdent à un espace mémoire commun. Plus cohérent mais plus complexe à gérer

Le choix dépend du cas d’usage. Pour un agent de support client, la mémoire partagée garantit que l’utilisateur ne doit pas répéter ses informations. Pour des agents de recherche indépendants, la mémoire isolée est suffisante.

Limites et bonnes pratiques

Le coût croît avec la mémoire : chaque token de contexte mémorisé est facturé à chaque requête. Une mémoire de 10 000 tokens sur un agent qui traite 100 requêtes par jour = 1 million de tokens d’entrée supplémentaires par jour
La mémoire n’est pas infaillible : un LLM peut mal interpréter ou ignorer des éléments de l’historique, surtout quand le contexte est long (phénomène “lost in the middle”)
Purger régulièrement : pour les agents en production, mettre en place une politique de rétention qui supprime ou résume les conversations anciennes pour éviter l’accumulation de données obsolètes
Séparer les faits des conversations : stocker les informations factuelles (préférences utilisateur, configuration) dans une base structurée plutôt que dans l’historique de conversation brut

Mémoire (agents IA)