Aller au contenu principal
Glossaire / RAG (Retrieval-Augmented Generation)
Techniques & Méthodes Avancé

RAG (Retrieval-Augmented Generation)

Le RAG est une technique qui enrichit les réponses d'un LLM en lui fournissant des documents pertinents récupérés depuis une base de connaissances externe avant la génération.

Qu’est-ce que le RAG ?

Le RAG (Retrieval-Augmented Generation) est une architecture qui combine un système de recherche documentaire avec un LLM. Le principe : au lieu de demander au modèle de tout savoir par cœur, on lui fournit les documents pertinents au moment de la question.

C’est la différence entre un étudiant qui passe un examen à livre fermé (LLM classique) et un étudiant qui peut consulter ses notes (LLM + RAG). Le second sera plus précis, plus fiable, et pourra citer ses sources.

Comment fonctionne un pipeline RAG

Un système RAG se décompose en trois étapes :

1. Indexation (en amont)

Vos documents (PDF, pages web, bases de données, wikis internes) sont découpés en chunks (morceaux de texte), puis convertis en embeddings — des représentations numériques qui capturent le sens sémantique du texte. Ces embeddings sont stockés dans un vector store (base de données vectorielle).

2. Retrieval (à la requête)

Quand l’utilisateur pose une question, cette question est aussi convertie en embedding. Le système cherche dans le vector store les chunks dont les embeddings sont les plus proches sémantiquement. C’est une recherche par similarité, pas par mots-clés.

3. Generation (réponse)

Les chunks récupérés sont injectés dans le prompt du LLM comme contexte. Le modèle génère sa réponse en s’appuyant sur ces documents, pas uniquement sur sa mémoire d’entraînement.

RAG vs Fine-tuning : quand utiliser quoi ?

CritèreRAGFine-tuning
Données à jourOui — mise à jour sans ré-entraînementNon — nécessite un nouveau cycle d’entraînement
CoûtFaible (infrastructure de recherche)Élevé (GPU, données annotées, temps)
TraçabilitéSources citablesBoîte noire
Personnalisation du tonLimitéeForte
Cas d’usage idéalBase de connaissances, documentation, supportStyle d’écriture spécifique, tâche de niche

En pratique, les deux ne sont pas mutuellement exclusifs. Un modèle fine-tuné peut aussi utiliser du RAG pour combiner personnalisation et accès aux données fraîches.

Les composants techniques clés

  • Embeddings — Vecteurs numériques qui représentent le sens d’un texte. Produits par des modèles spécialisés (OpenAI text-embedding, Cohere Embed, BGE)
  • Vector store — Base de données optimisée pour la recherche vectorielle (Pinecone, Weaviate, ChromaDB, pgvector)
  • Chunking — Stratégie de découpage du texte (par paragraphe, par section, par nombre de tokens). Un mauvais chunking = un mauvais RAG
  • Reranking — Étape optionnelle qui réordonne les résultats de recherche par pertinence avant de les envoyer au LLM

Les pièges courants du RAG

Le RAG n’est pas magique. Les erreurs fréquentes :

  • Chunks trop petits ou trop grands — Trop petits, ils perdent le contexte. Trop grands, ils noient l’information pertinente
  • Mauvaise qualité des données sources — Si vos documents sont obsolètes ou contradictoires, le RAG amplifie le problème
  • Pas de reranking — La similarité vectorielle seule ne garantit pas la pertinence. Le reranking filtre le bruit
  • Ignorer les métadonnées — Filtrer par date, source ou catégorie avant la recherche vectorielle améliore significativement la précision

L’importance du RAG

Le RAG résout le problème fondamental des LLM : leur connaissance est figée à la date d’entraînement. Avec le RAG, votre LLM accède à vos données, en temps réel, avec des sources traçables. C’est le composant clé pour passer d’un chatbot générique à un assistant qui connaît votre contexte.

Concrètement, le RAG s’intègre dans des architectures variées : un chatbot de support interne qui répond via une API, un workflow n8n qui enrichit automatiquement les requêtes utilisateurs, ou encore un agent IA qui consomme un nombre de tokens maîtrisé grâce au contexte ciblé fourni par le retrieval.

Vidéo explicative

Termes associés

Questions fréquentes

C'est quoi le RAG en IA ?

Le RAG (Retrieval-Augmented Generation) est une technique qui permet à un LLM de consulter une base de documents externe avant de générer sa réponse. Au lieu de s'appuyer uniquement sur sa mémoire d'entraînement, le modèle récupère d'abord les passages les plus pertinents par rapport à votre question, puis les utilise comme contexte pour produire une réponse précise et sourcée.

Quelle est la différence entre RAG et fine-tuning ?

Le fine-tuning modifie les poids du modèle en le ré-entraînant sur des données spécifiques — c'est permanent et coûteux. Le RAG ne touche pas au modèle : il lui fournit des documents au moment de la requête. Le RAG est plus flexible (les données se mettent à jour sans ré-entraînement), moins cher, et plus facile à auditer car les sources sont traçables.

Pourquoi le RAG réduit les hallucinations ?

Le RAG réduit les hallucinations parce que le LLM base sa réponse sur des documents fournis explicitement, pas sur sa mémoire d'entraînement qui peut être imprécise. Si le contexte récupéré contient la bonne information, le modèle s'y ancre. Le risque d'hallucination ne disparaît pas totalement, mais il diminue significativement.

Quels outils utiliser pour créer un pipeline RAG ?

Pour mettre en place un pipeline RAG, vous avez besoin de trois composants principaux : un modèle d'embedding (OpenAI text-embedding, Cohere Embed, ou des modèles open-source comme BGE), un vector store pour stocker et rechercher vos embeddings (ChromaDB, Pinecone, Weaviate, pgvector), et un LLM pour la génération (GPT-4, Claude, ou un modèle local via Ollama). Côté orchestration, des frameworks comme LangChain ou LlamaIndex facilitent l'assemblage. Pour les utilisateurs no-code, des outils comme n8n permettent de construire un pipeline RAG complet via une interface visuelle.

Un email concret. Chaque mardi.

Rejoins 52 000 abonnés. Un outil testé, un workflow à copier ou une méthode à appliquer — en 5 minutes de lecture.

Gratuit · Désinscription en un clic.