Qu’est-ce qu’un vector store ?
Un vector store (ou base vectorielle) est une base de données conçue pour stocker et rechercher des vecteurs — des représentations numériques du sens des données. Un texte, une image, un son : tout peut être converti en vecteur par un modèle d’embedding, puis stocké dans un vector store.
L’intérêt principal : la recherche par similarité sémantique. Au lieu de chercher des mots-clés exacts, vous cherchez des concepts proches. “Comment résilier mon abonnement” retrouvera un document intitulé “Procédure d’annulation de contrat” — parce que le sens est le même.
Comment ça fonctionne ?
Le processus se déroule en trois étapes :
1. Transformation en vecteurs (embedding)
Un modèle d’embedding convertit vos données en vecteurs — des listes de nombres flottants (typiquement 768 à 3072 dimensions). Deux textes au sens similaire produisent des vecteurs proches dans l’espace mathématique.
2. Indexation
Le vector store organise ces vecteurs avec des algorithmes d’indexation spécialisés (HNSW, IVF, etc.) pour permettre des recherches rapides même sur des millions de vecteurs. Sans indexation, chaque recherche nécessiterait de comparer la requête à tous les vecteurs — bien trop lent.
3. Recherche par similarité
Lors d’une requête, celle-ci est d’abord convertie en vecteur, puis le vector store identifie les vecteurs les plus proches grâce à des métriques de distance :
- Distance cosinus — mesure l’angle entre deux vecteurs. La plus courante.
- Distance euclidienne — mesure la distance géométrique directe.
- Produit scalaire — rapide et efficace quand les vecteurs sont normalisés.
Le rôle du vector store dans le RAG
Le RAG (Retrieval-Augmented Generation) est le cas d’usage principal des vector stores. Le principe :
- Vous stockez votre documentation, vos FAQs, vos données métier dans un vector store
- Quand un utilisateur pose une question, vous cherchez les passages les plus pertinents
- Vous injectez ces passages dans le prompt du LLM comme contexte
- Le LLM génère une réponse basée sur vos données — pas sur ses connaissances génériques
Sans vector store, le RAG ne fonctionne pas. C’est la brique qui permet au LLM de “connaître” vos données spécifiques et de réduire drastiquement le risque d’hallucination.
Comparatif des solutions
| Solution | Type | Idéal pour |
|---|---|---|
| Pinecone | Cloud managé | Production à grande échelle |
| Weaviate | Open source | Recherche hybride (vecteur + mot-clé) |
| Qdrant | Open source | Performance et flexibilité |
| Chroma | Open source | Prototypage rapide et projets légers |
| pgvector | Extension PostgreSQL | Intégration dans un stack Postgres existant |
Plusieurs de ces solutions sont open source et compatibles avec une approche self-hosting, ce qui permet de garder le contrôle total sur vos données et votre infrastructure.
Bonnes pratiques
Pour tirer le meilleur de votre vector store :
- Découpez vos documents en chunks cohérents (300-500 tokens). Trop gros = perte de précision, trop petit = perte de contexte
- Choisissez le bon modèle d’embedding — la qualité de la recherche dépend directement de la qualité des embeddings
- Combinez recherche vectorielle et mot-clé (recherche hybride) pour les meilleurs résultats
- Mettez à jour régulièrement — des embeddings obsolètes donnent des résultats obsolètes
- Testez la pertinence — mesurez le recall et la précision de vos recherches sur des requêtes réelles
Termes associés
Questions fréquentes
C'est quoi un vector store en termes simples ?
Un vector store est une base de données qui stocke des informations sous forme de listes de nombres (vecteurs). Ces vecteurs capturent le sens des données — pas juste les mots exacts. Lors d'une recherche, le vector store trouve les éléments dont le sens est le plus proche de la requête, même si les mots utilisés sont différents.
Pourquoi utiliser un vector store plutôt qu'une base de données classique ?
Une base de données classique (SQL, NoSQL) recherche par correspondance exacte de mots-clés. Un vector store recherche par proximité sémantique : il comprend que 'voiture' et 'automobile' sont des concepts proches. C'est indispensable pour le RAG, la recherche sémantique et toute application où le sens compte plus que les mots exacts.
Quels sont les meilleurs vector stores en 2026 ?
Les solutions les plus utilisées en 2026 sont Pinecone (cloud managé, simple à déployer), Weaviate (open source, hybride), Qdrant (open source, performant), Chroma (léger, idéal pour le prototypage) et pgvector (extension PostgreSQL, pratique si vous utilisez déjà Postgres). Le choix dépend du volume de données, du budget et de l'infrastructure existante.
Quelle est la différence entre un vector store et un vector database ?
En pratique, les deux termes sont souvent utilisés de manière interchangeable. Cependant, un vector store désigne généralement un composant de stockage vectoriel intégré à un pipeline (comme dans un framework RAG), tandis qu'un vector database désigne un système de base de données complet avec gestion de la persistance, de l'indexation, du contrôle d'accès et de la scalabilité. Pinecone et Qdrant sont des vector databases ; le module vectoriel de LangChain est un vector store.