Qu’est-ce qu’Ollama ?
Ollama est un outil open source qui permet d’exécuter des LLM directement sur votre machine. Pas de cloud, pas d’API payante, pas de données envoyées à l’extérieur. Vous téléchargez un modèle, vous le lancez, et il tourne en local — c’est le self-hosting appliqué à l’intelligence artificielle.
L’analogie la plus parlante : Ollama fait pour les LLM ce que Docker fait pour les applications. Il package les modèles avec leurs dépendances et simplifie leur exécution en une seule commande.
Installation et premier lancement
L’installation d’Ollama prend moins de deux minutes :
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Puis lancer un modèle
ollama run llama3.2
C’est tout. Ollama télécharge le modèle (une seule fois), le charge en mémoire, et ouvre un chat dans le terminal. Vous pouvez immédiatement poser des questions, demander du code, ou analyser du texte.
Les modèles disponibles
Ollama donne accès à un catalogue large de modèles open source :
| Modèle | Taille | Usage principal |
|---|---|---|
| Llama 3.2 | 1B / 3B | Polyvalent, bon rapport qualité/taille |
| Mistral | 7B | Rapide, efficace en français |
| Qwen 2.5 | 7B / 14B / 72B | Multilingue, performant en code |
| CodeLlama | 7B / 13B | Spécialisé code |
| Phi-3 | 3.8B | Ultra-léger, idéal pour les petites machines |
| DeepSeek Coder | 6.7B / 33B | Code et raisonnement |
Pour installer un modèle : ollama pull <nom-du-modèle>. Pour le lancer : ollama run <nom-du-modèle>.
Pourquoi utiliser Ollama ?
Confidentialité totale
Vos données ne quittent jamais votre machine. Pour les entreprises avec des contraintes de confidentialité ou les freelances qui travaillent sur des projets sensibles, c’est un argument décisif.
Zéro coût d’usage
Pas de facturation par token, pas d’abonnement mensuel. Une fois le modèle téléchargé, vous l’utilisez autant que vous voulez. Le seul coût est l’électricité et le matériel.
Mode hors ligne
Ollama fonctionne sans connexion internet. Pratique en déplacement, dans un environnement air-gapped, ou simplement pour travailler sans dépendre d’un service cloud.
Utiliser Ollama comme API locale
Ollama expose une API REST locale sur le port 11434. Vous pouvez l’intégrer dans n’importe quelle application :
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Explique le pattern MVC en 3 phrases"
}'
Cette API est compatible avec le format OpenAI, ce qui signifie que la plupart des outils qui supportent l’API OpenAI fonctionnent directement avec Ollama en changeant simplement l’URL de base.
Cas d’usage concrets
- Développement — autocomplétion de code dans VS Code avec Continue, revue de code locale
- RAG local — coupler Ollama avec un vector store pour interroger vos documents privés
- Automatisation — intégrer un LLM local dans vos workflows n8n sans coût API
- Fine-tuning accessible — adapter un modèle de base à votre domaine métier grâce au fine-tuning, puis le déployer localement via Ollama
- Expérimentation — tester différents modèles rapidement pour trouver le meilleur pour votre cas d’usage
Les limites
Les modèles locaux sont moins performants que les meilleurs modèles cloud propriétaires (Claude, GPT-4o) sur les tâches complexes de raisonnement. La vitesse de génération dépend de votre matériel — un MacBook Air sera plus lent qu’un serveur avec GPU. Pour les cas d’usage critiques, une approche hybride (local pour le quotidien, API cloud pour les tâches complexes) est souvent le meilleur compromis.
Vidéo explicative
Termes associés
Questions fréquentes
C'est quoi Ollama ?
Ollama est un logiciel open source qui simplifie l'exécution de grands modèles de langage (LLM) directement sur votre ordinateur. En une seule commande, vous téléchargez et exécutez des modèles comme Llama, Mistral ou Qwen — sans cloud, sans abonnement, sans envoyer vos données à l'extérieur.
Quelle configuration faut-il pour utiliser Ollama ?
Le minimum recommandé dépend du modèle. Pour un modèle 7B (Mistral, Qwen 2.5), 8 Go de RAM suffisent. Pour un modèle 13B-14B, prévoyez 16 Go. Pour les modèles 70B, il faut 64 Go de RAM ou un GPU dédié. Ollama fonctionne sur macOS (Apple Silicon optimal), Linux et Windows.
Ollama est-il gratuit ?
Ollama est entièrement gratuit et open source (licence MIT). Les modèles téléchargeables sont aussi gratuits. Le seul coût est le matériel — votre ordinateur fait tourner le modèle. Pas d'abonnement, pas de facturation à l'usage, pas de limite de requêtes.
Quelle est la différence entre Ollama et une API cloud ?
Avec Ollama, le modèle tourne sur votre machine : vos données restent privées, il n'y a aucun coût par token et cela fonctionne hors ligne. Avec une API cloud (OpenAI, Anthropic), vous accédez à des modèles plus puissants mais vos requêtes transitent par des serveurs distants, chaque appel est facturé et une connexion internet est requise. L'approche hybride — Ollama pour le quotidien, API cloud pour les tâches complexes — est souvent le meilleur compromis.