Ollama est un logiciel open source qui simplifie l'exécution de grands modèles de langage (LLM) directement sur votre ordinateur. En une seule commande, vous téléchargez et exécutez des modèles comme Llama, Mistral ou Qwen — sans cloud, sans abonnement, sans envoyer vos données à l'extérieur.

Quelle configuration faut-il pour utiliser Ollama ?

Le minimum recommandé dépend du modèle. Pour un modèle 7B (Mistral, Qwen 2.5), 8 Go de RAM suffisent. Pour un modèle 13B-14B, prévoyez 16 Go. Pour les modèles 70B, il faut 64 Go de RAM ou un GPU dédié. Ollama fonctionne sur macOS (Apple Silicon optimal), Linux et Windows.

Ollama est-il gratuit ?

Ollama est entièrement gratuit et open source (licence MIT). Les modèles téléchargeables sont aussi gratuits. Le seul coût est le matériel — votre ordinateur fait tourner le modèle. Pas d'abonnement, pas de facturation à l'usage, pas de limite de requêtes.

Quelle est la différence entre Ollama et une API cloud ?

Avec Ollama, le modèle tourne sur votre machine : vos données restent privées, il n'y a aucun coût par token et cela fonctionne hors ligne. Avec une API cloud (OpenAI, Anthropic), vous accédez à des modèles plus puissants mais vos requêtes transitent par des serveurs distants, chaque appel est facturé et une connexion internet est requise. L'approche hybride — Ollama pour le quotidien, API cloud pour les tâches complexes — est souvent le meilleur compromis.

Qu'est-ce qu'Ollama ?

Qu’est-ce qu’Ollama ?

Ollama est un outil open source qui permet d’exécuter des LLM directement sur votre machine. Pas de cloud, pas d’API payante, pas de données envoyées à l’extérieur. Vous téléchargez un modèle, vous le lancez, et il tourne en local — c’est le self-hosting appliqué à l’intelligence artificielle.

L’analogie la plus parlante : Ollama fait pour les LLM ce que Docker fait pour les applications. Il package les modèles avec leurs dépendances et simplifie leur exécution en une seule commande.

Installation et premier lancement

L’installation d’Ollama prend moins de deux minutes :

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Puis lancer un modèle
ollama run llama3.2

C’est tout. Ollama télécharge le modèle (une seule fois), le charge en mémoire, et ouvre un chat dans le terminal. Vous pouvez immédiatement poser des questions, demander du code, ou analyser du texte.

Les modèles disponibles

Ollama donne accès à un catalogue large de modèles open source :

Modèle	Taille	Usage principal
Llama 3.2	1B / 3B	Polyvalent, bon rapport qualité/taille
Mistral	7B	Rapide, efficace en français
Qwen 2.5	7B / 14B / 72B	Multilingue, performant en code
CodeLlama	7B / 13B	Spécialisé code
Phi-3	3.8B	Ultra-léger, idéal pour les petites machines
DeepSeek Coder	6.7B / 33B	Code et raisonnement

Pour installer un modèle : ollama pull <nom-du-modèle>. Pour le lancer : ollama run <nom-du-modèle>.

Pourquoi utiliser Ollama ?

Confidentialité totale

Vos données ne quittent jamais votre machine. Pour les entreprises avec des contraintes de confidentialité ou les freelances qui travaillent sur des projets sensibles, c’est un argument décisif.

Zéro coût d’usage

Pas de facturation par token, pas d’abonnement mensuel. Une fois le modèle téléchargé, vous l’utilisez autant que vous voulez. Le seul coût est l’électricité et le matériel.

Mode hors ligne

Ollama fonctionne sans connexion internet. Pratique en déplacement, dans un environnement air-gapped, ou simplement pour travailler sans dépendre d’un service cloud.

Utiliser Ollama comme API locale

Ollama expose une API REST locale sur le port 11434. Vous pouvez l’intégrer dans n’importe quelle application :

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Explique le pattern MVC en 3 phrases"
}'

Cette API est compatible avec le format OpenAI, ce qui signifie que la plupart des outils qui supportent l’API OpenAI fonctionnent directement avec Ollama en changeant simplement l’URL de base.

Cas d’usage concrets

Développement — autocomplétion de code dans VS Code avec Continue, revue de code locale
RAG local — coupler Ollama avec un vector store pour interroger vos documents privés
Automatisation — intégrer un LLM local dans vos workflows n8n sans coût API
Fine-tuning accessible — adapter un modèle de base à votre domaine métier grâce au fine-tuning, puis le déployer localement via Ollama
Expérimentation — tester différents modèles rapidement pour trouver le meilleur pour votre cas d’usage

Les limites

Les modèles locaux sont moins performants que les meilleurs modèles cloud propriétaires (Claude, GPT-4o) sur les tâches complexes de raisonnement. La vitesse de génération dépend de votre matériel — un MacBook Air sera plus lent qu’un serveur avec GPU. Pour les cas d’usage critiques, une approche hybride (local pour le quotidien, API cloud pour les tâches complexes) est souvent le meilleur compromis.

Ollama