C'est quoi le fine-tuning en IA ?

Le fine-tuning en IA est une technique qui consiste à reprendre un modèle de langage déjà pré-entraîné (comme GPT-4o ou Llama) et à l'entraîner à nouveau sur un jeu de données spécifique. L'objectif est d'adapter le modèle à une tâche précise, un domaine métier ou un style de réponse particulier, sans repartir de zéro. C'est une approche clé dans le domaine de l'IA générative.

Quelle est la différence entre fine-tuning et RAG ?

Le fine-tuning modifie les poids du modèle pour qu'il intègre de nouvelles connaissances ou un nouveau style de réponse. Le RAG (Retrieval-Augmented Generation) injecte des documents pertinents dans le prompt au moment de la requête, sans modifier le modèle. Le RAG est plus simple à mettre en place et à maintenir. Le fine-tuning est préférable lorsque vous souhaitez changer le comportement ou le format de sortie du modèle.

Combien de données faut-il pour un fine-tuning efficace ?

Cela dépend de l'objectif. Pour ajuster le style ou le format de réponse, 50 à 100 exemples de qualité suffisent souvent. Pour injecter des connaissances métier spécifiques, il faut plutôt 500 à 5 000 exemples. La qualité prime toujours sur la quantité : 100 exemples bien rédigés valent mieux que 10 000 exemples bruités.

Combien coûte un fine-tuning ?

Le coût dépend du modèle et du volume de données. Sur OpenAI, fine-tuner GPT-4o mini coûte environ 3 $ par million de tokens d'entraînement. Un dataset de 500 exemples revient à quelques dollars. L'inférence sur un modèle fine-tuné est légèrement plus chère que sur le modèle de base.

Qu'est-ce que le fine-tuning ? Définition et exemples

Qu’est-ce que le fine-tuning ?

Le fine-tuning consiste à prendre un modèle de langage déjà entraîné (GPT-4o, Llama, Mistral) et à ajuster ses paramètres internes en le ré-entraînant sur un jeu de données ciblé. Le résultat : un modèle qui conserve ses capacités générales tout en excellant sur une tâche spécifique. Ce procédé est au cœur de l’IA générative moderne.

Cela revient à former un employé polyvalent à un poste précis. Il garde ses compétences de base mais devient expert dans son domaine.

Quand utiliser le fine-tuning

Le fine-tuning est pertinent dans des cas précis. Il ne remplace pas le prompt engineering ou le RAG — il les complète.

Le fine-tuning est adapté quand :

Vous souhaitez un format de sortie très spécifique (JSON structuré, style rédactionnel précis, ton de marque)
Vous avez besoin de réduire la latence en éliminant les instructions longues dans le system prompt
Le modèle doit maîtriser un vocabulaire métier que le prompting seul ne suffit pas à enseigner
Vous souhaitez réduire les coûts en remplaçant un gros modèle + long prompt par un petit modèle fine-tuné

Le fine-tuning n’est PAS adapté quand :

Vos données changent souvent (le RAG est meilleur pour ça)
Vous avez besoin de citer vos sources (le RAG permet la traçabilité)
Un bon prompt avec quelques exemples (few-shot) suffit déjà

Les étapes du fine-tuning

1. Préparer le dataset

Le format standard est un fichier JSONL avec des paires prompt/complétion :

{"messages": [{"role": "system", "content": "Vous êtes un assistant juridique."}, {"role": "user", "content": "Résumez cet article de loi."}, {"role": "assistant", "content": "Cet article stipule que..."}]}

Chaque ligne représente un exemple complet de conversation. La qualité de ces exemples détermine directement la qualité du modèle final. Le choix de la temperature lors de l’inférence viendra ensuite moduler la créativité des réponses générées.

2. Choisir le modèle de base

GPT-4o mini : bon rapport qualité/prix pour la plupart des cas
Llama 3 : open-source, fine-tunable localement sans dépendance cloud
Mistral : performant en français, licence permissive

3. Lancer l’entraînement

Sur l’API OpenAI, c’est un appel API. En local avec des modèles open-source, vous utilisez des outils comme Hugging Face Transformers, Axolotl ou Unsloth. Avant de lancer l’entraînement, il est essentiel de bien comprendre le rôle de l’embedding dans la représentation vectorielle des données.

Les hyperparamètres clés à surveiller :

Nombre d’epochs : combien de fois le modèle voit l’ensemble du dataset (2 à 4 en général)
Learning rate : la vitesse d’apprentissage (trop haut = le modèle oublie ses acquis, trop bas = il n’apprend rien)
Batch size : le nombre d’exemples traités simultanément

4. Évaluer et itérer

Testez le modèle fine-tuné sur des exemples qu’il n’a jamais vus. Comparez avec le modèle de base + prompt équivalent. Si la différence n’est pas significative, le fine-tuning n’était probablement pas nécessaire.

Techniques avancées

LoRA (Low-Rank Adaptation) : ne modifie qu’une fraction des poids du modèle. Réduit le coût de calcul de 90 % tout en conservant la performance.
QLoRA : combine LoRA avec la quantification pour fine-tuner des modèles de 70B de paramètres sur un seul GPU.
DPO (Direct Preference Optimization) : aligne le modèle sur des préférences humaines sans avoir besoin d’un modèle de récompense séparé.

Le fine-tuning est un outil puissant, mais ce n’est pas la première solution à envisager. Commencez toujours par le prompt engineering, puis le RAG, et ne passez au fine-tuning que si les résultats ne sont pas suffisants.

Fine-tuning