RAG : Définition du Retrieval-Augmented Generation

Qu’est-ce qu’un RAG ?

Un RAG (Retrieval-Augmented Generation) est une architecture qui permet à un LLM (un modèle d’intelligence artificielle comme GPT-4 ou Claude) de répondre à des questions en s’appuyant sur votre propre base de connaissances, plutôt que sur ses données d’entraînement génériques.

Sans RAG, un LLM ne connaît pas votre documentation interne, vos produits, vos procédures, ni les informations publiées après sa date d’entraînement. Avec un RAG, il interroge votre contenu en temps réel et construit ses réponses à partir de sources que vous contrôlez.

C’est la brique technique qui transforme un assistant généraliste en un assistant expert de votre activité : un chatbot de support qui s’appuie sur votre base de connaissances, un outil d’aide à la décision qui lit vos rapports internes, un assistant commercial qui connait votre catalogue.

Comment fonctionne un RAG ?

Le fonctionnement repose sur deux phases distinctes qui ne s’exécutent pas au même moment.

Phase 1 : l’indexation (une fois, en amont)

Avant que votre assistant puisse répondre, le contenu que vous souhaitez rendre interrogeable doit être transformé et stocké. Cette phase se déroule une seule fois (puis à chaque mise à jour du contenu).

Découpage du contenu : vos documents sont découpés en petits fragments de texte. Un article de 5 pages produit ainsi une dizaine de fragments distincts. Un fragment trop long produit une réponse floue ; trop court, il manque de contexte pour être utile.

Vectorisation des fragments : chaque fragment est transformé en une représentation numérique (appelée “embedding”) par un modèle spécialisé. Cette représentation capture le sens du texte plutôt que ses mots exacts. Deux phrases qui parlent de la même chose produisent des représentations proches, même si elles n’ont aucun mot en commun.

Stockage dans une base vectorielle : ces représentations sont stockées dans une base de données spécialisée (Pinecone, pgvector, Qdrant…) optimisée pour retrouver rapidement les fragments les plus proches d’une question donnée.

Notre article sur l'indexation des embeddings

Phase 2 : la recherche (à chaque question)

Quand un utilisateur pose une question, le RAG exécute la séquence suivante en quelques centaines de millisecondes :

Vectorisation de la question : la question est transformée en représentation numérique par le même modèle que celui utilisé lors de l’indexation.
Requête sur la base : le système identifie les fragments dont la représentation est la plus proche de celle de la question. Ce sont les passages les plus pertinents pour y répondre.
Génération de la réponse : les passages sélectionnés sont envoyés au LLM avec la question. Le LLM construit sa réponse à partir de ces extraits, en citant ses sources si l’implémentation le prévoit.

Cette architecture garantit que chaque réponse est ancrée dans votre contenu, pas dans des données génériques ou potentiellement inventées.

Les leviers d’optimisation d’un système RAG

La qualité d’un RAG se mesure à sa précision : retrouve-t-il le bon passage au bon moment ? Plusieurs leviers permettent d’améliorer cette précision.

La sélection des sources : un RAG ne compense pas un contenu obsolète ou contradictoire. Indexer 15 articles qui paraphrasent le même sujet dilue le signal utile. Des sources à jour, faisant autorité et non redondantes sont le premier prérequis.
La stratégie de découpage : adapter la façon de diviser chaque type de document (articles par section, FAQ par paire question/réponse, fiches produit par groupe d’attributs) améliore significativement la précision des résultats par rapport à un découpage mécanique uniforme.
L’enrichissement des fragments : préfixer chaque fragment par le titre de son article et de sa section améliore la richesse sémantique de sa représentation numérique. Un paragraphe sorti de son contexte peut être ambigu ; avec son titre d’article, il est ancré.
Le filtrage par métadonnées : attacher des informations à chaque fragment (date, type de contenu, audience cible) permet d’exclure des contenus obsolètes ou hors sujet avant même la recherche sémantique.
L’évaluation continue : mesurer la qualité des réponses sur un jeu de questions de référence est le seul moyen de détecter les régressions et de piloter les améliorations dans la durée.

Combien coûte un RAG ?

Le coût d’un RAG se décompose en quatre postes.

L’indexation : facturation à l’usage par le fournisseur du modèle de vectorisation (OpenAI, Cohere, ou modèle open source auto-hébergé). Pour un corpus de 1 000 pages, le coût d’indexation avec les modèles OpenAI se situe entre quelques centimes et quelques euros. C’est un coût ponctuel, répété à chaque réindexation du contenu.
Le stockage vectoriel : les bases vectorielles managées facturent au volume de fragments stockés et aux requêtes. Pour un corpus de taille raisonnable (moins d’un million de fragments), les coûts mensuels se situent entre 0 et 70 euros. Une solution auto-hébergée (pgvector sur un serveur existant) ramène ce coût à zéro.
Le LLM génératif : c’est souvent le poste le plus significatif. Chaque réponse génère un appel à l’API du modèle (GPT-4o, Claude, Gemini…) facturé au volume de texte traité. Un assistant répondant à 1 000 questions par mois coûte entre 5 et 50 euros selon le modèle et la longueur des réponses.
Le développement : la mise en place d’un RAG en production représente entre 5 et 20 jours selon la complexité : nombre de sources, stratégie de découpage, interface utilisateur, intégration dans un système existant, mise en place de l’évaluation. Ce coût est ponctuel et ne se répète pas, contrairement aux coûts d’exploitation.

À retenir

Un RAG permet à un LLM de répondre à partir de votre propre contenu, sans réentraînement du modèle.
Le fonctionnement repose sur deux phases : l’indexation (en amont, une fois) et la recherche (à chaque question, en quelques centaines de millisecondes).
La qualité des réponses dépend à 80 % de la qualité de l’indexation : choix des sources, stratégie de découpage, enrichissement des fragments.
Le coût d’exploitation d’un RAG est principalement piloté par les appels au LLM génératif, pas par le stockage.
Un RAG en production représente entre 5 et 20 jours de développement selon la complexité.

Vous envisagez un assistant IA sur vos données ?

Construisons votre RAG sur mesure

De la définition des sources à la mise en production, nous vous accompagnons pour implémenter un système RAG fiable, ancré dans votre contenu et intégré à vos outils existants.

Parlons de votre projet

RAG : Retrieval-Augmented Generation