Le Pipeline RAG : Comment les moteurs génératifs fonctionnent
Principe général
Tous les moteurs génératifs (ChatGPT Search, Google AI Overviews, Perplexity, Copilot) utilisent une architecture RAG (Retrieval-Augmented Generation). Le LLM ne répond pas uniquement à partir de sa mémoire d'entraînement — il cherche d'abord des documents récents sur le web, puis génère sa réponse en s'appuyant sur ces documents.
C'est la distinction fondamentale : le LLM ne "sait" pas tout. Il va chercher, lit, évalue, puis reformule.
Les 4 étapes du pipeline
Étape 1 : Reformulation de la requête
L'utilisateur pose une question en langage naturel, souvent longue (~23 mots en moyenne, contre ~4 pour une recherche Google classique).
Le LLM : - Interprète l'intention derrière la question - Décompose les requêtes complexes en sous-requêtes optimisées pour la recherche - Identifie les concepts clés et les entités
Exemple : "Quels sont les meilleurs outils pour suivre si mon site est cité par ChatGPT et Perplexity ?" → Le système peut décomposer en : "outils monitoring visibilité IA", "tracking citations ChatGPT", "suivi mentions Perplexity".
Étape 2 : Retrieval (récupération de documents)
Le système interroge un index web pour retrouver des documents candidats :
| Moteur | Index utilisé |
|---|---|
| Google AI Overviews | Index Google Search |
| ChatGPT Search | Index Bing + crawler OAI-SearchBot |
| Perplexity | Crawler propre (PerplexityBot) + index web |
| Copilot | Index Bing (technologie Prometheus) |
Le retrieval retourne typiquement 200 à 500 documents candidats qui correspondent aux sous-requêtes.
Point clé : si ton contenu n'est pas indexé ou si tu bloques les crawlers IA dans ton robots.txt, tu ne seras jamais dans ces 200-500 candidats. Le SEO technique reste donc le prérequis.
Étape 3 : Re-ranking et évaluation
C'est l'étape où le GEO se joue réellement. Les documents candidats sont évalués et filtrés — non plus au niveau de la page entière, mais au niveau du passage (un bloc de texte estimé à ~134-167 mots selon les analyses reverse-engineering de ZipTie.dev — ce ne sont pas des spécifications officielles de Google).
Le pipeline de Google AI Overviews (5 sous-étapes)
D'après l'analyse reverse-engineering de ZipTie.dev :
- Récupération sémantique : décomposition de requête avec embeddings sémantiques et correspondances de mots-clés
- Classement par similarité cosinus : seuil estimé > 0,88 pour l'alignement thématique (hypothèse ZipTie.dev, non confirmé par Google)
- Filtre E-E-A-T : fonction binaire (passe ou ne passe pas). 96% des citations proviendraient de sources qui dépassent ce seuil d'autorité (estimation ZipTie.dev)
- Re-ranking par Gemini : évaluation au niveau du passage. Recherche d'unités autocontenues d'environ 134-167 mots qui répondent complètement à une question sans contexte additionnel (estimation)
- Fusion de données : synthèse des passages sélectionnés en un aperçu cohérent avec citations intégrées
Résultat : 200-500 candidats → 5-15 sources citées.
Ce qui fait qu'un passage est sélectionné
- Densité d'entités Knowledge Graph : pages avec 15+ entités reconnues = probabilité de sélection 4,8x supérieure (source : ZipTie.dev, non confirmé par Google)
- Autocontenu : le passage doit fonctionner seul, sans avoir besoin de lire le reste de la page
- Contenu multimodal : texte + images + vidéo + données structurées = +156% de chances de sélection (source : ZipTie.dev, méthodologie non publiée)
- Données structurées : schemas FAQ, HowTo, Article = +73% (source : ZipTie.dev, non confirmé par Google)
- Autorité du domaine : corrélation en chute (r=0,43 → r=0,18 selon le papier Princeton). Beaucoup moins prédictif qu'avant
Étape 4 : Génération de la réponse
Le LLM synthétise une réponse cohérente en : - Fusionnant les informations des passages sélectionnés - Reformulant dans un langage fluide - Attribuant chaque affirmation à sa source (citation inline)
Le format de citation varie selon la plateforme :
- Perplexity : citations inline systématiques [1], [2], [3]... avec liste complète en bas
- Google AI Overviews : cartes cliquables à côté ou en dessous de la réponse
- ChatGPT Search : citations numérotées, souvent en fin de paragraphe
- Copilot : notes de bas de page numérotées
Différences de pipeline entre moteurs
Chaque moteur a son propre pipeline RAG. Une tactique qui fonctionne sur Perplexity ne sera pas forcément efficace sur Google AI Overviews.
| Dimension | Google AI Overviews | ChatGPT Search | Perplexity |
|---|---|---|---|
| Index source | Index Google Search | Index Bing + OAI-SearchBot | Crawler propre (PerplexityBot) |
| Modèle de re-ranking | Gemini | GPT-4o | Modèle propriétaire |
| Style de retrieval | Fortement lié au ranking organique existant (mais découplage en cours) | RAG en mode browse, moins dépendant du ranking | Search-first, cross-référence multiple sources |
| Taux de citation sourcée (requêtes complexes) | Variable | ~62% | ~78% |
| Sources préférées | Diversifiées, Reddit (2,2%), YouTube (1,9%) | Wikipedia (7,8%), contenu encyclopédique | Reddit (6,6%), contenu communautaire |
| Poids des signaux SEO classiques | Encore significatif (backlinks, DA) mais en baisse | Modéré | Faible — la substance du contenu prime |
| Fraîcheur | Pondérée via dateModified | Modérée | Forte — signal "2026" améliore le taux de citation de ~30% |
| Multimodal | +156% de sélection pour le contenu multimodal | Moins sensible | Moins sensible |
Sources : AuthorityTech, Stackmatix, ByteByteGo, Index.dev.
Implication clé
Il n'existe pas de stratégie GEO "one-size-fits-all". Optimiser pour un seul moteur est insuffisant. La bonne approche est de cibler les facteurs communs (contenu autocontenu, données originales, citations de sources) tout en adaptant les spécificités par plateforme.
Ce que ça implique pour l'optimisation
Chaque passage doit fonctionner seul
Puisque le LLM extrait des passages isolés (pas la page entière), chaque section de ton contenu doit : - Commencer par une réponse directe à une question implicite - Être compréhensible sans lire le reste de la page - Viser environ 134-167 mots (estimation, pas une règle absolue)
La profondeur bat les mots-clés
Le papier Princeton montre que le keyword stuffing diminue la visibilité de 8,7%. Les LLM reconnaissent le contenu manipulé. Ce qui fonctionne : la spécificité factuelle, les données chiffrées, les citations de sources crédibles.
L'indexation reste le prérequis
Un contenu invisible pour les index web (Google, Bing) ne sera jamais candidat au retrieval. Le SEO technique (crawlabilité, vitesse, architecture) reste la fondation.
Différence entre le RAG et le "savoir" du LLM
Attention à ne pas confondre :
- Données d'entraînement : ce que le LLM a "appris" pendant sa formation. Gelées à une date de coupure, pas de citation de source possible.
- RAG en temps réel : ce que le LLM va chercher sur le web au moment de la requête. C'est ici que le GEO intervient — optimiser pour être dans les résultats du retrieval.
Quand un utilisateur pose une question factuelle ou d'actualité, le moteur génératif utilise le RAG. Quand la question porte sur des connaissances générales stables, il peut répondre depuis ses données d'entraînement sans chercher sur le web.
Le GEO cible le premier cas : les requêtes qui déclenchent une recherche web.
Comment tester le pipeline sur votre propre contenu
Pas besoin d'accès aux spécifications internes des moteurs — voici une méthode praticienne pour valider si votre contenu est "RAG-compatible" :
Test 1 : Le test du passage isolé
Prenez chaque section H2/H3 de votre page. Copiez-la seule dans un document vierge. Est-elle compréhensible sans le reste de la page ? Si non, elle sera mal extraite par le RAG.
Test 2 : Le test multi-moteur
Pour vos 10-20 requêtes cibles, interrogez Google (avec AIO), ChatGPT, Perplexity et Copilot. Notez : - Êtes-vous cité ? Sur quel moteur ? - Quel passage exact est extrait ? - Quels concurrents sont cités à votre place et pourquoi ?
Test 3 : Le test de densité d'entités
Passez votre contenu dans un outil d'extraction d'entités (Google NLP API, TextRazor). Comptez les entités Knowledge Graph reconnues. Les pages avec 15+ entités ont une probabilité de sélection 4,8x supérieure.
Test 4 : Le test de fraîcheur
Vérifiez que votre dateModified est à jour dans le schema et visible dans le contenu. Un contenu non mis à jour depuis 6+ mois perd en citabilité — les pages non mises à jour trimestriellement sont 3x plus susceptibles de perdre leurs citations (Otterly.AI).
Fréquence recommandée
Répétez le test multi-moteur mensuellement sur vos requêtes prioritaires, et trimestriellement de façon complète. Les patterns de citation changent — une marque visible en novembre peut disparaître en février.