GEO Technique : Schema, llms.txt, robots.txt, crawlers IA
Les fondations techniques du GEO
Le GEO a un côté contenu (stratégies, earned media) et un côté technique. Ce document couvre les éléments techniques qui permettent aux moteurs IA d'accéder, comprendre et citer votre contenu.
1. Les crawlers IA : qui visite votre site
Chaque moteur IA a son propre crawler, en plus des crawlers classiques (Googlebot, Bingbot) :
| Crawler | Propriétaire | Rôle |
|---|---|---|
| GPTBot | OpenAI | Entraînement + ChatGPT Search |
| OAI-SearchBot | OpenAI | Recherche web ChatGPT (temps réel) |
| ChatGPT-User | OpenAI | Requêtes utilisateur ChatGPT |
| PerplexityBot | Perplexity | Indexation + recherche temps réel |
| ClaudeBot | Anthropic | Entraînement Claude |
| Googlebot | Indexation + AI Overviews | |
| Bingbot | Microsoft | Indexation + Copilot |
Vérifier qui vous crawle
Dans vos logs serveur, cherchez les user-agents correspondants. Si vous bloquez certains de ces crawlers (volontairement ou accidentellement), vous êtes invisible pour ces moteurs IA.
Fait notable : 73% des sites ont des barrières techniques bloquant l'accès des crawlers IA (OtterlyAI, 2026). Vérifiez que vous n'en faites pas partie.
Crawl budget IA : un enjeu croissant
Les crawlers IA représentent désormais 51,69% de tout le trafic crawler, dépassant les crawlers de recherche traditionnels (34,46%). ChatGPT crawle désormais 3,6x plus que Googlebot (Search Engine Journal, 2026).
Le problème du ratio crawl/referral
Tous les crawlers IA ne se valent pas en termes de retour sur investissement :
| Crawler | Ratio crawl:referral | Analyse |
|---|---|---|
| GPTBot (entraînement) | 1 276:1 | Consomme énormément de bande passante pour très peu de trafic retourné |
| PerplexityBot | 111:1 | Bien meilleur ROI, trafic referral en croissance |
| OAI-SearchBot (recherche) | Variable | Crawler de recherche temps réel — plus pertinent que GPTBot |
Source : SEOmator GEO Data Report 2026.
Stratégie recommandée
La distinction entraînement vs recherche devient critique pour le crawl budget :
# Bloquer les crawlers d'entraînement (crawl budget élevé, ROI faible)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
# Autoriser les crawlers de recherche temps réel (ROI élevé)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
Calcul coût-bénéfice
Coût = (Requêtes crawler/mois × Frais d'egress) + Charge CPU
Bénéfice = (Trafic referral) + (Conversions attribuées)
Pour les sites à fort trafic, bloquer GPTBot seul peut réduire significativement la charge serveur sans impact sur la visibilité dans ChatGPT Search (qui utilise OAI-SearchBot).
2. robots.txt : quelle stratégie adopter
Le principe
Bloquer un crawler IA dans robots.txt = vous rendre invisible sur cette plateforme. C'est un choix légitime (certains éditeurs bloquent GPTBot pour des raisons de propriété intellectuelle), mais il a un coût GEO direct.
Arbre de décision
Choisissez votre configuration selon votre situation :
Situation A — PME / site à trafic modéré (la majorité des cas) → Autorisez tous les crawlers. Le crawl budget n'est pas un problème, et vous maximisez votre visibilité.
# Autoriser tous les crawlers IA
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
Situation B — Site à fort trafic avec contraintes serveur ou de propriété intellectuelle → Bloquez les crawlers d'entraînement (ratio crawl/referral très défavorable), autorisez les crawlers de recherche temps réel.
# Bloquer les crawlers d'entraînement (crawl budget élevé, ROI faible)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
# Autoriser les crawlers de recherche temps réel (ROI élevé)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
Situation C — Éditeur de contenu premium / volonté de protéger la PI → Bloquez tout sauf les moteurs de recherche classiques. Acceptez la perte de visibilité GEO.
Nuance importante
La distinction entraînement vs recherche est imparfaite — les frontières sont floues chez certains fournisseurs. Par exemple, GPTBot sert à la fois à l'entraînement et à l'indexation pour ChatGPT Search. La Situation B est un compromis raisonnable, pas une garantie.
3. Le fichier llms.txt
Qu'est-ce que c'est
Proposé par Jeremy Howard (Answer.AI) en 2024, le fichier llms.txt est un fichier Markdown hébergé à la racine de votre site qui fournit aux LLM une carte de lecture de vos contenus les plus importants.
Si votre site était une bibliothèque :
- sitemap.xml = le catalogue complet
- robots.txt = les étagères interdites
- llms.txt = la liste de lecture recommandée par le bibliothécaire
Spécification du format
Le fichier utilise du Markdown (pas XML) car il est destiné à être lu par des LLM.
Structure :
# Nom du site ou du projet
> Résumé concis du site avec les informations essentielles (optionnel)
Paragraphe(s) de contexte additionnel (optionnel)
## Section principale
- [Titre de la page](https://example.com/page): Description de ce que contient cette page
- [Autre page](https://example.com/autre): Description
## Optional
- [Page secondaire](https://example.com/secondaire): Contenu moins prioritaire
Règles :
- Un titre H1 obligatoire (nom du projet/site)
- Un blockquote optionnel pour le résumé
- Des sections H2 avec des listes de liens au format [nom](url): description
- Une section spéciale nommée "Optional" pour les contenus secondaires
- Le fichier réside à /llms.txt
Fichiers connexes
- Chaque page importante devrait avoir une version Markdown propre accessible à
page-url.md - Outils comme
llms_txt2ctxgénèrent des versions étendues :llms-ctx.txtetllms-ctx-full.txt
Adoption et impact
- Adoption : 10,13% des ~300 000 domaines analysés par SE Ranking. Seulement 0,3% du top 1 000 des sites web (juin 2025). 784+ sites identifiés comme ayant un fichier llms.txt. Forte adoption dans les outils dev, les sites IA et la documentation technique. Quasi-absent du web grand public.
- Plusieurs plateformes de documentation et générateurs de sites statiques ajoutent le support natif
- Impact mesuré : aucun effet détectable. L'étude SE Ranking (300 000 domaines) n'a trouvé aucune relation entre la présence d'un fichier llms.txt et la fréquence de citation IA. Retirer la variable llms.txt de leur modèle prédictif a même amélioré la précision du modèle. Source : Search Engine Journal et SE Ranking.
- Aucun fournisseur de LLM majeur n'a officiellement confirmé utiliser llms.txt dans son pipeline
- Recommandation : implémenter llms.txt reste un investissement à faible coût et faible risque ("why not"), mais il ne faut pas en attendre un gain de visibilité mesurable à ce stade. C'est un pari sur l'avenir, pas un levier prouvé.
Exemple concret
# SuperTool - Plateforme d'analyse marketing
> SuperTool est une plateforme SaaS d'analyse marketing qui aide les PME à mesurer
> leur ROI publicitaire. Fondée en 2020, basée à Paris. 5 000+ clients.
## Documentation principale
- [Guide de démarrage](https://supertool.com/docs/getting-started): Installation et configuration initiale
- [API Reference](https://supertool.com/docs/api): Documentation complète de l'API REST
- [Cas d'usage](https://supertool.com/use-cases): Exemples d'utilisation par secteur
## Blog et recherche
- [Benchmark ROI 2026](https://supertool.com/blog/benchmark-roi-2026): Étude propriétaire sur le ROI publicitaire de 500 PME
- [Guide GEO pour marketeurs](https://supertool.com/blog/geo-guide): Comment optimiser sa visibilité IA
## Optional
- [Changelog](https://supertool.com/changelog): Historique des mises à jour
- [À propos](https://supertool.com/about): Équipe et mission
4. Schema markup (données structurées)
Pourquoi c'est important pour le GEO
Les données structurées aident les LLM à comprendre le contexte de votre contenu sans avoir à l'interpréter. Les schemas FAQ, HowTo, Article augmenteraient la sélection de +73% dans Google AI Overviews (source : analyse reverse-engineering ZipTie.dev — pas du papier Princeton qui teste des stratégies textuelles, pas des optimisations techniques. Chiffre non vérifié par Google).
Schemas prioritaires pour le GEO
| Schema | Usage | Impact GEO |
|---|---|---|
| Article | Articles de blog, guides | Identifie auteur, date, sujet |
| FAQPage | Pages FAQ | Format question/réponse directement extractible |
| HowTo | Tutoriels, guides pas-à-pas | Structure séquentielle claire |
| Organization | Page À propos | Renforce l'identité d'entité |
| Person | Biographies d'auteurs | Renforce E-E-A-T |
| BreadcrumbList | Navigation | Aide à comprendre la structure du site |
| LocalBusiness | Entreprises locales | NAP + géolocalisation |
| Product | Pages produit | Prix, avis, disponibilité |
| Review | Avis et témoignages | Signal de confiance |
Exemple : schema Article avec auteur
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "Guide GEO 2026 : Comment être cité par ChatGPT",
"author": {
"@type": "Person",
"name": "Marie Dupont",
"jobTitle": "Consultante SEO/GEO",
"url": "https://example.com/equipe/marie-dupont"
},
"publisher": {
"@type": "Organization",
"name": "SuperAgence"
},
"datePublished": "2026-04-01",
"dateModified": "2026-04-09",
"description": "Guide complet sur l'optimisation pour les moteurs de recherche génératifs"
}
Bonnes pratiques
- Toujours inclure
dateModified— les LLM évaluent la fraîcheur - Les biographies d'auteurs avec
Personrenforcent le E-E-A-T - Les schemas FAQ sont les plus directement extractibles par les LLM (format Q&A natif)
- Valider avec le Rich Results Test de Google
5. Architecture du site
Structure pour le GEO
- Architecture plate : le contenu important ne doit pas être à plus de 3 clics de la racine
- Maillage interne clair : les pages liées entre elles renforcent la compréhension thématique
- URLs descriptives :
/geo/strategies-optimisationplutôt que/p/12345 - Vitesse de chargement : les crawlers IA ont des timeouts — un site lent peut ne pas être crawlé complètement
Core Web Vitals
Toujours pertinents : un site rapide et stable est mieux crawlé par tous les bots, y compris les crawlers IA. Ce n'est pas un facteur de citation direct, mais un prérequis d'indexation.
Troubleshooting : diagnostic des problèmes courants
"Je vois le crawler dans mes logs mais je ne suis jamais cité"
- Vérifiez le bon crawler : GPTBot = entraînement, OAI-SearchBot = recherche ChatGPT. Voir GPTBot dans vos logs ne signifie pas que ChatGPT Search vous indexe.
- Testez manuellement : posez vos requêtes cibles sur ChatGPT, Perplexity, Google. Notez qui est cité à votre place et analysez pourquoi (format, données, autorité).
- Évaluez la citabilité : votre contenu contient-il des passages autocontenus de 134-167 mots avec des données uniques ? Sans ça, le crawler indexe mais le re-ranker ignore.
"Un crawler IA spécifique ne visite pas mon site"
- Vérifiez votre
robots.txt— unDisallow: /générique bloque tout - Vérifiez les règles de votre CDN/WAF : Cloudflare, Akamai et d'autres bloquent parfois les bots IA par défaut dans leurs règles de protection
- Vérifiez la vitesse : un TTFB > 3s peut entraîner un abandon du crawl
- Vérifiez que votre sitemap.xml est à jour et soumis
"Mon trafic IA n'apparaît pas dans GA4"
- ChatGPT gratuit : pas de referrer envoyé → apparaît comme "Direct"
- Google AI Overviews : trafic masqué dans google.com → impossible à distinguer sans instrumentation
- Perplexity Atlas : masque souvent le referrer
- Vérifiez que votre Channel Group "Artificial Intelligence" est positionné au-dessus de "Referral" dans GA4
"Je suis cité mais avec des informations incorrectes (hallucinations)"
- Vérifiez la cohérence de vos informations sur le web (NAP, descriptions, claims)
- Mettez à jour votre schema markup avec des données précises
- Corrigez les informations obsolètes sur les sources tierces (Wikipedia, annuaires)
- Les hallucinations sont souvent causées par des signaux contradictoires entre différentes sources
Checklist technique GEO
- [ ] Stratégie robots.txt choisie (voir arbre de décision §2). Au minimum : OAI-SearchBot, PerplexityBot, Googlebot, Bingbot autorisés
- [ ] Fichier
llms.txtà la racine avec les pages clés - [ ] Schema markup sur les pages principales (Article, FAQPage, Organization)
- [ ]
dateModifieddans le schema de chaque article - [ ] Biographies d'auteurs avec schema Person
- [ ] Architecture plate (≤ 3 clics)
- [ ] Vitesse de chargement optimisée
- [ ] Sitemap.xml à jour
- [ ] Versions Markdown des pages clés (optionnel mais recommandé)