GEO Technique : Schema, llms.txt, robots.txt, crawlers IA

Les fondations techniques du GEO

Le GEO a un côté contenu (stratégies, earned media) et un côté technique. Ce document couvre les éléments techniques qui permettent aux moteurs IA d'accéder, comprendre et citer votre contenu.

1. Les crawlers IA : qui visite votre site

Chaque moteur IA a son propre crawler, en plus des crawlers classiques (Googlebot, Bingbot) :

Crawler	Propriétaire	Rôle
GPTBot	OpenAI	Entraînement + ChatGPT Search
OAI-SearchBot	OpenAI	Recherche web ChatGPT (temps réel)
ChatGPT-User	OpenAI	Requêtes utilisateur ChatGPT
PerplexityBot	Perplexity	Indexation + recherche temps réel
ClaudeBot	Anthropic	Entraînement Claude
Googlebot	Google	Indexation + AI Overviews
Bingbot	Microsoft	Indexation + Copilot

Vérifier qui vous crawle

Dans vos logs serveur, cherchez les user-agents correspondants. Si vous bloquez certains de ces crawlers (volontairement ou accidentellement), vous êtes invisible pour ces moteurs IA.

Fait notable : 73% des sites ont des barrières techniques bloquant l'accès des crawlers IA (OtterlyAI, 2026). Vérifiez que vous n'en faites pas partie.

Crawl budget IA : un enjeu croissant

Les crawlers IA représentent désormais 51,69% de tout le trafic crawler, dépassant les crawlers de recherche traditionnels (34,46%). ChatGPT crawle désormais 3,6x plus que Googlebot (Search Engine Journal, 2026).

Le problème du ratio crawl/referral

Tous les crawlers IA ne se valent pas en termes de retour sur investissement :

Crawler	Ratio crawl:referral	Analyse
GPTBot (entraînement)	1 276:1	Consomme énormément de bande passante pour très peu de trafic retourné
PerplexityBot	111:1	Bien meilleur ROI, trafic referral en croissance
OAI-SearchBot (recherche)	Variable	Crawler de recherche temps réel — plus pertinent que GPTBot

Source : SEOmator GEO Data Report 2026.

Stratégie recommandée

La distinction entraînement vs recherche devient critique pour le crawl budget :

# Bloquer les crawlers d'entraînement (crawl budget élevé, ROI faible)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Autoriser les crawlers de recherche temps réel (ROI élevé)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Calcul coût-bénéfice

Coût = (Requêtes crawler/mois × Frais d'egress) + Charge CPU
Bénéfice = (Trafic referral) + (Conversions attribuées)

Pour les sites à fort trafic, bloquer GPTBot seul peut réduire significativement la charge serveur sans impact sur la visibilité dans ChatGPT Search (qui utilise OAI-SearchBot).

2. robots.txt : quelle stratégie adopter

Le principe

Bloquer un crawler IA dans robots.txt = vous rendre invisible sur cette plateforme. C'est un choix légitime (certains éditeurs bloquent GPTBot pour des raisons de propriété intellectuelle), mais il a un coût GEO direct.

Arbre de décision

Choisissez votre configuration selon votre situation :

Situation A — PME / site à trafic modéré (la majorité des cas) → Autorisez tous les crawlers. Le crawl budget n'est pas un problème, et vous maximisez votre visibilité.

# Autoriser tous les crawlers IA
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Situation B — Site à fort trafic avec contraintes serveur ou de propriété intellectuelle → Bloquez les crawlers d'entraînement (ratio crawl/referral très défavorable), autorisez les crawlers de recherche temps réel.

# Bloquer les crawlers d'entraînement (crawl budget élevé, ROI faible)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Autoriser les crawlers de recherche temps réel (ROI élevé)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Situation C — Éditeur de contenu premium / volonté de protéger la PI → Bloquez tout sauf les moteurs de recherche classiques. Acceptez la perte de visibilité GEO.

Nuance importante

La distinction entraînement vs recherche est imparfaite — les frontières sont floues chez certains fournisseurs. Par exemple, GPTBot sert à la fois à l'entraînement et à l'indexation pour ChatGPT Search. La Situation B est un compromis raisonnable, pas une garantie.

3. Le fichier llms.txt

Qu'est-ce que c'est

Proposé par Jeremy Howard (Answer.AI) en 2024, le fichier llms.txt est un fichier Markdown hébergé à la racine de votre site qui fournit aux LLM une carte de lecture de vos contenus les plus importants.

Si votre site était une bibliothèque : - sitemap.xml = le catalogue complet - robots.txt = les étagères interdites - llms.txt = la liste de lecture recommandée par le bibliothécaire

Spécification du format

Le fichier utilise du Markdown (pas XML) car il est destiné à être lu par des LLM.

Structure :

# Nom du site ou du projet

> Résumé concis du site avec les informations essentielles (optionnel)

Paragraphe(s) de contexte additionnel (optionnel)

## Section principale

- [Titre de la page](https://example.com/page): Description de ce que contient cette page
- [Autre page](https://example.com/autre): Description

## Optional

- [Page secondaire](https://example.com/secondaire): Contenu moins prioritaire

Règles : - Un titre H1 obligatoire (nom du projet/site) - Un blockquote optionnel pour le résumé - Des sections H2 avec des listes de liens au format [nom](url): description - Une section spéciale nommée "Optional" pour les contenus secondaires - Le fichier réside à /llms.txt

Fichiers connexes

Chaque page importante devrait avoir une version Markdown propre accessible à page-url.md
Outils comme llms_txt2ctx génèrent des versions étendues : llms-ctx.txt et llms-ctx-full.txt

Adoption et impact

Adoption : 10,13% des ~300 000 domaines analysés par SE Ranking. Seulement 0,3% du top 1 000 des sites web (juin 2025). 784+ sites identifiés comme ayant un fichier llms.txt. Forte adoption dans les outils dev, les sites IA et la documentation technique. Quasi-absent du web grand public.
Plusieurs plateformes de documentation et générateurs de sites statiques ajoutent le support natif
Impact mesuré : aucun effet détectable. L'étude SE Ranking (300 000 domaines) n'a trouvé aucune relation entre la présence d'un fichier llms.txt et la fréquence de citation IA. Retirer la variable llms.txt de leur modèle prédictif a même amélioré la précision du modèle. Source : Search Engine Journal et SE Ranking.
Aucun fournisseur de LLM majeur n'a officiellement confirmé utiliser llms.txt dans son pipeline
Recommandation : implémenter llms.txt reste un investissement à faible coût et faible risque ("why not"), mais il ne faut pas en attendre un gain de visibilité mesurable à ce stade. C'est un pari sur l'avenir, pas un levier prouvé.

Exemple concret

# SuperTool - Plateforme d'analyse marketing

> SuperTool est une plateforme SaaS d'analyse marketing qui aide les PME à mesurer
> leur ROI publicitaire. Fondée en 2020, basée à Paris. 5 000+ clients.

## Documentation principale

- [Guide de démarrage](https://supertool.com/docs/getting-started): Installation et configuration initiale
- [API Reference](https://supertool.com/docs/api): Documentation complète de l'API REST
- [Cas d'usage](https://supertool.com/use-cases): Exemples d'utilisation par secteur

## Blog et recherche

- [Benchmark ROI 2026](https://supertool.com/blog/benchmark-roi-2026): Étude propriétaire sur le ROI publicitaire de 500 PME
- [Guide GEO pour marketeurs](https://supertool.com/blog/geo-guide): Comment optimiser sa visibilité IA

## Optional

- [Changelog](https://supertool.com/changelog): Historique des mises à jour
- [À propos](https://supertool.com/about): Équipe et mission

4. Schema markup (données structurées)

Pourquoi c'est important pour le GEO

Les données structurées aident les LLM à comprendre le contexte de votre contenu sans avoir à l'interpréter. Les schemas FAQ, HowTo, Article augmenteraient la sélection de +73% dans Google AI Overviews (source : analyse reverse-engineering ZipTie.dev — pas du papier Princeton qui teste des stratégies textuelles, pas des optimisations techniques. Chiffre non vérifié par Google).

Schemas prioritaires pour le GEO

Schema	Usage	Impact GEO
Article	Articles de blog, guides	Identifie auteur, date, sujet
FAQPage	Pages FAQ	Format question/réponse directement extractible
HowTo	Tutoriels, guides pas-à-pas	Structure séquentielle claire
Organization	Page À propos	Renforce l'identité d'entité
Person	Biographies d'auteurs	Renforce E-E-A-T
BreadcrumbList	Navigation	Aide à comprendre la structure du site
LocalBusiness	Entreprises locales	NAP + géolocalisation
Product	Pages produit	Prix, avis, disponibilité
Review	Avis et témoignages	Signal de confiance

Exemple : schema Article avec auteur

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Guide GEO 2026 : Comment être cité par ChatGPT",
  "author": {
    "@type": "Person",
    "name": "Marie Dupont",
    "jobTitle": "Consultante SEO/GEO",
    "url": "https://example.com/equipe/marie-dupont"
  },
  "publisher": {
    "@type": "Organization",
    "name": "SuperAgence"
  },
  "datePublished": "2026-04-01",
  "dateModified": "2026-04-09",
  "description": "Guide complet sur l'optimisation pour les moteurs de recherche génératifs"
}

Bonnes pratiques

Toujours inclure dateModified — les LLM évaluent la fraîcheur
Les biographies d'auteurs avec Person renforcent le E-E-A-T
Les schemas FAQ sont les plus directement extractibles par les LLM (format Q&A natif)
Valider avec le Rich Results Test de Google

5. Architecture du site

Structure pour le GEO

Architecture plate : le contenu important ne doit pas être à plus de 3 clics de la racine
Maillage interne clair : les pages liées entre elles renforcent la compréhension thématique
URLs descriptives : /geo/strategies-optimisation plutôt que /p/12345
Vitesse de chargement : les crawlers IA ont des timeouts — un site lent peut ne pas être crawlé complètement

Core Web Vitals

Toujours pertinents : un site rapide et stable est mieux crawlé par tous les bots, y compris les crawlers IA. Ce n'est pas un facteur de citation direct, mais un prérequis d'indexation.

Troubleshooting : diagnostic des problèmes courants

"Je vois le crawler dans mes logs mais je ne suis jamais cité"

Vérifiez le bon crawler : GPTBot = entraînement, OAI-SearchBot = recherche ChatGPT. Voir GPTBot dans vos logs ne signifie pas que ChatGPT Search vous indexe.
Testez manuellement : posez vos requêtes cibles sur ChatGPT, Perplexity, Google. Notez qui est cité à votre place et analysez pourquoi (format, données, autorité).
Évaluez la citabilité : votre contenu contient-il des passages autocontenus de 134-167 mots avec des données uniques ? Sans ça, le crawler indexe mais le re-ranker ignore.

"Un crawler IA spécifique ne visite pas mon site"

Vérifiez votre robots.txt — un Disallow: / générique bloque tout
Vérifiez les règles de votre CDN/WAF : Cloudflare, Akamai et d'autres bloquent parfois les bots IA par défaut dans leurs règles de protection
Vérifiez la vitesse : un TTFB > 3s peut entraîner un abandon du crawl
Vérifiez que votre sitemap.xml est à jour et soumis

"Mon trafic IA n'apparaît pas dans GA4"

ChatGPT gratuit : pas de referrer envoyé → apparaît comme "Direct"
Google AI Overviews : trafic masqué dans google.com → impossible à distinguer sans instrumentation
Perplexity Atlas : masque souvent le referrer
Vérifiez que votre Channel Group "Artificial Intelligence" est positionné au-dessus de "Referral" dans GA4

"Je suis cité mais avec des informations incorrectes (hallucinations)"

Vérifiez la cohérence de vos informations sur le web (NAP, descriptions, claims)
Mettez à jour votre schema markup avec des données précises
Corrigez les informations obsolètes sur les sources tierces (Wikipedia, annuaires)
Les hallucinations sont souvent causées par des signaux contradictoires entre différentes sources

Checklist technique GEO

[ ] Stratégie robots.txt choisie (voir arbre de décision §2). Au minimum : OAI-SearchBot, PerplexityBot, Googlebot, Bingbot autorisés
[ ] Fichier llms.txt à la racine avec les pages clés
[ ] Schema markup sur les pages principales (Article, FAQPage, Organization)
[ ] dateModified dans le schema de chaque article
[ ] Biographies d'auteurs avec schema Person
[ ] Architecture plate (≤ 3 clics)
[ ] Vitesse de chargement optimisée
[ ] Sitemap.xml à jour
[ ] Versions Markdown des pages clés (optionnel mais recommandé)

Dernière mise à jour : 2026-04-09

← PrécédentEarned Media et GEO Suivant →Mesure et Suivi GEO