GEO Technique : Schema, llms.txt, robots.txt, crawlers IA

Les fondations techniques du GEO

Le GEO a un côté contenu (stratégies, earned media) et un côté technique. Ce document couvre les éléments techniques qui permettent aux moteurs IA d'accéder, comprendre et citer votre contenu.

1. Les crawlers IA : qui visite votre site

Chaque moteur IA a son propre crawler, en plus des crawlers classiques (Googlebot, Bingbot) :

Crawler Propriétaire Rôle
GPTBot OpenAI Entraînement + ChatGPT Search
OAI-SearchBot OpenAI Recherche web ChatGPT (temps réel)
ChatGPT-User OpenAI Requêtes utilisateur ChatGPT
PerplexityBot Perplexity Indexation + recherche temps réel
ClaudeBot Anthropic Entraînement Claude
Googlebot Google Indexation + AI Overviews
Bingbot Microsoft Indexation + Copilot

Vérifier qui vous crawle

Dans vos logs serveur, cherchez les user-agents correspondants. Si vous bloquez certains de ces crawlers (volontairement ou accidentellement), vous êtes invisible pour ces moteurs IA.

Fait notable : 73% des sites ont des barrières techniques bloquant l'accès des crawlers IA (OtterlyAI, 2026). Vérifiez que vous n'en faites pas partie.

Crawl budget IA : un enjeu croissant

Les crawlers IA représentent désormais 51,69% de tout le trafic crawler, dépassant les crawlers de recherche traditionnels (34,46%). ChatGPT crawle désormais 3,6x plus que Googlebot (Search Engine Journal, 2026).

Le problème du ratio crawl/referral

Tous les crawlers IA ne se valent pas en termes de retour sur investissement :

Crawler Ratio crawl:referral Analyse
GPTBot (entraînement) 1 276:1 Consomme énormément de bande passante pour très peu de trafic retourné
PerplexityBot 111:1 Bien meilleur ROI, trafic referral en croissance
OAI-SearchBot (recherche) Variable Crawler de recherche temps réel — plus pertinent que GPTBot

Source : SEOmator GEO Data Report 2026.

Stratégie recommandée

La distinction entraînement vs recherche devient critique pour le crawl budget :

# Bloquer les crawlers d'entraînement (crawl budget élevé, ROI faible)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Autoriser les crawlers de recherche temps réel (ROI élevé)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Calcul coût-bénéfice

Coût = (Requêtes crawler/mois × Frais d'egress) + Charge CPU
Bénéfice = (Trafic referral) + (Conversions attribuées)

Pour les sites à fort trafic, bloquer GPTBot seul peut réduire significativement la charge serveur sans impact sur la visibilité dans ChatGPT Search (qui utilise OAI-SearchBot).

2. robots.txt : quelle stratégie adopter

Le principe

Bloquer un crawler IA dans robots.txt = vous rendre invisible sur cette plateforme. C'est un choix légitime (certains éditeurs bloquent GPTBot pour des raisons de propriété intellectuelle), mais il a un coût GEO direct.

Arbre de décision

Choisissez votre configuration selon votre situation :

Situation A — PME / site à trafic modéré (la majorité des cas) → Autorisez tous les crawlers. Le crawl budget n'est pas un problème, et vous maximisez votre visibilité.

# Autoriser tous les crawlers IA
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Situation B — Site à fort trafic avec contraintes serveur ou de propriété intellectuelle → Bloquez les crawlers d'entraînement (ratio crawl/referral très défavorable), autorisez les crawlers de recherche temps réel.

# Bloquer les crawlers d'entraînement (crawl budget élevé, ROI faible)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Autoriser les crawlers de recherche temps réel (ROI élevé)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Situation C — Éditeur de contenu premium / volonté de protéger la PI → Bloquez tout sauf les moteurs de recherche classiques. Acceptez la perte de visibilité GEO.

Nuance importante

La distinction entraînement vs recherche est imparfaite — les frontières sont floues chez certains fournisseurs. Par exemple, GPTBot sert à la fois à l'entraînement et à l'indexation pour ChatGPT Search. La Situation B est un compromis raisonnable, pas une garantie.

3. Le fichier llms.txt

Qu'est-ce que c'est

Proposé par Jeremy Howard (Answer.AI) en 2024, le fichier llms.txt est un fichier Markdown hébergé à la racine de votre site qui fournit aux LLM une carte de lecture de vos contenus les plus importants.

Si votre site était une bibliothèque : - sitemap.xml = le catalogue complet - robots.txt = les étagères interdites - llms.txt = la liste de lecture recommandée par le bibliothécaire

Spécification du format

Le fichier utilise du Markdown (pas XML) car il est destiné à être lu par des LLM.

Structure :

# Nom du site ou du projet

> Résumé concis du site avec les informations essentielles (optionnel)

Paragraphe(s) de contexte additionnel (optionnel)

## Section principale

- [Titre de la page](https://example.com/page): Description de ce que contient cette page
- [Autre page](https://example.com/autre): Description

## Optional

- [Page secondaire](https://example.com/secondaire): Contenu moins prioritaire

Règles : - Un titre H1 obligatoire (nom du projet/site) - Un blockquote optionnel pour le résumé - Des sections H2 avec des listes de liens au format [nom](url): description - Une section spéciale nommée "Optional" pour les contenus secondaires - Le fichier réside à /llms.txt

Fichiers connexes

Adoption et impact

Exemple concret

# SuperTool - Plateforme d'analyse marketing

> SuperTool est une plateforme SaaS d'analyse marketing qui aide les PME à mesurer
> leur ROI publicitaire. Fondée en 2020, basée à Paris. 5 000+ clients.

## Documentation principale

- [Guide de démarrage](https://supertool.com/docs/getting-started): Installation et configuration initiale
- [API Reference](https://supertool.com/docs/api): Documentation complète de l'API REST
- [Cas d'usage](https://supertool.com/use-cases): Exemples d'utilisation par secteur

## Blog et recherche

- [Benchmark ROI 2026](https://supertool.com/blog/benchmark-roi-2026): Étude propriétaire sur le ROI publicitaire de 500 PME
- [Guide GEO pour marketeurs](https://supertool.com/blog/geo-guide): Comment optimiser sa visibilité IA

## Optional

- [Changelog](https://supertool.com/changelog): Historique des mises à jour
- [À propos](https://supertool.com/about): Équipe et mission

4. Schema markup (données structurées)

Pourquoi c'est important pour le GEO

Les données structurées aident les LLM à comprendre le contexte de votre contenu sans avoir à l'interpréter. Les schemas FAQ, HowTo, Article augmenteraient la sélection de +73% dans Google AI Overviews (source : analyse reverse-engineering ZipTie.dev — pas du papier Princeton qui teste des stratégies textuelles, pas des optimisations techniques. Chiffre non vérifié par Google).

Schemas prioritaires pour le GEO

Schema Usage Impact GEO
Article Articles de blog, guides Identifie auteur, date, sujet
FAQPage Pages FAQ Format question/réponse directement extractible
HowTo Tutoriels, guides pas-à-pas Structure séquentielle claire
Organization Page À propos Renforce l'identité d'entité
Person Biographies d'auteurs Renforce E-E-A-T
BreadcrumbList Navigation Aide à comprendre la structure du site
LocalBusiness Entreprises locales NAP + géolocalisation
Product Pages produit Prix, avis, disponibilité
Review Avis et témoignages Signal de confiance

Exemple : schema Article avec auteur

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Guide GEO 2026 : Comment être cité par ChatGPT",
  "author": {
    "@type": "Person",
    "name": "Marie Dupont",
    "jobTitle": "Consultante SEO/GEO",
    "url": "https://example.com/equipe/marie-dupont"
  },
  "publisher": {
    "@type": "Organization",
    "name": "SuperAgence"
  },
  "datePublished": "2026-04-01",
  "dateModified": "2026-04-09",
  "description": "Guide complet sur l'optimisation pour les moteurs de recherche génératifs"
}

Bonnes pratiques

5. Architecture du site

Structure pour le GEO

Core Web Vitals

Toujours pertinents : un site rapide et stable est mieux crawlé par tous les bots, y compris les crawlers IA. Ce n'est pas un facteur de citation direct, mais un prérequis d'indexation.

Troubleshooting : diagnostic des problèmes courants

"Je vois le crawler dans mes logs mais je ne suis jamais cité"

  1. Vérifiez le bon crawler : GPTBot = entraînement, OAI-SearchBot = recherche ChatGPT. Voir GPTBot dans vos logs ne signifie pas que ChatGPT Search vous indexe.
  2. Testez manuellement : posez vos requêtes cibles sur ChatGPT, Perplexity, Google. Notez qui est cité à votre place et analysez pourquoi (format, données, autorité).
  3. Évaluez la citabilité : votre contenu contient-il des passages autocontenus de 134-167 mots avec des données uniques ? Sans ça, le crawler indexe mais le re-ranker ignore.

"Un crawler IA spécifique ne visite pas mon site"

  1. Vérifiez votre robots.txt — un Disallow: / générique bloque tout
  2. Vérifiez les règles de votre CDN/WAF : Cloudflare, Akamai et d'autres bloquent parfois les bots IA par défaut dans leurs règles de protection
  3. Vérifiez la vitesse : un TTFB > 3s peut entraîner un abandon du crawl
  4. Vérifiez que votre sitemap.xml est à jour et soumis

"Mon trafic IA n'apparaît pas dans GA4"

  1. ChatGPT gratuit : pas de referrer envoyé → apparaît comme "Direct"
  2. Google AI Overviews : trafic masqué dans google.com → impossible à distinguer sans instrumentation
  3. Perplexity Atlas : masque souvent le referrer
  4. Vérifiez que votre Channel Group "Artificial Intelligence" est positionné au-dessus de "Referral" dans GA4

"Je suis cité mais avec des informations incorrectes (hallucinations)"

  1. Vérifiez la cohérence de vos informations sur le web (NAP, descriptions, claims)
  2. Mettez à jour votre schema markup avec des données précises
  3. Corrigez les informations obsolètes sur les sources tierces (Wikipedia, annuaires)
  4. Les hallucinations sont souvent causées par des signaux contradictoires entre différentes sources

Checklist technique GEO

Dernière mise à jour : 2026-04-09