Mis à jour le 3 juillet 2026 · Relu et vérifié par Damien Hernandez
Blocage User-Agent : définition, rôle et bonnes pratiques SEO
Le blocage User-Agent, ou filtrage par UA, refuse l’accès à un site selon l’identité déclarée du client. La règle s’applique au niveau du serveur, du pare-feu applicatif (WAF) ou du CDN. En SEO, un blocage mal ciblé rend un site invisible pour Googlebot ou les crawlers IA, sans alerte dans le CMS.
A retenir
- Cloudflare bloque les crawlers IA par défaut sur tout nouveau domaine depuis juillet 2025. Un mois plus tard, plus de 2,5 millions de sites avaient désactivé l’entraînement IA via ses outils (Cloudflare, août 2025).
- 13,26 % des requêtes de bots IA ont contourné robots.txt au T2 2025, contre 3,3 % au T4 2024. Le blocage User-Agent serveur, avec son code 403, reste le seul verrou opposable (TollBit, State of the Bots Q2 2025).
- En août 2025, Cloudflare a documenté le crawling furtif de Perplexity : des millions de requêtes par jour sur des dizaines de milliers de domaines, sous de faux User-Agents (billet Cloudflare, août 2025).
Comment fonctionne le blocage User-Agent ?
Le blocage User-Agent repose sur l’en-tête HTTP User-Agent, envoyé à chaque requête. Un navigateur, Googlebot ou GPTBot se présentent chacun avec une signature distincte. Une règle de filtrage compare cette signature à une liste de motifs. Les requêtes correspondantes sont rejetées, le plus souvent avec un code 403. Le blocage User-Agent se pose à quatre niveaux : fichier .htaccess (mod_rewrite sur Apache ou LiteSpeed), module serveur type mod_security, plugin de sécurité WordPress, ou edge d’un CDN comme Cloudflare. Le blocage à l’edge est le plus traître : la requête n’atteint jamais le serveur d’origine, donc les logs du site ne gardent aucune trace du refus. La pression à filtrer explose : le trafic de GPTBot a bondi de 305 % entre mai 2024 et mai 2025, sa part passant de 2,2 % à 7,7 % du crawl observé (Cloudflare, juillet 2025). Le blocage User-Agent reste contournable par usurpation, un robot pouvant se déclarer sous une fausse identité.
Pourquoi le blocage User-Agent est important pour le SEO ?
Le blocage User-Agent est devenu un enjeu SEO majeur avec l’essor des moteurs génératifs. Un filtre trop large, hérité d’une configuration anti-scraping ou activé par défaut par un hébergeur ou un CDN, coupe silencieusement l’accès aux robots dont dépend la visibilité. Le cas extrême touche Googlebot : ce robot crawle à la fois pour l’indexation Search et pour l’entraînement IA de Google, donc le bloquer revient à disparaître des SERP (Cloudflare Radar, décembre 2025). Le cas fréquent touche GPTBot, ClaudeBot ou PerplexityBot. Un site bloqué à ce niveau disparaît des réponses de ChatGPT Search, de Perplexity et des AI Overviews, sans aucun signal dans la Search Console. Le diagnostic tient en une commande : curl -I -A "GPTBot" https://www.votresite.com/. Un 403 avec un User-Agent de robot et un 200 avec un User-Agent de navigateur signent un blocage User-Agent au niveau serveur ou CDN.
| Critère | Blocage robots.txt | Blocage User-Agent serveur |
|---|---|---|
| Nature | Directive indicative, respect volontaire | Verrou technique, refus avant tout contenu |
| Code HTTP renvoyé | 200, le robot lit la consigne et s’abstient | 403 immédiat, la page n’est jamais servie |
| Robots non coopératifs | Peuvent ignorer la directive | Bloqués, sauf usurpation de User-Agent |
| Visibilité du blocage | Fichier public, lisible par tous | Invisible sans test actif ou analyse de logs |
Testez l’accès de vos pages aux crawlers IA avec Chunk Auditor
Comment savoir si un site bloque les robots IA ?
Testez chaque robot avec curl : curl -I -A "GPTBot" https://www.votresite.com/. Répétez avec ClaudeBot, PerplexityBot et OAI-SearchBot. Un 403 signale un blocage serveur ou CDN. Un 200 signale un accès normal. Complétez par la lecture du robots.txt et des logs serveur. Attention : un blocage à l’edge d’un CDN n’apparaît pas dans les logs d’origine.
Bloquer les bots IA nuit-il au référencement Google ?
Non, tant que le blocage User-Agent cible uniquement les robots IA et épargne Googlebot et Bingbot. Bloquer Google-Extended, le robot d’entraînement de Gemini, n’a aucun impact sur le classement dans Google Search. Le risque vient des règles trop larges : un motif comme « bot » ou « crawl » attrape aussi Googlebot. En revanche, bloquer les fetchers de recherche IA supprime toute visibilité dans ChatGPT Search, Perplexity et les réponses génératives.
Exemple concret de blocage User-Agent
Un blocage User-Agent se détecte en comparant la réponse serveur selon l’identité envoyée. Exemple : une page répond normalement à un navigateur, mais refuse l’accès à GPTBot ou PerplexityBot. Le contenu existe, le robots.txt peut sembler correct, WordPress ne signale rien, mais le crawler IA ne reçoit jamais la page. Pour le SEO, le problème est critique : le contenu reste visible pour l’utilisateur, mais invisible pour le moteur qui doit le récupérer, l’indexer ou le citer.
curl -I -A "Mozilla/5.0" https://www.exemple.com/
curl -I -A "GPTBot" https://www.exemple.com/
curl -I -A "OAI-SearchBot" https://www.exemple.com/
curl -I -A "PerplexityBot" https://www.exemple.com/
Si le navigateur reçoit un 200 et le robot un refus, la cause est en amont de WordPress. Les suspects : règle serveur, WAF, CDN, plugin de sécurité ou configuration d’hébergement. Point clé : une règle WAF ou serveur s’évalue avant toute lecture du robots.txt. Un blocage User-Agent prime donc sur n’importe quelle directive Allow du robots.txt. Le robots.txt ne suffit pas au diagnostic, car la requête est rejetée avant que le robot puisse lire la page.
Erreur fréquente observée en audit
Cas réel. En audit GEO, l’erreur classique consiste à vérifier le robots.txt et à conclure que les crawlers IA sont autorisés. Sur un hébergement mutualisé ou derrière un CDN, une règle de sécurité peut pourtant bloquer certains User-Agents avant même WordPress. La correction : tester les principaux robots avec curl, comparer les codes HTTP avec ceux d’un navigateur, puis remonter la chaîne. Logs serveur, WAF, CDN, règles .htaccess et plugins de sécurité, dans cet ordre.
Termes liés

Damien Hernandez · Consultant SEO senior, 15 ans d’experience (Accor, Louvre Hotels, Infopro Digital). Specialiste SEO technique et GEO (optimisation pour les moteurs generatifs).