Mis à jour le 3 juillet 2026 · Relu et vérifié par Damien Hernandez

Budget de crawl : définition, rôle et bonnes pratiques SEO

Le budget de crawl (crawl budget) est la quantité de pages que Googlebot peut et veut explorer sur un site pendant une période donnée. Il combine la limite de capacité d’exploration et la demande d’exploration. En SEO, il conditionne la vitesse d’indexation des sites volumineux, au delà de 10 000 pages selon Google.

À retenir

Google attribue un budget de crawl par nom d’hôte : www.exemple.com et blog.exemple.com ont chacun le leur (Google Search Central, décembre 2025).
Le budget de crawl devient un enjeu au delà des seuils Google : un million de pages mises à jour chaque semaine, ou 10 000 pages mises à jour chaque jour. Seuil inchangé depuis 2020, confirmé par Gary Illyes en mai 2025.
Google documente deux leviers seulement pour augmenter le budget de crawl : la capacité du serveur et la valeur du contenu. Aucun paramètre manuel côté Search Console ne permet de le forcer.

Comment fonctionne le budget de crawl ?

Le budget de crawl résulte de deux composantes définies par Google. La limite de capacité d’exploration (crawl rate limit) est le plafond technique : le nombre de connexions simultanées que Googlebot s’autorise sans surcharger le serveur. La demande d’exploration (crawl demand) est le plafond éditorial : l’intérêt que Google porte aux URL du site, selon leur popularité, leur fraîcheur et leur qualité perçue. Le budget de crawl effectif est le minimum des deux. Gary Illyes (Google) a précisé en mai 2025 sur le podcast Search Off the Record que la vitesse des requêtes en base de données pèse plus que le volume de pages : un site de 500 000 pages aux requêtes SQL lentes peut rencontrer plus de problèmes d’exploration qu’un site de 2 millions de pages statiques rapides.

Pourquoi le budget de crawl est important pour le SEO ?

Le budget de crawl détermine quelles pages Google découvre et rafraîchit en priorité. Une page jamais explorée ne peut pas être indexée, et une page rarement re-explorée reste figée dans l’index avec un contenu obsolète. Google précise que le sujet ne concerne pas la majorité des sites : en dessous de quelques milliers d’URL, Googlebot explore tout sans difficulté. Le budget de crawl devient un levier majeur sur les sites e-commerce à navigation à facettes, les marketplaces, les médias à fort historique et les sites d’annonces, où l’explosion combinatoire des URL peut détourner l’exploration des pages stratégiques vers des pages sans valeur. Le symptôme typique en Search Console : une proportion importante d’URL en statut Détectée, actuellement non indexée.

Critère	Crawl rate limit	Crawl demand
Nature	Plafond technique côté serveur	Plafond éditorial côté Google
Facteurs	Temps de réponse, erreurs 5xx, stabilité	Popularité, fraîcheur, qualité perçue des URL
Levier d’action	Performance serveur, hébergement, cache	Qualité du contenu, maillage, nettoyage des URL inutiles

Votre budget de crawl part-il en fumée ? Audit technique

Comment optimiser son budget de crawl ?

Optimiser le budget de crawl consiste à concentrer l’exploration sur les pages à valeur SEO. Les actions prioritaires : bloquer via robots.txt les URL sans valeur (facettes, tri, recherche interne), consolider les doublons avec la balise canonical, supprimer les chaînes de redirections, renvoyer un code 404 ou 410 franc sur les contenus disparus, réduire le temps de réponse serveur et maintenir un sitemap XML limité aux URL canoniques vivantes. L’objectif n’est pas d’augmenter le volume de crawl mais son rendement.

Comment connaître le budget de crawl de son site ?

Le budget de crawl s’observe dans Google Search Console, rapport Statistiques sur l’exploration, accessible depuis le menu Paramètres. Le rapport affiche les requêtes de crawl par jour, le temps de réponse moyen, la répartition par code HTTP et par type de fichier sur 90 jours. Pour une vision exacte du budget de crawl, l’analyse des fichiers logs du serveur reste la référence : les logs montrent chaque URL visitée par Googlebot, sa fréquence et son code de réponse, et révèlent les zones de gaspillage que la Search Console agrège.

Exemple concret de mesure du budget de crawl

Une mesure faible du budget de crawl consiste à regarder uniquement la courbe de requêtes de la Search Console : elle indique un volume, pas sa répartition. La mesure solide passe par les logs : compter les hits de Googlebot par répertoire pour voir où part réellement le budget de crawl. La commande ci-dessous liste les 20 sections les plus explorées d’un site à partir d’un access.log :

grep "Googlebot" access.log | awk '{print $7}' | cut -d/ -f2 | sort | uniq -c | sort -rn | head -20

Si les premières lignes du résultat sont des répertoires de filtres, de tri ou de pagination profonde plutôt que les pages stratégiques, le budget de crawl est mal dépensé, quel que soit son volume total. Avant toute conclusion sur le budget de crawl, vérifier l’authenticité du user-agent par reverse DNS : une part du trafic déclaré Googlebot ne vient pas de Google.

Erreur fréquente observée en audit

Cas réel. Sur un site e-commerce voyage à fort volume, un audit de logs a révélé un mauvais pattern d’URL générant environ 14 000 pages inutiles, des sous-landings « tout inclus » créées mécaniquement. Googlebot dépensait son budget de crawl sur ces variantes secondaires au lieu des pages commerciales attendues. La correction : nettoyage du modèle d’URL, refonte du maillage interne vers les pages canoniques et renforcement de leur cohérence.

Trois mythes sur le budget de crawl

Le budget de crawl accumule les idées reçues, que la documentation Google mise à jour en décembre 2025 dément point par point. Le crawl-delay du robots.txt : Googlebot ignore cette directive non standard, elle ne régule rien chez Google. La balise noindex comme économie de crawl : Google doit explorer la page pour lire le noindex, la directive exclut de l’index mais consomme de l’exploration. Les erreurs 404 comme gaspillage : Google indique que les réponses 4xx ne gaspillent pas de budget, le robot reçoit un code sans contenu. Le vrai gaspillage vient des URL en 200 sans valeur SEO, des soft 404 et des chaînes de redirections. Dernier point contre-intuitif, signé Gary Illyes : ce n’est pas l’exploration qui consomme les ressources de Google, mais l’indexation et le traitement des données collectées.

Sources

Google Search Central, Gestion du budget d’exploration pour les sites volumineux · mise à jour décembre 2025
Google, podcast Search Off the Record, déclarations de Gary Illyes sur le budget de crawl · mai 2025

Termes liés

Crawl (exploration) Fichiers logs Robots.txt Sitemap XML Navigation à facettes Indexation Profondeur de page

Damien Hernandez · Consultant SEO senior, 15 ans d’expérience (Accor, Louvre Hotels, Infopro Digital). Spécialiste SEO technique et GEO (optimisation pour les moteurs génératifs).

En savoir plus · LinkedInLinkedIn de Damien Hernandez