Comment fonctionne le fichier robots.txt ?

Comment fonctionne le fichier robots.txt ?

12 mai 2025

Dernière mise à jour : 21 mai 2025

Le nom robots.txt revient souvent dès qu’on parle de SEO technique. Que vous soyez débutant en référencement ou e-commerçant expérimenté, comprendre le fonctionnement de ce petit fichier texte est essentiel pour optimiser la visibilité de votre site sur Google et les autres moteurs de recherche. Le fichier robots.txt joue un rôle de garde-barrière : il dicte aux robots d’exploration (comme Googlebot) ce qu’ils peuvent explorer ou non sur votre site.

Dans cet article pédagogique, nous vous expliquerons comment fonctionne le fichier robots.txt, pourquoi il est important pour le SEO (y compris pour les sites e-commerce), comment le créer/configurer correctement, et quelles sont les bonnes pratiques à suivre. Des exemples concrets de fichiers robots.txt commentés vous aideront à maîtriser cet outil. Enfin, une section FAQ répondra aux questions les plus fréquentes afin de vous informer, vous rassurer et vous inciter à passer à l’action pour optimiser votre site.

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine d’un site web (par exemple https://www.valetudo.io/robots.txt). Il fait partie du protocole d’exclusion des robots, un standard qui permet d’indiquer aux robots d’indexation quelles ressources ils sont autorisés à explorer sur votre domaine(developers.google.com). En pratique, c’est la première ressource que les moteurs de recherche consultent lorsqu’ils arrivent sur votre site. Si ce fichier existe, les bots vont lire ses directives avant de continuer leur crawl. S’il n’y en a pas, les robots considèrent par défaut qu’ils peuvent explorer librement l’ensemble du site (toutes les URL accessibles).

Concrètement, robots.txt sert principalement à limiter ou orienter l’exploration de certaines pages ou sections de votre site par les robots. En aucun cas ce fichier ne permet de retirer directement une page des résultats de recherche. Son but est de gérer l’exploration (crawl), pas l’indexation finale dans Google. Autrement dit, bloquer une URL via robots.txt n’empêche pas forcément son indexation si d’autres pages y font référence ; cela empêche seulement le robot d’en consulter le contenu. Pour empêcher l’indexation d’une page, il faut utiliser d’autres méthodes (par exemple une balise meta noindex dans le code HTML, ou une protection par mot de passe).

Pourquoi le fichier robots.txt est-il important en SEO ?

Bien configuré, le fichier robots.txt contribue à un SEO technique optimisé en contrôlant la façon dont les moteurs explorent votre site. Voici les principaux avantages et usages du robots.txt pour votre référencement :

    1. Optimiser le budget de crawl et alléger le serveur :
      Les moteurs de recherche disposent d’un budget de crawl limité pour chaque site, c’est-à-dire un nombre de pages qu’ils peuvent explorer à un instant donné. Il est donc stratégique de leur éviter de gaspiller des ressources sur des pages inutiles. En bloquant l’exploration des pages sans importance (pages orphelines, anciens contenus, etc.), vous permettez à Googlebot de consacrer davantage de ressources aux pages importantes de votre site (produits, catégories clés…). De plus, cela évite de surcharger votre serveur avec des requêtes inutiles.

 

    1. Éviter l’exploration de pages dupliquées ou privées :
      De nombreux sites ont des pages qui n’ont pas vocation à apparaître dans les résultats de recherche parce qu’elles n’apportent pas de valeur aux internautes ou sont confidentielles. Par exemple, une version de staging de votre site (copie de test), des pages de résultats de recherche interne, des filtres ou facettes e-commerce créant des doublons, des pages de login/inscription, le panier d’achat, etc.. Ces pages existent pour des raisons fonctionnelles, mais vous ne souhaitez pas qu’elles soient indexées ni présentées au public. Le fichier robots.txt est l’endroit idéal pour indiquer aux robots de ne pas explorer ces sections non pertinentes ou duplicatives. D’ailleurs, WordPress insère par défaut une directive pour empêcher l’exploration du dossier /wp-admin/ (l’administration du site) qui n’a pas à être indexé.

 

    1. Protéger certaines ressources ou données sensibles :
      Dans certains cas, on peut utiliser robots.txt pour empêcher l’exploration de fichiers médias ou de pages spécifiques. Par exemple, vous pourriez bloquer l’accès à des images ou PDF confidentiels, ou empêcher l’exploration de fichiers temporaires et de test. Cela évite que des informations sensibles ou non destinées au public n’apparaissent dans les moteurs de recherche. Attention, toutefois : robots.txt n’est pas un mécanisme de sécurité ! Un fichier bloqué reste accessible directement via son URL par quiconque la connaît. De plus, les “mauvais” robots ou bots malveillants n’obéissent pas forcément aux directives de robots.txt et pourraient quand même tenter d’explorer ces URL. Pour les contenus vraiment sensibles, préférez des mesures plus sûres (authentification par mot de passe, suppression du fichier, etc.).

 

En résumé, le fichier robots.txt est un outil de pilotage de l’exploration du site. En indiquant aux robots quelles zones explorer ou ignorer, il permet d’optimiser l’indexation finale en concentrant le crawl sur l’essentiel.

Comment fonctionne un fichier robots.txt ?

Syntaxe et directives de base

Un fichier robots.txt se compose d’un ensemble de directives d’exploration. La syntaxe est simple, basée sur des paires clé: valeur par ligne. Chaque groupe de directives commence par spécifier le robot cible via User-agent, puis liste une ou plusieurs règles telles que Disallow ou Allow. Voici les directives principales que l’on peut utiliser :

  • User-agent – désigne le robot d’exploration concerné par les règles qui suivent. On peut indiquer un bot spécifique par son nom (par ex. Googlebot pour le robot de Google, Bingbot pour Bing) ou utiliser * comme joker pour s’adresser à tous les robots. Un fichier robots.txt peut contenir plusieurs blocs de directives pour cibler différents robots. Par exemple, on peut définir un bloc pour Googlebot et un autre pour les autres moteurs si l’on souhaite des règles particulières uniquement pour Google.

  • Disallow – indique le chemin (URL ou dossier) à ne pas explorer pour le ou les robots spécifiés. C’est l’instruction de base pour bloquer l’accès à une ressource ou une section du site. Par exemple, Disallow: /admin/ interdit aux robots l’accès à toute URL commençant par /admin/. Note : Si aucune règle Disallow ne s’applique à une URL, cela équivaut à autoriser son crawl (crawling allow par défaut).

  • Allow – cette directive, moins courante, sert à autoriser spécifiquement l’accès à une ressource située dans un dossier pourtant bloqué par un Disallow plus général. Elle permet de créer des exceptions. Par exemple, si vous bloquez tout un répertoire mais voulez autoriser un fichier précis en son sein, vous ajouterez une ligne Allow pointant vers ce fichier. Exemple : Disallow: /documents/ (bloque tout le dossier) suivi de Allow: /documents/guide.pdf (autorise un PDF particulier).

  • Sitemap – ce n’est pas à proprement parler une directive d’exploration, mais il est d’usage d’indiquer dans robots.txt le lien vers le fichier sitemap XML de votre site. Exemple : Sitemap: https://www.monsite.com/sitemap.xml. Cela aide les moteurs à découvrir plus facilement les pages importantes de votre site. (Vous pouvez inclure plusieurs lignes Sitemap si vous avez plusieurs sitemaps.)

  • (Directives avancées) – Des directives comme Crawl-delay (délai entre requêtes) existent pour certains moteurs (Bing, Yandex), mais sont ignorées par Google. Inutile de les utiliser sauf cas particulier : concentrez-vous sur les directives standard ci-dessus.

Règles d’interprétation par les robots

Lorsqu’un robot d’indexation (crawler) accède à votre site, il cherche le fichier robots.txt. S’il le trouve, il appliquera les règles qui correspondent à son identité (user-agent). En présence de plusieurs groupes de règles, la plus spécifique l’emporte sur la plus générale. Par exemple, si une URL est bloquée par un Disallow global mais explicitement autorisée via un Allow plus précis, le robot respectera l’exception Allow. Il est donc important d’organiser vos directives du général vers le particulier pour éviter les contradictions.

Bon à savoir : Les directives du fichier robots.txt ne peuvent pas forcer un robot à obéir – elles fonctionnent sur la base du volontariat. Les moteurs de recherche majeurs (Google, Bing, etc.) respectent ce protocole, mais ce n’est pas garanti pour tous les robots existants. Considérez-le plutôt comme un panneau “code de conduite” pour les bots bien élevés, que les robots malveillants pourront choisir d’ignorer.

Exemples concrets de fichiers robots.txt

Passons à des exemples pratiques pour illustrer la configuration d’un fichier robots.txt. Voici deux scénarios courants, avec des règles commentées pour bien comprendre leur effet.

Exemple 1 : Fichier robots.txt basique

Supposons un site vitrine sur lequel on souhaite bloquer l’accès au dossier d’administration et à une page de connexion, tout en autorisant le reste du site à être exploré. Un fichier robots.txt possible serait :

# Bloquer la zone d’administration du site pour tous les robots
User-agent: *
Disallow: /admin/
Disallow: /login.html

# Autoriser une exception : Googlebot peut explorer tout le site sans restriction
User-agent: Googlebot
Allow: /

Décryptage : (À noter : les lignes commençant par # sont des commentaires et ne sont pas lues par les robots.) Dans cet exemple, le premier bloc User-agent: * s’applique à tous les robots et leur interdit d’explorer toute URL située sous /admin/ ainsi que la page /login.html. Cela protège des zones sensibles (espace admin, page de connexion) de toute exploration par des robots. Ensuite, un second bloc spécifie une règle particulière pour Googlebot (le robot de Google), à qui l’on accorde la permission globale d’explorer tout le site (Allow: /). Ainsi, Googlebot ignorera les restrictions générales du premier bloc grâce à ce traitement spécifique. (Dans la pratique, il est rare de vouloir bloquer tous les bots sauf Googlebot, mais cet exemple illustre la syntaxe multi-blocs.)

Exemple 2 : Fichier robots.txt pour un site e-commerce

Prenons le cas d’un site e-commerce. On veut empêcher l’exploration de certaines pages peu utiles aux moteurs de recherche : panier, paiement, compte utilisateur, etc., afin de concentrer le crawl sur les pages produits et catégories. Voici à quoi pourrait ressembler le robots.txt :

# Fichier robots.txt pour MonSite E-commerce
User-agent: *

# Bloquer les pages non pertinentes pour l’indexation
Disallow: /panier
Disallow: /checkout
Disallow: /mon-compte
Disallow: /recherche
Disallow: /wp-admin/

# Autoriser les ressources nécessaires (ex: script Ajax WordPress)
Allow: /wp-admin/admin-ajax.php

# Indiquer le sitemap du site
Sitemap: https://www.monsite.com/sitemap.xml

Explications : Ici, toutes les directives concernent l’ensemble des robots (User-agent: *). On liste plusieurs répertoires ou pages en Disallow correspondant aux fonctionnalités internes du site : le panier d’achat, le processus de commande, l’espace compte client, la page de recherche interne, ainsi que le back-office WordPress (/wp-admin/). Ces URLs n’ont pas d’intérêt à être indexées (on ne veut pas que le panier ou la page de login apparaissent dans les résultats Google), et en les bloquant on évite aussi de gaspiller du budget de crawl sur elles. On ajoute ensuite une exception Allow: /wp-admin/admin-ajax.php afin de ne pas bloquer un script AJAX nécessaire au fonctionnement du site WordPress, même si le dossier /wp-admin/ est interdit. Enfin, la ligne Sitemap fournit aux robots l’adresse du fichier sitemap XML, ce qui les aide à trouver rapidement les URLs importantes du site.

Bien sûr, ces exemples devront être adaptés à la structure de votre propre site. Veillez à utiliser des chemins exacts (en respectant la casse des URL, etc.) et testez toujours vos règles pour vérifier qu’elles agissent comme prévu.

Bonnes pratiques pour le fichier robots.txt

  • Vérifiez votre fichier robots.txt avec des outils dédiés : Une simple erreur de syntaxe peut rendre une règle inefficace ou bloquer accidentellement des pages cruciales. Utilisez l’outil de test du fichier robots.txt dans Google Search Console pour valider votre fichier et voir comment Googlebot interprète vos directives. Cet outil permet de saisir des URL spécifiques pour vérifier si elles sont bloquées ou non.

  • N’utilisez pas robots.txt pour “cacher” du contenu sensible : Souvenez-vous que tout ce qui est bloqué par robots.txt reste public et accessible en tapant directement son URL. De plus, Google pourrait quand même indexer l’URL d’une page bloquée si des liens externes pointent vers elle, même si son contenu est inacessible. Pour réellement masquer une page aux moteurs, utilisez la balise meta noindex (et ne la bloquez pas dans robots.txt, afin que le bot puisse la lire), ou supprimez/protégez la page.

  • Ne bloquez pas les fichiers importants pour le rendu de vos pages : Évitez d’interdire via robots.txt les fichiers CSS, JavaScript ou images qui sont nécessaires à l’affichage et à l’interprétation de vos pages. Si Googlebot ne peut pas accéder à vos ressources critiques, il pourrait mal comprendre votre page ou la considérer comme non optimisée pour les mobiles, par exemple. Laissez donc passer les éléments indispensables du balisage et de la mise en page.

  • Maintenez votre fichier à jour : Pensez à ajuster le robots.txt à chaque évolution majeure de votre site (changement d’architecture, nouveau répertoire à bloquer, etc.). Supprimez les directives obsolètes afin de le garder clair et exact. Surveillez également la Search Console : si Google signale des ressources bloquées ou des erreurs dans votre fichier, corrigez-les rapidement.

 

FAQ sur le fichier robots.txt

Un fichier robots.txt est-il obligatoire pour mon site ?

Non, ce n’est pas un requis absolu. S’il n’existe pas, les moteurs de recherche exploreront par défaut l’intégralité du site accessible. Cependant, avoir un robots.txt vous permet de mieux contrôler l’exploration. C’est vivement conseillé pour les sites professionnels, notamment afin d’exclure certaines pages (comme un panier, une zone membre, etc.) du crawl des robots et d’indiquer vos sitemaps. Même si vous ne souhaitez rien bloquer, vous pouvez créer un fichier minimal avec User-agent: * suivi de Allow: / pour expliciter que tout est accessible.

Quelle est la différence entre bloquer une page avec robots.txt et utiliser une balise meta noindex ?

Robots.txt et la balise meta <meta name="robots" content="noindex"> ont des fonctions différentes et complémentaires. Robots.txt bloque l’exploration d’une URL par les robots : le contenu de la page ne sera pas visité du tout. En revanche, la balise meta noindex (placée dans le code HTML de la page) indique aux moteurs que la page ne doit pas être indexée (c’est-à-dire apparaître dans les résultats). Pour qu’une balise noindex soit prise en compte, le robot doit pouvoir accéder à la page – elle ne doit donc pas être bloquée par robots.txt, sinon le bot ne verra jamais la balise. En résumé, utilisez robots.txt pour empêcher le crawl de pages non importantes, et utilisez noindex pour empêcher l’indexation de pages spécifiques dans les résultats. Souvent, on combine les deux : on laisse Google crawler la page afin de lire la balise noindex, puis Google exclut la page de l’index.

Une erreur de configuration de robots.txt peut-elle nuire au référencement ?

Oui, cela peut avoir de lourdes conséquences si vous commettez une erreur dans ce fichier. Par exemple, un Disallow: / placé par inadvertance (ou oublié après une phase de développement) bloquerait l’exploration de tout le site, empêchant l’indexation de vos pages dans Google. De même, bloquer des sections essentielles (par exemple Disallow: /produits/ sur un site e-commerce) reviendrait à dire aux moteurs de ne pas visiter vos pages produits – elles risqueraient de ne pas être indexées du tout. À l’inverse, ne pas bloquer certaines pages internes peut entraîner l’indexation de contenus dupliqués ou sans intérêt, diluant la qualité perçue de votre site. En somme, une mauvaise configuration du robots.txt peut soit désindexer involontairement des pages stratégiques, soit faire perdre du temps de crawl sur des pages inutiles. Soyez donc très rigoureux : vérifiez-le attentivement et faites-vous aider d’un expert SEO en cas de doute.

En conclusion, le fichier robots.txt est un petit fichier texte qui a une grande importance dans la gestion de l’exploration de votre site. En comprenant son fonctionnement et en l’utilisant judicieusement, vous améliorerez l’expérience des robots sur votre site, renforcerez votre expertise technique aux yeux de Google, et démontrerez l’autorité et la fiabilité de votre site en proposant un contenu bien organisé et maîtrisé (autant d’éléments valorisés par le concept E-E-A-T). N’hésitez pas à auditer régulièrement votre fichier robots.txt et à le mettre à jour dès que nécessaire. Une utilisation appropriée de ce fichier vous aidera à optimiser la visibilité sur Google de votre site en incitant les moteurs de recherche à se concentrer sur vos pages les plus importantes. En cas de doute, appuyez-vous sur les ressources officielles (par ex. la documentation Google) ou faites appel à un professionnel du référencement. Avec un robots.txt bien configuré, vous gardez la main sur le crawl de votre site et mettez toutes les chances de votre côté pour un SEO technique performant.