Optimisation de votre fichier Robots.txt pour le SEO

 

Kevyn Marciniak – PrimoRef – 12/2022

Lorsqu’il s’agit de référencement, il est important de prêter attention aux détails.

 

L’un des éléments les plus importants de votre site web que vous ne devez pas négliger est le fichier robots.txt. Il peut avoir un impact majeur sur votre classement dans les moteurs de recherche, si vous vous trompez, il peut à lui seul ruiner votre référencement.

Un petit fichier à ne pas prendre à la légère !

Voyons ensemble ce qu’est exactement un fichier robots.txt, pourquoi il est important pour votre SEO et comment vous pouvez l’optimiser pour obtenir de meilleurs résultats.

Qu’est-ce qu’un fichier robots txt ?

 

Comme son nom l’indique, robots.txt est un fichier s’adressant aux robots

 

Un fichier robots.txt est un fichier texte situé sur votre serveur Web (à la racine de votre site, donc pas dans un dossier) qui indique aux robots des moteurs de recherche (ou crawler) quelles pages ils doivent ou ne doivent pas indexer/visiter sur votre site web. Il est composé d’un ensemble d’instructions destinées aux robots des moteurs de recherche (Google, Bing …), qui leur indiquent les zones de votre site qui sont interdites et celles qui peuvent être explorées et indexées.

 

Ces instructions ne sont malheureusement que consultative, il arrive que Google outrepasse les restrictions du fichier robots.txt et décide d’indexer ou d’explorer quand même les pages de votre site internet.

 

Ce que Google veut, Google l’obtient. Même si vous n’êtes pas d’accord.

Schéma présentant les différent sujets autours du fichier robots.txt en seo

Pourquoi un fichier robots.txt est-il important pour le référencement ?

 

En optimisant votre fichier robots.txt, vous pouvez vous assurer que les moteurs de recherche comprennent quelles parties de votre site web doivent être indexées dans leur base de données, et quelles parties ne doivent pas être indexées du tout.

 

Cela permet d’éviter que du contenu indésirable ne se retrouve dans les bases de données des moteurs de recherche, ce qui améliore vos chances d’être mieux classé dans les SERP (Search Engine Results Pages).

 

Au delà de l’indexation, cela vous permet aussi d’indiquer simplement votre sitemap, de limiter le passage des robots en même temps, ou de donner la directive de ne pas explorer le site pour certains robots particuliers.

Le crawl budget vous limite, vous aussi limitez les moteurs de recherches !

 

Face à l’immensité d’Internet Google (et les autres moteurs de recherches) ne peuvent pas se permettre de parcourir tout le temps d’énorme site qui ne change quasiment pas. Les moteurs de recherches vous accordent ce que l’on appelle un “craw budget” (ou budget d’exploration) pour s’assurer de ne dépenser que les ressources nécessaires selon eux pour votre site.

 

Si vous avez un site profond contenant de nombreuses pages vous ne voulez pas que votre crawl budget soit dépensé pour des pages sans intérêt pour votre référencement. Vous allez donc devoir indiquer aux robots (grâce au fameux fichier robots.txt) de ne pas parcourir certaines pages pour concentrer votre nombre de passages octroyés par les moteurs sur les pages qui vous intéresse vraiment.

 

Un fichier robots txt optimisé permet de s’assurer que seules les pages pertinentes sont explorées par les robots, au lieu de leur faire perdre du temps sur des pages sans valeur ou sans pertinence pour les requêtes des internautes.

Comment optimiser votre fichier robots txt pour le référencement ?

 

  • Définissez quelles pages doivent être explorés par les robots
  • Créer un fichier texte nommé robots.txt
  • Entrez les instructions sur le fichier
  • Placez le fichier à la racine de votre site web

 

Quelles pages ne doivent pas être suivies par les robots ?

C’est simple, les pages ne devant pas être explorés sont toute celles que vous ne souhaitez pas voir apparaître sur Google. Toutes celles qui ne seront pas recherchées par vos lecteurs potentiels.

 

Ces pages peuvent provenir de contenus créés automatiquement par votre CMS (WordPress, Joomla!, …) ou provenir d’obligations légales (CGV, mention légales, politique de confidentialité etc).

 

Par exemple, WordPress a la fâcheuse tendance à créer des index regroupant votre contenu déjà existant sur vos pages dans des pages “auteur” ou à créer des pages distinctes pour vos images. Tout cela est inutile en plus de vous exposer a la menace de contenu dupliqué !

Ne laissez voir à Google que ce vous souhaitez lui montrer !

En indiquant au moteur de recherche de ne pas parcourir ces pages, vous économiserez votre crawl budget et vous empêcherez l’indexation de ces pages.

Créer le fichier

Nous allons voir ensemble comment créer le fichier robots.txt

Sous WordPress

Sous WordPress, vous pouvez vous appuyer sur des plugins dédié aux fonctionnalités SEO comme Yoast SEO. Évidemment, quel que soit votre CMS (système de gestion de contenu en français) vous trouverez un plugin qui remplit cette fonctionnalité.

Après avoir installé le plugin, vous aurez simplement à entrer les instructions dans votre plugin et il se chargera de lui-même de créer ET de placer votre fichier au bon endroit (à la racine de votre site).

infographie montrant les plugins WordPress a utiliser pour optimiser le fichier robots.txt pour le seo

Le cas général

Si vous ne souhaitez pas (ou vous ne pouvez pas) utiliser un plugin pour créer votre fichier robots.txt vous pouvez utiliser la bonne vieille méthode manuelle.

 

Pour cela rien de plus simple :

 

  • Créez un fichier texte
  • Nommez le “robots.txt”
  • Entrez les instructions dont vous avez besoin

Le guide des instructions à utiliser pour remplir votre robots txt

Voyons maintenant les instructions à indiquer dans votre fichier robots txt et à quoi elles correspondent.

 

La commande user agent

user-agent: : sert à indiquer de quel robot vous parlez.
Vous pouvez choisir d’adapter chacune de vos commandes à un (ou des) robot particulier.

 

 Voici une liste des robots majeurs des moteurs de recherche :

• Googlebot pour les résultats classiques de Google ;

• Feedfetcher-Google pour les flux de syndication de Google ;

• Googlebot-News et Googlebot-Image respectivement pour les actualités et images ;

• Yandexbot pour le moteur russe Yandex ;

• Gigabot pour Gigablast ;

• Bingbot pour Bing de Microsoft ;

• Teoma pour Ask Jeeves ;

• Yahoo! Slurp pour Yahoo! ;

• Baiduspider pour le leader de la recherche chinoise Baidu ;

• Exabot pour Exalead ;

• Lexxebot pour le moteur de recherche Lexxe…

 

La commande sitemap

La commande sitemap: vous permet d’indiquer aux moteurs de recherche où se trouve votre fichier sitemap.xml qui liste les pages que vous souhaitez voir indexés.

Pour l’utiliser indiquez après la commande l’adresse complète de l’URL où se trouve votre sitemap.

Exemple:

 

sitemap: https://mon-site.com/sitemap.xml

 

⚠️ Attention à ne pas interdire le fichier sitemap.xml aux robots, même si cette page est parfois indexée !

La commande crawl-delay

L’utilisation de la commande crawl-delay: vous permet de spécifier le temps entre chaque passage d’un robot.

Cela peut être utile pour réduire la charge du serveur, mais cette commande n’est pas prise en compte par Google.

Après la commande vous devez indiquer un chiffre indiquant le nombre de secondes entre chaque passage.

Exemple:

user-agent: *
crawl-delay: 5

-> Pour tous les robots (qui acceptent cette directive), 5 seconde minimum entre chaque passage.

 

La commande allow

“allow:” vous permet d’indiquer aux robots que vous souhaitez indexer et faire explorer ce qui suit.

 

Cette commande est la valeur de base si vous ne possédez pas de fichier robots.txt, que votre fichier ne soit pas fonctionnel ou qu’il soit vide.

 

La commande disallow

“disallow:” indique aux moteurs de recherche que vous ne souhaitez pas que ce qui suit soit accessible aux robots. Cela permet de bloquer l’accès aux robots.

 

Comme nous l’avons vu plus haut, les moteurs de recherches peuvent décider d’ignorer cette demande si cela sert leurs intérêts.

Les directives non prises en charge par Google

Google étant LE moteur de recherche par excellence, en seo il va falloir suivre les directives de la firme de Montain View.

Google ne reconnaît pas (et n’appliquera donc pas) les directives suivantes pour le fichier robots.txt :

  • crawl-delay
  • noindex
  • nofollow

La directives noindex et nofllow peuvent être utilisées dans les balises html meta robots directement sur les pages, mais ne seront pas prises en compte dans le fichier robots.txt.

Comment indiquer sur quoi porte les instructions du fichier robots txt ?

Pour chaque commande, vous devez indiquer à quoi elle se réfère (à quels robots, quelle partie de votre site ne doit pas être explorée etc)

 

Le sigle * dans un fichier robots txt

Le sigle * indique “tout” et désignera l’intégralité du site ou des robots.

 

Par exemple user-agent: * se traduira par tous les robots.

 

Indiquer un fichier ou un dossier aux robots

Quand vous indiquez une partie de votre site, vous ne devez PAS mentionner le protocole (“https://”), ni votre nom de domaine (‘mon-site.com”)

 

Exemple : si vous souhaitez indiquer la page https://mon-site.com/contact vous ne devrez indiquer que le nom du fichier de la page donc : /contact.html

user-agent: *
disallow: /contact.html

-> Pour tous les robots, accès interdit à https://mon-site.com/contact

Exemple d'instruction pour remplir un fichier robots.txt

Pour le répertoire (ou dossier) contact :

user-agent: *
disallow: /contact/

Exemple d'instruction à utiliser dans un fichier robots.txt sur un répertoire

Attention au / en fin de chaîne

Si vous ne placez pas de / en fin de chaîne, vous indiquez que tout ce qui commence par ce que vous avez indiqué doit répondre à la commande

 

Par exemple:

“disallow: /contact” appliquera disallow au fichier /contact.html où qu’il se trouve sur votre site.

Alors que :

disallow: /contact/ n’appliquera disallow qu’au répertoire (donc au dossier contact) si contact.html est en dehors du dossier contact, il ne sera pas touché par la commande.

 

La commande disallow: /

Si vous indiquez “disallow: /” vous indiquez aux moteurs de recherche que l’intégralité de votre site ne doit pas être exploré ni indexé.

Tout ce qui commance par / est impacté, donc tout votre site, cela reviens à dire “disallow: *”

 

⚠️ Attention, n’utilisez cette commande que si vous ne souhaitez pas que votre site apparaisse sur les résultats des moteurs de recherche (SERP).

 

Les instructions du fichier robots.txt sont prises dans l’ordre de lecture

Chaque directive est lue de haut de bas, ligne par ligne.

Vous pouvez donc coupler les directives allow: et disallow: à la suite.

Vous pouvez indiquer un répertoire à ne pas explorer et ensuite autoriser un seul fichier (ou sous répertoire) de ce répertoire.

Exemple :

disallow: /image
allow: /image/image3.png

 

Ici seul le fichier “image3.png” pourra être exploré dans le dossier image (le reste du dossier sera bloqué).

Comment vérifier que mon fichier robots txt fonctionne ?

Google propose un outil gratuit de vérification de vos fichiers robots.txt, n’hésitez pas à le faire tester gratuitement.

N’oubliez pas qu’une seule erreur peut rendre nul tout ce que vous avez pris la peine d’indiquer sur votre fichier.

 

Petite astuce en passant, vous pouvez retrouver le fichier robots.txt en suivant l’URL suivante sur tous les site (qui en possède un):

https://site-internet/robots.txt

Besoin d’aide avec votre fichier robots txt ?

 

Vous souhaitez déléguer ou être accompagner dans votre démarche SEO ?

Jettez un oeil à ce qu’un professionnel peut faire pour vous et votre entreprise en cliquant sur le bouton juste en dessous.

Kevyn Marciniak

Kevyn Marciniak

Le magicien d'internet

Rédacteur web, expert SEO, président d’association, et bien plus encore. Je met mon expertise au service de mes clients pour leur permettre d’atteindre leurs objectifs en utilisants les meilleures méthodes disponible.

Inscrivez vous à notre newsletter !

Inscrivez vous à notre newsletter !

Recevez les dernières nouveautés et conseils en SEO et marketing digital.

Vous vous êtes bien abonnez, à plus tard par mail !