Le fichier robots.txt

Le fichier robots.txt est un fichier qui est apprécié des référenceurs. En effet, quand il est utilisé de la bonne façon, il permet d’optimiser le budget de crawl. Il s’agit d’une instruction qui oriente les robots d’indexation des moteurs de recherche vers les pages les plus importantes d’un site internet.

Dans cet article, on vous propose de découvrir l’utilité du fichier robots.txt, et l’impact qu’il peut avoir sur le référencement de votre site web. Nous vous expliquerons également comment créer un fichier robots.txt par vous-même.

Définition et utilité du fichier robots.txt

Le fichier robots.txt contient des commandes destinées aux robots d’exploration d’un moteur de recherche. Les commandes en question leur indiquent les URL auxquelles ils ont le droit d’accéder sur votre site. Elles indiquent également les zones de votre site que ces robots de crawl ne doivent pas indexer.

Le fichier robots.txt a pour principal objectif d’éviter la surcharge de votre site par des demandes. Ainsi, si vous tenez vraiment à ce qu’une de vos pages ne figure pas dans les SERPs, alors il serait préférable de bloquer l’indexation avec l’instruction noindex.

Le fichier robots.txt donne donc des instructions aux crawlers qui explorent et analysent votre site web. On peut le désigner comme étant un protocole d’exclusion des robots. Ce fichier vous permet donc d’interdire l’exploration et l’indexation de votre site ou de certaines pages de votre site à tous les robots, ou seulement à quelques uns.

Par exemple, prenons le cas d’un site commercial composé de deux zones : une zone publique qui permet à l’entreprise de communiquer avec ses clients, et une zone intranet exclusivement réservée aux salariés. Ici, l’entreprise va autoriser les crawlers à indexer la zone publique. En revanche, ces mêmes robots n’auront pas accès à la zone privée.

L’impact du fichier robots.txt sur différents types de fichiers

Sur les pages web

On peut l’utiliser pour des pages web afin de mieux gérer le trafic d’exploration. L’utilisation de cette instruction vous servira notamment si vous craignez que votre serveur soit submergé par les requêtes des crawlers. Ce fichier évitera également l’exploitation des pages sans importance ou similaires sur votre site.

Précisons que si vous bloquez une de vos pages web via un fichier robots.txt, l’URL de cette page risque tout de même d’apparaitre dans les SERPs, sans toutefois contenir de description. C’est pourquoi on recommandé d’utiliser l’instruction noindex si vous tenez vraiment à ce que votre page ne figure pas dans les résultats de recherche de Google.

Sur les fichiers multimédias

Le fichier robots.txt peut également être utilisé pour la gestion du trafic d’exploration, et pour empêcher l’apparition de fichiers multimédias (image, audio, vidéo) dans les résultats de recherche Google.

Néanmoins, malgré l’utilisation du fichier robots.txt, vous ne pourrez pas empêcher les autres utilisateurs ou autres pages de créer des liens vers votre fichier multimédia.

Sur un fichier de ressource

Le fichier robots.txt peut permettre le blocage de fichiers de ressource comme des scripts, des images ou des fichiers de style non importants. Cependant, n’effectuez ces blocages que si vous êtes sûr que l’absence de ces fichiers n’aura aucun impact majeur sur le chargement de vos pages.

Dans le cas où l’absence de ces ressources entrainerait une complication de la compréhension de la page pour le robot d’exploration Google, alors il serait préférable de ne pas les bloquer. En effet, cela empêcherait Google de correctement analyser les pages qui dépendent de ces ressources.

Où se trouve le fichier robots.txt

Vous pouvez le trouver au niveau de la racine de votre site internet. Pour la vérification de sa présence, il vous suffit de taper dans la barre d’adresse de votre navigateur : http://www.adressedevotresite.com/robots.txt.

Dans le cas où le fichier est présent, il s’affichera. Les robots se mettront alors à suivre les instructions dans le fichier. En revanche, s’il est absent, alors une erreur 404 sera affichée. Pour les robots, cela signifie qu’aucun contenu n’est interdit.

Comment créer un fichier robots.txt

Pour la création de votre, il est nécessaire que vous ayez accès à la racine de votre domaine. Pour cela, il vous faut posséder un accès FTP. Sans cet accès, vous ne serez pas en mesure de créer votre fichier robots.txt. Il vous faudra alors contacter votre hébergeur ou votre agence web.

La création de ce fichier peut soit être faite manuellement, soit être générée par défaut par la plupart des CMS au moment de leur installation. Vous pouvez également créer ce fichier avec des outils en ligne.

Pour créer votre fichier robots.txt manuellement, vous pouvez utiliser un simple éditeur de texte comme Notepad par exemple, en respectant le nom de fichier (« robots.txt »). Respectez la syntaxe les instructions et la structure (il doit y avoir une instruction par ligne, et aucune ligne vide).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *