comment optimiser un robots txt

Google Search Console et robots.txt

Le référencement est un ensemble de stratégies et de techniques qui ne se résument pas uniquement à l’utilisation des bons mots-clés. Pour optimiser le SEO de vos pages, vous devez maîtriser un outil très important : le fichier robots.txt. Les robots des moteurs de recherche se permettent d’explorer tous les liens sans la permission des gestionnaires de sites. Si vous avez envie d’interdire certaines pages de votre site web à ces robots, vous devez intégrer ces consignes dans le fichier robots.txt.

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt permet de montrer aux robots des moteurs de recherche les pages qu’ils doivent crawler ou non. Ce fichier est censé permettre d »éviter donc une exploration intrusive de vos pages web. (En d’autres termes, améliorer son crawl). Ce fichier, à titre indicatif, se trouve, à la racine du site web.

Que faut-il savoir sur un robots.txt ?

Ce type de fichier est un fichier public. Par conséquent, tout le monde peut facilement y accéder. De plus, les indications que vous mentionnez dans le fichier sont des consignes et non des interdits. Les robots d’exploitation des moteurs de recherche sérieux tels que Google, Yahoo ou Bing les respectent. Cependant, ce fichier ne peut pas obliger un robot malveillant à suivre les indications inscrites. Vous devez aussi retenir que le rôle du robots.txt n’est pas de sécuriser votre site sur internet.

Qu’est-ce qu’un user-agent ?

Un user agent est une chaîne de caractères qui est transmise au serveur via le navigateur lorsqu’un visiteur consulte une page en ligne. Cependant, le user agent est aussi envoyé lorsqu’un robot ou un programme informatique explore une URL.

Rôle du fichier robots.txt

Cet outil permet de contrôler l’accès des robots d’exploration aux URL des pages de votre site. Il indique aux robots les fichiers ou les pages qu’ils peuvent télécharger et analyser. Ainsi, les moteurs de recherche peuvent crawler votre site intelligemment pour la réussite de votre SEO.

Fonctionnement d’un robots.txt

Lorsqu’un robot (comme ceux de Google) cherche à explorer une URL de votre site, il va systématiquement chercher à consulter le fichier robots.txt. Dans le cas où le fichier se trouve sur votre site, le robot va le lire et consulter toutes les consignes qui sont inscrites dans le fichier.

Quelles sont les indications de base d’un robots.txt ?

Vous pouvez indiquer les URL (ou type d’URL) que vous ne voulez pas que les robots explorent. Il peut s’agir des URL qui n’ont aucune importance pour le SEO, des rubriques de votre site qui ne doivent pas être crawlées ou encore des fichiers qui ne doivent pas être explorés. La commande disallow: est une des premières à connaître pour cela.

Quelles sont les limites de cet outil lors du crawl d’un site web ?

Il ne s’agit pas d’un instrument qui bloque l’exploration des robots. Ce sont plutôt les robots qui sont conçus pour décider du comportement à adopter face aux consignes du fichier. Par conséquent, le fichier robots.txt ne peut pas obliger un robot à suivre les consignes qui sont mentionnées. De plus, il s’agit d’un outil très sensible, car mal codé, il peut donner des informations, par inadvertance, pour faciliter le piratage d’un site.

Faut-il optimiser un robots.txt pour chaque domaine ou sous-domaine ?

En général, les robots d’exploration considèrent les sous-domaines comme des sites à part entière. Alors si votre sous-domaine se trouve sur un emplacement différent de celui de votre domaine, il est nécessaire d’installer un fichier robots.txt pour le sous-domaine de votre site web.

Quel est le signe à utiliser pour marquer la fin d’une URL dans un robots.txt ?

Pour marquer la fin d’une URL, il faut utiliser le signe $ à la fin du chemin. Très pratique, ce caractère, il permet d’empêcher le crawl d’un type d’URL bien particulière sans empêcher de crawler les autres URLS qui commencent de la même manière.

La configuration du fichier robots.txt peut-elle s’avérer nocive pour le SEO de mon site ?

Avoir un fichier robots.txt implémenté sur son site n’est pas dangereux, ceci à 2 conditions. Au contraire, c’est un outil SEO qui peut améliorer votre référencement. Cependant, il peut servir pour les attaques provenant de personnes malveillantes, si celui-ci est trop explicite pour les pirates. De plus, si celui-ci contient des directives bloquant à tord des URLS, votre SEO risque d’en pâtir.

Utilisez le fichier robots.txt pour WordPress

Le fichier robots.txt de base n’est pas particulièrement adapté pour WordPress. Il faut l’optimiser pour permet d’interdire l’exploration d’URLS inutiles pour votre SEO. Attention, n’allez pas bloquer des URLS qui aident Google à comprendre le design et la  » responsivité  » de votre site.

N’oubliez pas d’y inclure un sitemap à la fin du fichier.

Voyons comment créer et contrôler votre fichier robots.txt

En cas de changement, il est recommandé de surveiller votre fichier. Des problèmes assez graves sont provoqués par des consignes incorrectes ou des modifications brusques du fichier.

Si vous ne savez pas formater correctement votre fichier robots.txt à la racine de votre site, faites appel à mes services en tant que :

consultant sous WordPress

Comment tester le fichier robots.txt ?

L’instrument de test du fichier robots.txt officiel de Google permet de vérifier si votre fichier empêche vraiment les robots d’exploration des moteurs de recherche de crawler des URL spécifiques sur votre site web.

Pour plus d’utilisation pour l’utilisation de cet outil, rendez-vous sur le support de Google

https://support.google.com/webmasters/answer/6062598?hl=fr