L'utilisation du fichier robots.txt

Qu'est-ce que le robots.txt ?

Le fichier robots.txt fournit aux robots des moteurs de recherche une liste de dossiers qui ne sont pas destinés au référencement. Il est donc impossible à optimiser le fichier robots.txt si le site entier ne dispose pas d'une structuration déjà adaptée à l'optimisation des pages Web.
 
Le fichier robots.txt ne peut pas fournir les informations sur les fichiers qui sont destinés à l'indexation. Il s'agit d'un fichier d'exclusion avec une seule exception à part. Le fichier robots.txt trouve sa place toujours dans la racine du site.

Le fichier robots.txt et les robots

Les robots des moteurs de recherche cherchent toujours d'abord le fichier robots.txt avant de "regarder" le site avec le contenu et ses liens. L'absence de ce fichier leur renvoi donc la première erreur 404 et leur montre la négligence du Webmaster. Ils enregistrent dans ce cas déjà le premier point négative, même avant de connaître la qualité du site.
 
Le fichier robots.txt leur fournit aussi l'adresse du fichier sitemap.xml qui leur fournit les adresses de toutes les pages destinées au référencement. Le manque de ce fichier peut donc poser deux problèmes d'optimisation.

La rédaction du fichier robots.txt

La rédaction du fichier robots.txt se base sur la structuration du site et n'est rien d'autre qu'un fichier texte rédigé à l'aide du logiciel le plus simple installé dans l'ordinateur. De traitement de textes comme Word ou Open Office peuvent ajouter des informations que les robots ne peuvent pas lire.

Le rôle du fichier robots.txt

Le fichier robots.txt n'est pas fait pour protéger une partie du site mais constitue exclusivement une information pour les moteurs de recherche. Un fichier robots.txt n'indique donc JAMAIS de fichiers mais seulement de dossiers. Chaque internaute peut ouvrir le robots.txt et trouvera, dans le cas contraire, les fichiers non destinés au référencement et pourrait les ouvrir. Seulement un amateur ou un Webmaster non formé nomme donc de fichiers dans le robots.txt.
 
Il y a aussi de robots qui ne cherchent pas, comme Google, le fichier robots.txt. Pour leur interdire l'indexation il est donc nécessaire à appliquer de techniques supplémentaires comme la rédaction correcte des metas et l'emploi de la valeur nofollow.

Fichier robots.txt et protection de contenu

Le robots.txt n'est pas destiné à protéger l'accès à certains dossiers ou fichiers. Il s'agit exclusivement d'un fichier qui concerne l'indexation par les moteurs de recherche et il faut donc utiliser de techniques supplémentaires pour protéger le contenu de certains fichiers, si nécessaire. Un Webmaster utilise ici de mots de passe, utilise un fichier .htaccess ou une autre technologie de protection.

Les fautes les plus courantes des fichiers robots.txt

Comme le fichier robots.txt s'adresse aux machines et ne pas aux humains il faut leur présenter les fichiers de la manière qu'ils peuvent les lire. Chaque erreur leur renvoi un message d'erreur et le fichier robots.txt sera non valable.
 
Les robots ne peuvent pas lire les commentaires dans le robots.txt, prennent une ligne qui commence avec un espace comme vide, nécessitent une logique dans la rédaction du code et ne comprennent donc pas des informations inversés. Les robots ne peuvent pas lire la suite de dossiers dans les robots.txt style
Disallow: /aide/support/images/
ce qui implique une bonne structuration du site. Les robots sont, comme la majorité de serveurs, case sensitive et il est donc important à respecter la casse des lettres employées.
 
La rédaction du fichier robots.txt et des explications supplémentaires sont disponibles par les liens suivants :
Protocole d'exclusion de robots
Qu'est-ce que le robots.txt ?
Utilisation d'un fichier robots.txt pour contrôler l'accès à votre site
The Web Robots Pages
Robots.txt Checker
List of User-Agents (Spiders, Robots, Crawler, Browser)