Les robots et leurs algorithmes

Un robot, souvent simplement appelé bot, est un programme qui explore automatiquement l'Internet à la recherche des pages Web pour les indexer ensuite dans la base de données des moteurs de recherche ou une autre base de données qui fait, par exemple, partie du réseau des spammeurs.
 
L'optimisation des pages Web utilise une stratégie qui empêche les robots malveillants à scruter un site et prépare les pages de la manière que les robots ne soient pas "perdus" dans un site et qu'ils "comprennent" l'importance et la valeur de chaque page.

Les algorithmes des robots

Les robots ne s'intéressent pas seulement au contenu d'une page et d'un site mais poursuivent également les liens pour accéder à chaque page du site et aux pages qui sont liées à ces pages. Dès qu'un robot est bloqué ou le chargement des pages demande trop de temps, il arrêt sa visite pour continuer avec un autre site.
 
Le premier pas d'un robot et la recherche des fichiers sitemap.xml et robots.txt pour connaître la structure du site et pour savoir quels dossiers et fichiers ne sont pas destiné à l'index.

Le travail des robots

Mais le but des robots n'est pas seulement à trouver des nouveaux sites et pages. Il décide quasi immédiatement après avoir trouvé une page d'accueil s'il vaut la peine à visiter le site ou non. Il emploi ici un algorithme qui lui permet à éviter les sites mal conçus, sans contenu ou qui ont un but malhonnête. Après la visite les robots programment, de nouveau selon un algorithme, la revisite du site pour pouvoir enregistrer les changements au fur et à mesure du développement de la présence Web. Le même algorithme leur permet à vérifier quelles pages du site soient indexées et lesquelles peuvent être négligées. Les robots fournissent ces informations à un autre robot qui a la fonction à coordonner les informations des divers robots du même moteur de recherche qui, peut-être, ont visité le même site en suivant quelques liens externes.

L'optimisation adaptée aux robots

L'optimisation de sites pour le référencement doit donc persuader des milliers de robots du fait que leurs pages valent la peine d'être visible sur Internet et cela dans un endroit privilégié. Les pages sans contenu, avec un contenu double ou avec un contenu douteux n'ont donc aucune chance à trouver un bon emplacement dans un moteur de recherche vu que déjà les algorithmes des robots empêchent l'indexation de ces pages.
 
La page suivant informe sur le travail des robots et de moteurs de recherche :
Web Search Engines
 
Les URLs suivantes informent plus en détail sur le fichier robots.txt :
Qu'est-ce que le robots.txt ?
robots.txt in a nutshell