L'indexation de pages Web pas à pas

Indexation est le mot franglais de indexing. On parle de l'indexation si on parle de la méthode, donc de l'algorithme, selon laquelle un moteur de recherche ajoute un site ou une page à sa base de données. L'indexation est donc seulement estimative et décrit les pas des robots d'une manière logique.

L'indexation et le fichier robots.txt

Le premier pas de la majorité de robots est la recherche du fichier robots.txt pour savoir si le site est destiné pour l'index et, ensuite, quelles pages ne soient pas destinées à leurs bases de données.

Si le fichier robots.txt n'existe pas, cela ne signifie pas que les robots ne continue pas à suivre les liens, mais ils enregistrent la première erreur 404 et fouillent ensuite toutes les liens qu'ils trouve, et qui ne sont pas marquée par l'attribut rel et la valeur nofollow.

Un manque du fichier robots.txt est donc le premier point négative auprès des robots.

L'indexation et le PageRank

Google est le seul moteur de recherche qui emploi le PageRank (PR) pour décider quelle importance une certaine page obtient, comparée aux autres pages du même contenu. Le paramètre de l'algorithme qui décide sur le PageRank est assez simple.

De plus qu'il y a de liens de qualité qui ciblent une certaine page, de plus augmente le PageRank qui joue sur le positionnement chez Google. Les liens de mauvaise qualité comme celles des fermes de liens, par contre, enlèvent le PageRank et la page atterrit à la fin des résultats des moteurs de recherche.

L'indexation et le fichier sitemap.xml

Le fichier sitemap.xml ne joue pas de rôle important en ce qui concerne PageRank et positionnement mais peut être considéré comme élément obligatoire de chaque site. Pour que Google prenne le sitemap.xml en considération il est nécessaire d'avoir un compte pour Webmasters chez Google, ce qui est entièrement gratuit.

A l'aide du fichier sitemap.xml un Webmaster peut informer Googlebot, le robot de Google, quelles pages il doit visiter. Cela joue surtout un rôle pour les pages qui ne sont pas directement liées avec d'autres pages du site, par exemple les pages seulement accessibles à l'aide de formulaires.

Il est logique que de telles pages n'obtiennent pas forcément un PageRank ou une bonne position, mais elles peuvent être indexées et, le sitemap.xml prendra sûrement d'importance dans l'indexation future et fera part de l'algorithme de plusieurs moteurs de recherche.

L'indexation de pages en Flash et AJAX

Google est capable à explorer une petite partie du contenu en Flash ou AJAX mais d'autres moteurs sont encore absolument incapable de cela. Les algorithmes considèrent donc, Google inclus, chaque page Flash ou AJAX de mineure qualité.

Pour arriver qu'un moteur accepte de telles pages il est donc nécessaire que le Webmaster ne maîtrise pas seulement Flash ou AJAX à 100%, mais qu'il soit également spécialisé en optimisation de pages Web crées à l'aide de ces techniques.

L'indexation et le contenu

Les algorithmes des moteurs de recherche évaluent la valeur du contenu texte selon plusieurs paramètres. Ils vérifient la quantité de mots utilisés dans une page, vérifient le words ratio, calculent combien de fois les mots clés du Webmaster se répètent dans les divers endroits de la page, où ces mots clés se trouvent dans le texte, si les règles de grammaire et d'orthographe ont été respectés et dans quels endroits ces mots sont placés.

Pour qu'un texte soit de qualité il est donc exclu à le rédiger pour un robot, mais il doit se diriger aux internautes. Il faut toutefois faire la différence entre un roman en un texte pour Internet qui demande de connaissances en web copywriting vu que la majorité des visiteurs d'un site n'ont pas l'habitude à lire de textes longues et trop développés.

L'indexation et Latent Semantic Indexing (LSI)

Comme la majorité de référenceurs avaient commencé avec le keyword stuffing, donc l'emploi abusif des mots clés, les algorithmes des robots ont adapté de paramètres qui se réunissent sous l'expression analyse sémantique latente ou, en Anglais, Latent Semantic Indexing.

Les robots ne calculent donc plus seulement les mots séparément mais vérifient si ces mots s'emploient aussi dans un contexte qui les nécessite. Ils cherchent en même temps de synonymes et les mots de la même famille qui font la différence entre un texte pauvre et un texte riche.

La Latent Semantic Indexing permet donc aux moteurs à "savoir" si un texte est cohérent et non artificiel. C'est aussi la raison pourquoi un rédacteur Internet qui pense à l'optimisation pour le référencement écrit d'abord un texte toute à fait "normal" pour, ensuite, retravailler la structure du texte, adapter les mots clés aux nécessités de l'indexation et d'ajouter de mots complémentaires au sujet.

Les liens suivants proposent des informations complémentaires concernant l'indexation de pages Web :
Analyse sémantique latente
L'avenir du Web Sémantique
Google Semantically Related Words & Latent Semantic Indexing Technology
Latent Semantic Indexing - LSI is the New SEO
References to Papers on LSI