Subscribe to the RSS feed (english)
Avec l'arrivée du web 2.0, Google va devoir changer sa façon de classer les pages : son fameux PageRank.
Ca m'étonnerait qu'ils ne travaillent pas là-dessus depuis des années, mais comme personne n'en parle, je vais essayer d'intuiter...
Le PageRank a fait le succès du lancement de Google. La pertinence des résultats s'est tout de suite imposée par rapport à ses concurrents de l'époque (Altavista, Yahoo...). Le principe du PageRank, enfin, tel qu'il a été écrit dans les articles de recherche de Larry Page et Sergei Brin, les fondateurs de Google, revient à considérer que le poids d'une page dépend du poids de toutes les pages qui ont des liens vers elle.
En d'autres termes, une page qui est citée à de nombreuses reprises est considérée plus pertinente qu'une autre. Elle est d'autant plus pertinente que les pages qui la citent sont elles-mêmes pertinentes.
Le PageRank ne se contente plus de ce principe, mais il reste encore prépondérant. Or, il s'est passé quelque chose de nouveau depuis 1998. Les pages ne sont plus totalement maîtrisées par leurs propriétaires. Depuis qu'il est possible d'ajouter des commentaires, il existe des "morceaux de pages" qui ont potentiellement moins de pertinence que la page qui les affiche. Dans ces commentaires, si des liens apparaissent, ils sont naturellement pris en compte par Google pour le calcul du PageRank.
Donc, ces liens n'ont pas été écrits par le responsable du site. Tout au plus ont-ils été filtrés, autorisés. Mais il y a une énorme différence entre "ne pas supprimer un lien" et "créer un lien". Dans un cas le lien peut n'avoir que peu de rapport avec le contenu de la page, dans le second, le lien est pertinent. On voit donc fleurir les robots (c'est joli cette expression, ça rappelle l'Ecume des Jours, et les fleurs de métal sur les canons) qui viennent ajouter des commentaires vers des sites pour adultes ou de casinos dans le seul but de faire augmente leur PageRank (je pars du principe que personne ne clique sur ces liens). Que devrait donc faire Google (et qu'il fait certainement) pour prendre en compte ce problème ?
Séparer les liens écrits par l'éditeur du site de ceux écrits par d'autres. Idéalement, le PageRank devrait être calculé uniquement à partir des premiers.
Certains sites utilisent l'attribut nofollow pour les liens qui ne doivent pas être pris en compte. Mais cela reste une décision du site, non une part de l'algorithme de Google.
Comment cela pourrait-il marcher ?
En analysant la structure d'une page, en séparant les zones qui relèvent de l'éditeur du site, de celles qui relèvent des visiteurs. Mieux, en enregistrant les actions d'écriture de et sur ces pages. On pourrait connaître qui a écrit telle partie du contenu, et mieux en estimer la pertinence.
Impossible ? Patience…
En d'autres termes, une page qui est citée à de nombreuses reprises est considérée plus pertinente qu'une autre. Elle est d'autant plus pertinente que les pages qui la citent sont elles-mêmes pertinentes.
Le PageRank ne se contente plus de ce principe, mais il reste encore prépondérant. Or, il s'est passé quelque chose de nouveau depuis 1998. Les pages ne sont plus totalement maîtrisées par leurs propriétaires. Depuis qu'il est possible d'ajouter des commentaires, il existe des "morceaux de pages" qui ont potentiellement moins de pertinence que la page qui les affiche. Dans ces commentaires, si des liens apparaissent, ils sont naturellement pris en compte par Google pour le calcul du PageRank.
Donc, ces liens n'ont pas été écrits par le responsable du site. Tout au plus ont-ils été filtrés, autorisés. Mais il y a une énorme différence entre "ne pas supprimer un lien" et "créer un lien". Dans un cas le lien peut n'avoir que peu de rapport avec le contenu de la page, dans le second, le lien est pertinent. On voit donc fleurir les robots (c'est joli cette expression, ça rappelle l'Ecume des Jours, et les fleurs de métal sur les canons) qui viennent ajouter des commentaires vers des sites pour adultes ou de casinos dans le seul but de faire augmente leur PageRank (je pars du principe que personne ne clique sur ces liens). Que devrait donc faire Google (et qu'il fait certainement) pour prendre en compte ce problème ?
Séparer les liens écrits par l'éditeur du site de ceux écrits par d'autres. Idéalement, le PageRank devrait être calculé uniquement à partir des premiers.
Certains sites utilisent l'attribut nofollow pour les liens qui ne doivent pas être pris en compte. Mais cela reste une décision du site, non une part de l'algorithme de Google.
Comment cela pourrait-il marcher ?
En analysant la structure d'une page, en séparant les zones qui relèvent de l'éditeur du site, de celles qui relèvent des visiteurs. Mieux, en enregistrant les actions d'écriture de et sur ces pages. On pourrait connaître qui a écrit telle partie du contenu, et mieux en estimer la pertinence.
Impossible ? Patience…