Subscribe to the RSS feed (english)
La pertinence d'un texte est-elle liée à la réputation de son auteur ?
Cette question m'intéresse particulièrement, et l'article suivant de Slashdot l'illustre parfaitement.
Cet article l'illustre dans le fond ET dans la forme.
Dans le fond, il y est question d'un travail de recherche d'une université américaine pour juger de la pertinence de wikipedia.
Je résume l'approche : à partir de l'analyse de l'ensemble des révisions de wikipedia, les chercheurs ont calculé une réputation pour chaque auteur et l'ont appliqué à chaque mot en le coloriant selon la réputation de son auteur. La mesure de la réputation d'un auteur se calcule en analysant pendant combien de temps ses contributions restent. Pour un site collaboratif comme wikipedia, le principe de base (la rémanence textuelle comme je ne résiste pas à le qualifier) est intéressant et, osons, pertinent.
Parce qu'il est facile de comprendre qu'à l'inverse, une contribution vite effacée ne doit pas être pertinente (l'exemple cité "Buy Viagra" se comprend vite). Il y a toujours des contre-exemples (un article sur un sujet qui n'intéresse personne peut longtemps afficher ses inepties, ou un expert nul en orthographe peut être vite corrigé), mais statistiquement, ces contre-exemples peuvent être négligés. Pour énormément d'autres sites, la rémanence de l'information n'a pas de sens, parce que bien souvent une page publiée l'est définitivement. Les outils de publication de blogs, par exemple, ne permettent pas aux lecteurs de modifier les articles, sinon, le blog s'appellerait un wiki. L'algorithme proposé est donc pertinent pour les wikis, mais pas pour les blogs. Il n'en reste pas moins que le lien entre la pertinence d'un texte et la réputation de son auteur reste valable. Mais j'y mettrais un bémol.
Les chercheurs cités ne prennent pas en compte de domaine d'expertise. Un auteur est plus ou moins pertinent. Point. Mais on peut être pertinent en statistiques, et pas du tout en littérature. Leur algorithme devrait prendre ça en compte. Pour ai-je dit que Slashdot illustrait cette question dans la forme aussi ? Parce que Slashdot teste en ce moment un système de filtrage des commentaires. En effet, le moindre article génère entre 100 et 1000 commentaires.
Tous ne sont pas pertinents, donc un système permet d'afficher, réduire ou effacer des commentaires. Et les critères utilisés, ici, ne sont pas la réputation de l'auteur, mais un système de notes données par les lecteurs. Les 97 commentaires que j'ai lus, parlaient tous d'un système de pertinence basé sur la réputation tout en utilisant un système basé sur les notes reçues, sans que leurs auteurs en aient fait le constat :-) ! Mais le système de Slashdot utilise aussi la réputation. En effet, pour pouvoir donner une note, il faut avoir atteint un certain niveau de, disons, réputation ! En conclusion, cette discussion illustre parfaitement le besoin d'une métrique de mesure de la réputation…
Je résume l'approche : à partir de l'analyse de l'ensemble des révisions de wikipedia, les chercheurs ont calculé une réputation pour chaque auteur et l'ont appliqué à chaque mot en le coloriant selon la réputation de son auteur. La mesure de la réputation d'un auteur se calcule en analysant pendant combien de temps ses contributions restent. Pour un site collaboratif comme wikipedia, le principe de base (la rémanence textuelle comme je ne résiste pas à le qualifier) est intéressant et, osons, pertinent.
Parce qu'il est facile de comprendre qu'à l'inverse, une contribution vite effacée ne doit pas être pertinente (l'exemple cité "Buy Viagra" se comprend vite). Il y a toujours des contre-exemples (un article sur un sujet qui n'intéresse personne peut longtemps afficher ses inepties, ou un expert nul en orthographe peut être vite corrigé), mais statistiquement, ces contre-exemples peuvent être négligés. Pour énormément d'autres sites, la rémanence de l'information n'a pas de sens, parce que bien souvent une page publiée l'est définitivement. Les outils de publication de blogs, par exemple, ne permettent pas aux lecteurs de modifier les articles, sinon, le blog s'appellerait un wiki. L'algorithme proposé est donc pertinent pour les wikis, mais pas pour les blogs. Il n'en reste pas moins que le lien entre la pertinence d'un texte et la réputation de son auteur reste valable. Mais j'y mettrais un bémol.
Les chercheurs cités ne prennent pas en compte de domaine d'expertise. Un auteur est plus ou moins pertinent. Point. Mais on peut être pertinent en statistiques, et pas du tout en littérature. Leur algorithme devrait prendre ça en compte. Pour ai-je dit que Slashdot illustrait cette question dans la forme aussi ? Parce que Slashdot teste en ce moment un système de filtrage des commentaires. En effet, le moindre article génère entre 100 et 1000 commentaires.
Tous ne sont pas pertinents, donc un système permet d'afficher, réduire ou effacer des commentaires. Et les critères utilisés, ici, ne sont pas la réputation de l'auteur, mais un système de notes données par les lecteurs. Les 97 commentaires que j'ai lus, parlaient tous d'un système de pertinence basé sur la réputation tout en utilisant un système basé sur les notes reçues, sans que leurs auteurs en aient fait le constat :-) ! Mais le système de Slashdot utilise aussi la réputation. En effet, pour pouvoir donner une note, il faut avoir atteint un certain niveau de, disons, réputation ! En conclusion, cette discussion illustre parfaitement le besoin d'une métrique de mesure de la réputation…