De nombreux liens url n’aboutissent plus car ils ne sont plus répertoriés. Un chercheur propose une méthode pour savoir de quoi il s’agissait s’appuyant sur les réseaux sociaux.

Retrouver le contenu dont il était question sur une page web devenue inaccessible, c’est ce qu’a tenté de faire une équipe menée par un chercheur en sciences de l’informatique, Hany SalahEldeen Khalil de la Old Dominion University. Sa méthode consiste en l’étude des contenus relatifs au lien qui n’est plus disponible. Pour ce faire, il s’est servi des réseaux sociaux afin de trouver des messages en rapport avec un message d’origine dans lequel se situait le lien désormais inactif. Avec cette méthode,les chercheurs ont réussi à obtenir un contenu similaire à hauteur de 70% à celui se trouvant sur la page web originale, et ce pour 41% des liens perdus qu’ils ont essayé.

Une technique à développer

La recherche d’une telle technique s’effectue alors que les liens arrivant sur le web peuvent rapidement devenir inaccessibles. En effet, les données seraient perdues pour 11% d’entre elles dès la première année et 27% ne passeraient pas le cap de deux ans. Les chercheurs ont donc pensé que ces données en apparence perdu pouvaient être retrouvées à partir des différentes traces qu’elles avaient laissées sur internet. Ils ont pour cela utilisé le moteur de recherche de Twitter, Topsy. Sur ce dernier ils cherchaient la ressource manquante et consultait les tweets en relations avec cette dernière. Puis, les termes les plus fréquents relevés étaient entrés sur Google et les résultats correspondaient à des documents remplaçant potentiellement la ressource perdue.

Des contenus parfois de nouveau accessibles

Toutefois, les chercheurs ont remarqué un phénomène intéressant : plusieurs des ressources qui étaient déclarées manquantes et sont par la suite devenues accessibles. En effet, tous les contenus disparus ne le sont pas forcément de manière définitive. Ainsi, s’il s’agit d’un domaine interrompu puis restauré ou du compte d’un utilisateur qui a été suspendu puis rétabli, alors les contenus seront de nouveaux accessibles. Pour les contenus qui ne sont pas réactivés, leur méthode est pour l’instant la seule qui ait été mise au point, mais elle pourrait être suivie par d’autres, la marge de progression étant importante.

 

Rédigé par Timothée Sicot
Chargé de veille