Afin d'augmenter le référencement d'un site, certains spammeurs accumulent des liens et tissent une toile artificielle. En modélisant graphiquement ce réseau, il est possible de les identifier.

Analyser la structure du web réduit l'indexation frauduleuse

Pour mieux repérer les sites spammeurs qui visent à confondre les algorithmes de référencement des moteurs de recherche, deux chercheuses indiennes* proposent une méthode qui organise en graphiques les sites et les liens tissés entre chacun d’entre eux. Baptisée "DBSpamClust", cette approche a l’avantage de simplifier la détection des sites qui tirent bénéfice de la vulnérabilité des méthodes de calcul du référencement comme PageRank ou HITS par exemple. Ces dernières prennent en compte le nombre de liens renvoyant vers un même site pour organiser les résultats des requêtes effectuées par les internautes.

Déjouer les mécanismes

"Le spamming des moteurs de recherche est une technique qui consiste à duper ces outils pour augmenter le référencement d’un site", expliquent-elles. Avant de préciser : "les spammeurs créent pléthore de références ou de liens artificiels afin d’acquérir un référencement plus important dans les résultats des moteurs de recherche". Les moteurs de recherche ont tout intérêt à déjouer ces mécanismes, en détectant les sites spammeurs. Mais cela représente une tâche longue et laborieuse. La méthode développée permet d’analyser la structure du web, et de repérer les "farm links" ("fermes de liens").

Repérer graphiquement les liens irréguliers

Ces sites ayant pour seule fonction la mise en ligne de pages de liens vers d’autres sites. La méthode utilisée par les scientifiques repère graphiquement ces rassemblements irréguliers de liens, via une technique qui calcule la distribution de la loi de puissance. Loi qui établit la relation mathématique entre la fréquence d’un événement et sa taille."Les sites spammeurs possèdent une structure graphique qui viole la loi de la distribution de puissance et en s’intéressant à la structure topologique du site Web il est possible d’avancer dans la détection du spam d’indexation", concluent les chercheuses dans leur étude.

* Des universités de Vellalar et de KSR