La compilation de données issues du site de microblogging (localisation, hashtags...) pourrait permettre d'anticiper certains évènements sociaux.

Prédire les gagnants d'un événement sur Twitter

Si l'on a déjà abondamment parlé du rôle de Twitter pour profiter d'indications sur des tendances boursières à venir, voire pour prévoir la propagation d'une maladie, d'autres recherches reviennent de plus en plus sur le fait que le site de microblogging permettrait aussi de deviner en amont les résultats d'un événement populaire ou collectif. La plate-forme de Jack Dorsey a ainsi récemment fait l’objet de travaux scientifiques de la tw. Les chercheurs se sont intéressés aux discussions autour de l'émission American Idol, choisie parce qu'elle implique chaque année plusieurs millions d'Américains qui commentent et votent. Le but : voir s'il était possible de déterminer le nom du gagnant avant que celui-ci soit prononcé. L’équipe de Fabio Ciulla a ainsi extrait de Twitter un certain nombre de données telles que la géolocalisation des tweets, permise par les smartphones, les hashtags et le nombre de messages relatifs à l’évènement, sur une durée comprise entre 1 et 2 mois.

Une compilation simplifiée

L’étude a enregistré les données de plus de 670 000 tweets, sur des fenêtres de temps réduites et en fonction des hashtags. Les chercheurs sont partis de l'hypothèse - qu'ils qualifient d'eux mêmes d'assez basique, mais qui a semblé efficace - que les tweets peuvent être associés à des votes. C'est-à-dire que plus un candidat est à la source de tweets, plus il y a de chances que l'on vote pour lui. Ils ont ensuite classé tous les tweets par nom de candidat, et par localisation. Résultat de l'expérience : au départ, les chercheurs ont annoncé le mauvais gagnant. Mais quand ils ont regardé leurs données, ils se sont rendus compte que la candidate qu'ils avaient désignée vainqueur était celle qui avait généré beaucoup de messages aux Philippines. Or les votes ne pouvaient venir que du territoire américain. En excluant ces messages, les chercheurs arrivaient au véritable gagnant.

Vers une utilisation systématique ?

Evidemment, la typologie de l’évènement est à l’origine de la fiabilité des résultats extractibles de Twitter : plus il revêtira une importance auprès de la population, mesurable par le nombre de tweets, plus le nombre de données à enregistrer et assimiler sera conséquent. Cependant, cette méthode de calcul n’a pour l’instant pas été utilisée pour des évènements tels que des élections politiques. Mais pour l'instant, le caractère confidentiel de ces votes pourrait influer sur  la fiabilité des résultats extraits de la plateforme de micro-blogging. Les chercheurs ont néanmoins estimé que les données démographiques des tweets des utilisateurs étaient assez représentatives du paysage électoral américain, pour permettre des prévisions pertinentes.

*Laboratory for the Modeling of Biological and Socio-technical Systems, Northeastern University, Boston MA 02115 USA 2Institute for Scientific Interchange Foundation, Turin 10133, Italy. 3Institute for Quantitative Social Sciences, Harvard University, Cambridge, MA, 02138.