Certains "tweets" offrent des informations utiles à la police pour prédire crimes et délits.

Twitter, un outil utile pour prédire les infractions

Alors que des études tentent de prédire les cas de récidive en fonction du passé de l'individu, des conditions d'incarcération et du milieu dans lequel il est relâché, des chercheurs sont parvenus à élaborer un modèle de prédiction des crimes. Ce modèle s’appuie sur les messages publiés par les quelques 140 millions d’utilisateurs de Twitter à travers le monde. Un algorithme utilise ces "tweets" pour prédire l'occurence et la géolocalisation de la criminalité dans les grandes villes. Ces travaux de recherche, menés par Matthew S. Gerber au sein du Predictive Technology Lab de l'université de Virginie, s'inscrivent dans un ensemble de travaux visant à prédire les infractions (crimes ou délits). Prédictions auxquelles la police de Chicago a d’ailleurs déjà recours quotidiennement. Chicago s'est révélée un cobaye idéal avec ses plus de 2,7 millions d'habitants, sa criminalité hors norme et surtout une base de données très complète mise à jour par le Département de Police de Chicago. Les chercheurs ont pu collecter toutes les données relatives aux crimes (en droit américain, le terme crime englobe les délits )  survenus entre le 1er janvier et le 31 mars 2013. Ils y ont ajouté une base de 1,5 million de "tweets" accompagnés de la position GPS de l’utilisateur au moment de la publication. Dans un article publié dans la revue "Decision Support Systems"*, Matthew Gerber démontre que Twitter apporte une amélioration notable des résultats.

Des indices temporels et spatiaux 

L'équipe de recherche a misé sur le succès de Twitter et sur des analyses de "tweets" plus anciens pour déceler des tendances (élections, révolutions, ou même des phénomènes naturels comme les tremblements de terre). La technique dite d'estimation par noyau mise en valeur dans l'article (KDE pour kernel density estimation) prend en compte des paramètres de temps et d'espace. Pour ce qui est de la prédiction de crimes, l'estimation par noyau présente l'avantage d'identifier et de visualiser rapidement les zones à risques en fonction d'événements criminels passés. Au départ, Matthew S. Gerber ne pensait pas que l'ajout des données de Twitter pourraient améliorer les résultats. Il craignait que les caractéristiques propres aux "tweets" les rendent inexploitables dans un modèle prédictif (vocabulaire propre et abrégé, messages limités à 140 caractères). Finalement, les chercheurs ont réalisé qu’à défaut de voir des publications qui expriment directement la planification d'un crime sur Twitter, il est plus fréquent de déceler des messages faisant référence à des infractions. Par exemple, lorsque plusieurs messages font référence à une forte consommation d’alcool dans un même lieu, le modèle alerte sur la probabilité que cette situation dégénère jusqu’à la commission de délits ou de crimes. En effet, la considération des résultats avec l'ajout des données récoltées sur Twitter permet une meilleure prédiction des crimes. Sur les 25 types de crimes étudiés par les chercheurs, les tweets se sont révélés utiles pour 19 d’entre eux. 

Un usage controversé des réseaux sociaux

En préambule de son article, Matthew S. Gerber précise qu'un tel modèle de prédiction pourrait être utile aux décisionnaires de la répartition des budgets dans la lutte contre le crime et plus spécifiquement, sur la répartition des patrouilles de police. Mais le chercheur est conscient des enjeux qu'implique l'utilisation de réseaux sociaux pour des problématiques judiciaires. D'ailleurs, en 2012, des défenseurs de la vie privée avaient critiqué une semblable volonté du FBI d'avoir recours aux données de Twitter pour prédire le crime. Et dernièrement, la police de Chicago a été accusée de racisme dans son usage des modèles de prédiction du crime. De fait, leur modèle se base sur des statistiques et comporte donc des données raciales. C’est ainsi qu’un jeune homme de 22 ans a reçu chez lui, à Chicago, la visite inopinée de la police l’avertissant qu’elle le surveillait le mettant en garde s’il commettait de nouvelles infractions. Mais Matthew S. Gerber balaie de tels risques de dérives. Il assure que son algorithme ne cible personne en particulier, mais se contente de cueillir des données sciemment publiées de manière publique. En revanche, il anticipe une analyse sémantique plus poussée du contenu des publications pour améliorer son modèle et l’incorporation de données complémentaires.

* sous le titre "Predicting Crime using Twitter and Kernel Density Estimation", vol. 61 of  Decision Support Systems (Elsevier), pp. 115-125, 2014

Rédigé par Lucie Frontière
Journaliste