Recourir aux lois de probabilité permet d’affiner la recherche de mails pouvant faire allusion à des affaires terroristes. Cela, en faisant des comparaisons entre la récurrence d’un mot et le thème du courrier

Le filtrage de mails a besoin de probabilité

Afin de permettre aux agences de sûreté qui balaient les courriers échangés de dissocier plus aisément e-mails "classiques" ou spams d’autres messages considérés comme suspects, la solution serait de programmer les outils de filtrage en s'aidant de lois de probabilité. Des chercheurs de l'université du Kashmir ainsi que du collège BC de Londres ont ainsi mis au point un dispositif qui, une fois "éduqué" à l'aide d'un échantillon test d'emails, devient capable de repérer les courriels en question avec une marge d'erreur inférieure à 2%. Pour fonctionner, le logiciel recourt donc à une base de données d'e-mails (7000 dans le cas de l'étude) fournie par l'utilisateur.

Des termes pondérés en fonction de leurs probabilités d'apparition

Ce dernier doit pour cela avoir défini à l'avance le type de l'ensemble des e-mails (classique, spam, ou menace) via l'interface du logiciel. Logiciel qui va alors étudier chacun des mots contenus dans les fichiers mis à disposition via une fonction d'analyse sémantique. A l'aide du théorème de Bayes, il établira alors sa probabilité d'occurrence en fonction du type de mail, qu'il enregistrera dans sa mémoire de fonctionnement. Dès lors, le système devient opérationnel. Lorsque celui-ci filtre un mail "réel", comme ceux qu'analysent en permanence les agences de sécurité nationale, il va pondérer chacun des mots contenus à l'aide des probabilités préalablement établies, pour ensuite additionner les valeurs obtenues.

 

Une limite prédéterminée comme signal d'alarme

A noter que ces valeurs diminuent en fonction du nombre total de mots. C’est-à-dire qu'un terme menaçant aura une valeur moins grande s'il est noyé au sein d'une masse importante de contenu classique. Finalement, si la somme finale dépasse un certain chiffre en tant que spam ou menace (limite préétablie par l'utilisateur) il est alors signalé comme tel à l'utilisateur. En ce sens, un message peut être à la fois un spam et une menace. Dans le cas contraire, il devient un e-mail "classique". Selon les chercheurs, le taux de réussite obtenu est supérieur à la plupart des autres méthodes de filtrage. Ils précisent toutefois qu'il est toujours possible de tromper ce type de système, et qu'un logiciel 100% est pour le moment inimaginable