Donner ses SMS à la science, quelle drôle d'idée... C'est en tous cas celle qu'ont eue il y a quelques mois deux chercheurs de l'université catholique de Louvain, en...

Donner ses SMS à la science, quelle drôle d'idée... C'est en tous cas celle qu'ont eue il y a quelques mois deux chercheurs de l'université catholique de Louvain, en Belgique. Au mois d'octobre, le Centre de traitement automatique du langage (Cental) et le Centre d'étude des lexiques romans (Celexrom) décidaient de se lancer dans l'étude d'un corpus géant, pour le moins original. Ils invitaient alors les utilisateurs de téléphones portables à leur envoyer (via un numéro court, le 3699) gratuitement un SMS.

Objectif : récolter 30 000 messages. Sauf que l'opération a été largement relayée par les médias. Les chercheurs se retrouvent aujourd'hui avec plus de 70 000 SMS sur les bras, dont ils vont tenter d'étudier le langage. Ce travail a déjà commencé par un nettoyage et une préparation du corpus (excluant les SMS dans des langues étrangères, les SMS indésirables...).

Ensuite, les chercheurs devront mettre en correspondance les messages reçus et les profils des participants (c'est-à-dire l'ensemble des informations que les participants ont fourni en remplissant un questionnaire sur le Web). Viennent ensuite le décryptage et l'analyse des tendances sémantiques et syntaxiques des SMS.

A ce jour, les équipes du Cental et du Celexrom ont déjà analysé 5000 textos. Selon eux, il n'existe pas un mais plusieurs langages SMS. Selon les chercheurs, une phrase pourrait se traduire de 15 000 manières différentes en langage SMS . Il en va ainsi de l'éternel merci, qui devient 'cimèr', 'mci', 'meci', 'mer6', 'merch', 'merciii', 'mici, 'mirci', 'mrci', 'mèr6'...

Selon le quotidien belge Le Soi r, les chercheurs remarquent également plusieurs tendances du langage SMS, comme l'agglutination de plusieurs mots ( jespr ke tt va bien pourtoi ,moi jtien lbar ce midi,si tu veu paC ; P hrase traduite : j'espère que tout va bien pour toi,moi je tiens le bar ce midi, si tu veux passer) , l'utilisation de chiffres (dans 1 % des cas) pour certaines valeurs phonétiques et la répétition de voyelles pour donner des effets de style à son message ("Viiiiiite").

Au fur et à mesure de leur avancée, les études du Cental et du Celexrom doivent aboutir à la mise au point d'applications capables d'analyser automatiquement les textes des SMS, et de les traduire. L'université a rendu disponible une démonstration de ce type de service sur un site dédié ( http://glossa.fltr.ucl.ac.be/~demo/index.php?service=1 ).
(Atelier groupe BNP Paribas - 02/03/2005)