Quels sont les points communs entre les formes de communication écrite sur le Web et le langage parlé ? Quelles sont les similarités et les différences notoires entre les œuvres littéraires ou les discussions en ligne ?

Langage parlé et langage tweeté sont particulièrement similaires

La manière de tweeter reste très proche de la manière de parler. C’est ce que révèle une analyse réalisée par le scientifique Josiah Paul Zayner qui s’est intéressé aux similitudes et différences qu’il peut exister entre différents moyens de communication. Car en effet, si les évolutions technologiques ont amené les individus à s’adapter à de nouvelles formes de communication, on peut se demander si les mails, messages instantanés, SMS, etc. sont maîtrisés par la majorité de la population et si elle peut aisément passer d’une forme de communication à une autre. Pour cela, l’auteur de l’étude s’est intéressé à quatre types de communication en langue anglaise : les textes littéraires extraits de Google Livres, Twitter, la discussion sur Internet et le langage parlé, et a analysé la fréquence d’usage des mots, leur distribution et leur classification.

Parler ou tweeter, même combat

Les quatre corpus de textes ont été étudiés surtout en comparant les 200 mots les plus utilisés dans chacune des catégories. Le scientifique s’est demandé comment l’usage des mots pouvait caractériser un type de communication et a mis en avant la fréquence d’usage des mots. La communication orale, par Twitter et chat instantané est donc plus variée que dans les textes littéraires, en effet, les auteurs auraient tendance à utiliser des mots de liaison tels que le, de, à, et… de manière plus fréquente. Il a ensuite comparé les mots en commun des différents corpus et ce sont Twitter et le langage parlé qui se ressemblent le plus avec 71% de mots en commun. Des matrices de confusion ont aussi mis en avant le fait que la communication orale et sur Twitter sont proches. Ces matrices se basent sur l’hypothèse que Zayner peut avoir sur la provenance d’un mot tiré au hasard. Même si la confusion est plus élevée sur les mots issus d’un livre, il a confondu plus souvent un mot sur Twitter avec un mot issu du langage oral.

Vers une nouvelle technique de classification ?

L’analyse des quatre corpus a été poussée jusqu’à distinguer si les textes littéraires étaient des œuvres de fiction ou de non-fiction. La classification des mots (verbe, adjectif, nom, etc.) a donc mis en lumière le fait que le genre fictionnel était plus présent dans la communication orale ainsi que sur Twitter et discussion instantanée, alors qu’on pourrait croire que l’on se base plus sur la vie réelle, donc non-fictionnelle, pour communiquer. Cette étude permet ainsi d’observer les propriétés du vocabulaire d’un texte donné et de distinguer les similarités et différences entre chacun, sans avoir à examiner les structures de phrases complexes. Cette technique pourrait éventuellement servir à catégoriser ou annoter automatiquement les livres en fonction de leur genre, ou bien vérifier la véracité des auteurs écrivant de la non-fiction.

Rédigé par Eliane HONG
Journaliste