En analysant l'intonation des individus au téléphone, il pourrait être possible de comprendre leur émotion lors d'une conversation et de déclencher des applications en fonction.

Une conversation téléphonique pourrait-elle étendre son champ de communication aux émotions? Des solutions se développent dans ce sens comme le système mis en place parForcePhone, qui permet de transmettre les émotions lors d'une conversation téléphonique grâce au toucher. Dans la même veine, une équipe de l'Université de Rochester a mis au point un programme informatique qui jauge les sentiments humains à travers la parole, avec une précision que ses concepteurs revendiquent comme supérieure à des approches existantes. Etonnamment, le programme ne s'attacherait pas au sens des mots, mais plutôt à la façon dont ils sont prononcés.

L'émotion analysée

En effet, l'émotion affecte la façon dont les personnes parlent et modifient le volume, la hauteur et les harmoniques de leur discours. Le programme permet d'analyser ainsi douze fonctions de la parole en se basant sur ces caractéristiques, ce afin d'identifier l'une des six émotions à partir d'un enregistrement sonore. Ainsi, le système détecte si la personne est heureuse, intéressée, en colère, triste, a peur ou est ennuyée. Les tests menés ont permis d'améliorer la détection de l'émotion avec 81% de précision contre 55% pour des études antérieures. Cette recherche a déjà servi pour développer le prototype d'une application. Celle-ci affiche une émoticône heureuse ou triste en fonction de l'enregistrement sonore et de l'analyse de la voix de l'utilisateur.

Des applications et des améliorations

D'autres applications pourraient s'intégrer aux smartphones. Selon l'humeur de l'utilisateur, cette technologie pourrait ajuster les couleurs affichées sur le mobile, ou bien jouer de la musique adaptée en fonction du ton utilisée lors du dernier appel téléphonique. Des améliorations sont à apporter au programme afin d'augmenter le niveau de précision, mais aussi permettre de classer les émotions contenues dans le discours selon différents types de voix. En effet, si le système analyse une voix différente de celle qui l'a formée, la précision chuterait de 81% à 30%. Les chercheurs se penchent maintenant sur les moyens de minimiser cet effet, par exemple, par la formation du système avec une voix dans le même groupe d'âge et du même sexe.

Rédigé par Claire Cavret
Social Media Manager