Mask-bot consiste en un masque de plastique sur lequel est projeté une image en 3D d'un visage humain. Un logiciel permet au robot de calquer les expressions de ce visage avec les paroles prononcées.

Pour rendre les interactions avec un robot humanoïde plus réalistes, une équipe de l'Institut dédié aux Systèmes Cognitifs de l'Université de Munich travaille sur un système qui projette des images de visages en 3D sur un masque en plastique. Le dispositif, baptisé Mask-bot, est donc constitué d'un masque transparent, et d'un projecteur placé derrière, qui diffuse des images de visages. Le tout est relié à un serveur. Selon les chercheurs, le système permet d'être vu sous différents angles tout en conservant une certaine forme de réalisme. Ce qui est intéressant, c'est que ce même visage affiche des expressions qui correspondent aux paroles prononcées ou entendues par la machine - ou par une réelle personne si le dispositif fonctionne comme un système de vidéoconférence.

Reproduire les expressions faciales

Pour cela, la machine embarque une base de données composée d'un grand nombre de clichés d'expressions faciales, reliées chacune à un phonème. Quand le système identifie un son, il convertit du coup immédiatement le visage affiché en fonction de l'expression qui correspond. A noter que l'une des difficultés a résidé dans le fait que seuls douze centimètres séparent le projecteur du masque, rendant difficile l'affichage d'une image de qualité et non déformée. Il a aussi fallu travailler tout particulièrement à la luminosité, afin que la projection puisse être vue même en pleine lumière. Reste que pour le moment, le dispositif n'est pas encore capable de mener une véritable conversation.

Un usage en vidéoconférence ?

Il n'est capable de proposer des réponses appropriées - en termes de contenu et d'expressions faciales - que sur des sujets sur lesquels il a été programmé. A terme, les scientifiques envisagent d'utiliser leur Mask-bot pour des vidéoconférences : à la place de projeter l'image d'un intervenant sur un écran, le système permettrait de le faire en trois dimensions. Selon les chercheurs, il sera en effet possible de reproduire le visage d'une personne et de déduire ses expressions simplement à partir d'un cliché traditionnel en deux dimensions de celle-ci. Un tel dispositif permettrait aussi de se passer de caméra et de ligne téléphonique : un logiciel de text-to-speech pourrait convertir les phrases tapées par l'interlocuteur sur son clavier en mots.