Le logiciel développé par l'université d'Oxford est capable de reconnaître certains comportements sociaux comme un échange de poignées de mains à partir de vidéos tirées de caméras de surveillance ou de Youtube

Identifier automatiquement les interactions humaines dans les vidéos

Face à la quantité toujours plus grande de séquences filmées diffusées sur les canaux traditionnels (télévision, cinéma,…) ou sur le Web, il est devenu vital de rendre les ordinateurs capables d'analyser les images automatiquement. En ce sens, les progrès réalisés par une équipe de l'université d'Oxford dans l'identification des interactions humaines sont notables. Leur programme est en effet capable de reconnaître des évènements tels qu'une poignée de main ou deux personnes en train de s'embrasser. "Les actions et les activités humaines ont une importance centrale pour l'analyse vidéo", explique un des chercheurs. "Une fois des interactions impliquant deux personnes reconnues, les applications sont nombreuses".

Des applications nombreuses

D'ores et déjà, il est possible de lancer une recherche automatique à partir de vidéos issues de Youtube pour y trouver les moments où des personnages se saluent ou s'embrassent. "On pourrait aussi lancer une session de caméras de surveillance en avance rapide pour y trouver la trace d'incidents", imagine le chercheur. Leur système s'appuie en fait sur un algorithme de vision et d'apprentissage informatiques. Plusieurs étapes sont suivies : d'abord, le logiciel identifie des personnages humains dans la vidéo et les suit de séquence en séquence. Une fois la position d'une personne établie, le logiciel s'appuie sur différents indices comme l'inclinaison du visage ou les mouvements du corps pour déterminer si une interaction a lieu.

Quatre types d'interactions identifiés

Si c'est le cas, le logiciel l'analyse à partir d'une base de données comprenant différents exemples de chaque possibilité pour décider de laquelle il s'agit. Pour l'heure, l'équipe s'est bornée à quatre types d'actions. Le système reconnaîtra donc deux personnes se serrant la main, se prenant dans les bras, s'embrassant ou se saluant d'un "high-five". Les méthodes d'apprentissage informatique servent au prototype à définir un modèle pour chacun de ces quatre exemples. "Une fois qu'un ordinateur a intégré les quatre modèles, il est non seulement capable de les reconnaître sur n'importe quelle vidéo mais aussi de dire quand ils se produisent et quelles personnes ils impliquent", conclut un chercheur.