Pour lutter contre l'affichage de contenus non désirés, le meilleur moyen est encore de proposer aux sites de réindexer automatiquement chaque fichier qu'ils reçoivent. Cela, en utilisant des solutions de contextualisation.

De la sémantique pour réduire le spam vidéo

L'abondance des échanges d'informations numériques sur les réseaux sociaux entraîne les éditeurs de ces plates-formes à avoir de plus en plus besoin de filtrer les contenus. Cela notamment pour éviter les abus ou les diffusions non pertinentes. Trois chercheurs brésiliens* rappellent ainsi qu'il arrive fréquemment qu'une vidéo corresponde à nos critères de recherches sur YouTube, alors qu'il s'agit en réalité d'une publicité, voire d'un film pornographique. Pour contrer ces attaques, les scientifiques proposent tout simplement aux sites de réaliser une réindexation automatique de chaque vidéo, afin de créer des descriptions d'un document fidèles à celui-ci, et parfois plus pertinentes que celles proposées par les utilisateurs.

Indexation

Dans ce but, ils travaillent sur un modèle qui utilisera la méthode dite de l'indexation (ou analyse) sémantique latente. Celle-ci utilise d'une part les informations fournies par les mots clés et d'autre part par le contenu afin de créer une nouvelle description. Autant de contenus qu'elle analyse en fonction d'une base de données. En utilisant ces informations, il est en effet possible de créer une matrice qui par la suite pourra catégoriser le document par sujet, dans un nouvel espace de description. Cette technique, initialement utilisée pour analyser des textes, et désormais applicable aux vidéos, permet, comme le souligne les chercheurs, d'améliorer la détection des vidéos spam.

Complexité

La difficulté de cette solution réside dans le fait qu'un ensemble de vidéos portant sur un thème peuvent contenir des éléments très différents. De plus, les réseaux sociaux complexifient la donne car le nombre de vidéos dans les flux n'est pas fixe, ce qui rend la classification de ces dernières permise par l'indexation sémantique latente plus fastidieuse. Les chercheurs proposent donc un processus de filtrage en six étapes, utilisant un dictionnaire d'image combiné à une base d'informations sur les contextes de la vidéo. Ces informations pourront par la suite permettre de créer des "sacs" de différence, permettant de voir si une vidéo est originale, ou non.

* De l'Institut Fédéral de technologie de Tocantins, de l'Université fédérale de Minas Gerais et de l'Université de l'Etat de Campinas