Discerner et classer les oppositions de différentes personnes interrogées dans un article de presse permet d'affiner les classifications opérées par les internautes et les professionnels.

L'analyse des médias passe par l'identification automatique des opinions

Alors que les internautes sont de plus en plus nombreux à réaliser des sélections des informations piochées sur les réseaux sociaux chaque jour, notamment dans le cadre professionnel, il reste difficile de classifier les articles par ton. Surtout quand plusieurs parties s'expriment dans un papier. Un chercheur de l'Institut des sciences et technologies avancées du gouvernement coréen, en partenariat avec un autre de l'université nationale de Chonbuk, ont ainsi mis au point un système permettant d'extraire automatiquement les contentieux dans une base d'articles, d'en repérer les principales parties prenantes et d'analyser les citations faisant référence à chaque partie. Cela pour avoir une idée d'ensemble des opinions et pondérer la présence de chaque interlocuteur dans les médias.

De l'extraction...

La méthode mise en place part du principe qu'il existe deux opposants dans un contentieux, qu'elle va extraire dans un premier temps. Cela grâce à une analyse de la construction des phrases et des citations précédemment créée et appelée Korean Name Entity Recognizer. Par la suite, les autres parties prenantes sont partitionnées et liées aux opposants référents en fonction de leur position (schématiquement par des nœuds, tout comme un graphe social). Le système extrait ensuite les phrases pertinentes (si un des opposants est sujet, si la phrase est une citation, si le nom d'un interlocuteur apparaît dans la phrase ou si encore un lexique négatif est repéré) et un algorithme est appliqué. Celui-ci - une variante de HITS* - permet de pondérer le poids des critiques d'un opposant vers un autre (ou de l'un des nœuds liés). De plus, l'analyse du poids des nœuds permet de confirmer l'identité des opposants principaux.

... à la classification

L'idée finale étant de catégoriser les articles une fois l'extraction achevée, le système permet donc de les classifier pour optimiser leur analyse. Nommé SVM Classifier, il considère deux éléments, à savoir de qui émanent les citations dans l'article, et  la similitude entre les arguments de chaque opposant. Cela car le SVM classe une phrase en trois catégories (pour, contre ou autre) et compte le nombre de citations en faveur de chaque partie. Les chercheurs obtiennent donc une classification des retombées presses liées à un sujet prenant en compte l'intervention de deux opposants. Ils estiment toutefois qu'à l'avenir, des systèmes plus complexes pourraient permettre d'opérer de la sorte en prenant plus d'acteurs en considération, plutôt que d'avoir une vision bipolaire.

* Hyperlinks-induced topic search est l'algorithme similaire au PageRank de Google