Comment permettre les opérations sémantiques sur des plates-formes comme le dictionnaire en ligne ? En déployant un système qui extrait et aligne de façon automatique les informations, même celles dites implicites.

La recherche sémantique sur le Wiktionnaire a besoin d'homogénéité

Afin d’effectuer des analyses sémantiques à partir des contenus du Wiktionnaire – ce dictionnaire en ligne, fondé sur un modèle en open source développé par la Wikimedia Fondation* -, il faut être en mesure d’extraire toutes les données de la plate-forme, affirme un chercheur de l’institut des sciences informatiques de Saint-Pétersbourg. Et ce, de façon automatisée. Le scientifique a ainsi conçu un "analyseur syntaxique" ("parser", en anglais), qui permet de transformer automatiquement la structure du Wiktionnaire – qui possède plusieurs couches : les entrées du dictionnaire, les articles, mais aussi le niveau réservé aux développeurs – en une base de données intégrant des schémas structurels.

Rendre la structure accessible aux machines

Le but ? Rendre cohérents ses contenus d’un point de vue informatique, pour permettre une analyse automatique. Le module développé par le chercheur vise ainsi à transformer la structure implicite de la plate-forme (accessible et compréhensible pour les internautes) en une structure plus explicite, intégrant les "règles" et le code informatiques. Ce qui permet de la rendre compréhensible aux systèmes automatiques – dictionnaire de synonymes, programmes de traduction, etc. "Afin d’effectuer l’extraction des données, il faut connaître la structure de base", explique le chercheur.

Le système permet d’élaborer un environnement graphique

"Plus celle qui est adoptée à l’origine par les éditeurs Wiki est rigide, plus les algorithmes de l’analyseur syntaxique seront simples et fiables", précise-t-il. L’opération permet in fine la création d’un environnement graphique (ou GUI, en anglais, pour "Graphical User Interface"). Ce dernier donne la possibilité à un utilisateur d’effectuer des opérations syntaxiques, à partir des données extraites du Wiktionnaire. A noter : le module est fondé sur un modèle en open source, pour permettre à terme aux développeurs de concevoir d’autres parsers, dans d’autres langues que celle utilisée cette fois par le scientifique, à savoir le russe.

* Le wiktionnaire est fondé sur un système wiki, et son contenu est librement réutilisable (sous GFDL).