Il y a quelques temps, Google a témoigné de son intérêt pour les chercheurs et les étudiants : à la fin du mois de novembre, le numéro un de la recherche en ligne mettait à leur disposition en...

Il y a quelques temps, Google a témoigné de son intérêt pour les chercheurs et les étudiants : à la fin du mois de novembre, le numéro un de la recherche en ligne mettait à leur disposition en version bêta Google Scholar, un outil spécifiquement pensé pour effectuer des recherches parmi les publications universitaires : thèses, articles, rapports, revues, bibliographies, etc.

Un premier pas vers la recherche académique. Seulement, Internet pêche encore par son incapacité à référencer certaines sources : il en est ainsi des documents manuscrits. La plupart du temps, ceux-ci sont scannés, puis intégrés à des sites web comme des images. A charge alors de l'internaute de retrouver au cœur du document l'information recherchée.

Le professeur Manmatha, de l'université du Massachusetts, a été récemment interviewé par le quotidien américain New York Times. Il travaille au développement d'un système de reconnaissance des caractères manuscrits. Certaines applications existent déjà, comme celles utilisées par des services postaux, mais elles se fondent sur une reconnaissance limitée au nom du destinataire et à l'adresse.

Le professeur Manmatha et son équipe ont choisi comme base de travail un manuscrit de 1000 pages, correspondant à la correspondance de George Washington et scannée sur un microfilm par la Librairie du Congrès américain. Le document est particulièrement complexe puisqu'il a été rédigé par plusieurs personnes : George Washington lui-même mais aussi nombre de secrétaires. Au total, l'équipe de recherche a pu identifier au minimum cinq écritures différentes .

Le professeur Manmatha a mis au point un logiciel capable d'effectuer des comparaisons entre les phrases du document manuscrit et celles d'un document Word retranscrivant le document d'origine. Son système est ainsi basé sur l'apprentissage par le logiciel du langage manuscrit. Il est capable, au départ, d'éliminer certaines caractéristiques de l'écriture pour la normaliser : il n'est donc pas perturbé par l'inclinaison d'une écriture et est capable de redimensionner celle-ci pour donner à tous les mots la même taille. Ce qui facilite sa comparaison d'une syntaxe manuscrite avec une syntaxe informatisée.

Selon le professeur Manmatha, l'exactitude de la traduction d'une écriture à l'autre ne sera jamais parfaite : un problème mineur, puisque l'objectif est de pouvoir retrouver, via quelques mots-clefs, le document manuscrit. Il ne s'agit en effet pas de mettre au point un système parfait de "traduction". Le taux d'exactitude du système est aujourd'hui de 65 %.

L'équipe de recherche prévoit au cours du premier trimestre de présenter son travail au numéro un de la recherche, Google, dont elle espère que les équipes de développement et les moyens financiers permettront d'achever la mise au point du système. Pour le professeur Manmatha, tout ne serait ensuite qu'une question de temps : il estime que dans moins de dix ans, les internautes pourront rechercher sur Internet n'importe quel document manuscrit avec un taux de réussite excellent.

(Atelier groupe BNP Paribas - 05/01/2005)