Développé initialement par Hewlett Packard dans les années 1985-1995, le logiciel de reconnaissance optique de caractères Tesseract vient d'être publié en version open source par Google. HP...

Développé initialement par Hewlett Packard dans les années 1985-1995, le logiciel de reconnaissance optique de caractères Tesseract vient d'être publié en version open source par Google.
 
HP, qui avait cessé de travailler sur le logiciel depuis 1995, avait déjà formulé le souhait de le développer en open source. A cet effet, la société avait publié le code pour l'Information Science Research Institute à l'Université de Las Vegas (UNLV). Dans un communiqué, Google précise que "c'est avec plaisir que l'UNLV a accueilli notre proposition". Selon le moteur de recherche, l'université leur a même "demandé [leur] aide pour corriger quelques bugs qui se sont glissés depuis 1995".
 
Pour la firme de Mountain View, ce programme s'inscrit dans la stratégie du groupe. L'auteur du communiqué, Eric Case, a d'ailleurs rajouté : "Notre seule vocation est de mettre des informations à la disposition des utilisateurs. Lorsque ces informations sont uniquement disponibles au format papier, l'OCR est l'unique moyen de convertir les pages du document en texte exploitable pour l'indexation".
 
Tesseract pourra donc être très utile pour Google Book Search. Malgré sa disponibilité en seule langue anglaise et certaines faiblesses pour gérer les gammes de gris et les documents couleur, il reste pour Eric Case "de loin le plus précis des programmes OCR open source actuel".
 
(Atelier groupe BNP Paribas – 13/09/2006)