Avec la digitalisation, certaines langues souffrent de ne pas assez être exploitées par le numérique. Elles pourraient disparaître de la Toile, ou tout du moins avoir une présence très limitée.

Des langues européennes menacées d'extinction numérique

Certaines langues parlées par un faible nombre de personnes pourraient être menacées d'existence virtuelle. En effet, des scientifiques de l'Université de Manchester pour Text Mining (NaCTeM) qui font partie de l’équipe européenne de chercheurs META-NET (composé de 60 centres de recherche répartis dans 34 pays) ont conclu que l'assistance numérique est "inexistante" ou au mieux "faible" pour 21 des 30 langues européennes qu’ils ont étudiées. Leur étude a en fait évalué l’assistance technique linguistique pour chaque langue selon quatre critères différents : la traduction automatique, l’interaction vocale, l’analyse des textes et enfin la disponibilité des ressources linguistiques. Il en résulte que l’islandais, le letton, le lituanien et le maltais sont les langues les plus menacées de disparition. Le bulgare, le grec, le hongrois et le polonais sont également en danger. Quant au néerlandais, au français, à l’allemand, à l’italien et l’espagnol, ils sont considérés comme ayant "un soutien modéré". Enfin, le basque, le bulgare, le catalan, le grec, le hongrois et le polonais se situent également dans l'ensemble des langues à haut risque.

Système de technologie linguistique

Les logiciels de technologie linguistique sont utilisés pour traiter le langage humain parlé ou écrit. Des exemples bien connus incluent des vérificateurs d'orthographe et de grammaire, des assistants personnels interactifs sur les smartphones (comme Siri sur l'iPhone), des systèmes de dialogue qui travaillent sur les téléphones, les systèmes de traduction automatique et les moteurs de recherche web. Toutefois le manque de logiciels disponibles pour les langues classées à "haut risque" signifie que, sans mesures drastiques, elles seront incapables de survivre dans le monde numérique d'aujourd'hui. En fait les systèmes de technologie linguistique se fondent principalement sur des méthodes statistiques qui nécessitent des quantités extrêmement importantes de données écrites ou orales. C’est pourquoi ces données sont difficiles à acquérir pour les langues que seul un faible nombre de personnes maitrisent.

Des efforts sont nécessaires

En outre, les systèmes de technologie statistiques de langue ont des limites inhérentes à leur qualité. C’est le cas notamment dans les adaptations produites par les systèmes de traduction automatique en ligne, souvent erronées et amusantes. Le Professeur Hans Uszkoreit, coordinateur de META-NET déclare: "Les résultats de notre étude sont alarmants, la majorité des langues européennes sont gravement sous-financées et certaines sont presque complètement négligées. En ce sens, la pérennité de beaucoup de nos langues ne sont pas encore garantie". Enfin, le rapport conclut que des efforts à grande échelle doivent être faits en Europe afin de créer les technologies manquantes et ainsi transférer cette technologie aux langues qui sont confrontées à l'extinction numérique.