HP Labs scinde les bases en deux versions : une première analyse les informations en temps réel pour trouver des données récentes. L'autre réalise des copies de la base à intervalles réguliers pour la recherche d'archives

Dupliquer une base de données permet d'accélérer la recherche

 

A un moment où le nombre d'informations disponibles ne cesse de croître, les bases de données utilisées actuellement en entreprise deviennent complexes d'utilisation. Cela notamment du fait de l'incompatibilité entre recherche et mise à jour permanente. Pour en simplifier l'usage, une équipe d'HP Labs propose du coup de dupliquer la base utilisée par une entreprise, c'est-à-dire de proposer des interfaces contenant l'ensemble des informations à un moment donné, et une autre qui continue d'analyser et mettre à jour en temps réel. En fait, cette dernière version fonctionne comme une base de données classique. C’est au sein de celle-ci que les informations sont ajoutées. Et l'autre est une simple copie de cette base de données, une photographie à un instant T se mettant à jour à intervalles réguliers (choisis par l'utilisateur). Deux possibilités s’offrent ainsi à l’utilisateur.

Un choix entre exhaustivité et rapidité

Il peut soit effectuer une recherche exhaustive au sein de la version temps réel, qui prendra en compte même les mises à jour récentes. L’autre solution est de réaliser une recherche via la copie de cette base, qui ne permettra d’obtenir que les données présentes lors de la dernière mise à jour, mais de façon bien plus  rapide (les processus de recherche et de mise à jour n’interfèrent pas). Une méthode pertinente, par exemple, pour mettre en perspective rapidement les données des dix dernières années, un processus ne nécessitant pas forcément l'éclairage des évènements les plus récents. Ce que permet la version temps réel.

Une méthode plus rapide, mais inadaptée à une gestion temps réel

Mais le processus de recherche prendra plus de temps. En effet, selon les chercheurs, le problème des bases de données actuelles est qu’il est extrêmement long d'effectuer une recherche portant sur une métadata (un mot-clé) si un ajout ou une modification d'un fichier faisant référence à ce mot-clé particulier est en cours. L’interférence des deux processus ralentit en effet considérablement le processus. Or, il est courant qu’une entreprise n’ait pas forcément besoin des données les plus récentes lors de sa recherche. D'après les scientifiques, leur système est ainsi particulièrement adapté à une gestion d'archives : il est rare que les entreprises archivent des documents dont elles peuvent avoir besoin à court terme