Chercheurs et investisseurs ont dorénavant les moyens d'évaluer les systèmes de pistage et de détection - de visages, de textes, de véhicules, etc. - dans les vidéos.

Les projets de détection automatique d'objets dans les vidéos se multiplient. Pour autant, il est difficile de comparer leur capacité à distinguer les éléments qui composent une image. Alors même que c'est de cette capacité que dépend leur efficacité. C'est ce manque qui a présidé à la mise en place d'un cadre de travail pour évaluer objectivement les performances des algorithmes de détection et de pistage. Cela concerne aussi bien ceux capables de repérer des visages, que ceux spécialisés dans la reconnaissance de textes ou de véhicules. La méthode des chercheurs des universités de Floride du Sud et de Gaithersburg se base sur le nombre de reconnaissances effectuées.
Analyser pour mieux comparer
Quand une vidéo défile, un système d'annotation se met en place et encadre des objets qu'il analyse dans une image. Ensuite, il leur attribue un numéro d'identification avec un niveau de reconnaissance (ambiguë ou clair) qui les suit dans les différentes séquences. Pour un visage, il suffit de voir un œil, un bout du nez et une partie de la bouche pour que l'outil de mesure essaye de reconnaître la personne. Ce procédé est valable pour les véhicules et les textes. Au final un rapport d'analyse compte le nombre de fois où l'identification a été claire ou pas, ce qui montre la qualité du service de pistage et de détection.
Mesurer pour améliorer
Le but est de permettre aux investisseurs de mesurer l'avancement des techniques qu'ils parrainent. Ce test présente aussi l'avantage d'aider les programmeurs à améliorer ces programmes de surveillances en comparant directement leurs travaux avec ceux déjà en place. Le système s'intéresse aux données sources des vidéos (un identificateur, un nom et une chaîne de connexion). Des outils métriques mesurent les différents éléments de l'image. Des instruments annotent les détails afin de faire des recoupements et des comparaisons, etc.Ces derniers sont annotés spatialement et temporellement grâce i-Frame, une balise qui autorise l'inclusion d'un document HTML dans un fichier lui aussi composé avec ce langage.