50%

du trafic web

est l'oeuvre de bots 

Les bots prolifèrent sur la toile à un rythme effréné. Selon une récente étude de Norton by Symantec, en 2016 pas moins de 6,7 millions de bots supplémentaires sont venus renforcer les rangs de ces programmes informatiques automatisés. Si certains sont bienveillants, d’autres sont des cambrioleurs de la toile, quand d’autres encore sont des commerciaux. Inconnus du grand public, les bots seraient à l’origine de 50 % du trafic web mondial et détérioreraient le business des sites web à hauteur de 24,5 milliards de dollars par an. Nous avons rencontré Fabien Grenier, un chasseur de bots un peu spécial, qui vise déjà le deuxième étage de la fusée : tirer profit de ce trafic automatisé.

savez-vous  vraiment qui visite votre site ?

Shutterstock

50 % du trafic web mondial serait l’oeuvre de bots. D’où vient cette statistique ?

Avant toute chose, il faut bien comprendre qu’il s’agit de trafic invisible. Il faut plutôt se dire que c'est 100% du trafic en plus du trafic humain. Si vous prenez un site web comme le Monde.fr, il y a 100 % de trafic en plus invisible généré par les bots. Pourquoi est-ce que je dis invisible ? Parce que la plupart des robots n'exécutent pas le JavaScript. Et le JavaScript c'est ce qui est utilisé par les Google Analytics, Médiamétrie, et autres AT Internet, pour mesurer le trafic d'un site web. Maintenant, comment arrive-t-on à ce chiffre-là ? C'est le chiffre moyen constaté chez nos clients et utilisateurs. On a audité des centaines de sites web, que ce soit des sites médias, des sites de e-commerce, ou des classified, c'est à dire des sites de petites annonces ou d'annuaires en ligne. Et on se rend compte qu'en moyenne il y a 100 % de trafic en plus qui est généré par des bots. 

Dans votre chasse aux bots sur la toile, comment faites-vous la différence entre êtres humains, “good bots”, et “bad bots” ?

On installe le module le plus en amont possible sur les serveurs Web. On va scanner et intercepter en temps réel tout le trafic entrant de nos clients grâce à l’intelligence artificielle et le machine learning. On analyse les traces des demandes, les hits, autrement dit les empreintes digitales numériques. On va également analyser le comportement car un robot ne se comporte pas comme un être humain. Un bot par exemple ne repasse jamais par la page d’accueil, ne fait jamais de retour en arrière, et refuse les cookies de session. Donc en corrélant ces critères techniques et comportementaux on est capables de détecter 99% des bots. 

les gentils bots 

Une fois qu’on les a détectés, on les classe par grande famille dans un tableau de bord en temps réel : les gentils, les méchants et puis les commerciaux. Les “good bots” ce sont tous ceux qui vous apportent visibilité et trafic, ce sont les moteurs de recherche comme Google, Bing, Yahoo, ce sont les réseaux sociaux comme Facebook, Twitter, Pinterest, donc par défaut on les laisse passer. Les “bad bots” ce sont tous ceux qui vous hackent, tous ceux qui usurpent votre identité, ceux qui vous spamment, ceux qui perpètrent de la fraude publicitaire, ceux qui volent votre contenu, donc par défaut, on va les bloquer. Derrière les “bad bots”, il y a principalement soit des hackers soit des entreprises qui avancent masquées.

Dans quelle catégorie mettez-vous les robots commerciaux ?

Dans la troisième catégorie, nous avons les robots commerciaux et c'est là qu'au moment de l'installation de la solution, on va bâtir une stratégie avec nos clients : comprendre quels sont les business qu'ils souhaitent adresser et ceux qu'ils souhaitent bloquer. Ces sont par exemple les régies publicitaires qui crawlent en permanence tous les sites web, ce sont les outils marketing, les fournisseurs de données, les comparateurs de prix, les agences de sécurité, les sociétés de veille média, ou de veille média sur les réseaux sociaux, de Business Intelligence. Si je suis un grand site média par exemple, plutôt que de laisser des sociétés de media monitoring accéder à mes contenus, se les approprier et les revendre sans mon autorisation, d'autant plus que c'est du contenu qui est soumis au droit d'auteur, et bien je vais les détecter et je vais leur permettre d'entrer en relation avec moi pour leur proposer d'accéder à l'information dont ils ont besoin, de consommer ma data mais via une API et à mes conditions. Et l'avantage d'une API, c'est qu'ils vont pouvoir bénéficier d'une information structurée et légale disponible en temps réel. Donc en fait on va faire de la lead generation : nos clients vont recevoir des emails provenant des entreprises qui éditent ces robots pour créer des partenariats. Pour faire simple, Datadome permet de détecter les robots, de les bloquer ou de générer de nouvelles opportunités business, en mettant en relation ceux qui ont besoin de la data et ceux qui la produisent. 

Tout le monde parle du feu sacré de l’IA, mais finalement que vaut l’IA sans son carburant, la data ?

lA data  

On parle en effet énormément d'Intelligence artificielle et de machine learning. Mais ces techniques marchent si et seulement si vous avez un carburant qui est la data. Ce sont des algorithmes qui apprennent mais il leur faut des cas pour apprendre. Et les cas quels sont-ils ? et bien c'est le Web. Donc en fait je veux bien aspirer avec mes gros tuyaux tout le web pour nourrir l'IA mais j'ai besoin de l'accord des gens que je crawle et c'est là où Datadome intervient en proposant de réguler tout cela et de créer des synergies. L'idée ce n'est pas de bâtir des murs, c'est au contraire de créer des plateformes, des passerelles, pour que tout le monde puisse y trouver son intérêt. Nous voulons faire en sorte que toutes ces sociétés du Big Data, qui ont besoin de carburant, puissent accéder plus facilement à cette data stratégique mais aux conditions des éditeurs.

Il s’agit donc d’une Data Marketplace connectant éditeurs de contenus et acteurs du Big Data ? Il n’existait donc aucune offre ?

le role clé de l'api

Je parlerais d’API plutôt que de Data Marketplace. Jusqu’à présent, de la même façon que les éditeurs de contenu ne disposent pas d’outil leur permettant de contrôler et de monétiser les données qu’ils produisent; les acteurs du Big Data n’ont pas d’autre choix que de recourir au “web scraping” (ensemble de techniques assurant l’extraction du contenu des données d’un site Web) pour accéder aux données dont ils ont besoin. Parce qu’en effet, derrière les robots il y a bien souvent des entreprises du Big Data, qui souhaitent accéder à ce contenu et qui ne disposent ni d'offres techniques, ni d'offres commerciales pour le faire. Si vous êtes par exemple une société d'intelligence économique, que vous souhaitez analyser la réputation d'une marque, et que vous avez besoin des commentaires des grands sites médias, et bien ils ne sont pas en vente, il n’y a pas d'API. Vous n’avez donc pas d'autres choix que de développer un robot pour y accéder. De la même façon vous êtes Samsung, vous avez besoin de traquer les prix de vos produits, vous n'avez pas d'autre choix que de faire appel à des agences qui vont “crawler” cela pour vous et qui vont vous le restituer sous forme de tableau de bord.

Votre technologie garantit-elle qu'un bot ne passe pas entre les mailles du filet ?

machine learning 

Grâce au machine learning on détecte 99% des bots. On se donne les moyens de rendre nos algorithmes plus intelligents, de les faire évoluer grâce à l'intelligence artificielle. Chaque fois qu'ils traitent un nouveau cas, ils deviennent un peu plus intelligents. Et c'est vraiment comme l'industrie des antivirus, c'est le jeu du chat et de la souris. Il y aura toujours de nouvelles possibilités pour le robot, de nouvelles technologies pour s'améliorer, nous devons donc pouvoir grandir à leur vitesse et même essayer de garder un temps d'avance. C'est pour cela que je vous parlais de l’importance des règles automatisées en temps réel. Si vous êtes encore avec les règles manuelles, vous aurez toujours un temps de retard, car vous aurez besoin de vous faire attaquer pour détecter la menace et la rattraper, mais ce sera déjà trop tard car le robot sera déjà distribué sur 1000 adresses IP. Donc vous n'avez pas d'autre choix que d'avoir cette intelligence artificielle et ce machine learning pour détecter de nouveaux comportements suspects en temps réel. 

Inversement, quelle est est la probabilité de bloquer un être humain et de détériorer l’expérience utilisateur ? 

Lorsque nos algorithmes détectent un comportement suspect, ils vont afficher un Captcha, vous savez comme le reCaptcha de Google où vous cochez une case pour prouver que vous n'êtes pas un robot. Et donc ces Captchas permettent de ne pas bloquer un utilisateur qui aurait un comportement compulsif, pouvant s'assimiler à celui d'un robot. Et on offre la possibilité à nos clients directement depuis leur dashboard de voir en temps réel le nombre de Captchas passés pour qu'ils puissent se rendre compte qu'à aucun moment Datadome ne va détériorer l'expérience utilisateur. Nous, en interne, bien évidemment, on monitore pour l'ensemble de nos clients et on a des alertes vers nos data-analysts lorsqu'il y a un nombre anormal de Captchas passés et on va alors optimiser les algorithmes de façon à ne plus se retrouver dans cette situation. Mais en aucun cas, l'utilisateur ne sera bloqué par la technologie Datadome, cela ne peut pas se passer. 

Le Captcha suffit-il pour faire le distingo entre un bot et un être humain ? 

Le reCaptcha de Google
  • 1 min

Le robot ne pourra pas passer le Captcha, tandis que l'être humain pourra le passer et continuer sa visite sur le site web. Il y a une partie infime de robots qui sont capables de le passer, c'est marginal. Ce qui est plus courant par contre ce sont des fermes à Captchas en Inde ou à Madagascar : des milliers de personnes sont derrière des ordinateurs et passent leurs journées à passer des Captchas pour que les robots puissent continuer et ne pas être stoppés. Si un robot rencontre un Captcha, ça arrive à Madagascar, et un employé de la ferme à Captchas coche la case ou recopie le code et passe ainsi le test; le robot peut alors repartir. Chez Datadome, on a appris à détecter automatiquement ce type de fermes. Ca coûte beaucoup moins cher pour ceux qui veulent faire passer ces robots de demander à ces entreprises indiennes par exemple de passer les captchas que de développer des robots plus complexes, qui vont demander énormément d'investissement pour les passer automatiquement. 

Quel est votre business model ? 

Le modèle est très simple. Pour la partie protection, on est sur une offre SaaS (Software as a Service); l’éditeur paye un abonnement dont le montant varie en fonction du trafic, du volume de hits à protéger. Ensuite il y a une deuxième offre qui est la data monétisation. Lorsque nous aidons les éditeurs de contenu à se faire payer des acteurs du Big Data, alors nous prenons une part des revenus générés.

Qui sont vos clients ? 

Nous travaillons essentiellement pour des sites qui ont du contenu à proposer et nous avons des références sur trois verticaux : les médias, (Le Figaro, Ouest France, Le Parisien), les sites e-commerce (Price Minister, Blablacar), ou les classified comme Cairn, qui est un annuaire de publications scientifiques, et Pages Jaunes.fr. Nous avons 20 clients actifs, et donc sur la base d'abonnements annuels, on analyse aujourd'hui 10 milliards de hits par mois, pour assurer leur sécurité. Nous réalisons 12% de notre chiffre d’affaire à l’international avec des clients en Australie, aux Etats-Unis, aux Emirats Arabes Unis, et en Europe de l'Est.

Travaillez-vous avec des banques ? 

Nous sommes en POC avec un grand groupe. Dès qu'il y a une base de données, on protège. On protège par exemple les sections privées de Blablacar. Sur la partie usurpation de comptes, des sites comme Instagram, Yahoo, LinkedIn, se sont fait voler leurs données privées. Les combinaisons login-password et ces informations s'échangent contre une poignée de bitcoins sur le Darkweb. Vous pouvez donc les acheter et programmer des robots qui vont tenter ces combinaisons pour se connecter sur tous les sites possibles et inimaginables. Tous les utilisateurs qui ont la même combinaison login-password se font hacker de cette façon là. Sauf que pour l'éditeur on a l'impression que c'est l'utilisateur qui vient parce qu'il n'y a pas de bruit de force, car ces robots sont distribués sur des milliers d'adresses IP. Et comme on n’a pas de système d'alerte, et si vous n’avez pas de techno comme Datadome, vous n’êtes pas capable de vous rendre compte que c'est un robot qui est en train de solder un compte par exemple et de virer un crédit sur un compte étranger. La banque ne s’en rendra pas compte tant que l'utilisateur n'aura pas porté plainte, tant qu’il n’aura pas signalé la fraude.

La nouvelle directive sur les services de paiements européens (DSP2) représente une nouvelle opportunité pour Datadome de conquérir les banques, non ?

Fintech

Paris défie Londres dans la Fintech

Archive Mars 2017
Pour certains groupes banques-assurances on est capable d'analyser les robots qui sont sur les parties connectées. Il y a des offres comme Bankin, qui sont des agrégateurs de comptes à qui vous pouvez confier vos accès et qui vont aller récupérer les informations. Comment les récupèrent-ils ? Avec des robots. Sachant qu'ils n’y sont pas forcément autorisés. A partir de janvier 2018, avec la nouvelle directive sur les services de paiements européens (DSP2), ils auront le droit de le faire et certaines banques-assurances souhaitent comprendre quels sont les agrégateurs qui viennent chercher les données de leurs clients, pour pouvoir les contrôler et les réguler.

Le Règlement Européen sur la protection des données personnelles (RGPD) et la sanction encourue de 4% du CA mondial annuel, va obliger les entreprises du numérique à prendre très au sérieux la menace du vol des données personnelles. Une opportunité pour Datadome ?

donnees personnelles

C'est un vrai sujet. On a certains sites de pari sportif en ligne qui sont clients parce que sur ce type de sites vous avez des crédits et donc certains robots sont capables, s'ils disposent de vos identifiants, de se connecter à votre place, de changer vos coordonnées bancaires, et de solder les comptes vers des paradis fiscaux. On est encore là dans la problématique d'usurpation d'identité. Et pour tous ces éditeurs il y a un vrai enjeu réputationnel : si ces fuites de données sont médiatisées, ça peut vraiment être préjudiciable en terme de confiance et donc sur leur chiffre d’affaire immédiat. Dans le cadre du RGPD qui entrera en vigueur en mai 2018, toutes les fuites de données devront être immédiatement transmises et donc potentiellement médiatisées, avec un risque réputationnel décuplé. Sans parler de la sanction encourue de 4% du chiffre d’affaire mondial annuel de l'entreprise défaillante. Les gens n'identifient pas encore les problématiques de vol et de protection des données personnelles avec la menace bots et notamment l'account takeover, l'usurpation d'identité en français.

Quels sont vos objectifs pour 2018 ? 

Pour 2018 on souhaiter “scaler”. Nous avons un taux de croissance à 2 chiffres depuis le mois de janvier et nous souhaitons continuer l'accélération sur la France et signer nos premiers flagships européens. Ca c'est notre premier objectif. Aujourd'hui nous faisons principalement notre chiffre d’affaire sur la protection et notre deuxième objectif est d’accélérer sur la monétisation car on pense que c'est ce qui peut nous permettre de faire de Datadome une très grosse entreprise. C'est en fait le deuxième étage de la fusée. Ce sera un “upsell” par rapport à tous nos clients qui ont activé la protection, ils auront le temps de prendre conscience du potentiel de leur data en observant les robots commerciaux sur leur tableaux de bord. Et c'est donc dans un second temps qu'on leur propose de tirer profit de ce trafic automatisé. Notre objectif c'est de transformer une menace bot en opportunité business.

Fin de l'Interview de Fabien Grenier 

Nous avons demandé à notre expert Yoni Abittan, analyste stratégique à L'Atelier BNP Paribas, quel était son point de vue sur la question. Il nous répond. 

On peut imaginer la co-conception de solutions "secure by design“ impliquant des entrepreneurs, des chercheurs et des designers. 

Yoni Abittan

Les cyberattaques se prolifèrent aujourd'hui à une vitesse exponentielle. Les bad bots engendrent des dommages et représentent des coûts colossaux pour les grands groupes, les organisations publiques et les PME pouvant paralyser leurs activités, mettre à mal leur réputation et leur business. Au-delà des start-up réalisant un travail remarquable pour contrer les bots, la recherche académique peut également aider à concevoir des solutions à partir de différents modèles et scénarios de comportement des hackers permettant de les détecter de manière proactive. On peut par exemple imaginer la co-conception de solutions "secure by design“ impliquant des entrepreneurs, des chercheurs et des designers. Face à la sophistication des méthodes des hackers, les solutions apportées par les start-up pour contrer les bad bots ne suffisent pas à elles seules.


Rédigé par Oriane Esposito
Responsable éditoriale