8 MDS

de données raffinées

en quatre ans 

Le Big Data, c'est bien ; les « Smart Data », c'est mieux ! Face à l'océan de données que nous abreuvons chaque jour un peu plus, certaines entreprises se sont lancées dans un véritable travail d'orfèvre. Un travail de bénédictin qui consiste à transformer cette matière première précieuse qu'est le Big Data en outils d'aide à la décision, par l'entremise de l'intelligence artificielle. Car la vraie valeur de ce nouvel or noir ne réside pas dans sa volumétrie mais bien dans sa qualité, sa crédibilité, et dans sa corrélation avec ses semblables, les données alternatives, hétérogènes et non structurées : la face cachée et immergée du Big Data. Nous avons rencontré l'un de ces orfèvres de la donnée, Thanh-Long Huynh, co-fondateur de la start-up Quantcube Technology, spécialisée dans l'analyse prédictive du Big Data appliquée à la finance et à l'économie. Ce ne sont pas moins de huit milliards de données qu'il raffine et croise depuis quatre ans, pour les proposer à des banques, investisseurs privés ou autres institutions. Car ce Français d'origine vietnamienne murmure à l'oreille des données. Il peut prédire et détecter les tendances financières, économiques et politiques avec un à six mois d'avance. Il avait prédit le Brexit, l'élection du président Trump quinze jours en avance ou encore le duel Macron-Le Pen, et peut aller jusqu'à évaluer le potentiel de croissance d'une ville voire d'un pays, en passant par son instabilité sociale en prédisant par exemple les catastrophes naturelles à venir grâce aux images satellite et aux données océanographiques. Nous avons voulu en savoir plus sur son modèle, le champ des possibles, les applications existantes et rêvées dans la Smart City de demain, et bien sûr, les considérations éthiques qui l'entourent. Rencontre avec le clairvoyant Thanh-Long Huynh.   

Les smart data : la face immergée du Big data 

Shutterstock

L'Atelier : À l'origine, Quantcube, ce sont des modèles prédictifs utilisant le Big Data pour bâtir des stratégies d'investissement. Racontez-nous.

Thanh-Long Huynh : Quand on a créé la société en 2013, c'était vraiment dans l'optique de créer la nouvelle génération de stratégies d'investissement (Fintech) à partir de l'analyse des données, que l'on appelle aujourd'hui l'analyse Big Data. À l'époque, on récupérait les données sur les réseaux sociaux (Twitter, Facebook, Linkedin), et à partir de ces données, on donnait un « score de sentiment » sur chacune des actions en préconisant d'acheter les actions qui avaient un sentiment élevé. Notre préconisation se faisait sur la base du traitement automatique du langage naturel (TALN), autrement dit l'analyse systématique des textes, à partir de laquelle on détermine si un message est positif ou négatif. En analysant tous ces messages postés sur les réseaux sociaux et en les agrégeant, on avait un certain nombre d'indicateurs finaux pour chacune des actions. Les actions qui avaient le score de sentiment le plus élevé constituaient notre portefeuille. Ce n'était pas encore du trading, il s'agissait juste de montrer la validité de nos modèles et de nos analyses. On traquait les données sur les réseaux sociaux sans avoir de processus de prise de décision d'investissement. C'était la première itération.

Quelle a été votre stratégie ensuite ?

Regard d'expert

Thanh-Long Huynh

Co-fondateur de

Quantcube Technology

Nous avons pris le parti dès le début de ne prendre que les données alternatives : réseaux sociaux, sites de e-commerce, images satellites, trafic aérien et maritime. 

Aujourd'hui, notre cœur d'activité réside dans les stratégies actives : on va pouvoir mettre tous les jours de nouvelles actions à la vente ou à l'achat en fonction des analyses de données du Big Data. Mais nous ne nous limitons pas aux prévisions financières. Nous mettons en place des indicateurs prédictifs macroéconomiques. Nous avons pris le parti dès le début de ne prendre que les données alternatives, de nous intéresser à tout type de données, très hétérogènes, à la fois les données de réseaux sociaux, des sites de e-commerce, les images satellite, des données de trafic maritime, de trafic aérien, etc. C'est ce qui nous différencie de la plupart des gestions d'actifs, s'appuyant essentiellement sur des données de marché, des rapports économiques ou financiers. L'objectif est à la fois de constituer un entrepôt de data diversifié, provenant de sources hétérogènes et orthogonales entre elles, mais aussi de développer une seconde couche qui est plus analytique, qui constitue le cœur de métier de la société. Nous avons une vingtaine de data scientists spécialisés en Intelligence Artificielle dans des domaines aussi différents que l'analyse de texte (« Natural Language Process »), l'analyse d'image (« Deep Learning »), ou encore l'analyse de graphes, collaborant étroitement avec des experts en macroéconomie, en finance et en assurance. Il s'agit de maîtriser cette couche d'analyse de données, pour produire la troisième couche qui est vraiment applicative. On va ainsi produire ces indicateurs que l'on appelle les smart data, les données valorisées, issues de l'analyse que l'on récupère au quotidien. Ces smart data, c'est ce qui constitue notre produit, ce sont des indicateurs prédictifs qui vont être utilisés pour prendre des décisions d'investissement en temps réel.

Comment mesurez-vous la performance de votre solution ?

La solution que nous avons mise en place est non seulement une solution en temps réel, une solution "live", mais elle a généré en plus, en l'espace de trois ans, un ratio de Sharpe (performance par unité de risque) de 1,8. C'est-à-dire que l'on a fait quatre fois plus en performance en réel que toutes les autres solutions étudiées en backtesting (test rétro-actif de validité). Voilà comment l'on compare notre solution en terme de performance sur les marchés financiers, notamment auprès des asset managers. Comment mesure-t-on maintenant notre performance au niveau de la prévision macroéconomique ? Quelle est notre corrélation par rapport aux chiffres officiels ? On est entre 85% et 95% de corrélation, et en plus nous sommes en avance d'un à six mois par rapport aux chiffres officiels, et cette performance a été mesurée de manière indépendante par la Banque de France. Enfin, concernant notre performance algorithmique, nous sommes très en avance également. Prenons l'exemple de l'analyse de texte, entre les premières versions d'algorithmes que l'on faisait il y a cinq ou six ans et celles que l'on fait maintenant. Au départ, c'était du comptage de mots ; l'année suivante, c'était du sentiment par comptage de mots ; puis après, c'était comment on arrive à prendre en compte le sens de la grammaire, le sens de la phrase, et aujourd'hui on en est même arrivés à prendre en compte la ponctuation et les émoticônes, les émotions. Si vous êtes à 90%, c'est exceptionnel ; si vous êtes à 80%, c'est déjà très bon. Nous sommes entre 75 et 87% en fonction des langues, que ce soit en arabe, en chinois ou en russe.

 

Notre corrélation et avance par rapport aux chiffres officiels ? 85 à 95%, et entre un et six mois d'avance.

Comment constituez-vous votre entrepôt de données ? Quels types de partenariats avez-vous tissés ?

On peut récupérer la donné via les APIs de façon gratuite ou payante. Nous avons un budget dédié aux données mais le plus difficile est de trouver comment accéder à la donnée non publique. Par exemple, les données satellite sont assez difficiles à obtenir et, typiquement, le CNES (Centre national d'études spatiales) nous a proposé, dans le cadre d'une collaboration stratégique, la mise à disposition de tout leur patrimoine historique de données, soit trente années d'historique d'observation des données de la Terre notamment. On a fait la même chose pour d'autres types de données, et on n'arrête pas d'enrichir notre entrepôt.

avec le cnes, c'est l'accès à trente années d'historique d'observation des données de la terre 

Shutterstock

Les « alternative data » constituent-elles un facteur différenciant majeur par rapport aux autres entreprises du Big Data ?

Prospective

Quand les algorithmes décryptent l'imagerie par satellite

  • 07 Mai
    2018
  • 10 min

Le facteur différenciant, nous concernant, c'est en effet tout ce que l'on appelle « alternative data » : d'une part les données brutes, celles issues des réseaux sociaux, les données générées par les individus – les consumer reviews, les tweets, etc. ; et, d'autre part, les données générées par les entités publiques, recueillies par tout ce que l'on appelle « open data ». Puis vous avez les données générées par les machines, comme les données satellite par exemple. Tout cela, c'est ce que l'on appelle les « raw data », les données brutes. Et vous en avez beaucoup qui font cela : Twitter pour les réseaux sociaux, les gouvernements pour tout ce qui est open data, Planet Labs ou même Airbus pour les données satellite. En exploitant ces données brutes, il en est ressorti que la génération de performance de manière systématique à faire cela est de l'ordre de 0%. Autrement dit, cela n'a pas généré de performance financière. Après, vous avez un autre type de données, les « semi process data », les données moitié processées, typiquement une start-up spécialisée dans l'analyse de texte se crée chaque semaine aux quatre coins du monde. Dans les données processées, il y en a qui font l'analyse d’imagerie satellite comme Orbital Insights par exemple ; vous en avez qui suivent tous les bateaux dans le monde et les analysent comme Cargo Metrics. Mais chacune de ces sociétés est orientée en silo, c'est-à-dire soit l'analyse de texte (ça donne le sentiment index), soit l'analyse de données satellite ou l'analyse de graphes pour les navires.

Vous travaillez sur un indicateur de croissance économique en temps réel. Quelles types de données croisez-vous ?

Regard d'expert

Thanh-Long Huynh

Co-fondateur de

Quantcube Technology

Pour estimer la croissance économique des États-Unis, vous allez « tracker » la ville de New York pour le secteur de la finance, San Francisco pour celui de la technologie, Boston pour celui de la santé et Houston pour celui de l'énergie.

Le premier exemple que je vous ai donné, celui des réseaux sociaux, est relatif à des stratégies de court terme. C'est du journalier : en fonction du sentiment sur les réseaux sociaux, les utilisateurs peuvent aussi bien prendre des positions sur des actions que suivre le risque de leur portefeuille d'actions. Après, il y a des stratégies plus moyen ou long terme, ce sont des stratégies que l'on appelle « global macro » : c'est de la macroéconomie. L'un des indicateurs les plus complexes que l'on produit est un indicateur de croissance économique en temps réel. Comment estimer la croissance économique d'un pays en temps réel ? Il va falloir évidemment prendre en compte plusieurs facteurs : l'emploi, le tourisme, le transport de marchandises, l'import-export, etc. Pour chacune de ces visions, on va avoir besoin d'avoir un indicateur particulier, et l'une des sous-composantes pour la croissance économique est par exemple l'activité hôtelière. Pourquoi ? Parce que l'on peut estimer le taux d'occupation des hôtels corporate à partir du prix des chambres, cet indicateur étant un indicateur avancé de la croissance économique locale. Pour estimer la croissance économique des États-Unis, vous allez « tracker » la ville de New York pour le secteur de la finance, San Francisco pour celui de la technologie, Boston pour celui de la santé et Houston pour celui de l'énergie.

Comment les données satellites vous permettent-elles de de déceler le potentiel de croissance d'une ville plusieurs mois avant les chiffres officiels ?

La chasse aux données de précision

Nous faisons des prévisions macroéconomiques en temps réel. Les données, nous les avons entre un et six mois à l'avance par rapport aux chiffres officiels, nous avons donc une avance considérable. Ce qui fait que l'on se retrouve un peu comme référence dans les indicateurs macroéconomiques type inflation et croissance économique en temps réel. C'est en agrégeant et en analysant les données et toujours en ajoutant de nouveaux types de données – d'abord les réseaux sociaux, après les offres d'emploi (prévision des cycles conjoncturels, des business cycles), et puis maintenant on s'intéresse à tout ce qui est indice de stabilité économique en utilisant les données satellites – que nous sommes arrivés à un tel niveau de précision. Pour le troisième trimestre 2018, nous avons l'intention d'acquérir nos propres drones. Nous en aurons deux : un que l'on pilote à vue sur les champs agricoles et pour lequel nous allons spécifier nous-mêmes le type d'équipement (thermique, détection de chaleur, photos, etc.) ; et un autre qui, avec dix heures d'autonomie, fera l'aller-retour sur la France dans la journée – donc si l'on fait cinq allers-retours sur la France dans la journée, vous avez quadrillé toute la France, le tout en respectant bien les zones urbaines, les zones agricoles, etc. L'objectif est, à terme, d'avoir une flotte de drones un peu partout dans le monde. C'est toute la brique de données satellite mais en systématique. Et puis il faut mettre en place tous les tuyaux. C'est beaucoup plus difficile que l'analyse de texte.

Quelle granularité d'information le machine learning vous permet-il d'atteindre ?

Les serveurs que l'on a créés en interne pour faire du deep learning sont même plus rapides que les machines de cloud d'Amazon ou de Microsoft. Pour vous donner une idée, les dernières données que nous sommes en train d’analyser correspondent à l'équivalent de près d'un million d'images que l'on traite en simultané. C'est ce type de données que l'on est en train de traiter, là, aujourd'hui, en ce moment même. Il y a un an, on avait déjà obtenu de très bons scores pour faire de la segmentation : est-ce que ce sont des champs agricoles, des ruisseaux, des immeubles, des ponts, des routes ? Ça, c'était il y a un an. Aujourd'hui, on est passés à soixante types de classifications : parmi les bâtiments, on peut désormais définir leur fonctionnalité : est-ce que sont des écoles, des hôpitaux, des centres commerciaux, etc. ? C'est jusqu'à ce niveau de granularité que l'on descend.

Comment vous entraînez-vous à analyser aussi finement ces images ?

ÉTAT DE L'ART DE L'ANALYSE PRÉDICTIVE

On est en train de développer toute la brique « analyse de données satellite en temps réel » afin de pouvoir analyser toutes les images en temps réel. Ce que ne font pas encore par exemple les militaires de manière systématique. En fait, on se retrouve à utiliser des technologies militaires pour des applications civiles. La difficulté est de mettre en place tous les tuyaux d'analyse de données notamment, parce que les données des drones sont des données de haute précision. Nous avons dernièrement participé au concours organisé via la plateforme Kaggle pour la sauvegarde des espèces marines. L'objectif était l'analyse systématique des images aériennes de populations sous-marines afin de pouvoir détecter et compter les otaries sur les images. C'était dans le cadre du développement de notre modèle d'analyse prédictive pour pouvoir se calibrer par rapport à ce qui se fait en terme d'état de l'art et puis aller au-delà. Si l'on est capable de compter les otaries et de les différencier des lions de mer, on est capable de compter les véhicules et même de les classifier en trois catégories : une moto, une voiture, un camion. C'est exactement la même problématique que pour les otaries et les différentes catégories : le bébé otarie, la femelle et le mâle.

À partir des données océanographiques, pouvez-vous prédire les catastrophes naturelles avec les

 conséquences « macro » 

que cela peut avoir sur un pays ?

prédire les catastrophes naturelles 

Juste avant de vous rejoindre, j'étais au téléphone avec le plus gros assureur d'Europe pour les nouvelles applications de l'assurance. Dans l'équipe, c'est une personne de 21 ans qui nous a proposé ce produit là en partant du constat que nous avions toutes les données océanographiques pour faire de la modélisation des vagues, c'est-à-dire analyser le comportement et notamment la force des vagues. L'été dernier, nous avons récupéré les données océanographiques sur des mailles allant de deux à dix kilomètres, et jusqu'à vingt mètres de profondeur. À partir de ces données, on est capable de prévoir les phénomènes climatiques comme par exemple les sécheresses survenues en Asie du Sud-Est en 2016, mais aussi les ouragans pendant l'été 2017. L'Indonésie étant l'un des plus gros producteurs d'huile de palme, ces sécheresses ont non seulement occasionné la très forte augmentation du prix de l'huile de palme, mais cela a également créée de l'instabilité sociale. 

Quels types d'applications concrètes voyez-vous pour la Banque de détail ?

Ce qui pourrait être intéressant pour la Banque de détail serait par exemple de savoir où positionner les agences. Vous pouvez faire cela via des données télécom, en regardant les flux de personnes. Étant donné que l'on n'a pas encore accès aux données télécom, on a utilisé comme proxy les données des Vélib', les trajectoires des Vélib' et puis des Autolib', même s'il y en a un peu moins. Cela vous donne une idée des flux de populations qui passent, et vous savez alors que le chiffre d'affaires va dépendre du nombre de personnes qui vont passer devant les agences, et ça c'est une application directe.

Travaillez-vous sur les données de santé ?

D'ici deux à trois ans, on va entrer dans l'ère des objets connectés. Il y a donc énormément de choses à faire. Pour le moment nous mettons déjà en place tout ce qui est analyse, tous les tuyaux nécessaires, mais je ne serai pas surpris que d'ici deux à trois ans, on rentre dans ce domaine là. En France, on est assez sceptique vis-à-vis de ces données là, mais on l'est moins dans d'autres pays. 

Quelle est votre position en matière d'éthique des données ?

Ces crapauds fous qui ouvrent la voie pour sauver l'humanité
  • 16 min

Nous sommes très vigilants à cette problématique sociétale, et cette conviction est reflétée dans un ouvrage commun sorti le 13 octobre dernier, Le Manifeste du Crapaud fou. C'est un manifeste collectif qui traite en partie de l'éthique des données, et justement de l'impact sociétal positif que nous devons avoir. L'IA devient tellement puissante que l’on doit se demander comment avoir un impact sociétal positif, et être vigilants sur la bonne utilisation non seulement des données mais aussi de l'intelligence artificielle. Ce manifeste est né de l'initiative de Thanh Nghiem et Cédric Villani. Ils voulaient faire un ouvrage collaboratif pour réfléchir notamment à la façon dont on peut utiliser le Big Data pour des institutions publiques, qui n'ont pas nécessairement les moyens, typiquement la Croix Rouge. Thanh Nghiem était à trente ans la plus jeune partner de McKinsey, et pour elle l'impact sociétal était extrêmement important.

Pourquoi ce titre « Le Manifeste du Crapaud fou » ?

Parce qu'ils ont un côté très expérimental, et qu'il y a toujours un crapaud qui, lors de la construction d'une autoroute par exemple, va se sacrifier pour trouver la meilleure trajectoire pour la communauté. Il y avait donc deux axes : comment exploiter la donnée au service du bien commun, et puis comment, pour faire le bien, il faut prendre des chemins de traverse, expérimenter et puis apprendre tous ensemble.

Il n'y a donc pas de limites technologiques, seulement des limites éthiques à vos modèles prédictifs ?

Pas seulement. Les catastrophes naturelles, on peut les prédire, c'est pour cela que l'on a récupéré les données océanographiques. Ce qui est beaucoup plus difficile à prévoir en revanche, c'est tout ce qui est tsunami, tout ce qui sismique. Là, c'est beaucoup plus difficile, ou si vous le prévoyez, c'est quelques secondes en avance, donc ça ne vaut pas la peine. Nous ne sommes pas capables non plus de prévoir quelque chose qui va être imprévu, par exemple tout ce qui est cyber-risques (on ne peut pas prévoir leur amplitude). On peut juste prévoir qu'il va y avoir un imprévu.

Quand on pense data, on pense à la transparence et à l'anonymat et donc à la blockchain. Où en êtes-vous dans la réflexion à ce stade ?

révolution blockchain

Je vois deux éléments dans votre question. Le premier, c'est la transparence des données. La transparence de la smart data est très importante pour nous, de telle sorte que l'on puisse retracer la source de données. On est donc non seulement transparents au niveau de nos algorithmes, c'est pour cela que l'on publie notamment des livres blancs et que l'on échange également régulièrement avec les instances de réglementations et de régulation. On sait que la blockchain peut être utilisée pour de nombreuses applications. Nous, ce qui nous intéresse déjà, c'est de bien comprendre le concept, car ce n'est pas évident ; et puis comme nous sommes orientés prévisions financières, les cryptomonnaies nous intéressent tout particulièrement, et donc nous suivons de très près les dernières tendances. Le gros marché, il y a encore quelques mois, était sur la Chine, puis la Chine ayant fermé le marché des cryptomonnaies, tout le marché s'est reporté sur le Japon. Le Japon est en train de réguler ce marché, donc on s'attend à ce que la Chine sorte sa propre cryptomonnaie. C'est de l'anticipation que l'on fait sur les futures tendances.

On s'attend à ce que la Chine sorte sa propre cryptomonnaie. C'est de l'anticipation que l'on fait sur les futures tendances.

Qui sont vos clients ?

Si vous êtes capable d'évaluer la croissance économique de tous les pays d'Afrique ou de Chine, et que vous êtes un acteur de l'immobilier ou même de l'énergie renouvelable, cela va grandement vous intéresser.

Thanh-Long Huynh

Actuellement, nous avons une dizaine de clients. Ce sont des institutions financières, que ce soit les banques d'investissement américaines, fonds souverains ou même les institutions internationales ; mais c'est vrai que maintenant nous sommes également approchés par les directions stratégiques de grands corporate. Je vous donne un exemple : si vous êtes capable d'évaluer la croissance économique de tous les pays d'Afrique ou de Chine, et que vous êtes un acteur de l'immobilier ou même de l'énergie renouvelable, cela va grandement vous intéresser. Même si nous n'avions pas spécifiquement prévu ce genre de marché, on a été approché également par ce type de clients.

Quel est votre business model ?

Croissance économique, inflation en temps réel, offre d'emploi : tout cela, c'est ce que l'on appelle des briques de smart data. Par exemple, un fonds souverain au Moyen-Orient s'intéresse à la croissance économique car il fait des investissements partout dans le monde : c'est ce que l'on appelle la

« global macro smart data ». Un fonds de pension au Canada, par exemple, a déjà une équipe macroéconomique, mais il lui manque la brique « offres d'emplois en temps réel » pour suivre le marché de l'emploi. Les clients vont choisir les types de données qui les intéressent. Notre modèle ? Des « smart data series », ou séries de smart data, qui sont disponibles sous forme de « Platform as a Service » (PaaS) via une licence. Vous vous connectez sur votre téléphone et vous voyez où en est la croissance économique en temps réel ou via le web grâce à une interface et vous voyez les grands chiffres macroéconomiques de l'ensemble des régions du monde ou même par pays, et ça c'est un très gros marché. Donc le business model, c'est sous forme de licences. Et puis vous avez aussi la financial smart data, là c'est un marché limité puisque ce produit est appliqué uniquement sur le marché des actions, et son application peut avoir un « impact marché ». Par exemple, on parlait du sentiment index : vous faites du sentiment index sur une action précise, et le sentiment est quelque chose de très émotionnel, c'est-à-dire que vous allez avoir un impact seulement sur quelques jours et vendre ces indicateurs en exclusivité à un nombre très limité de clients.


Vos objectifs pour 2018 ? Quels marchés visez-vous ?

GREATER CHINA

En terme commercial, c'est d'abord l'ouverture de trois filiales à l'étranger. Une à New York, une autre au Moyen-Orient, et un Asian research hub, l'équivalent de ce que l'on a fait à Paris mais à Tokyo. En ce qui nous concerne, le grand marché de demain (d'ici deux à trois ans), c'est Greater China. En termes RH, on va passer de 27 à 50 personnes, et on recrute deux à trois nouvelles personnes par mois ; nous visons 20 à 25 recrutements dans les douze ou 18 mois à venir. En matière de technologie, nous faisons l'acquisition de nos propres drones et en terme d'IA, nous continuons de recruter pour tout systématiser. Nous visons les marchés des États-Unis et du Japon d'abord. Les États-Unis parce que c'est un marché de wealth management, et le Japon car c'est un marché de savings, d’épargne. La moyenne des capitaux liquides par foyer au japon est de 500 000 dollars par personne. L'été dernier nous avions été retenus par l'accélérateur Fintech de la ville de Tokyo, et fin novembre nous avons présenté notre solution devant le gouverneur de la ville de Tokyo. Ceci nous a ouvert de nombreuses portes sur le Japon.

Rédigé par Oriane Esposito
Responsable éditoriale