Début juillet 2017, Google a annoncé le lancement d’un nouveau groupe de recherche autour de l’intelligence artificielle. Baptisé PAIR, pour the People + AI Research initiative, il vise à rassembler chercheurs et ressources au sein de Google pour repenser l’intelligence artificielle autour de l’humain et mettre la technologie à son service. Les recherches sont divisées en trois départements, chacun dédié à un public différent. Le premier cible les ingénieurs chargés de la conception de l’intelligence artificielle. Il a pour objectif de rendre les systèmes d’apprentissage machine plus faciles à concevoir et utiliser. Le second est centré autour des professionnels, tous corps de métier confondus (Google cite notamment les médecins, techniciens, agriculteurs, designers et musiciens) avec l’ambition d’utiliser l’intelligence artificielle pour les assister dans leur profession. Enfin, le troisième est constitué par les utilisateurs du quotidien. Son objectif : rendre l’intelligence artificielle utilisable facilement par tout le monde, à l’aide d’une conception judicieuse, et s’assurer que chacun bénéficie des retombées de la technologie. En plus de publier des travaux de recherche, le PAIR promet de concevoir du matériel éducatif et de relayer des outils en code source ouvert (« open source » dans la langue de Steve Jobs). L’entreprise a aussitôt joint le geste à la parole, accompagnant le lancement de son groupe de recherche par l’ouverture de deux outils offrant aux ingénieurs une meilleure visualisation des données utilisées dans la conception de leurs systèmes d’intelligence artificielle.


TensorFlow
  • 4 min

Ce n’est pas la première fois que le géant de l’internet met en place une initiative en faveur du code source ouvert. En 2015, l’entreprise avait ainsi décidé d’ouvrir son logiciel TensorFlow, qui permet de construire et entraîner des réseaux neuronaux. Ces algorithmes, vaguement inspirés du fonctionnement du cerveau humain, sont notamment utilisés dans les techniques d’apprentissage profond (« deep learning »), qui participent grandement aux progrès actuels de l’intelligence artificielle. À l’époque, plusieurs commentateurs avaient souligné l’inflexion stratégique que représentait cette décision dans la politique de Google. « Traditionnellement, Google ne partageait son design avec le reste du monde qu’après avoir évolué vers un autre design. Même alors, ils se contentaient en général de publier des papiers de recherche décrivant leur technologie. Ils n’ouvraient pas leur code. C’est ainsi qu’ils conservaient leur avantage. Avec TensorFlow, l’entreprise a changé de stratégie, partageant l’un de ses logiciels les plus récents et les plus importants. Certes, Google a également ouvert certaines parties d’Android et de nombreux petits projets logiciels. Mais cette fois-ci, c’est différent. Avec TensorFlow, Google ouvre un logiciel qui figure au cœur de son empire. » écrivait ainsi Cade Metz dans Wired.

openAi d'elon musk

Google n’est pas le seul à miser sur le code source ouvert. Dans le monde de l’intelligence artificielle, l’initiative la plus célèbre est sans doute OpenAI, institut de recherche fondé par Elon Musk et Sam Altman, qui vise à s’assurer que l’intelligence artificielle s’oriente dans une direction bénéficiant aux humains. OpenAI partage l’intégralité du fruit de ses recherches avec le public. Citons également the Partnership on Artificial Intelligence to Benefit People and Society. Cette organisation rassemble le fleuron de l’industrie (Apple, Google, Amazon, Microsoft et IBM) et mise également sur le code source ouvert afin de maximiser les bénéfices de l’intelligence artificielle pour le plus grand nombre.

On cède plus facilement ses algorithmes que ses données

L’ouverture semble donc avoir le vent en poupe au sein de la communauté de l’intelligence artificielle. Cependant, le terme, ambivalent, peut recouvrir deux réalités distinctes. Ainsi, il faut distinguer l’ouverture du code régissant le fonctionnement des algorithmes d’intelligence artificielle, et celle des données permettant d'entraîner ces algorithmes. Or, les entreprises ont tendance à céder plus facilement le premier que les secondes. « Bon nombre d’entreprises ont compris que les algorithmes vont être développés avec ou sans leur participation. » analyse Zachary Chase Lipton, chercheur spécialisé dans l’intelligence artificielle et auteur du blog Approximately Correct

"Bon nombre d'entreprises ont compris que les algorithmes vont être développés avec ou sans leur participation."

« Ainsi, ils ont tout intérêt à publier leurs recherches pour se positionner en tant que leaders. Les données, en revanche, peuvent être plus difficiles d’accès. Lorsque Microsoft ou Google entraînent leurs systèmes de reconnaissance vocale, par exemple, ils utilisent des bases de données privées, bien plus larges que celles qu’ils relaient au public. »  À noter que la volonté de garder une longueur d’avance sur la concurrence n’est pas le seul argument susceptible de s’opposer à l’ouverture des données. Dans le cadre de données médicales, ou de données utilisateurs récoltées sur l’internet, par exemple, les rendre publiques revient à compromettre la vie privée des individus.  L’avis de Zachary Chase Lipton est partagé par Lukas Biewald, CEO de la jeune pousse CrowdFlower, installée à San Francisco, qui fait du traitement de données via l’intelligence artificielle pour des entreprises tierces. 

Regard d'expert

Lukas Biewald 

CEO de CrowdFlower

« Google peut ouvrir sa technologie principale en toute sécurité, car sans données pour entraîner ses algorithmes, il est impossible de construire un algorithme de recherche aussi performant que le leur »

« Google peut ouvrir sa technologie principale en toute sécurité, car sans données pour entraîner ses algorithmes, il est impossible de construire un algorithme de recherche aussi performant que le leur » écrit-il. « Et Google sait très bien que personne ne peut rassembler un jeu de données aussi bon que celui qu’ils possèdent. En ouvrant leur algorithme, ils peuvent compter sur le monde entier pour le rendre plus puissant et efficace. Mais en conservant leurs données, ils maintiennent un fossé entre eux et leurs concurrents. » Ainsi, selon lui, les données sont aujourd’hui le nerf de la guerre. « La propriété intellectuelle et les avantages compétitifs d’une entreprise ne résident plus dans leur technologie et leurs algorithmes, mais dans leurs données. À mesure que les données deviennent toujours plus critiques et les algorithmes de moins en moins importants, il faut s’attendre à ce qu’un nombre croissant d’entreprises ouvrent leurs algorithmes. » L’observation de l’actualité récente semble lui donner raison, ou tout du moins confirmer l’appétence des entreprises des nouvelles technologies pour les données. En témoigne un récent rapport de la Royal Society, l’équivalent de l’académie des sciences britanniques, auquel ont contribué Google DeepMind, Uber et Amazon, remis en avril dernier et consacré à l’apprentissage machine, une technique d’intelligence artificielle. Ce rapport demande l’ouverture d’une plus grande quantité de données publiques afin de faire avancer la technologie. Ce n’est pas un hasard : ces trois entreprises ont bâti leurs modèles d’affaires sur les données.

Asseoir son autorité et attirer les talents

Attirer les talents 

Une fois ces réserves émises, force est malgré tout de constater que le monde de l’intelligence artificielle se caractérise par un usage important du code source ouvert, pour les algorithmes et, dans une moindre mesure, pour les données. Quel intérêt ont donc ces entreprises à dévoiler publiquement le résultat de leurs travaux, risquant ainsi de donner un coup de pouce à leurs concurrents ? Tout d’abord, cela confère aux entreprises les plus avancées une certaine autorité sur le marché. Ainsi, l’ouverture de TensorFlow a permis à Google de se muer en une véritable plateforme pour l’intelligence artificielle, et de s’imposer comme l’un des leaders du secteur. Le logiciel a en effet été massivement adopté par les ingénieurs du monde entier, devenant un standard parmi la communauté travaillant autour de l’apprentissage machine. Il est ainsi devenu le logiciel du genre le plus populaire sur Github, portail international des développeurs. Il est utilisé pour créer des outils dans de nombreuses industries, de l’aérospatiale à la bio-ingénierie. Ce qui nous amène au deuxième avantage : ouvrir ses algorithmes permet aux entreprises d’externaliser une partie de leur travail, laissant des développeurs du monde entier perfectionner leurs recherches, et donc leurs produits. Ils peuvent en outre repérer ainsi les talents les plus prometteurs et leur proposer de rejoindre leurs rangs. « Les entreprises qui font le choix de l’ouverture bénéficient des forces vives de la communauté du code source ouvert et de la recherche pour améliorer leurs logiciels. Ils ont également accès à un large public d’individus familiers avec leurs outils, qu’ils peuvent ensuite recruter. » analyse Zachary Chase Lipton. Un jeune étudiant en informatique venu effectuer un stage d’été chez Google peut ainsi continuer à coder une fois son stage terminé, permettant à l’entreprise de bénéficier de son travail, et lui offrant la perspective d’un emploi une fois ses études terminées…

Construire une intelligence artificielle éthique 

Oeuvrer pour une intelligence artificielle ouverte demeure le moyen le plus sûr d’éviter tout dérapage.

L’intelligence artificielle est également une discipline qui effraie autant qu’elle fascine, et pour les entreprises opérant dans ce domaine, se montrer transparent et collaboratif est aussi une manière de s’assurer une bonne image auprès du public, et donc des consommateurs potentiels. Car œuvrer pour une intelligence artificielle ouverte demeure le moyen le plus sûr d’éviter tout dérapage. C’est d’autant plus important que les algorithmes occupent une place toujours plus grande dans notre existence. Ils sont désormais utilisés par les recruteurs pour sélectionner les profils de candidats pouvant correspondre à un poste vacant, par la police, pour repérer les zones à risque, par les banques, pour déterminer l’attribution d’un prêt bancaire… Il est donc important que ces algorithmes soient les plus neutres et impartiaux possibles. L’ouverture des données, en particulier, peut permettre de s’en assurer, selon Zachary Chase Lipton. « L’un des plus grands avantages de l’ouverture des données au public est qu’elle peut nous permettre de traiter la question de l’équité. Si les modèles sont entraînés sur des jeux de données qui reflètent les préjugés humains, le modèle que l’on entraîne à imiter ces décisions pourra lui aussi refléter ces préjugés. Ouvrir les données au public peut permettre aux chercheurs d’identifier ces problèmes potentiels. » explique-t-il. Une autre crainte largement répandue vis-à-vis de l’intelligence artificielle, réelle pour certains, fantasmée pour d’autres, réside dans l’éventualité que celle-ci ne devienne trop puissante et n’échappe à notre contrôle. C’est d’ailleurs l’une des raisons d’être d’OpenAI : son fondateur, Elon Musk, a exprimé à maintes reprises le risque que l’intelligence artificielle fait selon lui peser sur l’humanité. L’un des meilleurs moyens de s’en prémunir serait, selon l’entrepreneur, de s’assurer que l’intelligence artificielle soit aussi ouverte que possible, afin qu’elle demeure sous contrôle et ne tombe pas entre les mains d’une minorité. C’est également l’une des raisons d’être du Partnership on Artificial Intelligence qui rassemble Apple, Google, Amazon, Microsoft et IBM. Le choix du code source ouvert est donc aussi un moyen de se prémunir, à plus long terme, du risque que l’intelligence artificielle ne devienne trop intelligente, avec de funestes conséquences potentielles. Et de montrer au public que l’on se soucie du bien commun autant que de la bonne marche des affaires.


Rédigé par Guillaume Renouard