Catégorie : Ethique

  • Des réseaux sociaux

    Un nouvel « Entretien autour de l’informatique » par Serge Abiteboul et Claire Mathieu, celui de Jon Michael Kleinberg. Jon est un informaticien américain, professeur à l’Université de Cornell, qui a considérablement contribué à l’étude des moteurs de recherche et des réseaux sociaux. Ses travaux sur le classement des réponses de recherche d’information ont été précurseurs d’algorithmes comme celui de PageRank à l’origine de la création de Google. Serge Abiteboul et Claire Mathieu l’interrogent pour Binaire sur le présent, le passé, et le futur de son domaine. Cet article est publié en collaboration avec TheConversation.
    Jon Kleinberg à Cornell Univ. Photo pour Wide World par Michael J. Okoniewski.

    B : Quel est ton domaine de recherche actuel ?

    JK : Je travaille à l’intersection de deux domaines, d’une part l’algorithmique, et d’autre part les réseaux sociaux  et les réseaux d’information tels que le web et internet. Plus généralement je m’intéresse aux algorithmes, à leurs actions au sein de la société humaine, et à leurs applications aux problèmes de société.

    B : Y a-t-il d’autres domaine de l’informatique qui interagissent avec ce domaine ?

    JK : Ce domaine a des interactions fortes avec de nombreuses facettes de l’informatique. On peut citer l’apprentissage automatique, ou les systèmes distribués de grande taille. Ainsi, le modèle de calcul “Mapreduce” a été créé en partie pour gérer l’infrastructure de réseaux sociaux géants tels que Google ou Facebook. De plus, par leur nature même, ces systèmes dépendent de données sensibles, d’où l’importance de déterminer quelles informations sont révélées quand on se met à utiliser des données personnelles pour d’autres buts que ceux pour lesquels elles avaient été initialement obtenues. Cela soulève des questions dans le domaine de la sécurité et de la protection de la vie privée. Enfin, comme une part croissante de l’information se présente sous forme d’image ou de vidéo, nous avons de plus en plus d’interactions avec le domaine de la vision par ordinateur.

    Représentation d’un réseau social

    B : Quel est le rôle des universitaires dans cette transformation de la société par le numérique ?

    JK : D’une part, de nombreux concepts introduits sur internet ces vingt dernières années sont au moins en partie le fruit de projets universitaires conduits par des enseignants-chercheurs ou des étudiants. Dans les premiers temps du domaine, la barrière technique à l’innovation était relativement basse, d’où un rôle important des universitaires. A un stade expérimental, les coûts d’introduction de nouvelles idées sont peu élevés, et cela favorise un cadre où de nombreuses personnes, à la fois motivées et techniquement talentueuses, peuvent tester des projets très divers, dans la plus grande liberté intellectuelle pour suivre les directions qui les intéressent et focaliser leur énergie sur ce qui leur semble prometteur. Le milieu universitaire est propice à cela, et les résultats ont une influence significative sur la société. Pour passer à l’échelle d’un milliard d’utilisateurs, cela devient plus coûteux, ne fût-ce qu’en termes de serveurs et de centres de données. C’est alors le rôle des entreprises de prendre le relais pour développer les idées des universitaires et en faire de grands succès financiers en les commercialisant.

    D’autre part, un défi pour les universitaires informaticiens actuellement est de chercher des partenariats avec les disciplines qui ont déjà une tradition établie d’étude de ce type de questions, par exemple la sociologie ou l’économie. À la frontière avec l’informatique, il existe un terrain très prometteur de flux d’idées dans les deux sens.

    Dans un sens, on voit que quand on développe une plate-forme telle que Twitter, penser aux aspects techniques ne suffit pas ; il est indispensable de réfléchir aussi à ce qui se passe lorsqu’un nombre important de personnes se mettent à utiliser cette plate-forme, ainsi qu’aux conséquences économiques, qu’elles soient fortuites ou intentionnelles.

    Dans l’autre sens, j’aime à croire que les spécialistes de ces disciplines ont des choses à apprendre de nous. En sociologie en particulier, traditionnellement l’acquisition de données sur le fonctionnement des groupes de personnes est une difficulté majeure du domaine, parce que cela requiert des observations, et donc des interactions de personne à personne. Désormais, avec Facebook par exemple, on a accès à des interactions extrêmement riches, à un niveau de détail extrême, et à grande échelle. Pour étudier un problème de sociologie, l’analyse des données de Facebook à beaucoup à enseigner sur les interactions entre les individus, même si on ne comprend pas vraiment ce que chaque interaction signifie. Comment reprendre les questions sophistiquées traditionnellement posées par des sociologues à un petit nombre d’individus, et les faire passer à l’échelle des données sur internet ?

    Un exemple d’un tel travail : le phénomène de petit monde dans les graphes. Considérons  la question des degrés de séparation qui nous séparent les uns des autres. « Les six degrés de séparation » est une propriété suggérée par le Hongrois Frigyes Karithy dans une de ces nouvelles datée de 1929 qui évoque la possibilité que toute personne sur le globe puisse être reliée à n’importe quelle autre, au travers d’une chaîne de relations individuelles comprenant au plus six maillons. Il est plus facile de raisonner sur ce problème de façon qualitative que quantitative, ce qui peut expliquer pourquoi ce thème a d’abord fait surface dans la fiction. Puis, dans les années 60, Stanley Milgram, qui avait un talent pour la conception d’expériences en sciences sociales pour tester des phénomènes dont tout le monde avait une compréhension intuitive mais qu’on ne savait pas formaliser, a conçu la célèbre expérience “six degrés de séparation” étudiant le cheminement de lettres jusqu’à leurs destinataires. C’est là un bon exemple d’un travail expérimental qui était très difficile à faire avant internet. Il découvrit que la médiane du nombre d’étapes dans le chemin était de six, ce qui, grâce à l’auteur de pièce de théâtre John Guare, est devenu connu sous le nom de “six degrés de séparation”. Deuxième apparition de travail de fiction dans l’histoire de ce problème, car c’est sa pièce de théâtre, puis le film qui en a été tiré, qui ont popularisé ce phénomène.

    Plus tard, dans le domaine des mathématiques, Watts et Storgetz ont proposé un modèle de graphe aléatoire, et c’est par leur travaux que j’ai été amené à m’intéresser au problème. Je souhaitais particulièrement l’étudier du point de vue algorithmique, auquel les gens n’avaient pas prêté attention jusqu’alors. En fait, l’expérience de Milgram a montré deux propriétés distinctes : premièrement, qu’il existait des chemins très courts entre la plupart des paires de points dans un graphe aléatoire ; et deuxièmement, que les gens étaient capables de découvrir ces chemins. Notons que Milgram n’aurait jamais découvert cette deuxième propriété s’il avait simplement eu accès à des données massives et à de puissants outils de calcul : il lui aurait suffi de faire un calcul de plus courts chemins, court-circuitant la deuxième propriété. Parfois, le manque de ressources nous oblige à faire des études plus intéressantes que ce à quoi on aurait pensé sinon ! Enfin, depuis 2005 ou 2006, l’explosion soudaine des réseaux sociaux a permis d’étudier les données qui ont alors émergé et de vérifier certaines des prédictions précédentes.

    Représentation des 6 degrés par Daniel’ (User:Dannie-walker)

    B : Comment t’es-tu retrouvé à faire de l’informatique ?

    JK : Enfant, j’aimais les maths. Jeune adolescent au moment de l’arrivée de l’ordinateur personnel Apple 2, j’écrivais des programmes de jeux que je partageais avec mes amis du collège, et étais toujours à la recherche d’idées de jeux qui intéresseraient mes amis. Cette découverte de l’informatique par la programmation des ordinateurs personnels est typique de ma génération. La discipline scientifique informatique était déjà bien développée, mais nous n’en étions pas conscients. Pour les générations antérieures, les ordinateurs étaient peu accessibles ; pour les suivantes, il est devenu évident que l’informatique était une discipline. Étudiant, j’étais parti pour étudier les maths, mais j’ai suivi en première année de licence un cours d’introduction à l’informatique. Je me suis alors rendu compte qu’il était possible de marier mes deux intérêts, les maths et la programmation. C’était passionnant de découvrir le raisonnement mathématique appliqué à la programmation, et l’informatique était un sujet que je pouvais étudier sans être pour autant obligé d’abandonner les maths.

    B : Ton domaine de recherche actuel existait-il alors ?

    JK : On peut toujours mentionner des articles isolés, mais en tant que domaine de recherche identifié comme objet d’étude, cela n’est apparu que lorsque j’étais en doctorat. Le catalyseur a été l’adoption massive du web par le grand public, entre 1993 et 1997. Le web s’est transformé, d’une simple application pour partager des fichiers sur internet, en quelque chose que tout un chacun utilisait quotidiennement. Les informaticiens se sont alors rendu compte qu’il ne suffisait plus, comme auparavant, de construire des systèmes d’exploitation, des compilateurs, et des raisonnements logiques pour les analyser, mais que désormais il était indispensable de prendre en compte le comportement des millions d’utilisateurs sans lesquels le web lui-même n’existerait pas.

    B : Quels en ont été les conséquences en dehors de l’informatique ?

    JK : Bien évidemment, il y a eu des changements dans la vie quotidienne, dont sont conscients tous ceux qui ont vécu les années 90. Nous avons désormais des outils qui nous permettent, dès qu’on a une question factuelle, d’obtenir la réponse quasi immédiatement. Cela nous semble maintenant normal, mais ça n’existait pas dans les années 80. Deuxième conséquence, alors qu’autrefois seules quelques personnes avaient la responsabilité de produire et partager l’information dans des médias traditionnels, désormais ce sont des centaines de millions de personnes qui produisent et partagent l’information. Du coup, chacun doit désormais adopter une démarche similaire à celle de la recherche académique, en évaluant l’information, en comparant des sources différentes sur un même sujet, en tenant compte des objectifs probables et des biais potentiels de ceux qui ont écrit l’information. Par exemple, allez sur internet et recherchez combien de temps des restes de poulet peuvent se garder dans un réfrigérateur. La diversité des réponses est phénoménale. On peut trouver un blog avec une opinion très tranchée sur la question, mais on ne sait pas si l’auteur est crédible, une page sur le site d’une entreprise d’agro-alimentaire, mais on ne sait pas si on peut leur faire confiance, une page sur le site du ministère de la santé, mais on ne sait pas exactement d’où ça sort. Ainsi, toutes ces sources prétendent une expertise qu’on n’a pas moyen d’évaluer, ils tentent tous de répondre à la même question, et les résultats sont tous différents. Ce genre de choses, on le voit tous les jours.

    Historiquement, les choses ont commencé à changer dans les années 90, quand les gens ont commencé à mettre des informations sur le web ; ça s’est accéléré avec Wikipédia, puis, entre 2004 et 2006, le monde de l’information a changé. Les grandes plateformes que nous utilisons maintenant, Facebook, Twitter, YouTube, sont toutes apparues au cours de cette période très brève. Il y a eu une convergence de progrès technologiques qui ont facilité l’accès à internet pour y mettre des informations de façon collaborative, et les gens se sont mis à sortir de derrière l’écran de leurs pages web et à interagir plus directement les uns avec les autres. Dans les années 90, même après la démocratisation du web, il s’agissait fondamentalement encore de lecture de documents, alors que depuis 2006, il s’agit plus d’interaction avec des personnes. Cela a modifié les attentes. Maintenant, s’il se passe quelque chose quelque part dans le monde, je me connecte à un réseau social, et j’ai immédiatement accès aux réactions de dizaines de milliers de gens. Dès qu’il arrive quelque chose, un désastre naturel par exemple, on va tout naturellement sur Twitter et on voit les réactions en temps réel. Les mêmes questions se posent alors : ces informations sont-elles crédibles ? Adopter la démarche de la recherche académique traditionnelle ne suffit plus, car il s’agit maintenant de discerner la vérité à partir de centaines de milliers de minuscules fragments de réactions. C’est encore plus compliqué !

    Souvent, on compare la période présente à la constellation d’activités nouvelles aux début du 16e siècle (dont la création du Collège de France) liées à la démocratisation de l’information. L’ensemble des personnes qui avaient accès à l’information s’est élargi, et le type d’informations auxquelles ils avaient accès s’est considérablement élargi. Il y a eu une combinaison de facteurs comme la diffusion de l’imprimerie, la diminution de l’analphabétisme, ou le changement dans l’organisation du système éducatif. Tout cela a modifié les conditions de création et dissémination de l’information. Incorporer ces changements a été un défi pour la société de l’époque ! Il me semble que nous sommes maintenant confrontés à un défi analogue.

    B : Le prix MacArthur que tu as reçu a-t’il eu un impact significatif sur ta carrière ?

    JK : J’ai obtenu ce prix en 2005, juste au moment de la soudaine émergence de très grands réseaux sociaux. Auparavant, j’avais travaillé sur la conception et l’analyse d’algorithmes de recherche sur le web, et il semblait que ces grands réseaux sociaux posaient des questions importantes, mais difficiles à formaliser puisqu’il s’agissait de s’aventurer dans le monde extérieur à l’informatique. Le prix MacArthur m’a donné une impulsion pour travailler à définir une direction de recherche qui ait à voir avec ces nouveaux développements, et à penser aux conseils à donner aux étudiants débutants. Ainsi, parmi les étudiants que nous avons formés, on peut citer Haggstrom, qui a rejoint Facebook en 2009, et qui est maintenant vice-président de l’ingénierie responsable du classement des articles : d’une certaine manière, on peut tracer un chemin allant du prix MacArthur jusqu’à ces développements.

    B : As-tu des regrets ?

    JK : J’ai eu beaucoup, beaucoup de chance avec mes collaborateurs et avec nos sujets d’étude. J’ai appris de mes mentors, de mes collaborateurs, de mes étudiants, et c’est extraordinaire que de faire ainsi partie d’une communauté scientifique. Si je devais avoir un regret, ce serait celui des occasions manquées, lorsque j’ai hésité à me lancer sur un nouveau sujet, parce que je craignais que le sujet ne soit pas assez mûr, trop mal défini, pas assez sérieux. Je n’ai jamais regretté de m’être lancé trop tôt sur quelque chose.

    B : Comment imagines-tu l’avenir de ton domaine ?

    JK : Un problème important du domaine est de comprendre comment ces systèmes influencent le comportement de ces individus. Quand on regarde Facebook, on a tendance à s’imaginer qu’on contemple le comportement d’êtres humains dans leur état naturel, mais en réalité, il y a des algorithmes sous-jacents qui régulent leurs interactions. Ainsi, les résultats des recherches sur Google orientent les choix ultérieurs, et les articles qu’on consulte sur Facebook dépendent de ceux qu’on voit, et cela est déterminé par des algorithmes. Dans de telles situations, on n’a actuellement aucune notion de l’impact des décisions de conception d’algorithme sur les utilisateurs de la plate-forme. C’est un problème grand ouvert, et rendu plus compliqué encore par la boucle de rétroaction. Par exemple, en ce qui concerne les habitudes des consommateurs, l’algorithme de recommandations est entraîné à partir des décisions passées des consommateurs, mais bien évidemment les décisions ultérieures des consommateurs sont à leur tour influencées par ce que l’algorithme décide de leur montrer, et il y a ainsi une boucle infinie de rétroaction, où les décisions de l’algorithme dépendent des décisions des utilisateurs, et vice-versa. Avec ce type de boucles de rétroaction, nous ne comprenons pas vraiment ce que font nos algorithmes, et ce phénomène est présent partout dans le monde de l’internet, qui lui-même interagit avec le monde réel.

    Plus largement, ceci conduit au deuxième domaine où nous avons un besoin urgent de travaux de recherche : le rôle des algorithmes dans les décisions de nature politique, de protocole ou de règlementation. Des experts ou groupes d’experts prennent des décisions qui ont des conséquences sur la vie des personnes ordinaires, par exemple liées à l’embauche, à la justice, ou à la médecine avec des recommandations de traitements. Ces décisions ont des conséquences significatives sur la vie d’individus. Il y a probablement là une place pour des algorithmes qui pourraient aider à réduire le nombre de décisions erronées, mais c’est là un grand défi.

    B : Quelle formation envisages-tu pour les informaticiens de demain ?

    JK : À l’université de Cornell, nous tentons d’incorporer à notre enseignement dans notre formation d’ingénieur des concepts issus d’autres disciplines. Par exemple, pour concevoir notre cours sur les réseaux informatiques, nous sommes partis de la question suivante : quels sont les concepts des sciences sociales utiles à savoir pour la conception d’applications massives sur internet, et qui peuvent être enseignés en un semestre ? Cela nous a conduit à centrer notre cours sur les idées techniques et mathématiques à la frontière entre sciences sociales et systèmes technologies. Plus récemment, conscients que nos étudiants, dans leur vie professionnelle, construiront des systèmes informatiques qui auront un impact sur un segment de plus en plus large de la société, nous avons introduit un cours qui donne aux étudiants du cursus d’ingénieur des connaissances de base sur l’éthique et les grandes questions générales en matière de droit.

    Inversement, même pour les étudiants non-informaticiens, il est de plus en plus important de connaître les idées de base de l’informatique et de comprendre les principes de fonctionnement des nombreux systèmes qu’ils utilisent dans leur vie quotidienne. De plus en plus, ils seront responsables de l’évaluation d’argumentaires basés sur des données, et doivent être capables de raisonner sur les aspects fondamentaux de la science des données et de l’apprentissage statistique.

    Bien entendu, ces sujets ont vocation à être enseignés de plus en plus tôt dans le cursus éducatif. Nous connaissons l’évolution de sujets enseignés d’abord en 3e cycle, puis en licence, et enfin dès le lycée : les notions de base de l’informatique en sont un bon exemple.

    Personnellement, je pars de l’hypothèse que, dans presque tous les domaines, il y a des connaissances importantes à acquérir. Il y a de plus de plus de choses à apprendre, et elles ont toutes leur importance, mais nous ne disposons que d’un temps fini pour apprendre. Pour gérer ce paradoxe, on pourrait compresser et mélanger les disciplines, et c’est en ces termes que j’essaie de penser nos formations, plutôt que de faire le choix d’écarter un champ disciplinaire spécifique.

    B : Aurais-tu un conseil à donner à une jeune étudiante ou un jeune étudiant en informatique ?

    JK : En général, il est préférable de se laisser guider par ce qui nous intéresse plutôt que parce ce que quelqu’un d’autre juge intéressant. Il y a tant de questions qui ouvrent des directions passionnantes que parfois on ne sait trop laquelle choisir, et nous sous-estimons souvent la largeur de spectre couvert par l’informatique ainsi que la rapidité à laquelle les nouveautés se développent. Si vous êtes en fin de licence ou de mastère, il se peut tout à fait que certaines questions vous “branchent” mais que vos enseignants ne soient pas aussi conscients du sujet que vous-même. Mais ce n’est pas parce qu’une question est trop nouvelle pour faire l’objet d’un cours que ce n’est pas un bon sujet d’étude, au contraire ! Il est tout à fait possible que ce soit précisément les questions importantes à étudier maintenant. L’histoire des développements de l’informatique le démontre.

    Serge Abiteboul, Inria & ENS Paris, Claire Mathieu, CNRS, Paris, et Collège de France

  • Les liaisons dangereuses du renseignement français

    L’analyse de données massives, le big data, a de nombreuses applications : on peut vouloir faire parler les données dans de nombreux domaines. Nous nous intéressons ici à un en particulier, le renseignement.   Des matériels informatiques de plus en plus puissants, des algorithmes de gestion et d’analyse de données de plus en plus sophistiqués, la disponibilité de données numériques de plus en plus massives changent notre monde. Ils permettent des avancées extraordinaires de la recherche scientifique dans de nombreux domaines, comme la médecine, l’astronomie ou la sociologie. Ils mettent à notre service des outils fantastiques comme, aujourd’hui, des moteurs de recherche du Web tel Qwant (1) et, peut-être demain, les systèmes d’informations personnelles tel celui en cours de développement par l’entreprise française Cozy Cloud. Ils sont beaucoup utilisés par les entreprises, par exemple pour le marketing… et aussi par les gouvernements. Il suffit de collecter des masses de données numériques – on y trouvera toute l’intelligence (au sens anglais (2)) du monde – pour lutter contre la criminalité, détruire ses opposants politiques, découvrir les secrets industriels de ses concurrents.

    © Progressistes

    Une société s’est imposée sur ce marché juteux, Palantir Technologies. Le cœur de leur technologie est un système, Palantir Gotham, qui permet d’intégrer massivement des données structurées (provenant de bases de données) et non structurées (par exemple des textes du Web ou des images), de faire des recherches sur ces données, de les analyser, d’en extraire des connaissances.

    Comment ça marche ?

    La difficulté est de comprendre le sens des données. Celles d’une entreprise sont relativement propres et bien structurées. Quand nous utilisons les données de plusieurs entreprises, quand nous les « intégrons », c’est déjà moins simple. Les données sont organisées différemment, les terminologies peuvent être différentes. Par exemple, les deux systèmes peuvent utiliser des identifiants différents pour une même personne, des adresses ou des courriels différents, etc. Les informations du Web et des réseaux sociaux peuvent être encore plus difficiles à extraire : les personnes utilisent parfois juste des prénoms ou des surnoms; les imprécisions, les erreurs, les incohérences sont fréquentes; surtout, les données sont très incomplètes. En outre, une grande masse des informations disponibles consiste en des textes et des images où il faut aller chercher des connaissances.

    Les « progrès » de la technique ont été considérables ces dernières années. Par exemple, le système XKeyscore, un des bijoux (en termes de coût aussi) de la NSA, peut réunir, pour une personne, quasi instantanément la liste de ses appels téléphoniques, de ses paiements avec une carte de crédits, de ses courriels, ses recherches Web, les images de vidéosurveillance d’un magasin où elle a réalisé des achats… Palantir propose à ses utilisateurs XKeyscore Helper pour importer des données de XKeyscore, les interroger, les visualiser, les analyser et les réexporter.

    Palentir et la DGSI

    Est-ce la fin de la vie privée ? Ne s’agirait-il là que d’exagérations ? De la parano ? J’ai peur que non. Nous n’en sommes pas encore là en France, même si des lois comme la celle de 2015 relative au renseignement nous engagent dans cette direction. Heureusement, nos services de renseignements ont moins de moyens, et d’autres textes, la loi informatique et libertés ou le règlement européen sur la protection des données personnelles à partir de 2018, nous protègent.

    Revenons à Palantir. Parmi ses premiers investisseurs, on trouve la CIA, et parmi ses clients étatsuniens, la CIA, la NSA, le FBI, les Marines, l’US Air Force, les Forces d’opérations spéciales. La technologie de Palantir est utilisée notamment pour relier les données de plusieurs agences de renseignement et leurs permettre ainsi de coopérer. Depuis 2016, Palantir travaille aussi en France pour la Direction générale de la sécurité intérieure. Nous nous inquiétons peut-être pour rien, mais que font-ils pour la DGSI ? À quelles données sur des Français ont-ils accès ? Dans le cadre de la transparence de l’État, il nous semble que nous avons le droit de savoir.

    Naïvement, nous aurions aussi pu penser que, sur des données de sécurité intérieure, une entreprise européenne aurait été plus appropriée, ne serait-ce que parce qu’elle serait plus directement soumise aux lois européennes.

    Pour tenter de nous rassurer, nous pouvons consulter le site Web de Palantir, où sous l’intitulé What We Believe (Ce que nous croyons), on peut lire :

    « Palantir is a mission-focused company. Our team is dedicated to working for the common good and doing what’s right, in addition to being deeply passionate about building great software and a successful company. » (Palantir est une entreprise concentrée sur sa mission. Notre équipe est dévouée à travailler pour le bien commun et à faire ce qui est bien, en plus d’être profondément passionnée par la création de logiciels géniaux et d’une entreprise prospère.)  

    Certes, mais après nombre de révélations, notamment celles d’Edward Snowden sur des programmes de surveillance à l’échelle mondiale, impliquant la NSA ou l’alliance de renseignement Five Eyes (Australie, Canada, Nouvelle-Zélande, Royaume-Uni, États-Unis), nous pouvons difficilement nous contenter de bonnes intentions.

    Airbus parmi les clients

    Parmi les clients de Palantir, on trouve aussi Airbus. Il s’agit dans ce cas, en principe, d’intégrer des informations dispersées sur plusieurs systèmes d’Airbus, et de les analyser pour comprendre les problèmes de qualité des A350. C’est pour la collecte, l’intégration et l’analyse de données qu’Airbus utilise la technologie et l’expertise de Palantir. Nous pouvons bien sûr nous réjouir de l’amélioration de la sécurité de l’A350. Mais, n’y a-t-il pas à craindre que des informations stratégiques se retrouvent par hasard, via les réseaux de la CIA proches de Palantir, dans les mains de concurrents d’Airbus ? Ne dites pas que c’est improbable ! Naïvement, nous aurions aussi pu penser que, sur de telles données, une entreprise européenne aurait été plus appropriée, ne serait-ce que pour éviter trop de connexions occultes avec des entreprises étatsuniennes ou asiatiques.

    Si nous préférons penser que les services de renseignement français et ceux de la sécurité d’Airbus sont compétents, responsables, et qu’ils savent ce qu’ils font, nous pouvons légitimement nous inquiéter de les voir utiliser les services d’une société étatsunienne proche des services secrets et dont un des fondateurs est Peter Thiel, un libertarien, aujourd’hui conseiller numérique de Donald Trump, qu’il a soutenu tout au long de la campagne électorale qui mena Trump à la Maison-Blanche.

    L’analyse de données massives est un outil moderne pour lutter contre le terrorisme. En croisant les bases de données des différentes agences gouvernementales, on peut détecter des comportements suspects, des activités qui intéressent la lutte antiterroriste. J’ai été marqué par ce que m’a dit un jour (c’était avant le 13 novembre 2015) un officier de renseignement : « S’il y a un attentat terroriste majeur en France, on nous reprochera de ne pas avoir fait tout ce qui était en notre pouvoir pour l’empêcher. » Pourtant, cette surveillance massive de la population, d’individus a priori suspects… ou pas dans des pays démocratiques peut raisonnablement inquiéter, être prise pour une atteinte aux libertés. C’est bien là le dilemme. Après chaque attentat, les politiques, bouleversés par les images, l’horreur, sont prêts à tout pour éviter que cela se reproduise, même à restreindre les libertés. On peut les comprendre. Mais, entre l’épouvante du terrorisme et la répulsion du totalitarisme, il faut choisir où placer le curseur. Peut-être faudrait-il garder en tête que le renseignement intérieur se fait, dans un état de droit, sous le contrôle de la justice et ne surtout pas oublier qu’un affaiblissement de la démocratie est une victoire du terrorisme.

    Serge Abiteboul, Arcep, Inria et École normale supérieure, Paris.

    (1) Qwant est un moteur de recherche européen qui préserve la vie privée et ne transmet ni ne retient donc d’informations vous concernant.

    (2) En effet, nul ne penserait à traduire Intelligence Service par « service intelligent », ça se saurait !

    Pour en savoir plus

    • Sam Biddle, How Peter Thiel’s Palantir Helped the NSA Spy on the Whole World, The Intercept, 2017.
    • Ashlee Vance et Brad Stone, Palantir, the War on Terror’s Secret Weapon, Bloomberg Businessweek, 2011.
    • Vous pouvez aussi consulter ce blog.

    Cet article est paru originellement dans la revue Progressistes, Numéro 18, oct-nov-déc 2017. Le numéro, dans sa totalité, est disponible électroniquement ou en format papier.

  • Algorithmes : au-delà de la transparence, la redevabilité

    Les algorithmes envahissent nos vies, et en cela ils se doivent de respecter les lois, et les valeurs éthiques de notre société. Pour coexister avec eux, il est important de comprendre ce qu’ils font. C’est en cela que leur transparence prend toute son importance. Pour traiter ce sujet pour Binaire, nous avons un tandem ; un informaticien et une juriste. Il faut bien cela pour un sujet qui, s’il parle d’informatique, implique les sciences humaines de manière essentielle. Serge Abiteboul.

                  

    Les algorithmes d’aide à la décision sont désormais omniprésents. Ils influencent notre vie quotidienne, par les informations qui nous sont transmises ou par les suggestions qui nous sont adressées en ligne. Ils facilitent nos actions individuelles au jour le jour, mais sont aussi susceptibles d’apporter de grands bénéfices collectifs, dans des domaines aussi variés que la médecine, la justice ou la sécurité par exemple. Toutefois, leur développement suscite également des craintes importantes. Elles concernent notamment les risques de discriminations, de traitements déloyaux, voire de manipulations. Ces éventuels mésusages méritent d’être débattus, et le sont dans des cadres variés depuis l’adoption de la Loi pour une République numérique : cycle de débats sur l’éthique et le numérique lancé par la CNIL en janvier 2017, consultation sur les plateformes initiée par CNNum en octobre 2017, ou encore projet TransAlgo piloté par Inria. La France n’est évidemment pas seule à se mobiliser sur ces questions et on ne compte plus les rapports, recommandations et livres blancs sur l’éthique du numérique ou de l’intelligence artificielle (IA) publiés en Europe et aux Etats-Unis.

    Soyons redevable

    La première source d’inquiétude concernant les algorithmes étant leur opacité, la transparence est généralement mise en avant comme le premier remède. Cependant le terme de « transparence » n’est pas lui-même dénué d’ambiguïté. Par exemple, la seule publication du texte d’un algorithme ou du code source d’un logiciel n’est pas la panacée car ceux-ci peuvent demeurer tout à fait opaques pour le commun des citoyens (et même parfois pour des experts). Par ailleurs, le fonctionnement de certains types d’algorithmes, qui reposent sur l’apprentissage automatique, ne peut être appréhendé indépendamment des jeux de données utilisés pour l’apprentissage. En effet, ces données peuvent intégrer des biais qui seront « appris » puis reproduits par l’algorithme. Plus que la transparence, c’est la « redevabilité » entendue comme « devoir de rendre compte », qui nous paraît le véritable enjeu. Ce devoir inclut deux composantes : le respect de règles, notamment juridiques ou éthiques, d’une part ; la nécessité de rendre intelligible la logique sous-jacente au traitement, d’autre part. Il se décline de différentes manières selon les publics visés. Pour le citoyen sans compétence technique particulière, il peut s’agir de comprendre les critères déterminants qui ont conduit à un résultat qui le concerne (classement d’information, recommandation, envoi de publicité ciblée, etc.) ou la justification d’une décision particulière (affectation dans une université, refus de prêt, etc.). Un expert pourra être intéressé par des mesures plus globales, comme des explications sous forme d’arbres de décision ou d’autres représentations graphiques mettant en lumière les données prises en compte par l’algorithme et leur influence sur les résultats. Un organisme de certification peut se voir confier une mission de vérification qu’un algorithme satisfait certains critères de qualité (non-discrimination, correction, etc.), sans pour autant que celui-ci ne soit rendu public.

    Cette exigence de « redevabilité » représente un défi majeur pour les juristes comme pour les informaticiens. D’une part, certains algorithmes reposent sur des techniques, comme l’apprentissage profond qui sont intrinsèquement difficiles à appréhender pour des humains. D’autre part, qu’ils reposent sur l’IA ou pas, les quantités importantes de facteurs (données d’entrée) pris en compte et les multiples manières de les combiner sont parfois des obstacles à l’intelligibilité. Enfin, certains algorithmes sont fréquemment modifiés, ce qui ajoute encore un niveau de difficulté.

    La question de l’explication n’est pas un sujet de recherche complètement nouveau en informatique. Elle a été étudiée en particulier dans les domaines du logiciel et de l’IA, et elle suscite depuis quelques années un regain d’intérêt. De nombreux défis restent à relever cependant. En particulier, comment marier la précision d’une explication et son intelligibilité, garantir sa fiabilité, mesurer son intelligibilité envers différents publics (qu’est-ce qu’une bonne explication ?). En sus des travaux visant à reconstituer a posteriori une forme d’intelligibilité aux traitements algorithmiques, l’idéal serait de prendre en compte cette exigence dès la phase de conception, et de concevoir ainsi « par construction » des algorithmes produisant, en plus de leurs résultats nominaux, les justifications associées.

    Même si les solutions en la matière reposent forcément sur les techniques disponibles, la technologie ne peut prétendre répondre seule aux questions posées par l’usage des algorithmes d’aide à la décision. Avec l’adoption de la Loi pour une République numérique, la France a introduit de nouvelles obligations pour les administrations et les plateformes numériques.

    Le décret d’application du 16 mars 2017 dispose notamment que « l’administration communique à la personne faisant l’objet d’une décision individuelle prise sur le fondement d’un traitement algorithmique, à la demande de celle-ci, sous une forme intelligible et sous réserve de ne pas porter atteinte à des secrets protégés par la loi, les informations suivantes :

    – Le degré et le mode de contribution du traitement algorithmique à la prise de décision
    – Les données traitées et leurs sources ;
    – Les paramètres de traitement et, le cas échéant, leur pondération, appliqués à la situation de l’intéressé ;
    – Les opérations effectuées par le traitement. »

    Ces exigences réglementaires sont assez précises, et peuvent être difficiles à mettre en œuvre pour certains algorithmes, mais elles ont un champ délimité, puisqu’elles ne concernent que les décisions des administrations. D’autres visent les opérateurs de plateforme en ligne, mais leur objet est « de délivrer au consommateur une information loyale, claire et transparente sur :

    Les conditions générales d’utilisation du service d’intermédiation qu’il propose et sur les modalités de référencement, de classement et de déréférencement des contenus, des biens ou des services auxquels ce service permet d’accéder ;

    L’existence d’une relation contractuelle, d’un lien capitalistique ou d’une rémunération à son profit, dès lors qu’ils influencent le classement ou le référencement des contenus, des biens ou des services proposés ou mis en ligne.

    Au-delà de ces activités précises, il faut se tourner vers le droit des données personnelles.

    La loi Informatique et Liberté et le nouveau règlement européen sur les données personnelles encadrent précisément les « décisions individuelles automatisées » (art. 22), avec notamment le « droit de la personne concernée d’obtenir une intervention humaine de la part du responsable du traitement, d’exprimer son point de vue et de contester la décision ». Cependant ces dispositions sont sujettes à interprétation et comportent des restrictions majeures. En particulier, elles ne concernent que les décisions fondées exclusivement sur un traitement automatisé et produisant des effets juridiques ou affectant de manière significative le sujet. De ce fait, il reste encore du travail à faire pour garantir que les outils d’aide à la décision répondent à l’exigence de redevabilité, vis-à-vis de leurs utilisateurs-décideurs comme des personnes destinataires de la décision.

    Au-delà de leur grande variété, les algorithmes partagent un point commun : leur fonctionnement repose sur l’exploitation de données, souvent à grande échelle, et ces données sont souvent des données personnelles. Dès lors, l’exigence de redevabilité s’applique également à la collecte des données et cette phase pose aussi de nouveaux défis à une époque où des données de plus en plus nombreuses sont collectées de multiples façons et dans des contextes variés. C’est le cas en particulier de ce qu’on appelle les métadonnées (ou « données sur les données ») qui sont transmises implicitement avec les données principales, par exemple lors d’une communication. Ces métadonnées (en particulier les données de connexion ou de géolocalisation) sont parfois plus intrusives que les données auxquelles elles se rapportent. Le droit français et européen a ainsi été amené à étendre le champ de la protection des données personnelles, par exemple pour intégrer les adresses IP. Par ailleurs, la divulgation de données même anodines en apparence devient problématique.  En effet, ces données peuvent souvent être recoupées pour inférer des informations précises ou constituer des profils. La CNIL en est très consciente et alerte depuis plusieurs années sur les risques induits en la matière. En informatique, de nombreux travaux ont également été réalisés ces dernières années pour améliorer les connaissances sur les collectes de données personnelles. A titre d’exemple, le projet Mobilitics, fruit d’une collaboration entre l’équipe-projet Inria Privatics et la CNIL, a permis de mettre au jour certaines pratiques opaques, déloyales, et même parfois illégales en matière de collecte de données personnelles sur les téléphones mobiles.

    Pour conclure, au-delà des enjeux techniques et juridiques, il est clair que la généralisation de l’usage des algorithmes pose d’abord des questions d’éthique et de choix de société. Ces choix doivent être mis au débat, comme on l’a entrepris récemment en France et dans de nombreux autres pays. Pour dépasser les positionnements idéologiques, ces débats doivent être autant que possible alimentés par la connaissance scientifique et informés par une meilleure diffusion de la culture informatique. Pour ce qui concerne la technique elle-même, il faut admettre que de grand progrès sont encore à réaliser pour rendre possible la « redevabilité des algorithmes ». Ce courant de recherche devrait connaître un fort développement au cours des années à venir. On peut espérer que cet effort sera conduit de manière interdisciplinaire car il doit mobiliser des compétences variées aussi bien dans le domaine informatique au sens large (intelligence artificielle, logiciels, interaction homme-machine, etc.), qu’en sciences humaines (juridiques, éthiques, sociales, politiques, etc.).

    Daniel Le Métayer, Inria, Université de Lyon, et Sonia Desmoulin-Canselier, CNRS, Université de Nantes.