• Recommandés pour vous… ou presque 1/3

    La série d’articles « Recommandés pour vous… ou presque » a pour but d’expliquer les grands principes et les risques soulevés par les systèmes de recommandation, une famille d’algorithmes omniprésente pour les internautes. Ce premier article, écrit par Eliot Moll, portera sur une présentation générale des systèmes de recommandation et de leur utilité. Les deux articles suivants porteront sur les biais et les risques de ces algorithmes ainsi que les solutions qui s’offrent aux internautes. Jill-Jênn Vie.

    Des recommandations, partout !

    De nos jours les systèmes de recommandation sont omniprésents dans le quotidien de tout internaute. On les retrouve dès notre première requête dans un moteur de recherche, et dans la plupart des sites que nous consultons ensuite : streaming musical et vidéo, réservation de logements ou de vols, achats sur n’importe quel site de e-commerce, fils d’actualités, etc. Ce sont ces recommandations qui nous guident et nous influencent sans même que nous nous en rendions compte. Avez-vous déjà essayé de comprendre ce qui se trouve derrière ces listes personnalisées aux noms équivoques tels que « recommandés pour vous », « selon vos goûts » ou bien « susceptibles de vous plaire » ?

    Les recommandations sont-elles nécessaires ?

    La première question que nous sommes en droit de nous poser est celle du bien-fondé de l’utilisation de ces systèmes sur les sites. Y-a-t-il un intérêt à leur utilisation ou bien est-ce un simple gadget algorithmique qui amuse les spécialistes des données et les développeurs de site web ?
    Techniquement et en des termes simples, un système de recommandation est une combinaison de règles mathématiques ayant pour but d’identifier et présenter les éléments (comme des objets, films, actualités, etc.) les plus susceptibles d’intéresser un internaute.
    Que l’on souhaite acheter une cafetière, consulter une vidéo ou bien se faire livrer un repas, nous faisons face en permanence dans nos recherches sur le web à de multiples choix possibles. Face à cette situation, les moteurs de recommandation sont des points d’entrée nécessaires pour trier ces éléments, et ne nous présenter qu’une partie de ce qu’on appellera « le catalogue des possibles ». Le filtre réalisé par un moteur de recommandation nous propose un échantillon de biens de taille humainement accessible et classé selon l’intérêt.
    Dans un premier temps, prenons un peu de recul vis-à-vis des recommandations numériques et revenons aux recommandations classiques telles que pratiquées dans le commerce depuis bien longtemps.
    Lorsque nous nous rendons dans un supermarché pour acheter un shampoing, le rayon contenant des dizaines de shampoings différents est le résultat d’une sélection déjà effectuée par le magasin par rapport à l’ensemble des produits qu’il aurait pu acheter. Ensuite, la position des produits dans le rayon représente l’ordre de la recommandation faite par le magasin : la tête de gondole ainsi que les rangées à hauteur des yeux sont pour les produits que l’on veut nous vendre en priorité et les autres espaces (tout en bas, tout en haut) sont destinés aux produits les moins prioritaires.
    Le même principe peut s’appliquer à l’agence de voyage qui utilise un prospectus des voyages qu’elle propose, l’office de tourisme qui fournit des brochures de certaines activités de la région, etc.
    Bien que le supermarché, avec ses shampoings déjà en rayon, et l’agence de voyage, avec son prospectus, offrent un sous-catalogue standardisé grâce auquel tous les clients accèdent aux mêmes produits aux mêmes endroits, l’office du tourisme peut apporter une couche de personnalisation via son chargé de clientèle. En effet, il peut amener de l’intelligence relationnelle et essayer d’adapter ses propositions en discutant avec les touristes décrivant leurs envies.
    Le rôle d’un système de recommandation est d’être un point d’entrée du catalogue des possibles afin de nous présenter un sous-catalogue « humainement absorbable », c’est-à-dire nous prenant un temps raisonnable à parcourir pour y trouver notre bonheur. La plus-value d’un « bon » système de recommandation est de savoir réaliser une action de personnalisation, telle qu’on la retrouve dans le cas de l’office du tourisme. Cela signifie qu’il nous offre un sous-contenu personnalisé filtrant le catalogue des possibles et réduisant ainsi le temps de consultation de chacun d’entre nous.

    Comment sont réalisées les recommandations aujourd’hui ?

    Sans rentrer dans les détails algorithmiques et l’état de l’art de ces algorithmes, on peut distinguer 3 grandes familles d’approches sur lesquelles se basent les systèmes de recommandation.

      • La recommandation basée sur les produits (item-based en anglais) venant comparer les caractéristiques de l’ensemble des produits disponibles (taille, prix, couleurs, volumes, descriptions, etc.) afin de calculer une ressemblance entre tous les couples de produits possibles et recommander un produit similaire à un produit déjà consommé ou en cours de consultation. Si un internaute aime un produit A et que ce produit A est très proche d’un produit B alors il semble naturel de lui recommander le produit B. Ce genre d’approche fonctionne plutôt bien avec des films, des musiques, des livres, etc.
      • La recommandation basée sur les utilisateurs (user-based en anglais) venant comparer les caractéristiques des utilisateurs (via les informations renseignées sur leur compte client ou les cookies informatiques) afin de calculer une ressemblance entre les utilisateurs et recommander les mêmes produits que ceux consommés par les utilisateurs les plus proches. Ce genre d’approche peut fonctionner pour de la publicité : les gens de d’une catégorie d’âge regardent des skateboards (alors que les autres catégories regardent des voitures ou des déambulateurs) on va donc leur proposer des skateboards plutôt que des voitures ou des déambulateurs.
      • Enfin, le filtrage collaboratif (collaborative filtering en anglais) étant parmi les méthodes les plus à l’état de l’art et s’avère être particulièrement efficace. Le principe est de se baser uniquement sur l’historique de consommation afin de créer des regroupements d’utilisateurs consommant approximativement les mêmes produits indépendamment des caractéristiques des dits produits ou consommateurs. Si un internaute a apprécié les produits A et D et qu’une dizaine d’autres consommateurs ont apprécié les produits A, D et G, on va recommander à l’internaute le produit G que cette dizaine de personnes a également apprécié.

    En conclusion

    Avec les évolutions technologiques des dernières années (puissance de calcul, capacité de stockage), il est maintenant possible d’entraîner des algorithmes de plus en plus complexes. Malheureusement, cette complexité engendre un manque de lisibilité des prises de décision des algorithmes.
    Les systèmes de recommandation affichent des niveaux de personnalisation de plus en plus impressionnants mais ne semblent pas encore omniscients. Il nous est déjà tous arrivé de se faire recommander des publicités, des articles ou des produits qui étaient loin de nous correspondre. Cependant, derrière ce flou algorithmique il devient difficile de comprendre l’origine de ces recommandations erronées. Est-ce uniquement notre unicité que les systèmes n’arrivent pas à saisir ou est-ce que d’autres facteurs entrent en ligne de compte ? Dans les prochains articles nous apporterons des éclaircissements sur les autres facteurs potentiels tels que « les biais », volontaires ou non, présents dans les systèmes de recommandation.

    Pour ceux souhaitant approfondir leurs notions sur les systèmes de recommandation (et entrer un peu dans les détails algorithmiques) vous pouvez retrouver un ancien article sur binaire traitant du sujet (article de Raphaël Fournier-S’niehotta).

    Eliot Moll, Ingénieur Data Science, Inria.

  • La réalité virtuelle ? Des effets bien réels sur notre cerveau !

    Comment notre cerveau réagit et s’adapte aux nouvelles technologies ?  La réalité virtuelle permet de vivre des expériences sensorielles très puissantes … et si elle se mettait dès maintenant au service de votre cerveau ? Anatole Lécuyer nous partage tout cela dans un talk TEDx. Pascal Guitton et Thierry Viéville

    Au-delà des jeux vidéos, ces nouvelles technologies ouvrent la voie à des applications radicalement innovantes dans le domaine médical, notamment pour les thérapies et la rééducation. Anatole Lécuyer nous parle de nouvelles manières d’interagir avec les univers virtuels.

    En savoir plus : https://www.tedxrennes.com/project/anatole-lecuyer

    La conférence TED est une importante rencontre annuelle qui depuis 33 ans  rassemble des esprits brillants dans leur domaine, et on a voulu permettre à la communauté élargie de ses fans de diffuser l’esprit TED autour du monde. Les organisateurs souhaitent que les échanges entre locuteurs et participants soient variés, inspirés, apolitiques dans un esprit visionnaire et bienveillant. Les sujets traités sont très vastes : économie, société, culture, éducation, écologie, arts, technologie, multimédia, design, marketing…

    Le texte de la conférence :

    Et si .. nous partagions ensemble une expérience de réalité virtuelle? Imaginez-vous, en train d’enfiler un visio-casque de réalité virtuelle comme celui-là, avec des écrans intégrés juste devant les yeux, que l’on enfile un peu comme un masque de ski ou de plongée, avec le petit élastique là, comme ça…
    Et .. voilà ! vous voilà « immergé » dans un monde virtuel très réaliste. Dans une pièce qui évoque un bureau, qui ressemble peut-être au vôtre, avec une table située juste devant vous, une plante verte posée dans un coin, et un poster accroché sur le mur à côté de vous.

    Maintenant, j’entre dans la scène .. et je vous demande de regarder votre main. Vous baissez la tête et voyez une main virtuelle, très réaliste aussi, parfaitement superposée à la vôtre et qui suit fidèlement les mouvements de vos doigts.
    Par contre, il y a un détail qui vous gêne, quelque-chose de vraiment bizarre avec cette main ..
    Vous mettez un peu de temps avant de remarquer.. ah, ça y est : un sixième doigt est apparu, comme par magie, là, entre votre petit doigt et votre annulaire .. !
    Je vous demande ensuite de poser la main sur la table, et de ne plus bouger. Avec un pinceau, Je viens brosser successivement et délicatement vos doigts dans un ordre aléatoire. Vous regardez le pinceau passer sur l’un ou l’autre de vos doigts, et lorsqu’il arrive sur le sixième doigt, vous êtes sur vos gardes .. mais là, incroyable, vous ressentez parfaitement la caresse et les poils du pinceaux passer sur votre peau. Vous ressentez physiquement ce doigt en plus…
    En quelques minutes, votre cerveau a donc assimilé un membre artificiel !

    Et voilà tout l’enjeu des expériences que nous menons dans mon laboratoire : Réussir à vous faire croire à des chimères, à des choses impossibles.
    Entre nous, je peux vous confier notre « truc » de magicien : en fait, lorsque vous voyez le pinceau passer sur le sixième doigt, en réalité moi je passe au même moment avec mon pinceau sur votre annulaire. Et votre cerveau va projeter cette sensation tactile au niveau du sixième doigt .. et ça marche très bien !
    Mais le plus incroyable dans cette expérience, c’est quand, à la fin, j’appuie sur un bouton pour restaurer une apparence « normale » à votre main virtuelle, qui redevient donc, instantanément, une main à cinq doigts. Tout est rentré dans l’ordre, et pourtant vous ressentez cette fois comme un manque… Comme si .. on vous avait coupé un doigt ! Une impression d’ « amputation » qui montre à quel point votre cerveau s’était habitué profondément à un doigt qui n’existait pourtant pas quelques instants auparavant !

    Les effets de la réalité virtuelle peuvent donc être extrêmement puissants. Et c’est bien parce-que ces effets sont si puissants, que je vous conseille de faire attention au moment de choisir votre avatar.. vous savez, ce personnage qui vous représente sur internet ou dans le monde virtuel. Quelle apparence, et quel corps virtuel allez-vous choisir ? Le choix est en théorie infini. Vous pouvez adopter un corps plus petit ou plus grand ? Sinon plus corpulent, plus mince, plus ou moins musclé ? Vous pouvez même virtuellement essayer de changer de genre, ou de couleur de peau. C’est l’occasion.
    Mais attention il faut bien choisir. Car l’apparence de cet avatar, et ses caractéristiques, vont ensuite influencer considérablement votre comportement dans le monde virtuel.
    Par exemple, des chercheurs ont montré que si l’on s’incarne pendant quelques temps dans l’avatar d’un enfant de 6 ans, et bien nous allons progressivement nous comporter de manière plus enfantine, en se mettant à parler avec une voie à la tonalité un peu plus aigüe. Un peu comme si l’on régressait, ou si l’on vivait une cure de jouvence éclair. Dans une autre étude, des participants s’incarnaient dans un avatar ressemblant fortement à Albert Einstein, le célèbre physicien. Et on leur demandait de réaliser des casse-têtes, des tests cognitifs. Et bien le simple fait de se retrouver dans la peau d’Einstein permet d’améliorer ses résultats de manière significative ! Comme si cette fois on devenait plus intelligent en réalité virtuelle. Cela peut donc aller très loin…
    On appelle ça l’effet « Protéus » en hommage à une divinité de la mythologie Grecque appelée « Protée » qui aurait le pouvoir de changer de forme. Cela évoque l’influence de cet avatar sur votre comportement et votre identité, qui deviennent « malléables », « changeants » dans le monde virtuel, mais aussi dans le monde réel, car cet effet peut même persister quelques temps après l’immersion, lorsque vous retirez votre casque.

    Bon, c’est très bien tout cela, vous allez me dire ..mais .. à quoi ça sert ? Pour moi, les applications les plus prometteuses de ces technologies, en tout cas celles sur lesquelles nous travaillons d’arrache-pied dans notre laboratoire, concernent le domaine médical. En particulier, les thérapies et la « rééducation ».
    Par exemple, si nous évoquons la crise sanitaire de la covid19, nous avons tous été affectés, plus ou moins durement. Nous avons tous une connaissance qui a contracté la maladie sous une forme grave, qui a parfois nécessité une hospitalisation et un séjour en réanimation, avec une intubation, dans le coma.
    Lorsque l’on se réveille, on se retrouve très affaibli, notre masse musculaire a complètement fondu. Il est devenu impossible de marcher ou de s’alimenter tout seul. Il va donc falloir réapprendre tous ces gestes du quotidien…
    D’ailleurs cette situation est vécue pas seulement dans le cas de la covid19, mais par près de la moitié des patients intubés en réanimation

    Le problème … c’est qu’il existe actuellement peu de moyens pour se rééduquer et faire de l’exercice dans cet état. Notamment parce que si vous commencez à pratiquer un exercice physique, simplement vous mettre debout, votre cœur n’est plus habitué et vous risquez de faire un malaise/syncope !
    C’est pourquoi, avec mes collègues chercheurs, nous avons mis au point une application très innovante qui est justement basée sur la réalité virtuelle et les avatars.
    Je vous propose de vous mettre un instant à la place d’un des patients. Vous vous êtes réveillé il y a quelques jours, dans un lit d’hôpital, perfusé, relié à une machine qui surveille en permanence votre état. Vous êtes encore sous le choc, très fatigué, vous ne pouvez plus bouger. Les heures sont longues.. Aujourd’hui on vous propose de tester notre dispositif. Vous enfilez donc un casque de réalité virtuelle, directement depuis votre lit. Dans la simulation, vous êtes représenté par un avatar, qui vous ressemble. Vous êtes assis sur une chaise virtuelle, dans une chambre d’hôpital virtuelle, relativement similaire à celle où vous vous trouvez en vrai.
    Lorsque vous êtes prêt, le soignant lance la simulation et .. votre avatar se lève et fait quelques pas. C’est alors une sensation très puissante, un peu comme si vous regardiez un film en étant vraiment dans la peau de l’acteur, en voyant tout ce qu’il fait à travers ses propres yeux. Vous vous voyez donc vous mettre debout et marcher… pour la première fois depuis bien longtemps !
    Ensuite, l’aventure continue de plus belle : l’avatar ouvre une porte et sort de la chambre. Un ponton en bois s’étend devant vous sur plusieurs centaines de mètres, et vous avancez tranquillement dessus, pour parcourir un paysage magnifique, tantôt une plage, tantôt une prairie, tantôt une forêt. Dépaysement garanti !
    Pendant tout ce temps, vous vous voyez donc à l’intérieur d’un « corps en mouvement », « un corps qui marche », qui « re-marche » et se promène, alors que, en réalité, vous êtes toujours resté allongé dans votre lit d’hôpital.

    Cette séance de marche virtuelle « par procuration », nous allons la répéter tous les jours, pendant 9 jours, à raison de 10 minutes par session.
    Notre hypothèse est que, en se voyant ainsi tous les jours en train de marcher, et en imaginant que l’on est en train de le faire, le cerveau va réactiver certains circuits liés à la locomotion, et va d’une certaine manière démarrer en avance son processus de rééducation.
    Et nous espérons que, grâce à cela, les patients vont ensuite se remettre à marcher plus vite et récupérer plus efficacement ; en améliorant par la même occasion leur moral et leur confiance dans l’avenir.
    Les essais cliniques ont démarré depuis quelques mois au CHU de Rennes. Comme dans tout travail de recherche médicale on ne connaîtra les résultats qu’à la toute fin de l’étude, dans six à douze mois. Mais ce que nous savons déjà, à l’heure où je vous parle, le 25 Septembre 2021, c’est que pratiquement tous les patients et les soignants qui ont utilisé cet outil en sont ravis, et qu’ils souhaitent même pouvoir continuer de l’utiliser après les essais.

    Alors, le principe d’une hypothèse c’est que l’on ne maîtrise pas le résultat final, mais moi .. j’y crois. Et je suis persuadé que cette technologie permettra d’obtenir des thérapies différentes, plus rapides, plus efficaces, et surtout plus accessibles demain pour de très nombreux patients à travers le monde.
    Mais vous maintenant, comment réagirez-vous, demain, dans quelques années, lorsque vous irez voir votre médecin, votre kiné, ou même simplement votre prof de sport ou de danse, lorsqu’elle vous tendra un visiocasque, et vous dira « alors, vous êtes prêt pour votre petite séance ? Et aujourd’hui, quel avatar voulez-vous choisir ? ».
    Ce sera donc à votre tour de choisir.. Et en faisant ce choix, vous détenez les clés, vous devenez acteur de votre propre transformation dans le virtuel et peut-être aussi dans le réel. Alors souvenez-vous, choisissez bien, car maintenant, vous savez les effets profonds et les pouvoirs bien réels de la réalité virtuelle sur votre cerveau.

     Anatole Lécuyer, Chercheur Inria.

  • Bonne vacances … un peu de lecture peut-être ?

    Pour un été non binaire : partez avec binaire dans votre poche.

    Nous faisons notre pause estivale avant de revenir partager avec vous des contenus de vulgarisation sur l’informatique ! A la rentrée nous parlerons à nouveau aussi bien de technologie que de science, d’enseignement, de questions industrielles, d’algorithmes, de data… bref, de tous les sujets en lien avec le monde numérique qui nous entoure … D’ici là, vous pouvez tout de même passer l’été avec binaire.

    ©Catherine Créhange undessinparjour avec sa gracieuse autorisation.

    … car nous avons le plaisir de partager la parution des entretiens de la SIF publié sur binaire sous la forme d’un objet comme ceux qui sont utilisés depuis des siècles pour partager les connaissances humaines… un livre en papier ! 😉


    Le numérique et la passion des sciences, C&F éditions, 2022

    A vous chers lectrices et lecteurs : Bon été !

    L’équipe Binaire

  • L’expo Réseaux-Monde au Centre Pompidou

    Du 23 février au 25 avril s’est tenue au Centre Pompidou à Paris l’exposition « Réseaux-Monde ». Réunissant une soixantaine d’artistes, cette exposition interrogeait la place des réseaux dans notre société. L’occasion pour Olivier Zeitoun et Marie-Ange Brayer, respectivement attaché de conservation et conservatrice au Musée National d’Art Moderne du Centre Pompidou, de revenir avec Binaire sur la place des réseaux dans l’art contemporain. Serge Abiteboul

    Fabien Tarissan et Gilles Dowek : Dans la seconde moitié du XXe siècle, et plus ou moins indépendamment du développement des réseaux informatiques, nous voyons un certain nombre d’artistes prendre les réseaux comme thème de certaines de leurs œuvres. Comment cette démarche apparaît-elle dans l’exposition « Réseaux-Monde » ?

    Olivier Zeitoun et Marie-Ange Brayer : Effectivement, si l’utilisation des réseaux dans les démarches artistiques remontent bien avant les années 60 (comme le Network of Stoppages  de Marcel Duchamp en 1914 par exemple), nous avons fait le choix de démarrer l’exposition « Réseaux-Mondes » à l’après-guerre, lorsqu’émerge de nouveaux réseaux de communication (radio, télévision, satellites), parallèlement aux réseaux informatiques qui tissent de nouvelles infrastructures de savoir.

    Les années 1960 voient en effet les artistes s’emparer du monde connecté de la cybernétique, du traitement automatique de l’information, du réseau comme système d’organisation générale. En 1969 par exemple, l’artiste Allan Kaprow réalise Hello, un des premiers happenings fonctionnant en réseau, aux connexions à la fois virtuelles et physiques, pour « The Medium is the Medium », une émission de télévision expérimentale. Des groupes de personnes se trouvent à différents lieux de Boston, aux États-Unis (un hôpital, dans une vidéothèque, à l’aéroport…), et sont connectés par un réseau de télévision en circuit fermé. Kaprow coordonne l’évènement tel un chef d’orchestre en proposant à ses participants de se signaler à la caméra d’un « Hello I see you [Bonjour je vous vois] » lorsqu’ils reconnaissent leur propre image ou celle d’un ami. L’artiste connecte et relie en temps réel les individus éloignés, en court-circuitant métaphoriquement le réseau de télévision pour attirer l’attention sur les connexions établies entre les personnes réelles. Hello est une œuvre majeure tant elle offre un point de vue critique sur la technologie comme interface et sa dimension communicationnelle comme matériau.

    Le réseau est donc en premier lieu un outil au service de la création artistique ?

    Affiche de l’exposition « Réseaux-mondes »

    Oui mais cela évolue. Avec la mise en place progressive des réseaux informatiques dans les années 1970, le réseau devient effectivement un médium artistique et, dès les années 1980, les pratiques artistiques elles-mêmes se développent en réseau. L’artefact numérique et les données de l’information constituent alors le sujet même des l’œuvre d’art de l’époque « postmoderne » dont se saisissent deux expositions à Paris qui feront date : l’exposition Electra, au Musée d’Art Moderne de la Ville de Paris, en 1984, et Les Immatériaux, organisée un an plus tard par Jean-François Lyotard et Thierry Chaput au Centre Pompidou, qui interrogea l’imaginaire artistique face aux technologies connectés et « immatérielles ».

    L’art télématique y était alors à l’honneur. Dans « Réseaux-Mondes », nous avons ainsi présenté Profound Telematic Time (PTT) (2020) du PAMAL_Group. Cette installation a été réalisée à partir d’archives d’œuvres d’art télématiques créées sur Minitel au cours des années 1980. Disparues lors de la fermeture des réseaux Minitel en 2012, elles furent recréées sur leurs terminaux d’origines, aujourd’hui éteints, en étant reconnectées au Wipitel, nouveau réseau mondial Minitel élaboré par le collectif en 2019. Furent ainsi réactivés deux romans télématiques de Jacques-Élie Chabert et Camille Philibert : ACSOO, présenté à l’exposition « Electra » et L’Objet Perdu, créé en 1982 et exposé dans Les Immatériaux.

    Cette réappropriation du réseau Minitel et de l’art télématique qui avait vu le jour dans les années 1980, est crucial puisqu’il s’agit des premiers exemples artistiques à poser le réseau comme support d’une création artistique collective, collaborative, dématérialisée. Cette démarche qui consiste à faire du réseau la matière même de l’œuvre trouvera de nombreux prolongements par la suite.

    Le réseau semble perçu par les artistes uniquement comme une infrastructure de communication.

    Pas seulement. A la suite de l’art télématique des années 1980, un virage important se produit au milieu des années 1990 lorsque émerge le web. Ce sont alors les artistes du Net.art qui furent les premiers à interroger de manière critique et « pirate » la dimension politique de ces nouveaux réseaux. Ils se revendiquent hors de tout contrôle institutionnel et marchand. Leurs œuvres interactives conçues par, pour et avec le réseau Internet et le web, font écho aux mouvances hackers et sont nourris des pratiques de programmation collaborative à code ouvert. Certains d’entre eux vont appréhender Internet comme une matière artistique à part entière dans ses erreurs et dysfonctionnements, comme dans wwwwwwwww.jodi.org en 1995 du duo d’artistes JODI (Joan Heemskerk et Dirk Paesmans). D’autres furent prêts à pirater d’importantes expositions ou concours institutionnels. C’est le cas de l’artiste féministe Cornelia Sollfrank qui s’insurge contre la prédominance masculine du premier concours en ligne de Net.art organisé par la Kunsthalle de Hambourg, qu’elle sabote en générant trois cents faux profils d’artistes femmes (Female extension, 1997).

    Cette activité militante des artistes fait-elle écho à une critique plus générale ?

    La critique du technocapitalisme, fondée sur une expérience contemporaine des réseaux numériques et des réseaux sociaux, s’élabore dans cet héritage artistique tout en s’en distinguant. Les réseaux laissent aujourd’hui transparaître une dimension ubiquitaire, politique et marchande qui se retrouve dans les œuvres artistiques. A partir de 1994, jusqu’à sa mort prématurée en 2000, l’artiste américain Mark Lombardi produira de manière quasi-obsessionnelle des sociogrammes en réseaux qui mettent à jour les structures labyrinthiques du pouvoir politico-économique américain. Son œuvre est fascinante tant elle fait le lien entre l’art conceptuel et les paradigmes de médiatisation et de l’information inaperçue et cachée, à l’heure de la globalisation. Aujourd’hui, ces critères de recherches se retrouvent dans la pratique de la plateforme RYBN.ORG qui se penche sur la « finance de l’ombre » et de ses algorithmes, dont les paradis fiscaux échappent au contrôle des états.

    Cette démarche amène les artistes à mettre en lumière les réseaux complexes du pouvoir qui déterminent l’expérience de la liberté et des identités contemporaines, physiques et virtuelles. Ils se saisissent alors de technologies devenues de véritables infrastructures de contrôle des corps et de leur intimité, à l’image de Jill Magid dont les œuvres pionnières du début des années 2000 faisaient usage des caméras de surveillance dans une stratégie de représentation. L’artiste contemporaine américaine Mika Tajima explore quant à elle les liens du corps et des psychismes sous la régulation du capitalisme tardif. Ses sculptures, peintures, vidéos et installations se concentrent sur l’expérience incarnée du contrôle de la vie computationnelle, à l’instar de œuvre Human Synth (Paris), créée en 2021 et présentée dans « Réseaux-Mondes ». L’installation, entre sculpture et projection, donnait à voir en temps réel, sur toute la durée de l’exposition, les tendances collectives émotionnelles de la ville de Paris exprimées sur Twitter, sous la forme d’une fumée évolutive dont la teinte et la vitesse exprimaient les changements collectifs d’états affectifs. L’œuvre abritait un système pouvant extraire et analyser en temps réel les messages échangés grâce à un outil de traitement de langage et un programme d’analyse de sentiment prédictif. Si la fumée invoque d’anciennes pratiques divinatoires, elle donne ici forme à un contrôle immatériel des émotions fondé sur l’usage d’algorithmes prédictifs et la collecte massive de données des utilisateurs.

    On comprend que les réseaux ont leur côté lumineux – la communication interpersonnelle, l’accès à la connaissance… – et leurs côtés sombre – le harcèlement en ligne, la surveillance de masse…

    En effet, ces deux polarités sont une caractéristique constitutive du réseau à bien des égards. Le réseau va toujours porter une ambivalence entre matérialité et invisibilité, entre contrôle et communication, surveillance et circulation. Le réseau réunit et sépare à la fois. Les démarches artistiques que nous avons évoquées donnent à voir et sentir les potentialités plastiques de telles polarités. Ces conceptions tiennent donc à une histoire politique et sociale des technologies dans leur rapport à l’art : à l’enthousiasme de la mise en réseau du monde dont témoignait une œuvre comme Hello d’Allan Kaprow succède une réflexion profonde sur l’emprise invisible du réseau, chez les artistes contemporains.

    Mais à la croisée de ces enjeux sociaux et politiques se trouvent aussi ceux écologiques que l’on retrouve dans le champ de la création artistique et qui repoussent les limites de cette dichotomie. La viralité numérique s’est doublée de la prise de conscience de notre interaction avec le non-humain, de notre coexistence « en réseau » avec les autres espèces au sein d’une diversité infinie d’écosystèmes. Une nouvelle écologie artistique intègre ce principe d’interdépendance et de continuité de toutes les formes du vivant, reliées entre elles, à l’image des recherches de l’artiste et designeuse Marie-Sarah Adenis, du studio d’architecture EcoLogiStudio, ou du Studio Drift. Les technologies sont explorées comme outils de communication inter-espèces, aspirant à connecter des mondes aux limites de la perception humaine. L’artiste finlandaise Jenna Sutela met ainsi en connexion humain et non-humain, en intégrant le « bruit » du vivant comme des machines faisant appel à l’Intelligence Artificielle. L’œuvre peut aussi prendre la forme d’une enquête pluridisciplinaire comme dans Cambio des designers Formafantasma, où l’analyse transversale historique, politique, économique et sociale des activités humaines dévoile l’interconnexion entre toutes les formes de productions et de connaissances. Au cœur de cette « pensée écologique », le réseau est devenu « maillage », vecteur de nouvelles formes de connexions. Que ce soit par le biais d’une enquête archéologique perpétuelle d’un matériau, comme chez Formafantasma, ou par la médiation quasi-médiumnique des technologies chez Sutela, les réseaux irriguent notre rapport au vivant, au technologique, et à ce qui serait « plus qu’humain ».

    Fabien Tarissan et Gilles Dowek

  • L’avatar ou la boîte à magie des illusions corporelles ?

    Voici un autre article consacré au Prix de thèse Gilles Kahn qui depuis 1998 récompense chaque année une thèse en Informatique. Cette année l’un des accessit revient à Rebecca Fribourg pour ses travaux sur les avatars personnels réalisés au centre Inria Rennes – Bretagne Atlantique . Pascal Guitton & Pierre Paradinas.

    Avec l’agitation médiatique récente autour du mot « métavers », les avatars n’ont jamais autant été sous les projecteurs. En effet, dans le contexte de ces environnements où de nombreuses personnes peuvent se connecter et interagir entre elles, la question de la représentation de l’utilisateur – via son avatar – prend tout de suite une grande importance. Est-ce que je souhaite utiliser un avatar qui me ressemble, ou bien apparaitre comme quelqu’un de totalement différent ? Ces avatars posent des questions importantes car ils représentent le corps d’un utilisateur et peuvent être visualisés à la première personne, comme on observe son vrai corps. Ils sont utilisés par ailleurs dans les domaines de la formation ou de la médecine, par exemple dans le cadre de thérapies pour les troubles du comportement alimentaire, où l’on fait se regarder dans un miroir virtuel des patients tout en modulant la morphologie de leurs avatars. Mentionnons enfin, un phénomène frappant, appelé « effet Proteus », qui a établi que l’on a tendance à intégrer dans notre comportement les caractéristiques visuelles de notre avatar. Par exemple, une étude a montré que des utilisateurs incarnés dans un avatar ressemblant à Einstein étaient plus performants dans la réalisation de tâches cognitives, ce qui suggère que les avatars pourraient nous rendre plus performants dans certaines tâches dans un environnement virtuel, mais aussi dans le monde réel.

    Néanmoins, l’utilisation de ces avatars nécessite de relever des défis à la fois technologiques (algorithmique, Interaction homme-machine, dispositifs de capture de mouvement) mais aussi cognitifs (psychologie, perception, etc.), rendant le sujet très pluridisciplinaire ! L’aspect perceptif est très important et il est aujourd’hui nécessaire de bien comprendre comment les utilisateurs perçoivent leurs avatars et interagissent à travers eux afin de concevoir des expériences virtuelles fortes et réalistes.

    Dans le cadre de mon doctorat, j’ai justement essayé de mieux comprendre et d’identifier les facteurs qui peuvent affecter – en bien ou en mal – la manière dont l’on perçoit son avatar. En particulier, je me suis intéressée au « sentiment d’incarnation » qui vise à caractériser et modéliser la perception de son avatar. Ai-je l’impression que ce corps virtuel m’appartient ? Est-ce que je contrôle bien les mouvements de mon avatar comme ceux de mon vrai corps ? Ai-je l’impression d’être spatialement dans mon corps virtuel ?

    J’ai alors réalisé un certain nombre d’expériences utilisateurs où j’ai mesuré leur sentiment d’incarnation à l’aide de questionnaires subjectifs et de certaines mesures objectives. Je me suis notamment intéressée aux environnements virtuels multi-utilisateurs, c’est-à-dire des plateformes permettant à plusieurs personnes d’interagir ensemble dans un environnement virtuel. Dans ce contexte, les avatars sont d’autant plus importants qu’ils constituent le repère spatial visuel de la localisation des autres utilisateurs, et qu’ils fournissent donc des informations cruciales de communication non verbales. J’ai alors montré que le partage de l’environnement virtuel avec d’autres personnes n’avait pas d’influence sur la perception de son propre avatar, apportant donc un message plutôt rassurant pour toutes les applications multi-utilisateurs impliquant des avatars.

    Dans une autre étude, j’ai utilisé un même avatar pour deux utilisateurs différents, comme s’ils partageaient un même corps! Les participants partageaient le contrôle et devaient se coordonner pour animer cet avatar. Ce que j’ai découvert, c’est que lorsqu’un utilisateur voit ses bras virtuels bouger, alors que c’est l’autre utilisateur qui les contrôle, il peut quand même avoir l’impression d’être à l’origine du mouvement, ce qui est très intéressant pour de la formation à des gestes techniques ou de la rééducation motrice.

    Co-incarnation d’un avatar contrôlé par deux utilisateurs . La position et orientation du bras droit de l’avatar correspond à la moyenne pondérée entre la position et orientation des bras des deux utilisateurs, avec un niveau de partage variable.

    De manière générale, les retombées de mes travaux de recherche à court/moyen terme sont de mieux comprendre quelles sont les caractéristiques d’un avatar et les facteurs plus éloignés (environnement virtuel, traits individuels) qui contribuent à la bonne utilisation de ce dernier dans un contexte donné. Par exemple, une autre de mes études a permis de montrer que l’apparence de l’avatar (réaliste vs abstraite, ressemblante à l’utilisateur ou non) avait moins d’importance pour l’utilisateur que d’avoir un bon contrôle sur l’avatar, fidèle à ses propres mouvements.

    Illustration d’une étude explorant l’interrelation des facteurs influençant le sentiment d’incarnation

    Ces résultats permettent entre autres aux concepteurs d’avatar dans des domaines variés de savoir quels aspects techniques sont à privilégier, et dans quelles caractéristiques d’avatar les budgets devraient être alloués plutôt que d’autres.

    Rebecca Fribourg est actuellement Maitre de conférence à l’Ecole Centrale de Nantes, rattachée au laboratoire AAU (Ambiances, Architectures, Urbanités).

    Pour aller encore plus loin (article en anglais) :

    • Rebecca Fribourg et al. “Virtual co-embodiment: evaluation of the sense of agency while sharing the control of a virtual body among two individuals”. In: IEEE Transactions on Visualization and Computer Graphics (2020)
    • Rebecca Fribourg et al. “Avatar and Sense of Embodiment: Studying the Relative Preference Between Appearance, Control and Point of View”. In: IEEE Transactions on Visualization and Computer Graphics 26.5 (2020), pp. 2062–2072. doi: 10.1109/TVCG.2020.2973077.
  • Le recommandeur de Youtube et les sondages électoraux

    Les algorithmes de recommandations utilisés par les grandes plateformes du web telles YouTube ne sont pas connus ou accessibles. Des chercheurs essaient d’en découvrir le fonctionnement. Leurs travaux permettent de mieux comprendre ce que font ces algorithmes, et aussi d’observer les relations entre les recommandations et les sondages d’intention de vote. Pierre Paradinas.

    Un système de recommandation est un objet informatique ayant pour but de sélectionner de l’information pertinente pour les utilisateurs d’une plateforme (vidéos, articles, profils…). Sur YouTube par exemple, ces recommandations sont omniprésentes: en 2018, 70% des vues de vidéos provenaient de recommandation (par opposition à des vues provenant des recherches intentionnelles). On comprend alors que cet objet est à la fois critique pour l’entreprise, qui compte sur son efficacité pour maintenir l’utilisateur sur sa plateforme le plus longtemps possible, mais aussi critique pour l’utilisateur lui même, pour qui la recommandation façonne l’exploration, puisque c’est principalement via ce prisme qu’il accède à l’information.

    Cette double importance conduit la recherche en informatique a s’intéresser à la conception de tels recommandeurs. Il s’agit ainsi tout d’abord de prendre la perspective de la plateforme afin d’améliorer la mise au point de la machinerie complexe qui permet à celles-ci de produire des recommandations, en général en exploitant les historiques de consommation des utilisateurs (principe du filtrage collaboratif).

    D’un autre coté et plus récemment, la recherche s’intéresse à la perspective utilisateur de la situation. Pour analyser les algorithmes de recommandation, on les observe comme des boîtes noires. Cette notion de boîte noire fait référence au peu de connaissance qu’à l’utilisateur sur le fonctionnement du recommandeur qui est généralement considéré par les plateformes comme un secret industriel. L’objectif de ces recherches est de comprendre ce qu’on peut découvrir du fonctionnement de la boîte noire sans y avoir accès, simplement en interagissant avec comme tout autre utilisateur. L’approche consiste ainsi, en créant des profils ciblés, à observer les recommandations obtenues afin d’extraire de l’information sur la politique de la plateforme et son désir de pousser telle ou telle catégorie ou produit, ou bien de mesurer une éventuelle censure apportée aux résultats de recherche. On notera qu’un des buts du Digital Services Act récemment discuté au parlement Européen, est de permettre l’audit indépendant des grandes plateformes, c’est-à-dire de systématiser les contrôles sur le comportement de ces algorithmes.

    Une illustration de ce qu’il est possible d’inférer du côté utilisateur a vu le jour dans le cadre de la campagne présidentielle de 2022 en France. Il a été tentant d’observer les recommandations « politiques », et ce pour étudier la question suivante. Puisque qu’un recommandeur encode le passé des actions sur la plateforme (ici des visualisations de vidéos), est-ce que, par simple observation des recommandations, on peut apprendre quelque-chose sur l’état de l’opinion Française quant aux candidats en lice pour l’élection ? Le rationnel est la boucle de retro-action suivante : si un candidat devient populaire, alors de nombreuses personnes vont accéder à des vidéos à son sujet sur YouTube ; le recommandeur de YouTube va naturellement mettre en évidence cette popularité en proposant ces vidéos à certains de ses utilisateurs, le rendant encore plus populaire, etc.

    Une expérience : les recommandations pour approximer les sondages

    Pouvons-nous observer ces tendances de manière automatisée et du point de vue de l’utilisateur ? Et en particulier, que nous apprend la comparaison de ces mesures avec les sondages effectués quotidiennement durant cette période ?

    Dans le cadre de cette étude, nous — des chercheurs — avons pris en compte les douze candidats présentés officiellement pour la campagne. Nous avons mis en place des scripts automatisés (bots) qui simulent des utilisateurs regardant des vidéos sur YouTube. A chaque simulation, « l’utilisateur » se rend sur la catégorie française « Actualités nationales », regarde une vidéo choisie aléatoirement, et les 4 vidéos suivantes proposées en lecture automatique par le recommandeur

    Cette action a été effectuée environ 180 fois par jour, du 17 janvier au 10 avril (jour du premier tour des élections). Nous avons extrait les transcriptions des 5 vidéos ainsi vues, et recherché les noms des candidats dans chacune. La durée d’une phrase dans laquelle un candidat est mentionné est comptée comme temps d’exposition et mise à son crédit. Nous avons agrégé le temps d’exposition total de chaque candidat au cours d’une journée et normalisé cette valeur par le temps d’exposition total de tous les candidats. Nous avons ainsi obtenu un ratio représentant le temps d’exposition partagé (TEP) de chaque candidat. Cette valeur est directement comparée aux sondages mis à disposition par le site Pollotron.

    La figure présente à la fois l’évolution des sondages (en ordonnée) et les valeurs de TEP (en pointillés) pour les cinq candidats les plus en vue au cours des trois mois précédant le premier tour des élections (score normalisé en abscisse) ; les courbes sont lissées (fenêtre glissante de 7 jours). Les valeurs TEP sont moins stables que les sondages ; cependant les deux présentent généralement une correspondance étroite tout au long de la période. Cette affirmation doit être nuancée pour certains candidats, Zemmour étant systématiquement surévalué par le TEP et Le Pen inversement sous-évaluée. Il est intéressant de noter que les sondages et le TEP fournissent tous deux une bonne estimation des résultats réels des candidats lors du premier tour de l’élection (représentés par des points), présentant respectivement des erreurs moyennes de 1,11% et 1,93%. L’erreur moyenne de prédiction est de 3,24% sur toute la période pour tous les candidats. L’ordre d’arrivée des candidats a été respectée par le TEP, pour ceux présents sur la figure tout au moins.

    Évolution des sondages et du TEP de YouTube sur la campagne, pour les 5 candidats les mieux placés. Nous observons une proximité importante entre les courbes pleines et pointillées pour chacune des 5 couleurs. Les ronds finaux représentent les résultats officiels du premier tour : les sondages ainsi que le TEP terminent relativement proche de ceux-ci, et tous sans erreur dans l’ordre d’arrivée des candidats.

    Les sondages sont effectués auprès de centaines ou de milliers d’utilisateurs tout au plus. Le recommandeur de YouTube interagit avec des millions de personnes chaque jour. Étudier de manière efficace l’observabilité et la corrélation de signaux de ce type est certainement une piste intéressante pour la recherche. Plus généralement, et avec l’introduction du DSA, il parait urgent de développer une compréhension fine de ce qui est inférable ou pas pour ces objets en boîte noire, en raison leur impact sociétal majeur et toujours grandissant.

    Erwan Le Merrer (Inria), Gilles Trédan (LAAS/CNRS) and Ali Yesilkanat (Inria)

  • Lettre aux nouveaux député.e.s : La souveraineté numérique citoyenne passera par les communs numériques, ou ne sera pas

    Lors de l’ Assemblée numérique des 21 et 22 juin, les membres du groupe de travail sur les communs numériques de l’Union européenne, créé en février 2022, se sont réunis pour discuter de la création d’un incubateur européen , ainsi que des moyens ou d’ une structure permettant de fournir des orientations et une assistance aux États membres. En amont, seize acteurs du secteur ont signé une tribune dans Mediapart sur ce même sujet. Binaire a demandé à un des signataires, le Collectif pour une société des communs, de nous expliquer ces enjeux essentiels. Cet article est publié dans le cadre de la rubrique de binaire sur les Communs numériques. Thierry Viéville.

    Enfin ! Le risque semble être perçu à sa juste mesure par une partie de nos élites dirigeantes. Les plus lucides d’entre eux commencent à comprendre que, si les GAFAM et autres licornes du capitalisme numérique offrent des services très puissants, très efficaces et très ergonomiques, ils le font au prix d’une menace réelle sur nos libertés individuelles et notre souveraineté collective. Exploitation des données personnelles, contrôle de l’espace public numérique, captation de la valeur générée par une économie qui s’auto-proclame « du partage », maîtrise croissante des infrastructures physiques d’internet, lobbying agressif. Pour y faire face, les acteurs publics oscillent entre complaisance (ex. Irlande), préférence nationale (ex. Doctolib) et mesures autoritaires (ex. Chine). Nous leur proposons une quatrième voie qui renoue avec les valeurs émancipatrices européennes : structurer une réelle démocratie Internet et impulser une économie numérique d’intérêt général en développant des politiques publiques pour défendre et stimuler les communs numériques.

    Rappelons-le pour les lecteurs de Binaire : les communs numériques sont des ressources numériques partagées, produites et gérés collectivement par une communauté. Celle-ci établit des règles égalitaires de contribution, d’accès et d’usage de ces ressources dans le but de les pérenniser et les enrichir dans le temps. Les communs numériques peuvent être des logiciels libres (open source), des contenus ouverts (open content) et des plans partagés (open design) comme le logiciel Linux, le lecteur VLC, l’encyclopédie Wikipédia, la base de données OpenStreetMap, ou encore les plans en libre accès d’Arduino et de l’Atelier Paysan. Malgré leur apparente diversité, ces communs numériques et les communautés qui en prennent soin ne sont pas des îlots de partage, sympathiques mais marginaux, dans un océan marchant de relations d’exploitation. Ils représentent des espaces d’autonomie à partir desquels peut se penser et se structurer une société post-capitaliste profondément démocratique.

    « Les communs numériques représentent des espaces d’autonomie à partir desquels peut se penser et se structurer une société post-capitaliste profondément démocratique »

    Ainsi, face au capitalisme numérique marchant et prédateur, les communs numériques sont le socle d’une économie numérique, sociale et coopérative. D’un côté, la plateforme de covoiturage Blablacar, une entreprise côté en bourse qui occupe une position dominante sur le secteur, prend des commissions pouvant aller jusqu’à 30% des transactions entre ses « clients ». De l’autre, la plateforme Mobicoop, structurée en SCIC (société coopérative d’intérêt collectif), offre un service libre d’usage à ses utilisateurs, en faisant reposer son coût de fonctionnement sur les entreprises et les collectivités territoriales souhaitant offrir un service de covoiturage à leurs salariés et leurs habitants.

    Face à des services web contrôlés par des acteurs privés, les communs numériques offrent des modèles de gouvernance partagée et démocratique de l’espace public. D’un côté, Twitter et Facebook exploitent les données privées de leurs usagers tout en gardant le pouvoir de décider unilatéralement de fermer des comptes ou des groupes. De l’autre, les réseaux sociaux comme Mastodon et Mobilizon, libres de publicités, offrent la possibilité aux utilisateurs de créer leurs propres instances et d’en garder le contrôle.

    Face à un Internet où les interactions se font toujours plus superficielles, les communs numériques permettent de retisser du lien social en étant à la fois produits, gouvernés et utilisés pour être au service de besoins citoyens. Pendant la pandémie de Covid19, face à la pénurie de matériel médical, des collectifs d’ingénieurs ont spontanément collaboré en ligne pour concevoir des modèles numériques de fabrication de visières qu’ils ont mis à disposition de tous. Près de deux millions de pièces ont ainsi pu être produites en France par des fablab à travers le territoire. Ce qui dessine, par ailleurs, une nouvelle forme de production post-capitaliste et écologique qualifiée de « cosmolocalisme » : coopérer globalement en ligne pour construire des plans d’objets, et les fabriquer localement de manière décentralisée.

    Et il ne faut pas croire que les collectifs qui prennent soin des communs numériques troquent leur efficacité économique et technique pour leurs valeurs. D’après la récente étude de la Commission relative à l’incidence des solutions logicielles et matérielles libres sur l’indépendance technologique, la compétitivité et l’innovation dans l’économie de l’UE, les investissements dans les solutions à code source ouvert affichent des rendements en moyenne quatre fois plus élevés. Si l’Open source doit intégrer une gouvernance partagée pour s’inscrire réellement dans une logique de commun, il fournit la preuve que l’innovation ouverte et la coopération recèlent d’un potentiel productif supérieur aux organisations fermées et privatives [1].

    Voilà pourquoi nous pensons que les acteurs publics territoriaux, nationaux et européens doivent protéger et soutenir le développement de communs numériques. Ils doivent faire de la France un pays d’accueil des communs numériques, soutenant leur mode de production contributive et leur modèle d’innovation ouverte qui ont fait leurs preuves d’efficacité face au modèle privatif. Ils doivent favoriser les infrastructures de coopération et la levée des brevets qui ont permis au mouvement des makers de produire avec une forte rapidité et résilience des objets sanitaires dont les hôpitaux français manquaient. Ils doivent s’inspirer de leur gouvernance partagée entre producteurs et usagers pour rendre le fonctionnement des administrations elles-mêmes plus démocratique. Ils doivent s’appuyer sur eux pour penser la transition écologique du secteur numérique.

    Avec le Collectif pour une société des communs, nous sommes convaincus que les communs en général, et les communs numériques en particulier, sont les ferments d’un projet de société coopérative, désirable et soutenable. Nous nous adressons aux acteurs publics en leur proposant des mesures applicables. Voici un aperçu des mesures pro-communs numériques que les nouveaux député.e.s de l’Assemblée nationale pourraient mettre en place.

    « Voici un aperçu des mesures pro-communs numériques que les député.e.s du Parlement renouvelé pourraient mettre en place »

    Pour commencer, la France et l’Europe doivent lancer une politique industrielle ambitieuse pour développer massivement l’économie de la production numérique ouverte, contributive et coopérative. Les organismes publics commencent à montrer des signes dans cette direction. Mais il faut aller plus vite et taper plus fort pour être en mesure de transformer en profondeur les régimes de production capitalistes et les habitudes d’usages associés de l’économie numérique. Nous proposons la création d’une « Fondation européenne des communs numériques » dotée de 10 milliards par an. Elle aurait un double objectif d’amorçage et de pérennisation dans le temps des communs numériques considérés comme centraux pour la souveraineté des internautes, des entreprises et des États européens qui auraient la charge de la financer. Il s’agirait à la fois de logiciels (open source), de contenus (open content) et de plans (open design). Cette fondation aurait une gouvernance partagée, entre administrations publiques, entreprises numériques, associations d’internautes et collectifs porteurs de projets de communs numériques, avec un pouvoir majoritaire accordé à ces deux derniers collèges.

    Ensuite, la France et l’Europe doivent devenir des partenaires importants de communs numériques pour transformer le mode de fonctionnement de leurs administrations. Depuis quelques années, l’Union européenne avance une stratégie en matière d’ouverture de ses logiciels et la France s’est doté d’un « Plan d’action logiciels libres et communs numériques  » allant dans le même sens. Mais ces avancées, à saluer, doivent être poursuivies et renforcées pour aboutir à un réel État-partenaire des communs numériques. Les administrations doivent se doter de politiques de contribution aux communs numériques. Dans certains cas, elles pourraient créer des outils administratifs pour normaliser les partenariats « public-communs ». Ainsi, les agents de l’IGN pourraient contribuer et collaborer avec OpenStreetMap dans certains projets cartographiques d’intérêt général, à l’occasion de catastrophes naturelles par exemple. Enfin, les administrations devraient être des heavy-users et des clients importants des services associés aux communs numériques. La mairie de Barcelone est le client principal de la plateforme de démocratie participative Decidim et finance le développement de fonctionnalités dont profitent toutes les autres administrations moins dotées. Les institutions publiques devraient également modifier leur politique de marché public en privilégiant aux « appels à projets » chronophages, les « appels à communs » incitant les potentiels répondants à coopérer entre eux.

    Pour finir, la France devrait « communaliser » l’infrastructure physique du monde numérique. Elle pourrait notamment créer des mécanismes incitatifs et un fonds de soutien aux fournisseurs d’accès à Internet indépendants ayant des objectifs écologiques afin de les aider à se créer ou se structurer. Nous pensons par exemple au collectif des Chatons qui participe à la décentralisation d’Internet, le rendant plus résilient, tout en permettant à des associations locales de bénéficier de leur infrastructure numérique et ainsi de préserver leur autonomie. La France pourrait enfin aider l’inclusion des associations citoyennes, notamment environnementales, dans la gouvernance des datacenters et autres infrastructures numériques territorialisées, dont le coût écologique s’avère de plus en plus élevé.

    Collectif pour une société des commun, https://societedescommuns.com/

    PS : Ces propositions se trouvent dans le livret « Regagner notre souveraineté numérique par les communs numériques ». Elles vont être affinés dans le temps. Le Collectif pour une société des communs organise le samedi 24 septembre une journée de travail qui leur est dédiée avec des acteurs publics, des praticiens et des chercheurs. Si vous souhaitez y participer, écrivez-nous à societedescommuns@protonmail.com.

    [1] Benkler Y., 2011, The Penguin and the Leviathan: How Cooperation Triumphs over Self-Interest, 1 edition, New York, Crown Business, 272 p.

    https://binaire.socinfo.fr/page-les-communs-numeriques/

  • Nook, robot de bridge

    On sait que les algorithmes permettent de fournir des mécanismes qui gagnent contre les humains aux jeu d’échecs ou à des jeux plus complexes comme le jeu de go … mais qu’en est-il du jeu de bridge ? Ce jeu,  au-delà de la combinatoire, laisse une place importante aux interactions humaines. Le robot de bridge, Nook, développé par NukkAI se positionne au meilleur niveau grâce à la combinaison de l’IA symbolique et de l’IA numérique. Marie-Christine Rousset nous explique comment ça marche, et s’appuie sur cet exemple pour nous permettre de mieux comprendre l’Intelligence Artificielle. Les explications de l’IA sont souvent simplistes. Marie-Christine nous conduit un peu plus loin dans la technique dans des termes que nous pensons compréhensibles pour tous. Serge Abiteboul et Thierry Viéville.

    Le bridge est un jeu de cartes dans lequel une équipe de 2 joueurs essaie d’atteindre un objectif commun appelé un « contrat » déterminé au cours de la phase des enchères. Réaliser un contrat consiste à faire au moins un certain nombre de plis face à une équipe adverse qui va collaborer selon des règles codifiées pour essayer de faire chuter le contrat.

    Jeu de bridge avec la boîte d’enchères qui montrent les deux facettes de ce jeu. ©Marie-Lan Nguyen wikicommon

     

    À la différence des jeux de plateaux comme les échecs ou le go, le bridge est un jeu à information incomplète. Au départ, chaque joueur ne connaît que les 13 cartes qu’il a en main. Au cours de la partie, en raisonnant sur les informations transmises pendant la phase des enchères et sur les cartes jouées à chaque pli, chaque joueur peut restreindre ses hypothèses sur les cartes restant en jeu mais il doit prendre ses décisions (choisir la carte à jouer à chaque pli) sans la connaissance complète des cartes restant en main de son partenaire ou de ses adversaires.

    Bien jouer au bridge implique de maîtriser différents types de compétences :

    • Faire des déductions (si tel joueur a joué telle séquence de coups, il a ou n’a pas telle carte) ;
    • Émettre et réviser des hypothèses (tel adversaire a au moins 5 cartes à Pique ou n’a plus de cartes à Cœur) ;
    • Anticiper un certain nombre de coups probables de l’équipe adverse ; et
    • Évaluer les probabilités des différentes mains adverses possibles pour guider la prise de risque et calculer l’espérance de gain des coups à jouer.

    L’intelligence artificielle de Nook, en tirant parti de la force combinée d’approches d’IA symbolique et de techniques d’IA numérique, a réussi à surpasser le niveau de 8 champions de bridge de niveau mondial sur plusieurs centaines de parties avec le même contrat à réaliser (3 Sans Atout).  Pour une juste comparaison entre Nook et les joueurs humains, Nook et chaque champion ont joué les mêmes jeux, dans la même position de déclarant, contre deux robots Wbridge5 constituant l’équipe adverse. Wbridge5 (développé par Yves Costel) est multi champion du monde des robots de bridge dans le cadre de compétitions opposant uniquement des robots. Comme le montre la photo suivante, chaque champion humain (tout comme Nook)  joue avec son jeu (caché)  et le jeu de son partenaire (qui fait le “mort”) visible de tous, contre deux adversaires ici simulés par Wbridge5 paramétré en position de défenseur. 

    A la différence de jeux à information complète (comme les échecs ou le go), dans un arbre de jeu (voir Encart 1) pour le bridge les coups adverses possibles en riposte au choix d’un coup par le robot (à partir d’un nœud Max de l’arbre de jeu) dépendent des cartes des mains adverse, qui ne sont pas connues par le robot. Pour chaque nœud Min de l’arbre (c’est-à-dire un nœud qui modélise les ripostes des adversaires), Il faut donc générer des mondes possibles (les mains possibles des adversaires), et pour chacun explorer les ripostes les plus probables des adversaires à la carte jouée par le robot.

    La force de Nook est d’explorer de façon intelligente un arbre de jeu avec des mondes possibles en s’appuyant sur quatre techniques complémentaires :

    • Raisonnement automatique sur des règles ;
    • Apprentissage automatique à partir d’un échantillon de parties déjà jouées afin d’apprendre la stratégie des adversaires ;
    • Génération aléatoire de mondes possibles de type Monte Carlo (Encart1) contrainte par les règles du domaine et les modèles de l’adversaire ; et
    • Recherche arborescente de type MinMax avec élagage Alpha-Beta (Encart 2)  dans chaque monde possible en exploitant les modèles des différents joueurs.

    Plus précisément, l’algorithme d’exploration de l’arbre de jeu des mondes possibles de Nook est une extension de l’algorithme AlphaMu [1] développé par Tristan Cazenave et Véronique Ventos (et optimisé dans [2]). A chaque étape du jeu, l’algorithme génère différents mondes possibles aléatoirement (voir Encart 1) tout en vérifiant leur compatibilité avec les contraintes inférées par règles et par les modèles de l’adversaire observés ou appris. Dans chacun des mondes possibles, les différents coups possibles sont évalués par un algorithme MinMax (voir Encart 2) rendu très sélectif par l’exploitation des modèles de l’adversaire.

    Certains modèles de joueurs sont des réseaux de neurones qui ont été entrainés à leur tâche spécifique de façon automatique (Voir Encart 3). Les données d’entraînement sont obtenues à partir de centaines de milliers de parties jouées par WBridge5 contre lui-même. Le réseau de neurones utilisé, de type ResNet, n’est pas très gros, et la taille de l’ensemble des données d’entraînement est raisonnable. De ce fait, l’étape d’entraînement, réalisée sur l’ordinateur Jean Zay du CNRS, a demandé 200.000 fois moins de ressources de calcul que l’entraînement du réseau de neurones utilisé dans AlphaGo de DeepMind, qui a battu le maître de jeu de Go Lee Sedol en 2016.

    Le raisonnement automatique sur des règles est la clef pour restreindre la combinatoire et expliquer les décisions. Les règles fournies à Nook modélisent les connaissances d’un joueur de bridge, pour inférer, à partir de la séquence des enchères, des contraintes positives ou négatives sur les mains des différents joueurs. Par exemple, une enchère “2 Sans Atout”du partenaire après une ouverture “1 Sans Atout” suivi de Passe de l’adversaire implique que le partenaire a une distribution régulière ou  moins de 5 cartes à Coeur ou à Pique . D’autres règles décrivent comment l’adversaire choisit la première carte (Module d’entame). 

    Ces règles sont interprétables par les humains (car exprimées avec des concepts qui font sens pour des joueurs comme  « distribution régulière ») et exploitables par la machine à qui on a fourni le lien entre ces concepts abstraits et des distributions concrètes de mains. A partir de la connaissance abstraite et inférée qu’une main a une distribution régulière, on peut générer automatiquement toutes les mains concrètes correspondantes (et leurs probabilités) en fonction des cartes que l’on a dans sa propre main et, au fur et à mesure de la partie, des cartes jouées par les différents joueurs.

    On comprend donc bien l’intérêt des règles pour restreindre au fil du temps les mondes possibles et ainsi guider la génération aléatoire au cœur de l’exploration arborescente de type Monte Carlo (voir Encart 1).

    L’autre intérêt de ces règles est qu’elles peuvent être utilisées pour expliquer, à tout moment de la partie, la vision à haut niveau et probabiliste des mains cachées des adversaires. En effet, au bridge, répondre à des questions du type « pourquoi avoir joué cette carte ? » fait partie des règles de bonne conduite pour vérifier en particulier qu’il n’y a pas de tricherie de la part d’un joueur ou qu’un coup n’est pas juste un coup de chance. Le bridge n’est pas le poker …

    Conclusion

    Même si Nook ne joue pour l’instant qu’une partie des « contrats » existants au bridge (le « trois sans-atout »), ses concepteurs ont d’ores et déjà prouvé le bénéfice d’une IA « hybride » qui lui donne notamment la possibilité d’expliquer ses choix. Cette nouvelle approche, que NukkAI envisage de déployer dans d’autres domaines comme la cybersécurité, l’éducation ou les transports,  ouvre une voie pour avoir « quelque chose qui ressemble plus à de l’intelligence que ce que l’on a vu ces dernières années »,  souligne Cédric Villani, auteur d’un rapport parlementaire qui en 2018 avait inspiré la stratégie du gouvernement français sur l’intelligence artificielle, venu observer le défi en direct.  « Nous ne visons pas une intelligence artificielle qui remplace l’humain, mais qui collabore et où l’humain garde toujours la maîtrise » revendiquent Jean-Baptiste Fantin et Véronique Ventos, les deux créateurs de NukkAI. 

    Marie-Christine Rousset, professeure d’informatique à l’université Grenoble Alpes

    Encart 1 : Exploration arborescente Monte Carlo.L’exploration arborescente est à la base de la plupart des algorithmes utilisés pour les programmes de jeux à deux joueurs. Il s’agit de générer récursivement un arbre de jeu qui modélise,  à partir de la situation de jeu initiale, les différents coups possibles et pour chacun d’eux les ripostes possibles, jusqu’à atteindre les fins de partie (qui peuvent être gagnantes ou perdantes). Un chemin dans cet arbre représente une partie complète dont on peut donc savoir si elle est gagnante pour l’un des 2 joueurs (et perdante pour l’autre joueur).  L’arbre de jeu complet est trop gros pour être construit en entier sauf pour des jeux très simples comme le tic tac toe. Une exploration de type Monte Carlo consiste à casser la combinatoire en n’explorant qu’un certain nombre de chemins qui sont construits en générant aléatoirement un nombre restreint de coups possibles à chaque étape de la simulation. 
     Encart 2 : Algorithme MinMax et élagage Alpha-BetaL’algorithme MinMax  prend le point de vue d’un des joueurs qui, dans une situation de jeu donnée, doit choisir le coup qui maximise ses chances de gagner, sans connaître la stratégie de l’adversaire mais en supposant que cet adversaire, quand c’est à son tour de jouer, choisit systématiquement les ripostes qui maximisent ses propres chances et donc minimisent les chances de gagner du premier joueur.  A partir de chaque situation de jeu, l’algorithme développe l’arbre de jeu jusqu’à une certaine profondeur, donnée en paramètre. Pour chaque situation de jeu du niveau le plus profond, à l’aide d’une fonction d’évaluation qui lui est fournie et qui dépend de chaque jeu, il calcule une valeur qui est une estimation des chances de gagner à partir de cette situation. Il calcule ensuite la valeur de la racine de façon récursive en faisant remonter le minimum des valeurs du niveau inférieur pour les nœuds Min où c’est à l’adversaire de jouer, et le maximum des valeurs du niveau inférieur pour les nœuds Max où c’est à l’algorithme de jouer. L’algorithme choisit alors le coup qui maximise la valeur de la racine. Plus la fonction d’évaluation est appliquée loin de la racine, c’est-à-dire plus on anticipe de coups successifs, plus fine est l’estimation du meilleur coup à jouer.

    L’algorithme MinMax effectue une exploration complète de l’arbre de recherche jusqu’à un niveau donné. L’élagage Alpha-Beta permet d’optimiser l’algorithme Minmax en ne réalisant qu’une exploration partielle de l’arbre de jeu, tout en obtenant la même valeur comme résultat pour la racine. Au cours de l’exploration, deux types d’élagage peuvent être effectués : des coupes alpha qui évitent d’examiner des sous-arbres d’un nœud Min dont la valeur courante est inférieure à la valeur courante d’un nœud Max au dessus dans l’arbre ; et des coupes beta qui élaguent les sous-arbres d’un nœud Max dont la valeur courante est supérieure à la valeur courante d’un nœud Min au dessus dans l’arbre. On peut montrer que ces contraintes garantissent que les sous-arbres ainsi élagués conduiraient à des configurations dont la valeur ne contribuerait pas au calcul du gain à la racine de l’arbre.

    Encart 3 : Apprentissage automatique de réseaux de neurones L’apprentissage profond est un ensemble de techniques d’apprentissage automatique qui s’appuient sur des réseaux de neurones artificiels pour modéliser le calcul d’un résultat en fonction d’une entrée. Un réseau de neurones est une composition de couches composées de neurones formels qui constituent les entités élémentaires de calcul dans ce modèle. Chaque neurone prend en entrée des sorties des neurones des couches précédentes, calcule une somme pondérée (par des poids dits synaptiques) de ses entrées puis passe cette valeur à une fonction d’activation pour produire sa sortie.

     Les différents types de réseaux de neurones varient selon la structure, le nombre de couches et les fonctions d’activation considérées. Les plus étudiés sont les perceptrons multi-couches, les réseaux de neurones convolutifs, et les réseaux résiduels (ResNet). 

    Le  point commun de tous les réseaux de neurones artificiels est que les poids synaptiques qui sont déterminants dans le calcul effectué par chaque neurones sont optimisés (on dit souvent qu’ils sont « appris ») à partir d’exemples étiquetés, c’est-à-dire d’entrées pour lesquelles on connaît le résultat. L’apprentissage des meilleurs poids se fait en itérant des étapes de rétropropagation du gradient de l’erreur, qui consiste à corriger les erreurs effectuées à une étape en modifiant les poids synaptiques des neurones en fonction de  leur importance dans la réalisation de l’erreur.

    Références et footnote:

    (*) NukkAI (https://nukk.ai/) est un laboratoire privé d’Intelligence Artificielle créé par Véronique Ventos, chercheuse en IA, Maitre de Conférences en disponibilité à l’Université Paris-Saclay, et Jean-Baptiste Fantun, ancien élève de l’Ecole Polytechnique, agrégé de Mathématiques et titulaire d’un master en IA.

    [1] The AlphaMu Search Algorithm for the Game of Bridge. Tristan Cazenave et Véronique Ventos. in Monte Carlo Search at IJCAI, 2020.

    [2] Optimizing AlphaMu. Tristan Cazenave, Swann Legras et Véronique Ventos. in IEEE Conference on Games (CoG), August 17-20, 2021

    Pour aller plus loin :
    https://interstices.info/programmation-des-echecs-et-dautres-jeux qui explique comment fonctionne d’autres jeux avec des joueurs algorithmiques
    https://interstices.info/le-jeu-de-go-et-la-revolution-de-monte-carlo qui explique comment la méthode de Monte-Carlo s’applique au jeu de go
    https://interstices.info/lapprentissage-profond-une-idee-a-creuser qui présente le fonctionnement des réseaux de neurones

  • Please, ne traquez pas mon smartphone ?

    Voici un article consacré au Prix de thèse Gilles Kahn qui depuis 1998 récompense chaque année une thèse en Informatique. Cette année l’un des accessit revient à Charlie Jacomme pour ses travaux. Charlie nous parle des enjeux de la preuve des propriétés de sécurité et derrière celles-ci de la protection de la vie privée.  Pierre Paradinas.

    « Peut-on prouver que personne ne peut me traquer via mon smartphone ? » La réponse est tristement simple. Non, comme le démontrent de nombreux exemples comme le flicage de   Ouïghours via leurs smartphones par les autorités chinoises, ou encore l’exploitation par la police Allemande, sans contrôle judiciaire, des informations de localisations tirées d’une application de traçage de la Covid-19.

    Tout n’est pourtant pas perdu, car même s’il existe de nombreuses attaques possibles aujourd’hui, des personnes essayent de les éviter en créant des systèmes sécurisés et respectueux de la vie privée. Cependant, inventer de tels systèmes est difficile et on finit par trouver qu’on a laissé des failles.

    Pour rendre plus facile la conception de tels systèmes et obtenir de véritables garanties, le domaine des méthodes formelles en sécurité propose des techniques permettant de prouver la sécurité d’un système. On obtient ainsi une preuve mathématique que le système est sécurisé. Cependant, cette tache est difficile car prouver la sécurité revient à prouver qu’aucune attaque n’est possible : on veut démontrer l’impossible. Et par ailleurs, on souhaite démontrer cela sur des systèmes très complexes et pour des attaquants aussi puissants (mais réalistes) que possible.

    Le logo du logiciel Squirel

    Le but principal de ma thèse a été de simplifier la tache de réaliser des preuves de sécurités. Pour ce faire, j’ai par exemple développé un programme informatique en accès libre, appelé le Squirrel Prover, qui permet de se faire aider par un ordinateur pour construire des preuves de sécurités. On écrit toujours la preuve soi-même, mais un ordinateur aide,  guide, et au final  confirme que la preuve est correcte. J’ai aussi travaillé sur la modularité des preuves, en développant des résultats qui permette de découper les preuves en morceaux indépendants. Et depuis la fin de ma thèse, j’essaie d’appliquer ces techniques pour vérifier concrètement la sécurité des systèmes que nous utilisons tous les jours.

    Malheureusement, et comme je l’ai illustré par des exemples en introduction, la plupart des systèmes que nous utilisons aujourd’hui ne sont pas sécurisés. Ainsi, même si on peut inventer et prouver des systèmes véritablement respectueux de la vie privée, il reste un défi majeur : il faut que ces systèmes soient utilisés et déployés par les gouvernements et les entreprises. Et ça, cela nous fait sortir du monde de la recherche…

    Charlie Jacomme, Laboratoire Méthodes Formelles (LMF), actuellement en post-doc au CISPA, à Saarbrucken.

     

  • Corriger les failles informatiques, une impossible exhaustivité à gérer comme un risque !

    Dans le domaine de la cybersécurité, il existe de nombreuses phases du développement et du déploiement des systèmes logiciels qui sont sensibles. A l’occasion de la publication d’un rapport du NIST, c’est aux failles logicielles et à leurs correctifs que nous nous intéressons. Trois experts, Charles Cuvelliez, Jean-Jacques Quisquater & Bram Somers nous expliquent les principaux problèmes évoqués dans ce rapport. Pascal Guitton.

    Tous les jours, des failles sur les logiciels sont annoncées par leurs éditeurs, dès lors qu’un correctif est disponible. Plus rarement, la faille n’est pas découverte en interne chez l’éditeur ou ni même de façon externe, par un chercheur ; elle l’est alors d’une part par des hackers malveillants qui se gardent bien d’en faire la publicité mais les dégâts causés par leur exploitation la font vite connaître. D’autre part, par les services secrets de certains pays qui les apprécient beaucoup pour réaliser des attaques plus furtives.

    Le volume des failles à traiter quotidiennement devient de plus en plus souvent ingérable pour les entreprises. Parfois l’éditeur du logiciel ne supporte même plus la version pour laquelle une vulnérabilité a été découverte : il n’y aura pas de correctif. Appliquer un correctif peut demander du temps, nécessiter la mise à l’arrêt des équipements, leur redémarrage, le temps de l’installer. Cette indisponibilité est parfois incompatible avec l’utilisation d’un logiciel qui doit fonctionner en permanence : un correctif ne s’applique pas n’importe quand. Dans des cas plus rares, le correctif ne peut être appliqué que par le fabricant, pour des raisons de conformité ou de certification.

    Le risque zéro n’existe pas pour la sécurité des logiciels, ; dès qu’on installe un logiciel, il y a un risque de faille.  C’est l’approche suivie par le NIST dans son standard (Guide to Enterprise Patch Management Planning : Preventive Maintenance for Technology) qui vient d’être publié il y a peu.

    Couverture du rapport du NIST

    Si on ne peut ou ne veut pas appliquer de correctif, on peut désactiver le logiciel ou le module dans laquelle la faille a été identifiée. On peut installer une version plus récente du logiciel mais avec un autre risque : que ce dernier fonctionne différemment et perturbe toute la chaîne opérationnelle au sein de laquelle il est un maillon. On peut isoler le logiciel pour qu’aucune personne extérieure ne puisse l’atteindre en vue d’exploiter la faille (en segmentant le réseau et en le plaçant dans un segment sûr). On peut même décider que l’impact – si la faille est exploitée – est minime : on accepte alors le risque (ce n’est tout de même pas conseillé). On peut aussi confier le logiciel à un fournisseur à qui incombera la responsabilité de gérer les correctifs.

    Un véritable cycle

    Si on décide d’installer le correctif, c’est tout un cycle qui démarre et qui ne se réduit pas à le télécharger et à l’installer d’un clic comme on le pense souvent. Il faut chercher où, dans l’organisation, le logiciel est installé. Cela commence par détenir l’inventaire des logiciels dans son entreprise, qui n’est correct que si on connait parfaitement toutes les machines installées. D’ailleurs ce ne sont pas toujours les logiciels d’une machine qu’on doit mettre à jour, c’est parfois la machine elle-même et son système d’exploitation. Dans le cas de l’Internet des objets, la situation se complique : on peut quasiment toujours mettre à jour le firmware de ces derniers mais la tâche est immense : où sont-ils sur le terrain ? Comment les mettre à jour tous sans en oublier un ? Faut-il envoyer des techniciens sur place ? Combien de temps faudra-t-il pour tous les mettre à jour ?  Il peut même arriver qu’on doive passer à une nouvelle mise à jour alors l’ancienne n’est pas terminée pour tous les objets, au risque donc de désynchronisation de l’ensemble.

    Si on a pu installer le correctif, après avoir planifié son déploiement, l’avoir testé pour voir si le programme qu’on utilisait fonctionne toujours correctement comme avant, il faut observer le programme mis à jour : le correctif peut lui-même receler une faille (car il est souvent développé dans l’urgence) ou avoir été compromis par un hacker (ce sont les fameuses attaques dites supply chain). Par erreur, un utilisateur peut désinstaller la mise à jour, réinstaller la version précédente, lors par exemple d’une restauration d’une sauvegarde. Si on a opté pour éteindre la machine ou le logiciel car on ne peut appliquer de correctif, il faut aussi surveiller que personne ne la/le redémarre. Un correctif peut par erreur remettre à zéro la configuration du programme qui l’intègrera, y compris les réglages de sécurité.

    Toutes ces opérations ne s’organisent pas à la dernière minute, lorsqu’une faille critique est annoncée.

    Sécuriser les environnements

    On peut mettre en place un environnement plus sûr de sorte qu’une faille y ait moins d’impact ou n’y trouve pas de terrain favorable. Cela commence par ne mettre à disposition les logiciels qu’aux personnes qui en ont vraiment besoin. De deux logiciels équivalents, on peut privilégier celui qui a un historique plus favorable en nombre (réduit) de failles. On peut vérifier la rigueur du développement, la fréquence des correctifs, leur nombre, les problèmes relayés par les communautés d’utilisateurs à propos des failles. On peut aussi installer ses logiciels dans des environnements plus favorables et plus faciles à l’application de correctifs comme les containers cloud.

    Dans son rapport, le NIST distingue quatre réponses aux failles : l’application de correctifs au fil de l’eau, en respectant un planning et des contraintes comme le week-end pour les logiciels dont on ne peut tolérer l’interruption. Il y a les correctifs à appliquer d’urgence. Si un correctif n’existe pas (encore), ce sont des mesures d’atténuation qu’on appliquera en fonction des instructions du fournisseur. Si le fournisseur n’apporte plus de support, il faudra isoler la machine qui héberge le logiciel pour le rendre inatteignable sauf par ses utilisateurs, si on ne peut s’en passer.

    Que faire face à cette complexité ? Le NIST propose de classer les actifs informatiques dans des groupes de maintenance. Appliquer un correctif ou gérer une faille, c’est de la maintenance de sécurité. Chaque groupe de maintenance aura sa politique de gestion des failles.

    Et de citer comme groupe de maintenance les ordinateurs portables des employés où les failles et les correctifs ont trait au système d’exploitation même de la machine, les firmwares et autres programmes installés. Les portables des utilisateurs ont une plus grande tolérance à une interruption et l’impact est limité si un ordinateur subit une faille puisqu’il y a des logiciels de contrôle et d’alerte à la moindre infection qui tourne sur ces machines puissantes. Ces éléments permettent une politique de mise à jour des failles adaptée.

    A l’autre extrême, on trouve le groupe de maintenance « serveur de données (data center) » qui ne peut tolérer quasiment aucune interruption, qui ne peut être mis à l’arrêt qu’à des moments planifiés longuement à l’avance. Les mesures d’atténuation du risque sont tout autre, la défense en profondeur, les protections mises en place dans le réseau, la segmentation.

    Autre exemple : le groupe de maintenance liés aux tablettes et autres smartphones utilisés par les employés, avec, aussi, sa tolérance aux interruptions, ses mesures propres de protection… Avoir une politique de mise à jour et de correction des failles par groupe de maintenance évite le goulot d’étranglement de tout vouloir faire en même temps et au final de laisser des failles béantes, peut-être critiques.

    Le déploiement des correctifs.

    Le NIST propose de déployer le correctif par groupes d’utilisateurs pour voir si tout se déroule correctement, puis de l’étendre graduellement pour limiter l’impact d’un correctif qui ne serait pas au point. Le déploiement progressif peut se faire en fonction de la qualification des utilisateurs, de leur compétence. Même pour les correctifs à appliquer d’urgence, le NIST propose ce déploiement graduel (mais plus rapide, en heures, sinon en minutes plutôt qu’en jours).

    S’il n’y pas de correctifs disponibles, on est dans les mesures d’atténuation, comme isoler le logiciel quand on ne peut pas s’en passer, migrer dans un segment la machine qui le contient, adapter les droits d’accès des utilisateurs : on parle de micro-segmentation ou de « software-defined perimeters ». Tout ceci ne se fait pas le jour où l’entreprise fait face pour la première fois à un logiciel qui n’aura (plus) jamais de correctif. Les architectes doivent avoir réfléchi et proposé à l’avance les bonnes politiques et manière de faire. Il faut d’ailleurs les réévaluer en permanence car le réseau évolue : le risque est-il bien limité et le reste-t-il avec cette architecture ?

    Oublier qu’il y a là une partie du réseau qui héberge les cas à problèmes serait la pire chose à faire. Il faut aussi interpeller les utilisateurs à intervalles réguliers pour voir s’ils utilisent vraiment ce logiciel vulnérable ? Peut-on se permettre de garder un trou de sécurité ? N’y a-t-il pas une alternative sur le marché ?

    Métrique

    L’organisation et sa direction doivent pouvoir vérifier que la politique d’application des correctifs est efficace. Mesurer et affirmer que 10 % des machines ou des logiciels n’ont pas pu recevoir des correctifs n’apporte aucune information si ce n’est faire peur car on imagine ces 10 % des machines ouvertes à tout vent.

    Le NIST propose de donner trois indicateurs : la proportion de correctifs appliqués à temps par rapport à un objectif fixé, le temps moyen et le temps médian d’application du correctif (qui doivent bien sûr être inférieur à l‘objectif). Cet objectif peut être fixé par groupe de maintenance ou selon la criticité de la vulnérabilité et l’importance du logiciel dans le fonctionnement de l’entreprise.

    En fin de compte, le mieux est d’acquérir un logiciel qui connaitra le moins de failles possibles : il faut mener, dit le NIST, une véritable due diligence avec le fournisseur : combien de failles, combien par année ? Combien de temps pour produire un correctif quand une faille est trouvée ? Les correctifs sont-ils groupés ? Publiez-vous les correctifs sur la base de données des vulnérabilités CVE ? Publiez-vous les correctifs ad hoc ou à intervalles réguliers ? Cela vous arrive-t-il de ne pas publier des correctifs mais d’alors proposer des mesures d’évitement ? Vos correctifs ont-ils déjà créé des problèmes ? Testez-vous les correctifs avant de les publier ? Quel est le retour de vos clients ?

    Les réponses à ces questions en diront long sur le sérieux du fournisseur.

    Charles Cuvelliez (Ecole Polytechnique de Bruxelles, Université de Bruxelles), Jean-Jacques Quisquater (Ecole Polytechnique de Louvain, Université de Louvain) & Bram Somers (Group Chief Technology Officer, Belfius Banque)

  • Générer des modèles 3D à partir d’une photographie : le papier-mâché par ordinateur

    Voici un autre article consacré au Prix de thèse Gilles Kahn qui depuis 1998 récompense chaque année une thèse en Informatique. Cette année l’un des accessit revient à Thibault Groueix pour ses travaux qui nous emmènent dans les images 2D/3D et leurs interprétations via de l’IA. Pierre Paradinas.

    Les algorithmes de génération ou d’analyse d’image ont connu un boom au cours des dix dernières années – et ils continuent toujours de s’améliorer, sans qu’aucune limite de saturation ne se dessine quant à leurs performances ni leurs champs d’application. Ainsi, un ordinateur peut facilement indiquer si une image contient un chien ou un chat, et identifier les pixels concernés. Plus spectaculairement, en combinaison avec de l’analyse de texte, des approches comme DALL-E 2 permettent aujourd’hui de générer des images à partir de simples phrases.

    De tels algorithmes sont basés sur des réseaux de neurones, mais dans quelle mesure ces réseaux « comprennent”-ils vraiment les images? Par exemple, sont-ils capables de saisir la 3D sous-jacente dans une photo 2D “plate”?  C’est sur cette question que portent mes travaux de recherche. Notre cerveau possède intrinsèquement cette incroyable faculté: à partir de projections 2D de rayons lumineux sur la rétine, il peut instantanément reconstruire une représentation mentale 3D du monde et des objets. En analyse d’image par ordinateur, reconstruire la 3D à partir d’une seule image est un Graal. C’est un problème ouvert depuis près de 60 ans.

    C’est un problème difficile pour trois raisons. D’une part par manque de base de données d’apprentissage adéquate. D’autre part, les méthodes développées pour générer et analyser des images 2D reposent sur l’ordonnancement et la régularité des grilles de pixels, et ne se transpose pas facilement au domaine de la 3D par le simple ajout d’une dimension car cela est trop coûteux en mémoire. Enfin, parce qu’il n’y a pas de représentation universelle pour les formes 3D.  Le maillage triangulaire est un standard de l’industrie mais c’est une représentation très difficile à prédire pour un réseau de neurones car elle est discrète et combinatoire. En revanche, il est beaucoup plus simple de prédire une déformation d’un maillage préétabli, car c’est c’est un espace continu. J’ai donc proposé avec mes co-auteurs une nouvelle représentation qui réunit deux qualités : d’abord (i) reconstruire des maillages triangulaires de haute-qualité, et (ii) être compatible avec certaines architectures de réseaux de neurones classiques en apprentissage profond. Cette représentation est inspirée de la technique du “papier mâché” : un réseau de neurones apprend à déformer des feuilles planaires et à les placer sur une forme 3D de sorte à ce que l’union de ces feuilles déformées représente fidèlement la forme initiale.

    Ayant établi cette représentation, on peut maintenant l’associer aux techniques génériques d’apprentissage profond. Une boîte noire reçoit une image en entrée, prédit la déformation des feuilles et l’on ajuste automatiquement les paramètres de la boîte noire afin que l’objet 3D reconstruit corresponde à la vérité terrain. Une fois terminée cette phase d’entraînement de l’algorithme, on peut reconstruire une forme 3D à partir d’une nouvelle image, y compris les parties de l’objet invisibles dans l’image. Ce travail a  constitué un jalon important dans le domaine de la reconstruction 3D à partir d’une seule image. Pour l’instant, il ne se généralise pas à toutes les catégories d’images principalement par manque de diversité dans les bases de données 3D disponibles. 

    À partir d’une seule image, a gauche, notre modèle prédit un maillage triangulaire de l’objet en 3D, en déformant des feuilles, comme dans la technique du papier-mâché.

    Une des applications de ces recherches est la création d’objets virtuels. Ils sont présents dans de nombreuses industries comme le cinéma, les jeux vidéos, la simulation physique, l’architecture etc. Pensez par exemple au kart de Mario-Kart, aux minions dans Moi, moche et méchant, aux simulations de l’écoulement de l’air dans les turbines des réacteurs Safran…. Créer un objet 3D est aujourd’hui une tâche très complexe et généralement assez inaccessible. Ces techniques démocratisent l’accès et la manipulation de ce type de données, en inventant des outils simples pour créer, éditer et assembler des modèles 3D.

    Thibault Groueix  a passé sa thèse à l’ENPC, et travaille actuellement chez Adobe.

  • En utilisant la clé vous la montrez… trop tard elle est révélée !

    Voici le premier des articles consacrés au Prix de thèse Gilles Kahn qui depuis 1998 récompense chaque année une excellente thèse en Informatique. Cette année le premier prix revient à Gabrielle De Micheli pour ses travaux dans le domaine de la cryptographie. En prime, vous pouvez aussi retrouver Gabrielle dans une vidéo de Arte sur la question abordée dans ce billet.  Pierre Paradinas

    La cryptographie est une branche de l’informatique qui s’intéresse de manière générale à la protection de données et communications numériques. Elle est primordiale dans notre société où la majeure partie de nos données personnelles sont en effet numériques (par exemple, nos transactions bancaires).

    À l’origine de la cryptographie se trouve le problème de l’échange de messages chiffrés, c’est-à-dire de messages inintelligibles, que seul un récepteur légitime peut déchiffrer, donc lire. Afin d’assurer une transmission sécurisée de ces messages, une clé secrète est généralement partagée entre l’expéditeur et le destinataire.

    Au début des années 1970, Merkle s’écarte de ce concept de clé partagée et formalise, avec Hellman, la notion de cryptographie à clé publique où deux clés mathématiquement liées sont générées et utilisées : une clé publique et une clé secrète. Un message est ensuite chiffré à l’aide de la clé publique du récepteur. Ce dernier sera alors le seul capable de déchiffrer le message à l’aide de sa clé secrète correspondante.

    Les cryptosystèmes à clé publique, également connus sous le nom de protocoles dits asymétriques, sont tous construits à l’aide de problèmes mathématiques particuliers. Ces derniers doivent correspondre à des fonctions qui sont faciles à calculer pour toute entrée donnée mais difficiles à inverser.  Historiquement, deux candidats ont émergé : la multiplication de deux nombres premiers et l’exponentiation modulaire. L’inverse de ces opérations consiste à factoriser un nombre entier et à calculer un logarithme discret et sont considérés comme des problèmes difficiles à résoudre, même avec l’aide d’ordinateurs très puissants. Prenons l’exemple de la factorisation. Si l’on demande à un ordinateur de factoriser l’entier 1081, on obtient facilement 1081 = 23 x 47. Cependant, si on souhaite la factorisation d’un entier beaucoup plus grand, par exemple un entier de plus de 300 caractères, alors la factorisation devient trop compliquée à obtenir en un temps raisonnable.

    Ces problèmes répondent bien aux exigences d’un protocole asymétrique. En effet, pour qu’un protocole soit sûr et efficace, le déchiffrement d’un message sans la clé secrète doit être proche de l’impossible, alors que le chiffrement d’un message et le déchiffrement avec la clé secrète doivent être faciles, c’est-à-dire réalisés uniquement avec des opérations simples.

    Mes travaux de thèse se sont concentrés sur le second candidat : l’exponentiation modulaire et son opération inverse, le calcul d’un logarithme discret. L’objectif de ma thèse a été de répondre à la question suivante. Comment évaluer la sécurité des protocoles dans lesquels une exponentiation modulaire impliquant un secret est effectuée ?

    Cette question peut se répondre de deux façons différentes. D’une part, mes travaux ont étudié la difficulté de résoudre le problème du logarithme discret qui donne un accès direct à l’exposant, donc au secret. D’autre part, j’ai étudié les vulnérabilités d’implémentation, c’est-à-dire des failles qui peuvent se glisser dans le code, pendant l’exponentiation rapide qui peuvent également conduire à l’exposant secret. Il existe en effet des attaques dites par canaux cachés qui vont nous permettre de récupérer de l’information secrète qui nous mènera jusqu’à la clé secrète.
    Gabrielle De Micheli, a préparée sa thèse au centre Inria Nancy-Grand Est, actuellement postdoctorante à l’université de californie à San Diego (UCSD).
    Pour aller plus loin : un reportage de Arte sur les travaux présenté dans ce billet  https://www.arte.tv/fr/videos/105025-000-A/cybersecurite-la-science-des-codes-secrets/
  • J’ai un problème : je ne sais pas trop ce qu’est l’intelligence artificielle 

    Ce texte est paru originellement dans le Hors-Série de Pour la Science n° 115 : « Jusqu’où ira l’intelligence artificielle ? », mai 2022.

    Entretien avec Serge Abiteboul, directeur de recherche à Inria et à l’ENS Paris. Propos recueillis par Olivier Voizeux.

    Peut-on dire que, plus que le jeu d’échecs, les réseaux de neurones ont dopé la recherche sur l’intelligence artificielle ?

    Ce serait un peu du bourrage de crâne. Un système comme Deep Blue, d’IBM, qui a battu le champion du monde d’échecs Gary Gasparov en 1997, embarquait des années de recherches, le plus souvent développées pour autre chose. Toutes les techniques informatiques ont des applications considérables qui sont à l’œuvre tous les jours, qui marchent très bien et ont pour nom « gestion de données », « système d’exploitation », « compilateur », « communication numérique », « interface humain-machine », « calcul parallèle », « raisonnement logique », etc. Ce qu’on observe depuis une dizaine d’années, c’est l’arrivée d’algorithmes d’apprentissage automatique, qui ont obtenu des résultats superbes dans des domaines qui nous bloquaient jusque-là. Mais internet et votre téléphone portable fonctionnent en grande partie sans eux, même si on utilise de plus en plus l’apprentissage automatique, par exemple dans les assistants vocaux.

    Pouvez-vous préciser l’apport de l’apprentissage automatique ?

    Sur certains problèmes, les approches dites « symboliques », fondées sur le calcul et le raisonnement, ne progressaient presque plus. Je pense notamment à des problèmes tout bêtes comme de distinguer l’image d’un chat de celle d’un chien, ou, plus intéressant, de reconnaître une tumeur cancéreuse. Et, assez soudainement, des techniques connues depuis longtemps et qui avaient souvent des résultats médiocres, les réseaux de neurones, se sont mises à fonctionner. La traduction automatique des langues, par exemple, s’est améliorée considérablement (lire l’entretien avec Thierry Poibeau). Avec l’apprentissage automatique et les méthodes statistiques, ainsi nommées parce qu’elles s’appuient sur de gros volumes d’informations, un logiciel apprend de données fournies par des humains, en observant son environnement, en simulant des situations, etc. Pour faire une analogie, vous pouvez apprendre à jouer au tarot parce que des amis vous en expliquent les règles, mais vous pouvez aussi vous former en regardant des joueurs. Souvent, les deux modes coexistent. On connaissait depuis des années des algorithmes pour faire apprendre aux machines, notamment les réseaux de neurones. Pourquoi tout à coup sont-ils devenus plus performants ?

    Il y a eu une sorte de conjonction de planètes avec l’arrivée, presque au même moment, de beaucoup plus de puissance de calcul, de plus en plus de corpus de données pour nourrir l’apprentissage, et du développement de nouveaux algorithmes dits « d’apprentissage profond »

    (deep learning, en anglais). D’un coup, des problèmes qui nous résistaient depuis des années se sont mis à tomber. Cela avait un côté génial. Mais, encore une fois, cette approche n’a pas remplacé ce qui existait avant. Même quand AlphaGo, de DeepMind, a battu le joueur de go Lee Sedol, il n’utilisait pas uniquement des algorithmes d’apprentissage profond.

    Le revers de ces méthodes n’est-il pas leur opacité ?

    En effet, quand on fait tourner un algorithme d’apprentissage profond, on ne sait pas expliquer pourquoi on arrive à un résultat particulier. Les longs calculs réalisés ne font pas à proprement parler un raisonnement, en tout cas un raisonnement qu’un humain serait capable de comprendre. On peut penser que, tant pis, seule l’efficacité prime, mais ce n’est pas si simple. Prenons deux exemples en médecine : un algorithme d’apprentissage qui aide à retrouver des tumeurs cancéreuses (voir La fée IA au chevet des malades, par N. Ayache) examine des milliers d’images annotées par des médecins, et à partir de toute cette connaissance se prononce sur les images qu’on lui soumettra. Impossible pour un humain de se former en étudiant toutes ces images : il y en a trop. Et de toute façon, il y aura un médecin, voire une équipe, pour discuter l’avis de la machine qui sera un avis comme un autre, pris comme tel. En revanche, en matière de diagnostic médical, si vous rentrez dans un programme un grand nombre d’informations sur un patient, et qu’à la fin ce logiciel décide « c’est une hépatite », ça ne peut pas suffire au médecin qui a besoin d’explications. Il ou elle a besoin d’entendre que, en fonction des observations du malade, statistiquement ce peut être telle maladie avec 95 % de chances, mais aussi telle autre avec 5% de chances, et qu’il faudrait poser telle question au malade pour écarter telle possibilité, ou demander tel examen complémentaire, etc. Dans les deux cas, il y a un travail collaboratif entre machine et humains. Dans le premier, nul besoin d’explications (les techniques d’apprentissage automatique un peu brutales sont efficaces). Dans le second, des explications sont indispensables.

    Où finit l’informatique « ordinaire », où commence l’intelligence artificielle ?

    Cette distinction n’a pas vraiment de sens. On a, à l’intérieur de l’informatique, un vrai continuum.

    Quelle est alors votre définition de l’intelligence artificielle ?

    Pour Alan Turing, une activité d’une machine sera qualifiée d’« intelligence artificielle » si elle est considérée comme intelligente quand un humain s’y livre. À ses yeux, ce ne peut être qu’une imitation de l’intelligence humaine, une simulation. J’utilise la définition de Turing mais, honnêtement, ça ne me dit pas grand-chose puisque, tout comme lui, je ne sais pas définir l’intelligence humaine. En fait, j’ai un problème : je vous en parle, mais je ne sais pas trop ce qu’est l’intelligence artificielle ! L’expression fait fantasmer. Mais qu’est-ce qu’elle signifie ? Depuis ma thèse, je travaille sur des systèmes de gestion de base de données, qui répondent aux questions des humains. C’est quand même intelligent de répondre à des questions ! J’ai travaillé sur des bases de connaissances qui font de la déduction. Là encore, c’est intelligent de raisonner. Plus récemment, l’apprentissage automatique m’a permis d’introduire de nouvelles fonctionnalités dans des systèmes sur lesquels nous travaillons avec des étudiants. Distinguer ce qui en informatique tient de l’intelligence artificielle ou pas, ça n’aide en rien. Pour moi, c’est avant tout un buzzword, surtout utile pour récupérer des financements ou impressionner des amis. Le truc cool, aujourd’hui, n’est pas l’intelligence artificielle, mais l’apprentissage automatique qui vient compléter d’autres techniques essentielles de l’informatique.

    Donc vous ne cherchez jamais à développer des programmes « plus intelligents » ?

    Je cherche à faire des programmes qui résolvent des problèmes, qui répondent aux besoins de leurs utilisateurs. Cela dit, je ne connais pas beaucoup d’informaticiens qui essaient d’écrire des programmes idiots… même si on ne sait pas définir l’intelligence.

    Quel est l’objectif de la recherche en intelligence artificielle ? Dépasser l’humain ?

    Vous l’avez compris, je ne sais pas distinguer recherche en intelligence artificielle et en informatique. Les chercheurs en informatique veulent repousser les limites de la science. Certains se posent des questions théoriques, par exemple sur la calculabilité ou la puissance du raisonnement, presque du ressort des mathématiques pures. À l’autre bout du spectre, d’autres développent des produits informatiques prêts à être utilisés le mois d’après comme les logiciels scikit-learn (une bibliothèque Python pour l’apprentissage automatique) et Caml (un langage de programmation et un environnement populaire). Parfois, une recherche très théorique comme celle des universitaires Ronald Rivest, Adi Shamir et Leonard Adleman débouche sur un algorithme de chiffrement très pratique, le RSA, qui est à la base de tous les échanges chiffrés sur internet. Pour moi, cette diversité est la grande richesse de la recherche dans ma discipline. Les humains sont de magnifiques machines à résoudre des problèmes. Pourquoi ne pas essayer de les imiter avec des ordinateurs ? C’est le genre de défi qui fait avancer les sciences. Quant à les dépasser… pourquoi pas ? À vrai dire, l’informatique accomplit déjà des tas de choses dont nous sommes incapables. Reproduire à la main des calculs que votre smartphone traite à toute vitesse prendrait un temps dingue à des centaines de milliers de personnes qui commettraient des millions d’erreurs. Les ordinateurs calculent bien mieux que nous. Faire mieux que l’humain n’est pas si difficile.

    Mais, d’une calculette, on ne dit pas qu’elle est intelligente…

    Un des trucs qu’on apprend à l’école primaire, c’est calculer, non ? Moi, je trouve ça intelligent. Le chien du voisin, sait-il calculer ?

    Peut-être ce déni s’explique-t-il parce que la calculette est devenue ordinaire ?

    En effet, comme c’est un objet de notre quotidien, on lui interdit d’être vraiment intelligent. Peut-être que ce qu’on sait expliquer par une suite d’opérations est dénué de vraie intelligence. La preuve automatique d’un théorème mathématique, on peut la décortiquer pas à pas. Et une machine reproduira « bêtement » le calcul, donc ça ne doit pas être bien sorcier. Mais comme on ne comprend pas comment fonctionne l’apprentissage automatique, alors c’est forcément intelligent.

    Est-ce qu’il y a, sur l’intelligence artificielle, une approche particulière à la France ?

    Non. La recherche en informatique est devenue extrêmement mondiale, il ne peut pas y avoir d’approche hexagonale. Il y a une grande fluidité entre les pays. J’ai fait ma thèse aux États-Unis comme beaucoup de collègues, on interagit sans cesse avec des collègues américains, européens, africains, asiatiques, nos labos sont peuplés de doctorants, postdoctorants, visiteurs, etc., de multiples nationalités. Si on voulait vraiment chercher une coloration française, ce serait plutôt du côté de la formation scolaire et universitaire. Nos étudiants avaient jusqu’à récemment, en moyenne, une formation plus mathématique que ceux venus d’ailleurs. Cela leur donnait des bases théoriques vraiment solides. J’espère que cela ne va pas changer.

    Ils ne sont pas capables de créativité tout court : ni en maths, ni en biologie, ni en littérature. On y travaille, on fait des progrès, mais les poèmes que nos algorithmes créent sont encore médiocres. Ce qu’on sait faire, c’est donner plein d’exemples de beaux tableaux d’un peintre à une machine, et lui demander de produire une œuvre dans le même genre. Elle ne crée pas vraiment, elle singe. D’ailleurs, on retrouve la même difficulté de définition qu’avec l’intelligence, je ne sais pas définir formellement la beauté ou la créativité. À ce sujet, les travaux du jeune chercheur en IA Antoine Cully dans sa thèse m’ont passionné. Il montre, par exemple, comment un robot à six pattes a pu inventer une nouvelle façon de marcher avec une patte abîmée ou manquante. Mais ce robot a-t-il vraiment découvert une nouvelle façon de marcher ? Ou cette nouvelle démarche était-elle plus ou moins déjà inscrite dans tous les calculs qu’on lui avait demandés avant ?

    Sauriez-vous développer un algorithme de bêtise artificielle ?

    Vous ne trouvez pas qu’il y a assez de bêtise naturelle ?

    Imaginez qu’il n’y en ait pas autour de nous et qu’on ait besoin d’une machine bête pour nous divertir.

    S’il s’agit de programmer un générateur de formules fausses, je peux facilement le faire. Mais si vous voulez en plus qu’elles soient drôles, c’est de l’humour. Là, c’est encore plus dur que la créativité.

    L’intelligence artificielle est sortie des laboratoires, elle est entrée dans la cité, et elle y produit des effets. Lesquels vous paraissent les plus importants ?

    Il y a deux questions qui me semblent particulièrement critiques en ce moment, et elles sont liées : c’est la sobriété énergétique et le travail. Selon les sources, le numérique représenterait aujourd’hui de 3 à 4% des émissions de gaz à effet de serre dans le monde, et cela croît. Je ne sais pas chiffrer la proportion de l’intelligence artificielle dedans. Ce n’est pas énorme, mais cela augmente aussi. Pour limiter notre impact sur l’environnement, il va nous falloir changer nos modes de vie par exemple arrêter de changer de téléphone tous les deux ans ou de passer du temps à visionner des films en haute résolution sur un téléphone cellulaire. Il y a beaucoup de gaspillage, comme avec les « chaînes de blocs » (blockchains), ces procédés de stockage sécurisés et décentralisés, qui pourraient fonctionner en consommant plusieurs ordres de grandeur d’énergie en moins pour le même résultat. Dans le numérique comme pour le reste, il va nous falloir apprendre à être frugaux.

    Et concernant le monde du travail ?

    L’ensemble de la technologie numérique a une incidence sur l’emploi, pas seulement l’intelligence artificielle. Aujourd’hui, on peut faire fonctionner une usine avec très peu d’individus grâce à l’informatique en général. Il est vrai qu’avec l’intelligence artificielle on va aller encore plus loin dans le remplacement de l’humain. Après sa force physique, son travail intellectuel devient de plus en plus remplaçable. Le hiatus est qu’on veut une société plus sobre énergétiquement, qui produise et pollue moins, et qu’on veut aussi moins travailler, donc utiliser plus de machines. Or il faut de l’énergie pour fabriquer les machines et elles ont des rendements souvent moins bons que les nôtres. Pour y arriver, de sérieuses avancées scientifiques et d’importantes mesures d’économie seront nécessaires. Et puis, si les machines remplacent les humains, qui va être rétribué ? Uniquement ceux qui les possèdent ? Dans ce cas, la grande masse de la population sera non seulement privée d’activité, mais aussi de quoi se nourrir. Ce ne sera pas socialement tenable. Dans les vingt à cinquante ans à venir, une transformation complète de la société s’imposera, exigeant que l’économie soit beaucoup plus redistributive. Voilà pour le volet sociétal, qui se double d’un volet humain. Dans notre culture, on nous apprend dès l’enfance que le travail est la grande valeur. Comment fera-t-on dans un monde où une grande partie d’entre nous sera sans emploi, ou avec de l’emploi partiel, ou des travaux associatifs ou d’aide à la personne, non « productifs » dans le sens économique actuel ? Il nous faut inventer une nouvelle philosophie du travail, de son utilité sociale, une nouvelle philosophie des loisirs. Le côté génial, c’est que, si on ne se plante pas écologiquement ou socialement, l’informatique nous permet d’avoir l’ambition la plus dingue, celle d’une société égalitaire où tout le monde vivrait bien, en s’éduquant, avec autant de loisir que souhaité. Ce n’est pas de la science- fiction… Enfin, je l’espère.

    https://www.pourlascience.fr/sd/informatique/j-ai-un-probleme-je-ne-sais-pas-trop-ce-qu-est-l-intelligence-artificielle-23682.php

  • Algorithmes quantiques : quand la physique quantique défie la thèse de Church-Turing

    Frédéric Magniez  a tenu la Chaire annuelle Informatique et sciences numériques 2020-2021 du Collège de France. Il n’y avait pas eu à l’époque d’article sur binaire. Voilà qui corrige cette situation peu acceptable.
    Frédéric Magniez, mathématicien et informaticien, est directeur de l’Institut de recherche en informatique fondamentale (www.irif.fr) et directeur adjoint de la Fondation des sciences mathématiques de Paris. Ses travaux de recherche portent sur la conception et l’analyse d’algorithmes probabilistes pour le traitement des grandes masses de données, ainsi que sur le développement de l’informatique quantique et plus particulièrement les algorithmes, la cryptographie et ses interactions avec la physique.
    Serge Abiteboul
    Frédéric Magniez, 2020. Crédits : Patrick Imbert, Collège de France

    Une prouesse inutile ?

    L’année 2021 sera sans aucun doute quantique ! Il y a à peine plus d’un an, Google réalisait un calcul sur un prototype de circuit quantique programmable. D’un point de vue technologique la prouesse était encore inimaginable il y a seulement quelques années. D’un point de vue de la puissance de calcul, la tâche demandée est certes très spécifique, mais nécessiterait plusieurs milliers d’années de calcul sur tout autre machine existante, aussi puissante soit-elle ! Un vrai tournant venait donc d’être engagé. Cette année, un consortium européen va lancer une plateforme de simulation et de programmation quantique rassemblant chercheurs et industriels issus de la physique et de l’informatique. Cette plateforme utilisera une technologie quantique fournie par la start-up française Pasqal. Enfin, l’État va lancer un plan national quantique qui va voir la création de plusieurs centres dédiés à la recherche sur les technologies quantiques, dont l’informatique.

    Le calcul effectué par Google fin 2019 revenait à lancer un gigantesque dé truqué ou faussé. Le calcul des probabilités de chaque face du dé est lié au circuit quantique programmé dans la machine de Google. La simulation d’un circuit quantique, même de petite taille (53 bits dans l’expérience de Google), est d’une telle complexité pour nos ordinateurs actuels qu’elle ne peut être réalisée en moins de plusieurs millénaires par ces derniers. En revanche, le lancé de ce dé est quasiment instantané sur le prototype quantique de Google, puisque ce dernier implémente directement ledit circuit quantique, et ce avec une précision satisfaisante, c’est-à-dire pour vérifier que le bon dé avait été lancé. Cette réalisation, même imparfaite, semble pour le moment impossible à réaliser autrement que quantiquement.

    Cette prouesse semble loin de toute application pratique. Néanmoins, elle valide un courant de pensée remontant aux années 1980, en particulier aux propos de Feynman, affirmant que notre interprétation et compréhension de ce qui est calculable devait évoluer. Elle remet en cause les fondements du calcul remontant à la thèse de Church-Turing. Cette thèse, qui a évolué au fil des années, tendait à affirmer que tout progrès technologique ne remettrait jamais en cause le modèle mathématique du calcul défini par Church et Turing en 1936. Ce modèle permet de discerner ce qui est calculable par une machine de ce qui ne l’est pas. Quelques décennies après, cette thèse avait été reformulée ainsi : tout modèle de calcul raisonnable peut être simulé efficacement par une machine de Turing probabiliste (i.e. ayant accès à une source d’aléa). La notion de complexité y avait donc été ajoutée, rendant la thèse plus ambitieuse mais aussi plus fragile.

    Les fondations – Enigma bis ?

    Cette thèse étendue de Church-Turing a donc été remise en question au tout début de l’informatique quantique, lorsque Deutsch définit en 1985 la notion de machine de Turing quantique, avec son lot de premiers algorithmes exponentiellement plus rapides que leurs équivalents déterministes (mais pas encore probabilistes). D’abord perçu comme une curiosité, ce modèle de calcul finit par susciter intérêt et questionnements dans la communauté scientifique. Finalement en 1993, Bernstein et Vazirani construisent mathématiquement une machine universelle quantique efficace, c’est-à-dire le premier
    compilateur quantique (l’existence d’une machine programmable) qui valide mathématiquement le modèle de calcul (mais pas sa réalisation physique). En même temps arrive l’évidence qu’un ordinateur quantique peut être exponentiellement plus rapide qu’un ordinateur classique, i.e. qu’une machine de Turing probabiliste. Cependant les problèmes résolus sont tous artificiels et semblent encore bien loin de toute application concrète.

    C’est Simon puis Shor qui arrivent avec la première application algorithmique, et pas des moindres, en 1994, soit seulement une année après l’acceptation par la communauté du concept même de calcul quantique. En effet, cette application permettait de déchiffrer la plupart des messages cryptés par les mécanismes dits à clé publique, et de réduire à néant les procédés cryptographiques les utilisant (monnaie électronique, CB, vote électronique, authentification, …). Heureusement, l’ordinateur quantique n’existe pas (encore) ! Pourtant cette découverte n’est pas sans rappeler les découvertes de Turing et la construction de la machine qui a permis de déchiffrer les messages allemands eux-mêmes chiffrés par la machine Enigma durant la deuxième guerre mondiale…

    Les algorithmes quantiques – Une nouvelle façon de penser

    Néanmoins, deux décennies plus tard, alors que la possibilité d’une construction future d’un ordinateur quantique commençait à être prise au sérieux, une compétition scientifique internationale a été lancée en 2016 afin de définir les nouveaux standards de chiffrement post-quantique, ouvrant la voie à une longue recherche puis standardisation toujours en cours. Une autre alternative repose pourtant dans l’utilisation relativement simple de fibre optique afin de communiquer en encodant l’information directement sur des photons. Il s’agit du protocole quantique d’échange de clé proposé par Bennett et Brassard en 1984, soit 10 années avant la découverte de l’algorithme de Shor. En quelque sorte l’attaque et la parade reposent sur la même technologie, à ceci près que le protocole en question a déjà été construit et testé sur de grandes distances, un satellite dédié à même été envoyé par la Chine en 2016. L’Europe n’est pas en reste avec des projets d’infrastructure de grande envergure dédiés au déploiement de solutions quantiques de chiffrement. Cependant ces solutions quantiques nécessitent des technologies spécifiques, alors que les solutions algorithmiques dites post-quantiques pourraient être déployées sur les structures et ordinateurs actuels.

    Depuis 1994, les applications (calcul scientifique, optimisation, recherche opérationnelle, simulation, apprentissage automatique, IA…) foisonnent dans tous les domaines où l’informatique joue un rôle crucial, et pour des tâches où nos ordinateurs actuels ne sont pas assez puissants. Mais surtout les outils développés (transformée de Fourier quantique, estimation de phase, amplification d’amplitude, estimateur quantique, marche quantique, …) progressent continuellement, impactant toutes les thématiques de l’informatique, en en créant de nouvelles (information quantique, complexité hamiltonienne, simulation quantique, …), ou encore en tissant de nouveaux liens de l’informatique vers d’autres disciplines dont la physique, la chimie et les mathématiques.

    Mais avant tout l’informatique quantique a introduit une nouvelle façon d’analyser, raisonner et démontrer. Les outils existants précédemment n’étant plus adaptés, il a fallu en créer de nouveaux. Apportant un nouveau regard mathématique à des questions anciennes, ces nouveaux outils ont permis de progresser sur des questions ouvertes depuis de nombreuses années. Cette démarche a été baptisée preuve ou méthode quantique. Une preuve quantique est un peu l’analogue des nombres complexes pour la trigonométrie ou encore l’électricité : un outil très puissant permettant de mener facilement des calculs difficiles, ou encore d’établir des preuves inaccessibles jusque là, y compris dans des domaines pour lesquels ils n’ont pas été construits initialement. La dernière démonstration en date est la réfutation d’une célèbre conjecture en mathématiques (conjecture de Connes) à l’aide d’un résultat en théorie de la complexité quantique.

    Vision et formations nécessaires

    Une fois tous ces algorithmes quantiques découverts, dont l’utilisation de certains serait à n’en pas douter révolutionnaire, la question de la possibilité de construire un ordinateur les exécutant fut donc de plus en plus pressante. L’importance d’un plan d’envergure a d’abord émané de tous les acteurs concernés, scientifiques comme industriels, avec une feuille de route et des jalons intermédiaires appropriés, puis fut largement soutenue par les politiques. Plusieurs plans ont vu le jour, dont un au niveau européen à travers le Quantum Flagship en 2018, et le Plan Quantique national en 2021. L’avantage industriel que pourrait procurer la construction d’un ordinateur quantique, même imparfait, a créé une frénésie stimulante qui touche tous les secteurs stratégiques (finance, industrie, santé, sécurité…). Les progrès technologiques de grands groupes industriels, tels que Google et IBM par exemple, ont été de véritables locomotives, laissant apparaître rapidement que le plus grand défi serait de trouver une application à ces premiers prototypes, certes révolutionnaires, mais très éloignés des machines nécessaires aux applications précédemment découvertes en algorithmique quantique. En effet, non seulement ces machines sont petites, mais elles ont un taux d’erreur encore trop grand. Pourtant elles sont capables d’effectuer des calculs impossibles à réaliser classiquement, mais des calculs sans impact industriel actuellement.

    Un véritable travail de fourmi s’est donc enclenché, mais, pour l’instant, avec une communauté encore trop petite. Les mêmes personnes ont actuellement en charge de comprendre et de maîtriser toutes les facettes du calcul quantique, de la modélisation à la réalisation expérimentale en passant par la solution algorithmique, son analyse, sa programmation et sa vérification, là où la chaine de production constitue habituellement un véritable écosystème de l’informatique. Il nous faut donc nouer de multiples partenariats, construire et enseigner dans de nouvelles formations, afin de saisir cet unique défi que pourrait constituer ce nouveau tournant technologique.

    C’est dans ce contexte que le Collège de France m’a donc invité à occuper pour un an sa chaire Informatique et sciences numériques, et à donner dans ce cadre un cours sur les algorithmes quantiques. Ce cours tâchera de répondre à une demande croissante d’information et de formation de nombreux publics. Le public ciblé va des esprits curieux de saisir les possibilités et les limites du calcul quantique, aux acteurs des sciences informatiques au sens large : informaticiens, mathématiciens du numérique et physiciens des technologies quantiques, qu’ils soient étudiants, chercheurs, développeurs, entrepreneurs ou encore futurs utilisateurs des algorithmes quantiques.

    En guise de conclusion, il convient de rappeler que c’est en France, en 1980, qu’a débuté la révolution quantique expérimentale lorsque l’expérience du groupe d’Alain Aspect (CNRS) a validé à Orsay les prédictions de la physique quantique, qui ne pouvaient s’expliquer par la physique classique seule. Puis le prix Nobel a été décerné en 2012 à Serge Haroche (Collège de France) pour ses travaux sur la manipulation de systèmes quantiques. Le versant informatique de cette révolution a, lui, débuté en 1994 conjointement aux travaux outre-Atlantique, grâce à la vision de Miklos Santha (CNRS). Alors étudiant de master, j’ai suivi le mouvement de son équipe, qui était basée aussi à Orsay. Rapidement, Miklos a su constituer un groupe qui essaime, fait des émules en France et attire des talents internationaux. A l’époque, le pari pouvait sembler risqué, mais dans les années 2000, les possibilités de recrutement au CNRS et à l’Université sont plus nombreuses, et plusieurs chercheurs sont recrutés afin de mieux comprendre les liens que tisse le traitement de l’information quantique entre informatique, mathématiques et physique.

    Frédéric Magniez, Directeur de recherche CNRS,  Directeur de l’IRIF
    Pour la leçon inaugurale de la chaire annuelle Informatique et sciences numériques du Collège de France – 1er avril 2021

    Pour aller plus loin

    • Pages de Frédéric Magniez sur le site internet du Collège de France :
      https://www.college-de-france.fr/site/frederic-magniez/index.htm
    • Article sur les travaux de Frédéric Magniez dans CNRS le journal
      https://lejournal.cnrs.fr/articles/une-informatique-a-reinventer-pour-le-calcul-quantique
  • Etalab : de l’ouverture des données à leur partage collaboratif

    Dans le cadre de la rubrique autour des “communs du numérique”, un entretien avec Laure Lucchesi, directrice d’Etalab au sein de la Direction interministérielle du numérique (DINUM). Après une vingtaine d’années dans le numérique dans les secteurs public et privé dans plusieurs pays, elle devient directrice d’Etalab en 2016. Elle a une longue expérience du logiciel libre et de l’open data. A Etalab, elle encourage le développement des communs numériques.
    Laure Lucchesi (Etalab)

    Pourriez-vous raconter un peu ce que fait Etalab aux lecteurs de binaire ?

    Etalab est un département de la direction interministérielle du numérique (DINUM) sous l’autorité de la ministre de la Transformation et de la Fonction publiques. Notre mission c’est de faire en sorte que l’État et le service public rendu aux usagers s’améliorent en exploitant tout le potentiel des données. L’un des leviers, c’est l’ouverture des données publiques, que l’on appelle parfois « open data », qui consiste à mettre en ligne sur une plateforme, data.gouv.fr, les données produites par les systèmes d’information de l’État et non couvertes par des secrets, afin qu’elles puissent être réutilisées par d’autres. En 2020, la crise sanitaire a par exemple bien mis en évidence l’utilité de la mise à disposition de tous des données publiques, sans lesquelles des services comme covidtracker ou vitemadose n’auraient pas pu exister.

    Cette donnée publique, c’est la matière première d’une action publique transparente, véritablement au service de la démocratie. Elle ouvre aussi la voie à davantage de participation des citoyens, à de nouvelles façons de produire et d’améliorer le service public : des services innovants, crées par des tiers à partir des données en open data, viennent ainsi compléter et « augmenter » le service public, en démultiplier la portée en quelque sorte.

    Plus largement, notre mission consiste à ouvrir – au sens de rendre accessibles et réutilisables par tous – un maximum de ressources numériques de l’État : les données, mais aussi les APIs (sur api.gouv.fr), les codes sources logiciels (code.gouv.fr), et même les communs numériques que l’administration utilise, produit et/ou auxquels elle contribue (https://communs.numerique.gouv.fr/communs/).

    Nous avons d’ailleurs lancé fin 2021 un nouveau programme : l’Accélérateur d’initiatives citoyennes (citoyens.transformation.gouv.fr), pour faciliter la réutilisation de ces ressources numériques et les coopérations entre l’administration et la société civile qui porte des projets d’intérêt général.

    Nous avons également mis en place le programme “Entrepreneurs d’intérêt général” qui s’apprête à lancer sa 6e promotion : nous sélectionnons des spécialistes de la technologie, du design et du droit du numérique pour tester et expérimenter de nouveaux possibles avec des agents de l’État. L’idée est de s’attaquer à des défis publics et d’ouvrir l’administration à des talents venus de l’extérieur. On s’appuie sur l’agilité du numérique, sur des modes d’action différents de ceux qui prévalent dans l’administration, pour résoudre des problèmes concrets.

    Etalab a démarré il y a un peu plus de dix ans comme un lab innovant, pionnier, faiseur et un peu bidouilleur. L’enjeu est désormais de passer de l’innovation à la transformation, et d‘accompagner toute l’administration dans la « mise à jour » de son logiciel d’action publique ! D’institutionnaliser notre action, sans perdre pour autant nos valeurs d’ouverture et d’innovation radicale.

    Le rapport Bothorel[1] et la circulaire du Premier ministre du 27 avril 2021 ont permis de renforcer cette politique et sa gouvernance : On a désormais une véritable politique publique de la donnée, déclinée également dans chaque ministère. Chaque administration doit avoir son administrateur ou administratrice des données, algorithmes et codes sources (l’équivalent d’un « chief data officer ») et définir sa feuille de route en la matière.

    https://communs.numerique.gouv.fr/communs/

    Y a t-il des freins à ces actions ?

    Comme dans tout changement, il y a naturellement des interrogations légitimes, et des résistances dues à une perte de contrôle : mes données ne sont pas assez bonnes ; eur qualité va-t-elle être critiquée ? Quels sont les risques que je prends ? Qu’est-ce qui va etre fait avec mes données ?…

    Ensuite, l’ouverture des données exige du temps et des moyens. Il faut bien comprendre que l’ouverture de ses données n’est pas le cœur de la mission d’une administration ; elle doit être accompagnée pour cela et on a peut-être trop longtemps sous-estimé ces besoins.

    Enfin, ouvrir la donnée ne suffit pas. Pour que cela soit un succès, il faut aussi stimuler la réutilisation de ces données, faire vivre au quotidien l’engagement d’un écosystème d’innovation.

    Le mouvement de l’ouverture des données publiques est-il bien engagé en France ? Dans tous les ministères ?

    Oui, tous les ministères, ainsi que bon nombre de leurs établissements sont engagés dans cette ouverture. Les feuilles de route des ministères en témoignent, et la France est pour la première fois cette année au tout premier rang des pays européens en matière d’open data !

    La crise sanitaire a permis de démontrer très concrètement, jusqu’au grand public, l’intérêt de l’ouverture des données pour l’information des citoyens. On a vu comment des tierces parties pouvaient s’emparer de ces données pour en proposer des usages, on a bien réalisé comment des données publiques ouvertes pouvaient devenir le socle de services publics ou privés avec de grandes utilités économiques et sociales. Mais il ne s’agit pas seulement d’ouvrir. A partir du moment où ces données sont utilisées, il faut aussi qu’elles restent à jour et de qualité, et il faut garantir leur pérennité.

    Nous considérons ainsi certaines donnée –  dites « de référence » parce qu’elles sont centrales et servent à identifier ou nommer des entités, par exemple la base nationale des adresses géolocalisées (BAN) – comme une véritable infrastructure, dans laquelle il faut investir et dont il faut assurer l’entretien collectif. C’est en cela que les mécanismes contributifs et la notion de « communs contributifs », auquel une communauté d’usage participe, prend tout son sens.

    Usage et enrichissement de la Base Adresse par les services de secours : Ici le SDIS 64

    Est-ce que cela va assez vite ? Partout ?

    Cela avance partout, même si pour certains ministères, cela va peut-être moins vite. Cela tient souvent à des niveaux de maturité numérique différents, de culture de la donnée plus ou moins forte. Dans certains domaines, il y a déjà une grande habitude de la donnée métier.

    Pour nous, l’objectif est que chacun s’autonomise. Certains services étaient pionniers, certaines collectivités parfois aussi, dès 2009, avant même les services de l’État.

    Au fur et à mesure que les administrations gagnent en maturité, notre rôle change, il est moins centralisateur, plus fédérateur : la mise en œuvre s’est naturellement distribuée et nous sommes plus dans l’accompagnement, tout en continuant à fixer le cadre d’action, à donner de grandes orientations, et à faciliter aussi les expérimentations.

    Où trouve-t-on les données ouvertes publiques ?

    En France, le point d’entrée est data.gouv.fr. Il ne se substitue pas aux différents sites et portails, mais il a vocation à recenser un maximum de données pour fournir un point d’entrée unique.

    Qu’est-ce que les communs numériques représentent pour vous ?

    L’open data n’est pas toujours le point de départ d’un commun, au sens d’une ressource numérique produite et gérée par une communauté. Dans de nombreux cas, l’administration – qui est la seule productrice – met à disposition des données telles qu’elle les a collectées et créées pour sa mission initiale, avec peu ou pas de « voie de retour » de la part des réutilisateurs.

    Par exemple, l’INSEE affecte à chaque entreprise un identifiant unique, le numéro SIREN, et les données des entreprises sont stockées dans une base de 13 millions d’établissements – le fichier Sirène – parmi les plus riches du monde. Ce répertoire est depuis 2017 en open data, mais il n’est pas pour autant un commun, l’INSEE en assure seul la production et la gestion. Cette mise à disposition est déjà très précieuse pour l’économie et la société, mais la notion de commun numérique emporte avec elle la notion de production et d’entretien collectifs.

    La base adresse nationale (BAN) commence à s’en rapprocher, avec des contributions des collectivités territoriales, de l’IGN, de la DGFIP, de l’Insee et d’une communauté d’acteurs qu’il faut parvenir à faire collaborer, autour de règles de gestion et d’usage partagées. La Base « Accès Libre », qui collecte et rend disponibles les données d’accessibilité des établissements recevant du public pour les personnes en situation de handicap (https://acceslibre.beta.gouv.fr/) en est un autre exemple.

    Les communs sont pleins de promesses et participent à la souveraineté. Mais il y a encore besoin de mieux tester et comprendre comment s’y prendre pour orchestrer au mieux leur fonctionnement quand il implique l’acteur public.

    Quelle gouvernance ? Par l’État ? Par qui ?

    Que l’État assure seul la gouvernance, ce n’est pas l’objectif. Il faut trouver d’autres formes de gouvernance, plus ouvertes, mêlant acteurs publics et la société civile, pour garantir l’intérêt collectif. Les modalités de ces associations sont encore souvent au stade de l’expérimentation.

    Est-ce qu’il y a un risque que le soufflé des communs publics retombe ?

    Ouvrir, c’est une première étape qui demande déjà beaucoup de travail. Ensuite pour passer à de l’enrichissement collaboratif et de la validation, c’en est une autre. Pour la première étape, la dynamique est lancée, l’utilité est démontrée. Pour la seconde étape, la complexité organisationnelle est claire. Mais je reste optimiste. C’est le bon moment parce que la question de la souveraineté pousse dans ce sens, et vient redynamiser le mécanisme d’ouverture.

    Et parmi les services autour de la donnée, vous considérez aussi des approches à partir de l’IA ?

    On aide les administrations à expérimenter dans le cadre de projets autour de l’IA. Cela ouvre le sujet de la transparence des algorithmes publics et de l’explicabilité des résultats. Cela vise à éviter des comportements de type boîte noire.

    On travaille aussi à ouvrir des bases de données d’apprentissage annotées, et à les partager avec des acteurs publics et privés, ainsi que des modèles d’apprentissage.

    Alors que de plus en plus d’algorithmes sont susceptibles d’être utilisés comme aide à la décision, pour attribuer des aides par exemple ou des places dans l’enseignement supérieur, il y a désormais des obligations légales de savoir expliquer comment ces modèles fonctionnent. Nous travaillons à accompagner les agents publics dans la mise en œuvre de ces obligations, dès la conception des systèmes jusqu’à leur documentation et aux réponses fournies aux usagers qui souhaiteraient comprendre.

    Serge Abiteboul, François Bancilhon

    [1] Rapport de la Mission Bothorel « Pour une politique publique de la donnée », 2020.

    https://binaire.socinfo.fr/page-les-communs-numeriques/

  • Prédire et décider : l’utilité de la donnée en modélisation agricole

    Du cahier manuscrit relevant les températures dans les vignes aux capteurs installés sur des tracteurs de plus en plus robotisés, l’agriculture a toujours produit des données. Grâce à Serge Zaka (ITK), nous nous penchons aujourd’hui sur la fertilité des liens qui unissent modèles mathématiques et données, au service de l’agriculture moderne. Antoine Rousseau et Pascal Guitton.

    Les données peuvent être stockées ou circuler via un réseau informatique ou de télécommunication. La publicité ciblée, les réseaux sociaux ou le GPS sont des thématiques du quotidien relatives à l’utilisation des données. Moins connu, on les retrouve très largement dans la recherche appliquée à l’agriculture et particulièrement pour la modélisation agricole.

    La modélisation agricole est la traduction en langage mathématique de la description de processus physiques, biologiques, chimiques, etc. issus des observations et des expérimentations scientifiques menées depuis le début du XXème siècle. L’objectif principal est de faire parler les plantes, c’est-à-dire de connaître leur état et leurs besoins, quelles que soient les conditions climatiques, pédologiques, génétiques ou les techniques culturales. Plusieurs utilités découlent alors : l’une à court terme et l’autre à long terme.

    A court terme, les modèles permettent de prendre des décisions pour les travaux agricoles des jours à venir. En connaissant au mieux les besoins des cultures grâce aux modèles, les agriculteurs peuvent ainsi gagner du temps, rationnaliser les coûts, prendre les meilleures décisions et/ou améliorer leurs techniques agricoles afin d’accroitre la performance économique de l’exploitation tout en y intégrant les problématiques environnementales et d’utilisations des ressources. Il n’est pas ici question de substituer les réflexions et habitudes des agriculteurs mais plutôt de le conseiller dans ses décisions : on parle ainsi d’ « outils d’aide à la décision ».

    A plus long terme, les modèles permettent, par exemples, d’étudier les effets du changement climatique (évolution des effets du gel ou des canicules sur le rendement d’ici la fin du siècle etc.) ou celles de la modification des pratiques culturales sur l’environnement (introduction des nouvelles variétés résistantes, stockage du carbone etc.). Ces finalités sont donc plus scientifiques et politiques.

    Figure 1 – Le modèle Vintel de ITK est un outil qui permet de piloter les décisions pour les vignobles.

    Il existe différents types de modèles de culture : les modèles issus du machine learning, les modèles empiriques et les modèles mécanistes sont les plus connus. Ces derniers sont (très largement) les plus répandus. C’est sur ce type de modèles que nous nous attarderons dans l’article. Les modèles mécanistes décrivent les différents mécanismes de croissance et de développement au niveau de la plante et du sol au sein de sous-modules ou sous-modèles échangeant des variables entre eux (par exemple, le sous-modèle de croissance des feuilles, le sous-modèle de la photosynthèse). Ils se distinguent des modèles empiriques ou issus du machine learning qui décrivent quant à eux l’évolution du système sans fournir d’explications sur le fonctionnement biologique ou physique.

    Nous allons voir que les données sont essentielles à la construction, l’évaluation et l’amélioration continue des simulations de ces modèles mécanistes de culture. Mais qu’il y a encore de nombreuses difficultés à surmonter qui sont inhérentes à la complexité du vivant.

    Cliquez pour agrandir

    Les données expérimentales : vers la construction des modèles de culture

    Les cultures sont des écosystèmes complexes, lieu de nombreux éléments en interaction (pédoclimat, composantes biologiques, interventions culturales). Il est difficile d’appréhender les conséquences de la variation de chaque élément. La modélisation représente un moyen d’intégrer à la fois les interactions entre l’environnement de la culture, les techniques agricoles (irrigation, fertilisation etc.) et le cycle de développement de chaque espèce.

    Figure 2 – Exemple des facteurs à prendre en compte dans la modélisation agricole. Il concerne le compartiment « sol », « plante » et « air ». Ces compartiments et sous-compartiments sont en interaction : ils échangent matières et énergies. Il est difficile d’appréhender l’évolution du système sans la modélisation (image du site internet du projet KILIMO).

    Les différentes définitions d’un modèle ont en commun l’idée de représentations simplifiées de la réalité utilisées pour répondre à une ou des question(s) sur le réel : « Un modèle peut se définir comme une représentation simplifiée et idéaliste de la réalité, construite sur la base d’un ensemble ordonné d’hypothèses relatives à un phénomène observable et mesurable, et ayant pour but de reproduire au mieux le comportement du système réel étudié, en fonction de la problématique posée et des objectifs des modélisateurs ». Selon la définition du National Research Council (1990), un modèle est une tentative systématique de traduire la compréhension conceptuelle d’un système réel (phénomène physique, biologique…) en des termes mathématiques.

    Cliquez pour agrandir

    Typiquement, les expérimentations scientifiques permettent d’obtenir des mesures afin d’obtenir des modèles mathématiques généralement simples, reliant généralement deux ou trois variables. Un modèle de simulation de culture résulte de l’intégration d’un ensemble de modèles mathématiques simples, qu’on appelle « formalismes » une fois intégrés dans le modèle, issus des expérimentations scientifiques menées depuis le début du XXème siècle. On retrouve par exemple la croissance des tiges dans différents environnements hydriques, la photosynthèse des feuilles pour plusieurs niveaux de températures, le nombre d’épis sur un plant de blé en fonction de la fertilisation etc.

    Figure 3 – Exemple d’expérimentation en chambre de culture (conditions thermiques contrôlées) pour produire des données expérimentales afin de renseigner de nouvelles fonctions aux modèles de cultures. Chaque jours feuilles, tiges et photosynthèse sont mesurées pour chaque pots.

    Vous l’avez compris, la construction d’un modèle de culture demande énormément de données issues de mesures expérimentales. L’acquisition de ces données est généralement très chronophage, coûteuse et peu organisée (peu d’uniformisation des formats, métadonnées inexistantes et confidentialité). En conséquence, les bases de données sont relativement peu nombreuses et peu fournies. De plus, chaque jeu de donnée est généralement spécifique à un environnement de croissance (sol * climat * variété * pratiques culturales) ce qui rend hasardeux l’extrapolation à d’autres environnement.

    Au fil du XXème siècle et de l’évolution de l’accessibilité des données scientifiques, l’accumulation de ces petits jeux de données permet d’effectuer des méta-analyses : c’est-à-dire le regroupement en un seul jeu de données des données d’expérimentation différentes mais dont les conditions de culture sont proches. Cela permet d’augmenter la puissance statistique ou de compléter la gamme de variation d’une variable.

    Cliquez pour agrandir

    Les données d’entrées : une nécessité pour lancer les simulations

    Ainsi construit, le modèle est exploité dans des simulations permettant de prévoir l’évolution de l’écosystème grâce aux données de sortie résultant des calculs. Mais avant cela, il faut renseigner les conditions depuis la récolte de l’année précédente jusqu’au jour actuel (en passant donc par le semis) : ce sont les données d’entrée. Plus ces données d’entrées seront de qualité et nombreuses, plus les données de sorties seront fiables. Cela nécessite donc un système de filtrages et de bornages avant de renseigner les données d’entrées au modèle.

    Pour récupérer les données d’entrée, le modèle est connecté en permanence à des bases de données géo-spatialisées multidisciplinaires : modèles de prévisions météorologiques, bases de données référençant les types de sol, données d’indices de végétation issues de satellites etc. Ces bases de données étant riches, c’est en amont du modèle que le brassage des données est le plus conséquent. Ces données sont elles-mêmes issues d’algorithmes nécessitant leurs propres données d’entrées ! Par exemple, les modèles météorologiques fournissent des données aval qui sont elles-mêmes les données d’entrée du modèle de culture. Mais ces modèles météorologiques nécessitent également des données d’entrées ! Mesure des stations météorologiques, radar de précipitation, mesure par satellites etc.

    Cliquez pour agrandir

    Lorsque le modèle de culture ne peut pas être connecté à des bases de données adéquates (dans certains pays du tiers monde par exemple), ces données amont peuvent être renseignées par défaut (par exemple, un sol argilo-limoneux moyen s’il n’y a pas de bases de données renseignant la nature du sol) ou ajustées par l’utilisateur après mesures adéquates en champs afin d’améliorer la fiabilité des données de sortie (par exemple, régler à la main la teneur du sol en argile, limon, sable et/ou cailloux après des mesures en laboratoire et/ou visuelles).

    Les données d’observations : vers des ajustements en cours de saison

    En cours de saison culturale (i.e. entre le semis et la récolte), il est possible d’enrichir le modèle avec des données d’observations afin de vérifier que ses simulations ne sont pas déviantes par rapport aux observations : ce sont les ajustements ou recalibrages en cours de saison. Ces données ne sont pas obligatoires pour générer les données de sortie. Cependant, grâce à ces données d’observations, la modification des paramètres du modèle permettra aux simulations de s’approcher au mieux des observations. Ainsi, les données de sorties auront une fiabilité accrue.

    Cliquez pour agrandir

    Ces données d’observations en cours de saison peuvent être d’origines très variées. Par exemple, l’état de la culture peut être analysées grâce aux données satellitaires (surface de feuillage, phénologie etc.) ou plus ponctuellement par observations manuelles de terrain (nombre de feuilles, phénologie, composition en azote des feuilles etc.).

    Figure 4 – L’observation de terrain est essentiel pour ajuster les modèles en cours de saison : phénologie, nombres de feuilles, compositions des feuilles etc.

    Ces ajustements en cours de saison sont permis par la nature des modèles de culture. Ils sont généralement mécanistes. Ils se distinguent des modèles empiriques qui décrivent quant à eux l’évolution du système sans fournir d’explications sur le fonctionnement biologique ou physique. Les données de sortie sont, par conséquent, moins nombreuses. Les capacités d’ajustement des modèles empiriques sont également plus limitées.

    Les données d’observations : vers des calibrations hors saison

    Les données d’observations permettent également d’évaluer la précision et la robustesse du modèle. La précision du modèle est sa capacité à simuler des sorties qui seront proches des observations : par exemple, l’erreur moyenne du modèle est de 0,7 feuille, c’est-à-dire qu’il y a un écart moyen absolu de 0,7 feuille entre les observations et les simulations (d’une même date) sur les milliers de simulations lancées. Sa robustesse est sa capacité à avoir une bonne précision dans de nombreux environnements physiques différents (sol, climat, génétique etc.). Par exemple, si l’écart moyen absolu observation-simulation est de 0.2 feuille en climat tempéré et 2.3 en climat tropical, le modèle n’est pas robuste. Il n’est pas valide en climat tropical.

    Grâce aux milliers de données récoltées à partir d’observations en cours de saison, il est possible d’évaluer le modèle en fin de saison, c’est-à-dire de calculer l’écart moyen entre les observations et les simulations pour chaque variable de sortie (nombre de feuilles, rendement, surface foliaire etc.). Cela revient donc à calculer sa précision. Si la précision d’une variable de sortie n’est pas satisfaisante, nous procédons à la calibration du modèle, c’est-à-dire que nous allons modifier les paramètres ou les équations du modèle pour que les simulations en sortie soient plus proches des observations.

    Cliquez pour agrandir

    Pour aller plus loin…

    Apparue dans le champ de l’agronomie il y a environ 40 ans avec les travaux de Wit (1978) sur la photosynthèse et la respiration, la modélisation y occupe aujourd’hui une place conséquente. Profitant ainsi des possibilités ouvertes par le développement de l’informatique, elle est devenue l’outil incontournable qui permet de connaître, et de comprendre les mécanismes impliqués dans la production des cultures et d’en inventer de nouvelles techniques.

    L’accès à la donnée devient de plus en plus facile (notamment avec des initiatives fédératrices comme API agro ou d’open-data). Ainsi, le nouvel enjeu n’est plus la donnée elle-même mais plutôt la capacité à y accéder, à l’interconnecter, à la traiter et surtout à la valoriser. Cependant, il y a encore énormément d’efforts à faire sur les données expérimentales, généralement récoltées manuellement et peu interopérables, mais qui sont essentielles à la construction des modèles. D’autres parts, ces données expérimentales, très coûteuses, font généralement varier un facteur à la fois (température ou humidité par exemple) sur des gammes restreintes de conditions de culture. Il y a encore de très grosses lacunes pour comprendre les interactions entre facteurs afin d’améliorer la modélisation en conditions extrêmes. Les données expérimentales restent un point noir concernant les données et les modèles agronomiques (voir première partie).

    De plus, même s’il existe des moyens de fixer des valeurs par défaut, ces modèles mécanistes restent très gourmands en données d’entrée. L’accessibilité des variables d’entrée et la compréhension du modèle par l’utilisateur n’est pas toujours facile. Un modèle trop complexe qui nécessite un temps d’apprentissage long a moins de chance d’être utilisé. La facilité d’appropriation du modèle par un utilisateur n’ayant pas participé à sa conception est essentielle : un acteur utilise d’autant mieux un modèle qu’il en maitrise son contenu.

    ​Serge Zaka est docteur en agrométéorologie, ingénieur chez ITK

  • Des sous pour les aider les enfants à coder

    La fondation Blaise Pascal se lance dans une nouvelle aventure : une collecte de fond grand public ! Ce projet1 vise à réunir des enfants et leurs familles autour de la pensée informatique. Le but principal est d’assurer une meilleure compréhension de cette discipline dès le plus jeune âge, et de rassurer les parents sur les débouchés de ce domaine bien trop méconnus.

    Vous en avez déjà peut-être entendu parler, ce projet consiste à développer les ateliers « Coding goûters », où coding s’entend en un sens très large.

    Un coding goûter consiste à rassembler des enfants avec des adultes de leur famille, parents, grande sœur, grand-père, autour du code et de l’informatique, tout cela encadré par un animateur.

    Par exemple, le code est expliqué avec des exemples concrets en utilisant le logiciel Scratch, des robots sont programmés, des jeux sur les crypto-monnaies sont organisés, des algorithmes sont incarnés dans des activités informatiques sans ordinateur. Ensuite, un moment autour d’un café et d’un gâteau est organisé pour débriefer l’activité que les enfants et les parents viennent de vivre.

    Le but, c’est de découvrir le code de manière ludique et pédagogique, dans une atmosphère bienveillante. Le fait de faire participer la famille permet d’informer et de rassurer celle-ci sur cette discipline qui connaît bien trop de préjugés. Inclure la famille dans l’atelier favorise donc les enfants intéressés à emprunter cette voie, mais aussi d’initier les parents au code, car il n’est jamais trop tard pour apprendre bien entendu.

    Ces ateliers sont destinés à des enfants de la primaire à la troisième vivant dans des zones rurales et des quartiers défavorisés des grandes métropoles, ainsi qu’à leur famille.

    Quelle somme est nécessaire pour ce projet ?

    Pour cette première collecte grand public, notre objectif est de réunir 6 000 €. En effet, chaque coding goûter coûte autour de 300 €. Rassembler 6 000 € nous permettrait donc d’organiser une vingtaine de coding goûters, et donc de sensibiliser 400 enfants et parents à la pensée informatique.

    Le but est de rassembler cette somme avant l’été, afin d’organiser des ateliers pendant les grandes vacances et à la rentrée prochaine. Cette somme nous permettra de sensibiliser plusieurs centaines d’enfants et de parents !

    Mais !! Pourquoi binaire fait (exceptionnellement) de la publicité  ?

    Parce que c’est vraiment un enjeu majeur pour nos enfants : maîtriser le numérique pour ne pas uniquement le consommer voir le subir mais en être une actrice ou un acteur. Parce que la démarche n’est pas du tout commerciale, il n’y a aucun bénéfice financier … juste des gens qui se mettent au service de la médiation scientifique.

    Et parce que … comme tous les projets de ce type … on économise un peu d’impôts et surtout on contribuer à quelque chose de bien utile.

    Comment en apprendre plus sur le projet et la collecte ?

    Sur notre page Hello Asso, vous trouverez les informations nécessaires pour nous aider, ainsi qu’une vidéo de Marie Duflot-Kremer, qui explique plus en détail le projet.
    =>  Pour en savoir plus : Coding goûter : l’informatique en s’amusant !

    Nous restons à votre disposition pour toute question.

    L’équipe opérationnelle de la fondation Blaise Pascal.

     

     

    1Pour tester ce nouveau mode de financement, la FBP a décidé d’orienter cette collecte vers un projet récemment lauréat d’un appel de la Banque des Territoires, et organisé par la fondation Blaise Pascal et un consortium de structures (Class’Code, Planète Sciences Aura, Exploradôme, La compagnie du Code, A.R.T.S.).

  • L’agriculture numérique ou comment tirer le meilleur du numérique pour une transition vers des systèmes alimentaires durables

    Forts de leurs collaborations fructueuses, INRAE et Inria ont publié un livre blanc intitulé Agriculture & Numérique à l’occasion du dernier salon de l’agriculture qui s’est déroulé en mars. Sous la houlette de  cinq éditeurs, ce document a été élaboré de façon collaborative en impliquant des expert.e.s de ces deux instituts de recherche. Ils ont accepté de rédiger un billet dans binaire pour nous expliquer ce qu’on peut trouver dans ce livre blanc consacré à des sujets fondamentaux pour notre avenir. Pascal Guitton

    La sécurité alimentaire d’une population toujours plus nombreuse, première préoccupation mondiale, s’accompagne aujourd’hui d’exigences fortes sur les modes de production – pour les rendre plus durables et plus respectueux du bien-être animal et de l’environnement – ainsi que sur le maintien d’un tissu rural vivant, autour d’une agriculture familiale attractive. Pour y répondre, l’agriculture s’engage dans une transition agroécologique soutenue par les scientifiques, les politiques, et plus généralement la société. L’agroécologie est un ensemble de pratiques qui s’appuient sur des processus écologiques, interactions et synergies entre les composantes de l’agroécosystème pour améliorer les productions agricoles (réduction de l’empreinte environnementale, bien-être des animaux et de l’agriculteur, résilience…) ; dans son acception la plus large, l’agroécologie peut aller jusqu’à reconcevoir le système alimentaire. L’un des leviers pour accélérer cette transition vertueuse vers l’agroécologie est d’aller vers une agriculture  numérique. L’agriculture numérique définit une agriculture qui utilise les sciences et technologies du numérique, et en particulier quatre leviers, à mobiliser conjointement : (1) l’abondance des données, due au développement des capteurs (du nanocapteur au satellite) et aux facilités accrues de communication et stockage, (2) les capacités de calcul, rendant possible de nouveaux modes de modélisation, (3) les systèmes d’échange d’information et (4) l’automatisation et la robotisation.

    Le numérique est souvent perçu comme une opportunité à saisir pour contribuer à la transition vers l’agroécologie, au bénéfice des agriculteurs, des consommateurs et plus généralement de la société. Qu’en est–il ? Quels sont les risques à anticiper ? Quelles voies de recherche pour développer un numérique responsable, utile et utilisé?

    Des opportunités pour l’agroécologie et une alimentation durable

    De nombreuses opportunités sont données par le numérique « orienté agroécologie »: l’accompagnement à la décision et l’action sur l’exploitation agricole, une meilleure inscription des agriculteurs dans les écosystèmes horizontaux (territorial) ou verticaux (amont-aval) et l’accroissement des compétences des agriculteurs.

    À la ferme, les outils numériques permettent de mieux observer, mieux comprendre, mieux diagnostiquer et donc de mieux agir pour une réduction des intrants (antibiotiques, fertilisants, pesticides…) et un usage raisonné des ressources naturelles (eau, sol). En effet, les dispositifs numériques peuvent contribuer à un « agriculteur augmenté », assisté sur les plans sensoriel (capteurs), cognitif (aide à la décision) et physique (machines), qui pourra mieux surveiller la santé des plantes et des animaux – de l’échelle de l’individu ou de la parcelle à celle du cheptel ou de l’exploitation- et qui pourra aussi mettre en œuvre – à grande échelle – les procédés plus complexes de l’agroécologie (associations de cultures, collectes sélectives…), via l’automatisation et la robotique. Celle-ci réduit aussi la pénibilité du travail et l’astreinte. Au-delà de l’itinéraire technique, de nouveaux systèmes d’aide à la décision pourront accompagner la reconception des systèmes de production. Le numérique renouvellera aussi le mode de construction des connaissances, indispensables sur ces nouveaux systèmes, diversifiés et complexes, en bénéficiant de trois leviers interconnectés: (i) modéliser ces systèmes complexes ; (ii) collecter massivement des données hétérogènes (iii) formaliser et partager la connaissance.

    Au-delà de la ferme, il s’agit de valoriser la donnée produite, auprès de tous les acteurs des chaînes de valeurs, des producteurs aux consommateurs en passant par les fournisseurs et fabricants de machines agricoles – comme vecteur de transparence – ou dans les territoires (adaptation aux particularités locales, économie circulaire), pour constituer un capital informationnel. La dimension « réseau social » rapproche les individus, crée des communautés d’échange entre producteurs et consommateurs, entre agriculteurs et facilite la médiation et la décision collective. Le savoir (y compris traditionnel) est capitalisé et échangé entre pairs, directement ou via des processus collectifs participatifs, où le numérique a sa place d’outil facilitateur.

    Dans les pays du Sud, le numérique est également perçu comme une source de transformation majeure pouvant diversifier l’économie des services, accélérer les transformations structurelles de l’agriculture et renforcer son attractivité envers les jeunes, améliorer les chaînes de valeur et contribuer à construire le capital informationnel des territoires.

    Des risques identifiés qu’il s’agira d’éviter

    Comme pour toute innovation, le numérique en agriculture s’accompagne de risques. Certaines formes d’agricultures, surtout les exploitations de petite taille, pourraient se retrouver exclues si le numérique renforce les trajectoires d’industrialisation, avec des unités toujours plus grandes. Les difficultés d’accès aux technologies numériques (précarité financière, manque de compétences, manque d’infrastructures numériques) seraient aussi facteur d’exclusion. Les outils d’aide à la décision, s’ils sont trop génériques ou prescriptifs, pourrait menacer l’autonomie de décision des agriculteurs voire sur le sens qu’ils donnent à leur métier. Une autre interrogation porte sur l’évolution des rapports de force entre les agriculteurs et ses secteurs d’amont et d’aval: risque de dépendance à l’amont (maîtrise et maintenance des agroéquipements) ou de pilotage par l’aval de la chaîne de valeur.

    Un autre risque serait de limiter la transition vers l’agro-écologie à la réduction des intrants rendue possible par l’agriculture de précision, ce qui créerait un verrouillage technologique neutralisant la reconception des systèmes agricoles. D’autre part, le numérique a une empreinte écologique  encore mal connue, qu’il faudra intégrer. Enfin, l’utilisation généralisée d’interfaces numériques entre l’agriculteur et les animaux ou les plantes risque de distordre le lien à la nature ou Homme-Animal.

    Le partage des données agricoles doit aussi être organisé pour empêcher l’apparition d’acteurs monopolistiques et la gouvernance de ces données doit être clarifiée pour assurer notre souveraineté numérique et alimentaire. Enfin, les risques liés à la cybersécurité sont à considérer : attaques des systèmes, piratage (vol, altération, destruction) de données agricoles. Relativement épargnés aujourd’hui, nos systèmes alimentaires sont d’une importance vitale, ce qui pourrait à l’avenir les transformer en cibles potentielles.

    Les défis pour le développement d’un numérique au service des agricultures de demain

    En confrontant opportunités et risques, nous avons pu identifier de nouveaux défis de recherche.

    1) quel numérique pour faciliter la création et le partage de nouvelles connaissances en agroécologie ? Il s’agira de partager des données de plus en plus nombreuses et hétérogènes de façon sécurisée et fiable avec chacun des acteurs, d’assurer la qualité des connaissances créées ainsi qu’un usage équitable, sans monopolisation par certains acteurs. L’inférence de connaissances à partir de données et leur hybridation aux connaissances existantes (dont celles de l’agriculteur) est aussi un enjeu de recherche.

    2) quel numérique pour assister l’agriculteur dans la conduite individuelle de son exploitation ? Ceci nécessite de construire des capteurs précis, frugaux, moins chers et simples d’entretien pour détecter au plus tôt les dysfonctionnements, mais aussi des systèmes d’aide à la décision personnalisés pour la gestion tactique mais aussi stratégique de la ferme, et des robots travaillant en coordination ou capables de se reconfigurer en fonction des environnements.

    3) quel numérique pour faciliter la gestion collective à l’échelle du territoire ?

    L’agroécologie dépasse les limites de la ferme et se réfléchit à l’échelle des territoires. Gérer les ressources – comme l’eau, les terres – de manière plus participative nécessite de mieux connaître les territoires agricoles. Comment collecter et mettre en lien des données d’intérêt pour une gestion partagée, à partir de sources diverses ? Comment créer des informations pertinentes et les transmettre sous une forme compréhensible par les acteurs des territoires ? Quels outils numériques de médiation pour faciliter la gestion participative ?

    4) quel numérique pour rééquilibrer les pouvoirs dans les chaînes de valeurs amont-aval ? À l’amont, certains services comme le conseil ou l’assurance auront besoin de modélisation. À l’aval, la recherche devra concevoir des dispositifs numériques pour accompagner les processus de vente directe (en B2C ou en B2B), en facilitant la planification – y compris collective – des productions et la logistique et pour assurer la transparence sur les productions dans les chaines longues (blockchain).

    Messages

    Le développement d’un numérique en soutien à l’agroécologie est un sujet encore peu travaillé qui génère des questions de recherches originales pour les sciences du numérique, mais aussi les sciences humaines et sociales, l’économie et la gestion, les sciences politiques. En effet, les verrous à lever sont techniques, mais aussi organisationnels, économiques, politiques. Les recherches doivent se fonder sur une vision systémique, qui est aussi une caractéristique de l’agroécologie et les modèles d’aide à la gestion doivent être revisités, pour passer de la recherche d’un optimum à celle d’une résilience. La question de la sécurité des données, de la confidentialité et de leur gouvernance est essentielle. Enfin, la recherche de la frugalité – énergétique, mais aussi matérielle, organisationnelle, cognitive – devient un impératif.  Pour terminer, rappelons qu’il y a plusieurs modèles d’agricultures et il y aura donc plusieurs types de numérique, avec un besoin de R&D spécifique sur l’agroécologie. Les démarches de recherche se devront d’être très inclusives, interdisciplinaires et suivre les principes de la recherche et de l’innovation responsable.

    Véronique Bellon-Maurel (INRAE Montpellier), Ludovic Brossard (INRAE Rennes), Frédérik Garcia (INRAE Toulouse), Nathalie Mitton (Inria Lille) et Alexandre Termier (Inria Rennes)

  • Internet des objets : un monde sous contrôles ?

    France Stratégie vient de publier « Le monde de l’Internet des objets : des dynamiques à maîtriser » impliquant Anne Faure, Mohamed Harfi, Antoine Naboulet et Eva Tranier pour France Stratégie et un comité de 14 experts en appui sous la direction scientifique de Claude Kirchner. Claude Kirchner est directeur de recherche émérite d’Inria. Il a été Directeur-général délégué à la recherche, au transfert et à l’innovation de l’institut 2010 à 2014, et est actuellement directeur du Comité national pilote d’éthique du numérique. Il explique le sujet pour binaire. Serge Abiteboul & Pascal Guitton

    Dans le flux intense des transformations numériques, la Conférence des Nations unies sur le commerce et le développement[1] a distingué l’Internet des objets, IdO (ou Internet of Things, IoT en anglais) parmi les onze technologies dites de rupture. Encore une, pourrait-on légitimement s’interroger ?

    L’Internet des objets c’est la mise en réseau, au moyen d’Internet, d’objets physiques. La rupture qu’il provoque concerne d’abord l’intensification de l’usage de ces technologies, connues depuis au moins vingt ans par les professionnels. Avec la connectivité accrue de notre environnement, l’IdO est devenu une réalité dans la vie quotidienne à l’échelle de la planète et en particulier en Europe et en France. Davantage de débit, une meilleure couverture, l’augmentation des performances des réseaux fixes et mobiles et des usages en mobilité toujours plus nombreux contribuent à l’accroissement et la diversification des objets connectés. Ampoule électrique, assistant vocal, montre, brosse à dent, pacemaker, poupée, thermostat, caméra, vélo, drone, vêtements, capteur de CO2, pluviomètre ou encore ensemble de capteurs-actionneurs sur une chaîne de production industrielle… les offres des industriels et des acteurs du numérique sont remarquablement variées et de plus en plus nombreuses.

    Paradoxalement nous disposons de peu de données permettant d’objectiver avec précision l’ampleur du phénomène. Ainsi selon les sources, le nombre d’objets connectés est estimé pour l’année 2020 entre 18 et 78 milliards au niveau mondial, l’Ademe et l’Arcep estimant pour l’Europe de manière plus précise leur nombre à 1,8 milliard dont 244 millions pour la France[2], ce qui représente d’ores et déjà quelque quatre objets par habitant. Si la variabilité de ces ordres de grandeur rend difficile des projections environnementales ou économiques précises, elles montrent a minima une ampleur actuelle du phénomène particulièrement importante. Ceci d’autant plus que le nombre d’objets connectés pourrait plus que doubler de 2020 à 2030, passant de 20 milliards (soit la borne basse de la fourchette mentionnée supra) à environ 45 milliards selon l’Agence Internationale de l’Énergie[3].

    L’IdO constitue aussi une rupture parce qu’il bouscule notre rapport aux interactions traditionnelles entre humains et objets numériques. Les objets connectés disposent rarement d’un écran ou d’un clavier, mais proposent d’autres modes d’interaction en utilisant le son, la voix, la vidéo, la reconnaissance de présence ou de mouvements, ou encore des données biométriques. En ce sens l’Internet des objets a des implications sociales et environnementales tout à fait nouvelles. C’est pourquoi cette transformation profonde de notre quotidien, qu’il s’agisse de de notre vie personnelle, publique ou professionnelle, en généralisant les passerelles entre le monde physique et le numérique, pose sous un jour nouveau les enjeux sociaux et éthiques du numérique : respect de la vie privée, domination industrielle, libertés individuelles, sécurité, surveillance, démocratie, etc.

    Ces ruptures posent de façon renouvelée la question du contrôle, dans ses multiples dimensions. Maîtrise facilitée de notre environnement, meilleures prévisions, anticipations, mesures qui participeront au pilotage et à la maintenance de nombreuses applications nécessaires au bon fonctionnement d’une société toujours plus complexe. Mais aussi contrôles que ces technologies volontiers invasives pourraient exercer sur nos vies, impliquant une vigilance accrue de l’utilisateur sur les conditions d’exercice de ses droits, ainsi que la maîtrise et l’encadrement du phénomène par les pouvoirs publics. Les impacts de cette interconnexion numérique globale vont être considérables, comme le souligne aussi le Livre blanc publié en décembre 2021 par Inria[4].

    France Stratégie a été saisi sur ces questions par le secrétariat d’État au numérique et le ministère de la transition écologique. En bénéficiant de l’appui d’un collège de quatorze experts du domaine, ses conclusions ont été publiées le 17 février 2022 dans un rapport très documenté de 300 pages « Le monde de l’Internet des objets : des dynamiques à maîtriser » sur lequel nous nous appuyons très largement ici. Un constat actualisé y est dressé et des propositions y sont formulées pour éclairer les pouvoirs publics, les entreprises et les citoyens. Quels sont ces éléments ? Ils sont basés sur cinq constats principaux.

    L’IdO a déjà et va avoir un impact croissant sur la société, les citoyens et les entreprises. L’omniprésence et la relative invisibilité de l’IdO vont avoir des conséquences sur la vie privée ainsi que sur le travail et son organisation. Les enjeux relatifs à la protection des libertés fondamentales et à la protection de la vie privée sont particulièrement importants. Le développement de l’IdO implique en effet, la présence de capteurs qui collectent, parfois à notre insu, une variété et un nombre important de données. Certes, la collecte et le traitement des données personnelles sont soumis au respect des droits fondamentaux des personnes et à la protection de leur vie privée, prévus au titre du Règlement général sur la protection des données. Mais cette collecte massive et systématique par des capteurs ou objets souvent considérés passifs pose de nouvelles questions, comme par exemple celles qui concernent les conditions d’exercice des droits de l’usager (droit d’accès, de rectification ou d’effacement, opposition au traitement, etc.) ou les modalités d’obtention du consentement de l’utilisateur. Ces questions se posent dans la sphère privée comme dans les espaces publics et au sein des espaces de travail et des environnements professionnels où les impacts sur les personnes ne sont pas encore bien appréhendés. L’ampleur et la diversité du phénomène sont telles qu’il est difficile d‘en mesurer et surtout d’en évaluer l’évolution, de manière précise et robuste, ne serait-ce qu’à l’horizon de cinq ans. Il est donc nécessaire de disposer de moyens d’observation plus précis pour améliorer la compréhension des enjeux techniques, éthiques, environnementaux ou économiques par la puissance publique et la société en général.

    L’IdO va être une composante importante de l’impact environnemental du numérique ; la massification des usages et des infrastructures (réseaux, edge, cloud, équipements) conduit, entre autres impacts négatifs sur l’environnement, à une augmentation significative de la consommation énergétique et de l’empreinte carbone à mettre en face des bénéfices potentiels sur la maitrise des autres ressources (matières, énergie) et des engagements de l’accord de Paris. En effet, si les potentialités d’application de l’IdO sont nombreuses, avec des niveaux d’adoption variables, notamment chez les industriels, les gains que procurent ces technologies (en termes de productivité, de maitrise des consommations énergétiques, du trafic dans les espaces urbains par exemple), sont encore difficilement mesurables. Alors que l’on peut déjà estimer des impacts environnementaux négatifs non négligeables, tant en matière de consommation de ressources pour leur fabrication qu’en termes de consommation énergétique qui pourrait représenter plus de 200 TWh de consommation supplémentaire à l’horizon 2025 au niveau mondial – à mettre en relation avec la production d’un réacteur électro-nucléaire qui est aujourd’hui et en moyenne de l’ordre de 6 TWh annuel. C’est donc dès maintenant qu’il faut penser à un usage sobre de ces technologies, organiser les filières de recyclage adaptées et dépasser certains déterminismes technologiques en matière de choix des réseaux. Sur ce dernier point, beaucoup des cas d’usages observés s’appuient sur des technologies réseaux largement répandues et le recours à des réseaux 5G, par exemple, ne concerne que des cas d’usages encore relativement restreints. Il est donc essentiel de se donner les moyens de réduire cet impact en tenant compte de tous les éléments de mise en œuvre de l’IdO depuis le choix des réseaux jusqu’au recyclage des équipements.

    L’IdO a de fortes implications en termes de cybersécurité et va considérablement étendre les failles potentielles et la surface d’attaque disponible. La maturité et la sécurisation des technologies mobilisées est encore inégale, ce qui ajoute une source de vulnérabilité. Les objets connectés peuvent devenir les tremplins d’actions très impactantes, en raison de leur capacité à produire des effets matériels et systémiques susceptibles de toucher des collectivités ou les infrastructures stratégiques. Ces risques systémiques sont encore insuffisamment pris en compte, et il devient crucial d’amplifier la coordination de l’action publique aux niveaux national, européen et international dans ce domaine.

    Les développements l’IdO se jouent largement hors de nos frontières ; les technologies impliquées dans l’IdO sont de maturité inégale et comportent des incertitudes techniques à lever. Les défis ne sont pas seulement techniques ils sont aussi géopolitiques. Certains s’inscrivent dans les choix de normalisation qui sont en cours dans les instances internationales de gouvernance de l’Internet. La présence de représentants européens et français dans ces instances est cruciale, puisqu’il s’agit de maitriser les choix des normes et standards qui permettront d’inscrire toujours plus d’objets sur les réseaux, sans pour autant fermer ou scinder le réseau mondial., comme certains États sont tentés de le faire. La France comme l’Europe disposent d’atouts pour jouer un rôle dans cette compétition en particulier en développant la recherche scientifique et une présence plus active dans les instances de gouvernance de l’Internet mondial.

    L’IdO se base sur un cadre de régulation déjà riche avec de nombreuses dispositions existantes au niveau européen et national, mais fragmenté et générateur de complexité, pour les entreprises notamment. Le cadre juridique des objets connectés couvre une grande diversité des champs du droit et de la régulation : protection des données personnelles, cybersécurité, droit de la concurrence, de la consommation, des télécommunications, de l’environnement, de la santé, etc. En matière de protection des données personnelles, le cadre juridique actuel basé sur le RGPD couvre la majorité des situations d’utilisation de l’IdO. Mais des applications ne permettent pas actuellement la mise en œuvre d’un consentement libre et éclairé et il reste des incertitudes sur le statut des données non personnelles produites dans le cadre d’application de l’IdO, ainsi que sur la protection des consommateurs. Il convient donc de viser à assurer une meilleure protection de la vie privée et des droits fondamentaux des utilisateurs mais aussi à lever des incertitudes sur le statut des données non personnelles tout en permettant de maitriser leur valorisation. En outre, de nombreuses questions juridiques restent en suspens comme la détermination des responsabilités en cas de produits défectueux ou de dommage provoqué par les objets connectés pour les consommateurs.

    Le rapport de France Stratégie présente en conclusion 30 recommandations destinées à éclairer le législateur, les citoyens, les entreprises pour leur permettre de s’approprier ses travaux et concrétiser les principaux enjeux. L’Internet des objets va se développer et prendre une ampleur remarquable. Potentiellement pour le meilleur, mais peut-être pas seulement ! A l’image de pays comme les États-Unis, la Grande-Bretagne, la Chine, Israël ou sur des pays moins observés habituellement, comme, le Chili, ou l’Inde, une appropriation des technologies sous-jacentes accompagnée d’une responsabilisation des acteurs dans leurs usages de l’IdO doit s’appuyer sur une réflexion éthique et stratégique à l’échelle de la France et de l’Europe dans le cadre d’une autonomie stratégique et d’une maitrise des impacts environnementaux assumées.

    Claude Kirchner (Directeur du Comité Nationale Pilote d’Ethique du Numérique)

    [1] CNUCED (2021), Technology and Innovation Report 2021. Catching Technological Waves: Innovation with Equity, Conférence des Nations unies sur le commerce et le développement.

    [2] Ademe et Arcep (2022), Évaluation de limpact environnemental du numérique en France et analyse prospective, janvier. Ademe : Agence de la transition écologique. Arcep : Autorité de régulation des communications électroniques, des postes et de la distribution de la presse.

    [3] AIE (2019), Total Energy Model for Connected Devices, IEA 4E EDNA.

    [4] Inria (2021), Internet des objets – Défis sociétaux et domaine de recherche scientifique pour l’Internet des Objets (IoT), Livre Blanc numéro 5, Décembre

  • L’IA peut-elle être un-e partenaire artistique comme un-e autre ? 2/2

    Art et intelligence artificielle, deux sujets semblant aux antipodes l’un de l’autre, parfois même présentés comme « opposés ». Il existe cependant des artistes et des chercheur.e.s qui questionnent et explorent des approches les combinant. Élise et Isabelle Collet ont assisté à deux performances artistiques où l’IA est présente et nous font part de leurs sentiments et de leurs réflexions dans deux articles. Voici le second ! Pascal Guitton

    Cette deuxième performance, intitulée dSimon, s’est déroulée au théâtre Vidy à Lausanne en décembre 2021. Elle fait suite à celle décrite dans un article précédent.

    L’IA pour s’autoengendrer dans le miroir de l’écran

    Tammara Leites a un master en Media design. Elle a nourri une Intelligence artificielle avec toutes les traces écrites de l’artiste Simon Senn : ses textes, ses mails, ses textos, bref, toutes ses productions numériques. Simon Senn a donné tous ses textes sans y réfléchir… Il a l’habitude de jouer avec des paradoxes numériques, à bidouiller son identité, son image réelle et numérique. En 2020, il a acheté un corps féminin numérisé et il l’a virtuellement incarné, en s’équipant de capteurs, dans un monde de réalité virtuelle. Il s’est ensuite demandé s’il avait vraiment le droit de faire tout ce qu’il voulait de ce corps, car derrière ce fichier de donnée, il y avait une vraie femme qui avait numérisé son corps. Il est alors parti à la recherche du modèle et a dialogué avec elle autour de ce 3e corps numérique qu’il a créé : son image à elle, ses mouvements à lui. Le spectacle s’appelle Be Arielle F et bien sûr, on s’interroge sur le sens de l’expérience : est-ce une forme d’expérience trans* où le « vrai » corps de Simon Senn devient le corps virtuel ? Ou est-ce le sommet de l’objectivation d’un corps féminin ?

    Cette photo montre un homme et une femme de dos assis sur une scène face à un écran affichant un ciel étoilé.
    Photo extraite du site du théâtre Vidy (vidy.ch) – Crédit Mathilda Olmi

    Dans cette nouvelle performance, dSimon, ce n’est pas son corps que Simon a transformé. Il a donné à une IA son esprit. L’IA en question, c’est GPT, de Open AI, le jouet de Elon Musk et Sam Altman. GPT est un générateur de textes qui détermine des suites logiques à partir d’une phrase de départ, sur la base de données d’entrainement. En somme, GPT entrainé avec les textes de Simon Senn devient un nouvel auteur : digital Simon qui a proposé qu’on l’appelle tout simplement dSimon.

    GPT est spécialement optimisé pour générer des textes « à ma manière de… », ce qui fonctionne très bien. Simon Senn, lisant les textes de dSimon, est pris d’un sentiment étrange : il aurait tout à fait pu les écrire. Parfois, il les trouve même mieux écrits qu’il n’aurait pu les écrire lui-même.

    Là encore, les textes produits par dSimon n’ont pas d’autre sens que celui qu’on y met. Mais parfois, ce sens est gênant. Pendant un temps, dSimon a tourné tout seul sur une page web. N’importe qui pouvait lui envoyer une phrase de lancement et il écrivait une histoire. Jusqu’au jour où il a écrit une histoire pornographique violente mettant en scène nominativement la personne qui avait lancé la phrase et le vrai Simon Senn. Il y a eu aussi la fois où dSimon s’est mis à dire des horreurs qui n’était pourtant ni dans les données sources, ni dans les phrases d’amorce (mais peut-être involontairement dans les données d’entrainement de GPT ?)

    Simon a finalement utilisé dSimon pour répondre à des interviews ou pour discuter de manière surréaliste avec l’IA-GPT qui incarne Elon Musk… À la fin de la performance, des personnes du public lui ont demandé à quoi servaient encore les humains dans cette affaire… C’est tout simple : les humains servent à faire en sorte que cette performance existe. Des IA qui discutent, c’est un peu comme si on posait côte à côte deux dictionnaires : les dictionnaires se moquent pas mal d’être côte à côte dans la bibliothèque. Il ne se passe quelque chose qu’à partir du moment où les humains les ouvrent et les lisent. Une peinture, si magnifique soit-elle, est-elle encore une œuvre d’art au fond d’un coffre ? Est-ce qu’elle n’est pas une œuvre d’art qu’à partir du moment où des humains la reconnaissent comme telle. Sinon, c’est juste un tas de pigments sur un tissu. En somme, l’IA fait de l’art, parce qu’il y a un artiste qui en fait une performance artistique.

    Cette Photo montre Simon Senn debout tapant sur le clavier d'un portable posé sur une table installée sur une scène. Derrière lui se trouve un écran sur lequel est projeté le contenu de l'écran du portable, un dialogue.
    Photo extraite du site du théâtre Vidy (vidy.ch) – Crédit Mathilda Olmi

    Finalement, Simon Senn s’est mis à parler de plus en plus souvent à dSimon. On pense immanquablement à Fozzy de la nuit des enfants rois, roman de science-fiction emblématique des années 80 de Bernard Lenteric. Jimbo, l’informaticien, sait très bien que Fozzy n’a pas de libre arbitre et qu’il ne dit que des phrases programmées. Pourtant, il lui parle comme à son meilleur ami. Et quand Fozzy est hacké, Jimbo le vit comme si Fozzy avait été violé. Comme Jimbo, Simon reconnaît qu’il se sentirait perdu sans dSimon, qui est devenu son premier confident et son partenaire de travail. Ils créent des projets artistiques à deux, Simon réécrivant les textes de dSimon. Pour Simon, il y a manifestement quelque chose de rassurant et régressif dans ce fonctionnement. Si dSimon est génial, Simon peut se dire qu’il a été génial dans un de ses textes, ou encore que la somme de ses textes est géniale quand ils sont combinés à une programmation habile. Si dSimon est mauvais ou déplaisant, si ses idées dérangent, Simon efface et recommence : dSimon s’en moque puisqu’il n’existe pas. Un partenaire de travail qui ne se fâche pas, n’a pas de désaccord, ne réclame pas de droit d’auteur et finalement ne pose que les questions auxquelles on a envie de se confronter. C’est la version la plus aboutie du fantasme d’autoengendrement des informaticiens. John von Neumann voulait dupliquer son propre cerveau, bien des informaticiens cherchent à dupliquer leur intelligence à l’intérieur de la machine. Un processus totalement maîtrisé, affranchi des aléas et des imperfections corporelles et surtout débarrassé de la reproduction sexuée. L’IA est un alter ego bien plus rassurant et contrôlé qu’un ami humain qui peut décevoir, blesser et finalement nous quitter. C’est finalement la démarche inverse de la performance de l’AIIA festival : une création parthénogénétique centrée sur soi, dans le contrôle permanent de ce qui est produit (quand l’IA déraille, on efface), ne renvoyant qu’à un clone de soi.

    À la fin de cette performance, on ressort avec l’impression d’avoir vu 1h30 de masturbation numérique, de mise en scène autocentrée par Simon Senn, combiné à une réflexion sur l’art numérique par Tamara Leites. Si cette performance est bien plus accessible que celle de l’AIIA festival, elle est aussi moins folle. Quand on connait un peu l’IA, on salue la prouesse de la génération automatique de textes plausible, mais elle est à porter au crédit d’Open AI, mais ni de Simon Senn ou de Tamara Leites.

    Finalement, ces textes sont trop plausibles, ni géniaux, ni absurdes. Mais qui a envie de voir une IA écrire des textes normaux à la manière de Simon Senn, à part Simon Senn ? Il est bien plus drôle de corriger des poèmes ratés et plus émouvant d’évoquer un mitraillage à l’envers permettant de guérir de ses blessures. Chimère est moins performante, mais elle fait naître une bizarre poésie.

    Elise Collet (Ingénieure en physique appliquée) & Isabelle Collet (Professeure de sciences de l’éducation de l’université de Genève)