Catégorie : Informatique

Pour un développement des IAs respectueux de la vie privée

Une matinée d’étude sur les Intelligences Artificielles (IA)s et la vie privée a été organisée par les projets Digitrust et OLKi de Lorraine Université d’Excellence le 10 juin. Cette matinée, animée par Cyrille Imbert, philosophe des sciences au CNRS, était centrée sur la restitution de la charte « Pour un développement des IAs respectueux de la vie privée » rédigée par Maël Pégny, chercheur à l’Université de Tübingen, lors de son post-doctorat à OLKi. La charte introduit un certain nombre de principes pour des IA respectueuses de la vie privée mais dont la mise en œuvre n’est pas toujours évidente et qui ont été discutés au cours des différentes interventions. Compte-rendu. Ikram Chraibi Kaadoud et Laurence Chevillot.

Maël Pegny, Chercheur post-doctoral en Ethique en IA à l’Université de Tübingen, auteur de charte « Les 10 principes de l’éthique en IA »

Pour Maël Pégny il s’agit de proposer aux développeurs et développeuses un cadre éthique et opérationnel permettant le respect de la vie privée par les IAs, en intégrant l’éthique dès les premières phases du développement. L’objectif de la charte est d’inciter les programmeurs et programmeuses à se positionner sur ces problématiques. Elle est dédiée essentiellement aux défis posés à l’éthique dès la conception par la reconstitution des données d’entraînement à partir de modèles d’IA et le pouvoir prédictif trop fin.

Contexte

Dans un modèle d’apprentissage machine, la distinction entre programme et données n’est pas claire car les paramètres du programme sont déterminés par entraînement sur une base de données particulières. Certaines attaques permettent une reconstitution des données d’entraînement à partir des informations encodées dans les paramètres du modèle : on parle alors de “rétro-ingénierie” des données. Si le modèle a été entraîné sur des données personnelles, on peut ainsi retrouver celles-ci, même si elles ont été détruites après l’entraînement du modèle. Donc si un modèle entraîné lambda est sous licence libre, ses paramètres sont en libre accès. Il se pose alors la question de la protection des données personnelles incluses dans le modèle. Ces attaques sur les modèles d’IA représentent donc un point de tension entre l’ouverture du logiciel et le respect de la protection des données personnelles. Cette tension devrait devenir un enjeu de positionnement pour les partisans du logiciel libre, des communs numériques et de la reproductibilité de la recherche. Ce problème éthique se pose dans la configuration technologique présente car, s’il existe des techniques de protection contre ces attaques de rétro-ingénierie, il n’existe pas de barrière de sécurité mathématiquement prouvée offrant une garantie absolue contre elles.

L’intelligence artificielle au service des humains. ©Blurredculture.com

Le développement d’un pouvoir prédictif trop fin de certains modèles d’IA peut également poser des problèmes éthiques complexes. Par exemple, un logiciel de complétion textuelle fondé sur l’apprentissage machine peut ainsi permettre de trouver le numéro de carte de crédit de l’utilisateur en tapant la phrase « Mon numéro de carte de crédit est… ». Là encore, cette attaque demeure possible même si on détruit les données brutes de l’utilisateur, parce que les informations personnelles ont été encodées dans le modèle durant son interaction avec l’utilisateur. Il s’agit bien d’un pouvoir prédictif trop fin, et d’ailleurs imprévu, car le logiciel de complétion est fait pour apprendre les pratiques d’écriture de l’utilisateur, et non ses données personnelles. Attention toutefois à ne pas confondre le problème de pouvoir prédictif trop fin avec la suroptimisation ou le phénomène de sur-apprentissage (l’apprentissage des données par cœur plutôt que de caractéristiques généralisables), car il peut survenir très tôt dans l’apprentissage. Pour protéger les données personnelles, il convient donc aussi de veiller au respect de sa spécification par le modèle d’apprentissage machine.

La Charte: les 10 principes de l’éthique en IA

Le triangle éthique avec les trois pôles d’une carte éthique @wikicommon

HAL est une plateforme en ligne du CNRS, destinée au dépôt et à la diffusion de travaux de recherches (articles scientifiques, rapports techniques, manuscrit de thèse etc.) de chercheurs, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. L’accès aux données est libre et gratuit, mais pas nécessairement leur utilisation ou réutilisation. @Wikipedia

La charte, disponible sur la plateforme HAL du CNRS au lien ici, énonce dix principes que l’on peut résumer ainsi :

Principe 1 – Dans le cadre de recherches scientifiques, déclarer les finalités et l’extension nécessaire de la collecte, puis apporter une justification scientifique à tout écart à cette déclaration initiale, en discutant ces possibles impacts sur la vie privée .

Principe 2 – Tester et questionner les performances finales du modèle par rapport à la finalité déclarée, et veiller à éviter l’apparition d’un pouvoir prédictif trop fin .

Principe 3 – Prendre en compte le respect de la vie privée dans l’arbitrage entre suroptimisation et perte de performances.

Principe 4 – Entraîner son modèle sans faire usage de données personnelles. Si cela est impossible, voir les principes plus faibles 5 et 6.

Principe 5 – Entraîner son modèle sans faire usage de données personnelles dont la diffusion pourrait porter atteinte aux droits des personnes.

Principe 6 – Entraîner son modèle sans faire usage de données ayant fait l’objet d’un geste explicite de publication.

Principe 7 – Si le recours à des données personnelles est inévitable, déclarer les raisons justifiant ce recours, ainsi que les mesures prises contre la rétro-ingénierie des données et leur complétude par rapport à l’état de l’art.

Principe 8 – Diffuser en licence libre tous les outils de lutte contre la rétro-ingénierie.

Principe 9 – Si le principe 8 n’entraîne pas de risque de sécurité intolérable, mettre le modèle à disposition de tous afin que chacun puisse vérifier les propriétés de sécurité, et justifier explicitement la décision prise.

Principe 10 – La restriction de l’accès à un modèle entraîné sur des données personnelles ne peut être justifiée que par des enjeux d’une gravité tels qu’ils dépassent les considérations précédentes. Cette exception doit être soigneusement justifiée, l’emploi du modèle devant être réduit dans sa temporalité et ses modalités par les raisons justifiant l’exception. L’exception doit être justifiée en des termes prenant en compte la spécificité scientifique des modèles d’apprentissage machine, comme la capacité à apprendre en temps réel de grandes masses de données, l’opacité du fonctionnement et son évolution, et leurs performances comparées aux autres modèles.

Pour être bien compris, ces principes appellent quelques commentaires:

Le premier principe est conçu pour encadrer la liberté donnée par le droit existant à la recherche scientifique de modifier la finalité du traitement et l’extension de la collecte des données, contrairement aux autres activités de développement où la collecte est restreinte à ce qui est nécessaire à une finalité pré-déclarée. Il s’agit d’instaurer une traçabilité des décisions d’extension de la collecte, et une prise en compte systématique de leurs risques en termes de respect de la vie privée.

L’invitation à ne pas utiliser de données personnelles ne vise naturellement pas à interdire tout entraînement de modèle sur des données personnelles, qui est incontournable pour nombre d’applications de grand intérêt comme la recherche médicale. Il vise seulement à empêcher de considérer la collecte de données personnelles comme une évidence par défaut, et s’interroger sur la possibilité de stratégies de contournement employant des données moins problématiques.

Les principes 5 et 6 ne peuvent être compris que si l’on voit que l’extension du concept de donnée personnelle est extrêmement large, un fait radicalement sous-estimé par le grand public. Elle comprend toute donnée concernant une personne physique (vivante). Non seulement cela n’est en aucun cas restreint à des données qu’on qualifierait intuitivement de « privées » ou « sensibles, » mais il comprend des données publiques par nature : par exemple, la phrase « Madame Diomandé est maire de sa commune. » comprend une donnée personnelle sur Madame Diomandé que personne ne songerait à qualifier de privée. Il convient donc de s’interroger sur la possibilité de restreindre la collecte des données personnelles à un sous-ensemble non-problématique. L’exclusion des données considérées « sensibles », considérée dans le principe 5, fait l’objet de travaux techniques aux performances intéressantes, mais pose de redoutables problèmes de définition et d’opérationnalisation. La restriction aux données faisant l’objet d’un geste de publication explicite, explorée dans le principe 6, peut sembler une solution simple et pratique. Mais il convient de rappeler qu’une personne peut porter atteinte à la vie privée d’une autre dans ses publications, et que le geste de publication n’est pas un solde de tout compte pour le droit des données : l’exercice des droits à rectifier des informations erronées, à retirer une publication, à l’effacement (« droit à l’oubli ») et leurs difficiles opérationnalisations face aux modèles d’apprentissage machine posent de nombreux défis.

La mise sous licence libre des outils de lutte contre la rétro-ingénierie (principe 7) et l’ouverture des modèles à la vérification (principe 8) constitue une forme d’approche libriste des modèles d’apprentissage machine : ces modèles doivent être ouverts à tous non seulement pour respecter les principes fondamentaux du logiciel libre, mais aussi pour vérifier leur respect de la vie privée. Cette ouverture pose cependant le problème redoutable du « vérificateur voleur » : en ouvrant ainsi les modèles à la vérification en l’absence actuelle de barrières de sécurité dures, on crée la possibilité d’atteintes à la vie privée. Nous ouvrons donc la possibilité de limiter l’application stricte des principes libristes dans le dernier principe : s’il est absolument indispensable d’entraîner un modèle sur des données personnelles sensibles, et que son ouverture à la vérification publique présentait un grave danger de « vérificateur voleur », il est possible de justifier une exception à la perspective libriste stricte. Il est légitime de craindre que l’introduction d’une exception ouvre la porte à la violation massive de la perspective libriste dans la pratique. Trancher la question d’une approche libriste stricte aurait cependant supposer de s’engager dans des débats philosophiques bien au-delà de la portée de cette charte. Doit-on par exemple autoriser l’entraînement d’un modèle de Traitement Automatique de la Langue sur des quantités énormes de données tirées des réseaux sociaux si cela permet de mieux suivre la progression d’une pandémie ? La charte a donc choisi de rester modeste, et d’ouvrir le débat en demandant avant tout à chacun de prendre position explicitement et honnêtement, en prenant en compte les risques politiques autant que techniques de chaque position. La charte a avant tout été conçue pour montrer que la conciliation du développement de l’apprentissage machine avec le respect de la vie privée pose un problème fondamental aux communautés du logiciel libre, des communs numériques et de la reproductibilité, et que ce problème mérite d’être discuté. Les principes de la charte sont introduits non pas tant pour susciter des adhésions que pour susciter des réactions et la discussion de cas, qui permettra un véritable retour sur expérience sur l’opérationnalisation de ces principes : il ne faut pas séparer opérationnalisation et question de principe.

Une charte opérationnelle nécessaire .. mais de nombreuses questions encore en suspens

Marc Anderson, philosophe et chercheur.

Marc Anderson, philosophe canadien en post-doctorat au LORIA, spécialiste de l’éthique de l’IA et militant libriste (un libriste est une personne attachée aux valeurs éthiques véhiculées par le logiciel libre et la culture libre en général. @wikipedia), a noté qu’en général les chartes sont peu ancrées dans la réalité mais que cette charte a au contraire le mérite d’introduire des suggestions précises dans ses principes : une approche progressive dans l’exclusion des données, une mention directe des propriétés singulières des modèles de l’apprentissage automatique, l’incitation à entraîner les modèles sans données personnelles. Il souligne l’importance du contexte pour décider du niveau de protection des données personnelles (par exemple pour les cookies* des sites web, quelles sont les sociétés qui ont accès à nos données?), d’où l’importance de travailler directement avec les concepteurs d’IAs.

Les cookies des sites web sont de petits fichiers de texte qui sont enregistrés sur l’ordinateur d’un utilisateur à chaque fois qu’il visite un site. Ni logiciels espions ni virus, ils peuvent toutefois servir au pistage de l’activité internet d’un utilisateur.

Maël Pégny a remarqué qu’un autre problème difficile à aborder est celui de l’inférence de données sensibles à partir de données publiques, que les capacités statistiques accrues de l’apprentissage automatique ont contribué à rendre plus fréquentes. On peut ainsi inférer avec une confiance forte votre orientation sexuelle à partir de vos activités sur les réseaux sociaux, ou votre état de santé, comme une possible maladie neuro-dégénérative, à partir de vos activités sur les moteurs de recherche. Comme le proposent un bon nombre de juristes, il devient nécessaire non seulement de reconceptualiser la portée et de lever les ambiguïtés de la notion de données personnelles, mais aussi d’étendre le droit au-delà des données brutes pour réguler les inférences.

Bastien Guerry, militant libriste

Bastien Guerry, militant libriste, remarque qu’un modèle d’apprentissage se rapproche plus d’un programme compilé et qu’il n’existe pas encore de bonnes pratiques de publication pour ce type d’objets. La publication des éléments entrant dans la construction d’un modèle crée un dilemme éthique : les licences libres visent à permettre à l’utilisateur de se réapproprier les codes sources pour lutter contre l’asymétrie de pouvoir entre les producteurs de logiciels et les utilisateurs, mais dans le cas de modèles d’IA, une telle publication entre en conflit avec le besoin de respecter la vie privée. Bastien Guerry note la difficulté de définir une éthique pour la production et la publication de modèles d’apprentissage. Si les données sont gardées secrètes se pose le problème de la reproductibilité des résultats. Si des données personnelles, même publiques, sont utilisées se pose le problème du consentement. Il indique aussi qu’il faut distinguer deux points de vue libristes sur le traitement des données personnelles. Une position forte, qui proscrirait de confier le traitement des données personnelles à un tiers. Une position souple, qui autoriserait de confier des données à un tiers de confiance si celui-ci s’engage à respecter un cadre éthique*. La charte n’est pas acceptable du point de vue de la position forte.

Les positions forte et souple sont défendues respectivement par Richard M. Stallman, fondateur du mouvement du logiciel libre, et Bastien Sibille, président et fondateur de Mobicoop, une plateforme coopérative de covoiturage. Voir le débat sur les logiciels libres et les plateformes coopératives.

Daniel Adler, mathématicien et philosophe français.

Daniel Andler, professeur émérite de philosophie à Paris-Sorbonne et membre de l’Académie des sciences morales et politiques, considère que la charte a pour principale vertu de susciter des réactions. Comme désormais toute donnée publique est trouvable et exploitable, faut-il accepter que le domaine privé a disparu ? Il suggère de développer une éthique pratique de terrain non généralisable, pour arbitrer chaque cas. L’approche d’éthique dès la conception laissée à elle-même est insuffisante : il faut également proposer des mesures de répression du mauvais usage de l’IA. Pour Maël Pégny, une telle remarque est compatible avec l’esprit de la charte. Celle-ci insiste en introduction sur l’impossibilité de résoudre tous les problèmes éthiques en amont, et sur la nécessité d’empêcher les institutions d’utiliser le label « éthique dès la conception » comme un blanc-seing (Feuille blanche sur laquelle on appose sa signature et que l’on confie à quelqu’un pour qu’il la remplisse lui-même @Larousse) les protégeant à l’avance de toute critique. Le développement éthique doit être pensé sur tout le cycle de vie du logiciel, et comprendre un retour sur expérience incluant les problèmes éthiques imprévus rencontrés après le déploiement : c’est l’une des principales raisons pour laquelle la charte invite à ne séparer discussion de principe et discussion de l’opérationnalisation.

Le mouvement du libre a incité des développeurs à prendre conscience de la responsabilité qu’ils ont dans le respect des libertés des utilisateurs ; un mouvement éthique comparable doit naître pour inciter les datascientistes à respecter la vie privée des personnes dont ils manipulent les données.

23 novembre 2021
Odyssée urbaine autour de la transition numérique

Nous vous invitons à partager les réflexions déambulatoires de Sylvain Petitjean et Samuel Nowakowski à l’occasion de la parution du livre « Demain est-il ailleurs ? Odyssée urbaine autour de la transition numérique ». La qualité de leurs échanges et de leurs questionnements sur l’impact du numérique dans notre société nous ont donné envie de les partager sur binaire. Avec l’aimable autorisation des auteurs et du site Pixees, nous republions l’intégralité de l’article. Marie-Agnès Enard et Thierry Vieville.

Ce texte est un échange épistolaire qui s’est installé suite à la parution du livre «Demain est-il ailleurs ? Odyssée urbaine autour de la transition numérique» co-écrit par Bruno Cohen, scénographe, réalisateur et metteur en scène, et Samuel Nowakowski, maître de conférences à l’université de Lorraine et chercheur au LORIA.

Paru en octobre 2020 chez FYP Editions, ce livre rassemble les rencontres avec celles et ceux qui vivent aujourd’hui cette transformation radicale. Au cours d’une déambulation de 24 heures dans la ville, les personnes rencontrées abordent les notions de temps, parlent du déséquilibre, de leurs incertitudes et du mal-être, mais aussi de leurs émerveillements et de leurs rêves. Elles questionnent des thèmes centraux de notre société que sont la surveillance, le contrôle, le développement d’un capitalisme numérique prédateur. Elles parlent aussi de cet ailleurs des pionniers qui s’est matérialisé dans nos sociétés en réseau, traversées par les nécessaires réflexions à mener sur l’éthique, l’écologie, l’apprentissage, la transmission et le rapport au savoir. Arpentant l’univers de la ville à la recherche de la transition, nous découvrons petit à petit qu’elle s’incarne sous différentes formes chez les uns ou les autres, dans l’espace public et privé, et dans tous les milieux au sein desquels nous évoluons — naturels, sociaux, politiques, éducatifs, technologiques…

Sylvain Petitjean est l’une de ces personnes rencontrées. Sylvain est chercheur au centre Inria à Nancy. Il est également président du Comité opérationnel d’évaluation des risques légaux et éthiques (Coerle) chez Inria.

Sylvain et Samuel ont souhaité poursuivre la conversation entamée dans le livre, ouvrant ainsi d’autres champs de réflexion. Cet échange s’est étalé sur plusieurs semaines, sous forme épistolaire, dans des conditions temporelles à rebours de l’urgence et de l’immédiateté ambiante. En voici le contenu.

Samuel : L’éthique kantienne sur laquelle notre société moderne s’est construite, s’énonce ainsi : « Agis de telle sorte que tu puisses également vouloir que ta maxime devienne loi universelle ». Or aujourd’hui, au vu des enjeux, des transitions multiples auxquelles nous faisons face, ne sommes-nous pas devant un besoin de disposer d’une éthique basée sur le principe de responsabilité à l’égard des générations futures et de notre environnement. Hans Jonas énonce le Principe responsabilité : « Agis de telle façon que les effets de ton action soient compatibles avec la permanence d’une vie authentiquement humaine sur Terre ». Ce qui implique que le nouveau type de l’agir humain consiste à prendre en considération davantage que le seul intérêt « de l’homme » et que notre devoir s’étend plus loin et que la limitation anthropocentrique de toute éthique du passé ne vaut plus ?

Dans le cadre du numérique, et de tout ce qui se présente à nous aujourd’hui en termes d’avancées scientifiques, dans le domaine qui est le nôtre, ne devons-nous pas repenser ce rapport au vivant et nos pratiques ?

Sylvain : Il est vrai qu’il n’est plus possible de considérer que les interventions techniques de l’humain sur son environnement sont superficielles et sans danger, et que la nature trouvera toujours comment rétablir elle-même ses équilibres fondamentaux. La crise écologique et les menaces pesant sur l’humanité et la planète impliquent quasi naturellement, pour Jonas et d’autres, d’orienter l’agir vers le bien commun en accord avec notre sentiment de responsabilité. D’où la proposition de refonder l’éthique comme une éthique de la responsabilité et du commun capable d’affronter l’ampleur des problèmes auxquels fait face la civilisation technologique, pour le bien-être et la survie des générations futures.

Les technologies du numérique présentent par ailleurs un autre défi de taille, probablement inédit, du point de vue de l’éthique. Cela a notamment trait à la logique grégaire associée à l’usage des services Internet : plus un service est utilisé par d’autres usagers, plus chacun trouve intéressant de l’utiliser parce qu’il peut en obtenir davantage d’informations et de contacts, créant un effet boule de neige. Cet «effet de multitude», comme l’ont baptisé les économistes, transforme en effet l’étendue et la nature des enjeux éthiques. Alors que l’éthique est usuellement un sujet qui arrive a posteriori du progrès, dès lors que des dérives sont constatées, il sera de plus en plus difficile, avec la démultiplication des possibilités et le changement d’échelle, d’être avec le numérique dans la réaction face à un problème éthique. En d’autres termes, les problématiques éthiques et juridiques vont devenir insolubles si on ne les traite pas en amont de la conception des technologies numériques (ethics by design). Cela dessine les contours d’une éthique plus proactive, en mesure d’accompagner de façon positive le développement et l’innovation.

Malheureusement, nous n’en sommes vraisemblablement qu’aux balbutiements de l’étude et de la maîtrise de ces questions dans le domaine du numérique. Il suffit de faire un pas de côté en direction de la biomédecine et des biotechnologies et de mesurer le chemin parcouru autour des lois de bioéthique pour s’en convaincre. Or le temps presse…

Samuel : Imprégnés de l’actualité qui est la nôtre, et en paraphrasant Tocqueville, « on ne saurait douter [qu’aujourd’hui] l’instruction du peuple serve puissamment [à la compréhension des enjeux de notre temps qu’ils soient politiques, technologiques, écologiques]. [N’en sera-t-il pas] ainsi partout où l’on ne séparera point l’instruction qui éclaire l’esprit de l’éducation qui règle les mœurs ? » La maîtrise de toutes ces questions ne doit-elle pas passer par cette nécessaire instruction du plus grand nombre ? Comment nous préserver du fossé qui risque de se creuser entre ceux qui sont instruits de ces enjeux et ceux qui n’y ont pas accès parce qu’ils font face à un horizon scolaire et social bouché ? Or, la méthode la plus efficace que les humains ont trouvée pour comprendre le monde (la science) et la meilleure façon qu’ils ont trouvée afin d’organiser le processus de décision collective (les modes démocratiques) ont de nombreux points communs : la tolérance, le débat, la rationalité, la recherche d’idées communes, l’apprentissage, l’écoute du point de vue opposé, la conscience de la relativité de sa place dans le monde. La règle centrale est d’avoir conscience que nous pouvons nous tromper, de conserver la possibilité de changer d’avis lorsque nous sommes convaincus par un argument, et de reconnaître que des vues opposées aux nôtres pourraient l’emporter.

Malheureusement, à l’école, les sciences sont souvent enseignées comme une liste de « faits établis » et de « lois », ou comme un entraînement à la résolution de problèmes. Cette façon d’enseigner s’oppose à la nature même de la pensée scientifique. Alors qu’enseigner, c’est enseigner l’esprit critique, et non le respect des manuels ; c’est inviter les étudiants à mettre en doute les idées reçues et les professeurs, et non à les croire aveuglément.

Aujourd’hui, et encore plus en ces temps troublés, le niveau des inégalités et des injustices s’est intensifié comme jamais. Les certitudes religieuses, les théories du complot, la remise en cause de la science et de la démocratie s’amplifient et séparent encore plus les humains. Or, l’instruction, la science et la pensée doivent nous pousser à reconnaître notre ignorance, que chez « l’autre » il y a plus à apprendre qu’à redouter et que la vérité est à rechercher dans un processus d’échange, et non dans les certitudes ou dans la conviction si commune que « nous sommes les meilleurs ».

L’enseignement pour permettre [la compréhension des enjeux de notre temps qu’ils soient politiques, technologiques, écologiques] doit donc être l’enseignement du doute et de l’émerveillement, de la subversion, du questionnement, de l’ouverture à la différence, du rejet des certitudes, de l’ouverture à l’autre, de la complexité, et par là de l’élaboration de la pensée qui invente et qui s’invente perpétuellement. L’école se caractérise ainsi à la fois par la permanence et l’impermanence. La permanence dans le renouvellement des générations, le « devenir humain », l’approche du monde et de sa complexité par l’étudiant sur son parcours personnel et professionnel. L’impermanence, dans les multiples manières de « faire humain »… et donc dans les multiples manières d’enseigner et d’apprendre. Entre permanence et impermanence, la transition ?

Sylvain : En matière d’acculturation au numérique et plus globalement d’autonomisation (empowerment) face à une société qui se technologise à grande vitesse, il faut jouer à la fois sur le temps court et le temps long. Le temps court pour agir, pour prendre en main, pour ne pas rester à l’écart ; le temps long pour réfléchir et comprendre, pour prendre du recul, pour faire des choix plus éclairés.

Daniel Blake, ce menuisier du film éponyme de Ken Loach victime d’un accident cardiaque, se retrouve désemparé, humilié face à un simple ordinateur, point de passage obligé pour faire valoir ses droits à une allocation de chômage. Où cliquer ? Comment déplacer la souris ? Comment apprivoiser le clavier ? Ces questions qui semblent évidentes à beaucoup le sont beaucoup moins pour d’autres. La dématérialisation de la société est loin d’être une aubaine pour tous. Prenons garde à ce qu’elle ne se transforme pas en machine à exclure. L’administration — dans le film — fait peu de cas de ceux qui sont démunis face à la machine ; on peut même se demander si ça ne l’arrange pas, s’il n’y a pas une volonté plus ou moins consciente d’enfoncer ceux qui ont déjà un genou à terre tout en se parant d’équité via l’outil numérique. Daniel Blake, lui, veut juste pouvoir exercer ses droits de citoyen et entend ne pas se voir nier sa dignité d’être humain. De la fable contemporaine à la réalité de nos sociétés il n’y a qu’un pas. Réduire la fameuse fracture numérique, qui porte aujourd’hui encore beaucoup sur les usages, doit continuer d’être une priorité qui nécessite de faire feu de tout bois et à tous les niveaux. Et il faut absolument s’attacher à y remettre de l’humain.

Mais ce n’est pas suffisant. Les politiques d’e-inclusion doivent aussi travailler en profondeur et dans le temps long. De même que l’on associe au vivant une science qui s’appelle la biologie (qui donne un fil conducteur permettant d’en comprendre les enjeux et les questions de société liées, et de structurer un enseignement), on associe au numérique une science qui est l’informatique. Pour être un citoyen éclairé à l’ère du numérique et être maître de son destin numérique, il faut pouvoir s’approprier les fondements de l’informatique, pas uniquement ses usages. « Il faut piger pourquoi on clique » disait Gérard Berry. Car si les technologies du numérique évoluent très vite, ces fondements et les concepts sur lesquels ils s’appuient ont eux une durée de vie beaucoup plus grande. Les maîtriser aujourd’hui, c’est s’assurer d’appréhender non seulement le monde numérique actuel mais aussi celui de demain. Y parvenir massivement et collectivement prendra du temps. Le décalage entre la culture informatique commune de nos contemporains et ce que nécessiteraient les enjeux actuels est profond et, franchement, assez inquiétant, mais sans surprise : la révolution numérique a été abrupte, l’informatique est une science jeune, il faut former les formateurs, etc.

Conquérir le cyberespace passe aussi par le fait de remettre à l’honneur l’enseignement des sciences et des techniques, à l’image du renouveau dans les années cinquante impulsé par les pays occidentaux confrontés à la « crise du Spoutnik » et à la peur d’être distancés par les Soviétiques dans la conquête spatiale, comme le rappelle Gilles Dowek. Or la révolution scientifique et technologique que nous vivons est bien plus profonde que celle d’alors. Et il importe de commencer à se construire une culture scientifique dès le plus jeune âge, à apprendre à séparer le fait de l’opinion, à se former au doute et à la remise en cause permanente. « C’est dès la plus tendre enfance que se préparent les chercheurs de demain. Au lieu de boucher l’horizon des enfants par un enseignement dogmatique où la curiosité naturelle ne trouve plus sa nourriture, il nous faut familiariser nos élèves avec la recherche et l’expérimentation. Il nous faut leur donner le besoin et le sens scientifiques. […] La formation scientifique est — comme toute formation d’ailleurs, mais plus exclusivement peut-être — à base d’expériences personnelles effectives avec leur part d’inconnues et donc leurs risques d’échecs et d’erreurs ; elle est une attitude de l’esprit fondée sur ce sentiment devenu règle de vie de la perméabilité à l’expérience, élément déterminant de l’intelligence, et moteur de la recherche indéfinie au service du progrès. » Ces mots datent de 1957, au moment de la crise du Spoutnik ; ils sont du pédagogue Célestin Freinet qui concevait l’éducation comme un moyen d’autonomisation et d’émancipation politique et civique. Ils n’ont pas pris une ride. Continuité des idées, des besoins, des enjeux ; renouvellement des moyens, des approches, des savoirs à acquérir. Permanence et impermanence…

Samuel : Tant d’années ! Tant de nouveaux territoires du savoir dévoilés ! Et toujours les mêmes questions, toujours le même rocher à hisser au sommet de la même montagne !

Qu’avons-nous foiré ou que n’avons-nous pas su faire ? Ou plutôt, quelles questions n’avons-nous pas ou mal posées ?

« S’il y a une chose qui rend les jeunes êtres humains allergiques à l’imagination, c’est manifestement l’école » ont écrit Eric Liu et Scott Noppe-Brando dans Imagination first. Alors que se passerait-il si l’école devenait pour les jeunes êtres humains une expérience vivante et valorisante ? Et si nous étions là pour les accompagner vers l’idée qu’il n’existe pas qu’une seule réponse, une seule manière d’être dans le monde, une seule voie à suivre ? Que faut-il faire pour que les jeunes êtres humains aient la conviction que tout est possible et qu’ils peuvent réaliser tout ce dont ils se sentent capables ?

A quoi ressemblerait la société ?

Alors, à rebours de l’imaginaire populaire dans lequel on imagine l’immuabilité des lieux et des choix effectués, comment agir pour favoriser l’émergence d’« agencements » comme chez Deleuze, ou encore d’« assemblages » suivant la notion empruntée à Bruno Latour ? Non pas une matrice dans laquelle nous viendrions tous nous insérer, mais en tant qu’acteurs ne cessant de se réinventer dans une création continue d’associations et de liens dans un « lieu où tout deviendrait rythme, paysage mélodique, motifs et contrepoints, matière à expression ». Chaque fois que nous re-dessinons le monde, nous changeons la grammaire même de nos pensées, le cadre de notre représentation de la réalité. En fait, avec Rutger Bregmann, « l’incapacité d’imaginer un monde où les choses seraient différentes n’indique qu’un défaut d’imagination, pas l’impossibilité du changement ». Nos avenirs nous appartiennent, il nous faut juste les imaginer et les rendre contagieux. Nos transitions ne seraient-elles pas prendre déjà conscience que « si nous attendons le bon vouloir des gouvernements, il sera trop tard. Si nous agissons en qualité d’individu, ça sera trop peu. Mais si nous agissons en tant que communautés, il se pourrait que ce soit juste assez, juste à temps ».

Pour cela, il nous faudra explorer la manière dont les acteurs créent ces liens, et définissent ce que doit être la société. Et la société est d’autant plus inventive que les agencements qu’elle fait émerger sont inventifs dans l’invention d’eux-mêmes.

Des avenirs s’ouvrent peut-être, par une voie difficile et complexe nécessitant de traverser la zone, les ruines, les turbulences et les rêves. Nous pourrions imaginer essaimer l’essence vitale de cette planète, en proie à des destructions physiques et métaphysiques, pour faire renaître l’humanité, la vie, la flore et la faune dans les étoiles. Nous pourrions, avec d’autres, former le projet de partir à bord d’un vaisseau emportant dans ses flancs, outre des embryons humains et animaux, un chargement de graines, spécimens, outils, matériel scientifique, et de fichiers informatiques contenant toute la mémoire du monde et, plus lourd encore, le « poids considérable des rêves et des espoirs ».

Ou alors nous pourrions tout simplement former un projet non pas de « revenir à l’âge de pierre [un projet] pas réactionnaire ni même conservateur, mais simplement subversif parce qu’il semble que l’imagination utopique soit piégée […] dans un futur unique où il n’est question que de croissance ». Ce projet que nous pourrions essayer de mener à bien « c’est d’essayer de faire dérailler la machine ». Ces quelques mots d’Ursula Le Guin nous rappellent que nos avenirs nous appartiennent et que nous avons le pouvoir d’imaginer, d’expérimenter de construire à notre guise et de jouer avec nos avenirs communs et individuels afin de commencer à désincarcérer le futur.

Sylvain : Comment panser l’avant et penser l’après, alors que toutes les menaces semblent s’accélérer, alors que tous les risques semblent se confirmer ? Comment essayer de réinventer un futur véritablement soutenable ?

Certains ingrédients sont connus : décroitre, renforcer la justice sociale, déglobaliser, réduire la pression sur les ressources naturelles, développer l’économie circulaire, etc. Je voudrais ici en évoquer deux autres, sous la forme d’un devoir et d’un écueil.

Le devoir consiste à se dépouiller de cet « humanisme dévergondé » (C. Lévi-Strauss) issu de la tradition judéo-chrétienne et, plus près de nous, de la Renaissance et du cartésianisme, « qui fait de l’homme un maître, un seigneur absolu de la création », agissant envers plantes ou animaux « avec une irresponsabilité, une désinvolture totales » qui ont conduit à mettre la nature en coupe réglée et, en particulier, à la barbarie de l’élevage industriel. Quelque chose d’absolument irremplaçable a disparu nous dit Lévi-Strauss, ce profond respect pour la vie animale et végétale qu’ont les peuples dits « primitifs » qui permet de maintenir un équilibre naturel entre l’homme et le milieu qu’il exploite. Or « se préoccuper de l’homme sans se préoccuper en même temps, de façon solidaire, de toutes les autres manifestations de la vie, c’est, qu’on le veuille ou non, conduire l’humanité à s’opprimer elle-même, lui ouvrir le chemin de l’auto-oppression et de l’auto-exploitation. » L’ethnologue pose le principe d’une éthique qui ne prend pas sa source dans la nature humaine ethnocentrée mais dans ce qu’il appelle « l’humilité principielle » : « l’homme, commençant par respecter toutes les formes de vie en dehors de la sienne, se mettrait à l’abri du risque de ne pas respecter toutes les formes de vie au sein de l’humanité même ». Cette vision des droits dus à la personne humaine comme cas particulier des droits qu’il nous faut reconnaître aux entités vivantes, cet humanisme moral inclusif nous ramène immanquablement à notre point de départ, et à Jonas.

L’écueil consiste à systématiquement réduire chaque problème humain (politique, social, environnemental) à une question technique à laquelle la technologie numérique apporte une solution, en traitant les effets des problèmes sans jamais s’intéresser à leurs causes et en négligeant les possibles déterminismes et biais qui la composent. « Si nous nous y prenons bien, je pense que nous pouvons réparer tous les problèmes du monde » fanfaronnait Eric Schmidt, président exécutif de Google, en 2012. Diminuer le CO2 ? Il y a une application pour ça ! E. Morozov montre bien les limites et effets pervers de cette idéologie qu’il appelle le « solutionnisme technologique », qui s’accompagne d’un affaiblissement du jeu démocratique et aboutit au triomphe de l’individualisme et de la marchandisation. « Révolutionnaires en théorie, [les technologies intelligentes] sont souvent réactionnaires en pratique. » Et elles s’attaquent bien souvent à des problèmes artificiels à force de simplification. « Ce qui est irréaliste, dit Naomi Klein, est de penser que nous allons pouvoir faire face à ces crises mondiales avec quelques minuscules ajustements de la loi du marché. C’est ça qui est utopique. Croire qu’il va y avoir une baguette magique technologique est ridicule. Cela relève de la pensée magique, portée par ceux qui ont un intérêt économique à maintenir le statu quo. » Il ne s’agit bien sûr pas d’éliminer la technologie de la boîte à outils de la résolution de problème. Il importe en revanche de dépasser l’optimisme béat et la quasi-piété en ses pouvoirs et de comprendre qu’elle n’est qu’un levier qui n’a du sens qu’en conjonction d’autres (Ethan Zuckerman). Il est urgent, au fond, de réhabiliter la nuance, la pluralité et la complexité dans le débat et de trouver une voie pour traiter les problèmes difficiles avec des solutions nouvelles selon une approche systémique.

Demain est peut-être ailleurs, mais si l’humanité veut tenter un nouveau départ, les premiers pas vers le renouveau doivent être effectués ici et maintenant.

Aller plus loin

16 novembre 2021
Les décodeuses des décodeuses du numérique

Quelles sciences se cachent derrière le terme de « numérique » ? C’est au travers de douze portraits de chercheuses, enseignantes-chercheuses et ingénieures, que Léa Castor, illustratrice et autrice de BD, qui « partage ses tripes, son cœur et ses couleur » et n’est « pas prête à se taire » pour l’Institut des sciences de l’information et de leurs interactions du CNRS, met en avant la diversité des recherches en sciences du numérique, et contribue à briser les stéréotypes qui dissuadent les femmes à s’engager dans ces carrières. Mais qu’en pensent les lectrices ? Témoignages. Ikram Chraibi Kaadoud, Marie-Agnès Énard, Serge Abiteboul et Thierry Viéville.

© Léa Castor / CNRS

Lien vers l’article CNRS associé et la BD: http://www.cnrs.fr/en/node/5987

Charlotte, 47 ans, informaticienne

Produite par des informaticiennes et informaticiens du CNRS, cette bande-dessinée propose douze portraits de chercheuses en informatique. Ce ne sont pas que des portraits scientifiques : si leurs sujets de recherche sont rapidement décrits, les chercheuses racontent aussi leurs parcours, comment elles en sont venues à l’informatique, et quels obstacles elles ont rencontré. Le choix des portraits montre une jolie variété, aussi bien des disciplines (robotique, informatique quantique, cybersécurité, réalité virtuelle, etc) que des parcours scientifiques. Dès le début, le message est joliment, mais clairement posé : en informatique, il y a trop de Jean-Pat, surnom générique du white dude, et pas assez de Anne-Cécile, Ikram, Tian, Lina… d’où l’idée de mettre ces dernières en valeur dans la BD, qui relève autant de politique scientifique que de science.

On a un peu mal au cœur en réalisant que le seul point commun de tous les parcours racontés, c’est les commentaires des Jean-Pat essayant de détourner les Anne-Cécile d’une carrière scientifique. Mais finalement, on se rend compte aussi que les Anne-Cécile ont gagné : ce qui transparaît de chaque portrait, c’est la force et le succès de ces chercheuses. J’ai trouvé que cela rendait la BD très réjouissante, joyeuse même. En tant qu’informaticienne, j’ai un peu regretté que les thèmes de recherche soient abordés succinctement, mais j’ai aussi beaucoup aimé ce format original, une BD légère, gaie, basée sur des récits très personnels, pour raconter le monde scientifique.

Cela dit, très clairement, l’ouvrage ne s’adresse pas à moi ! D’abord, parce que je suis déjà informaticienne, ensuite, parce que je suis très vieille. Elle parlera beaucoup plus à de jeunes lecteurs et lectrices. Il se trouve que j’ai chez moi deux tels spécimens. C’est d’ailleurs la première fois qu’il et elle me piquent un bouquin parlant de science (en général, c’est plutôt moi qui leur en mets entre les mains) ! Leur avis me semble beaucoup plus important que le mien…

NB : les textes des enfants n’ont pas été modifiés.

Justine, 13 ans, en classe de 4e

Ce livre parle de femmes scientifiques féministes et plus précisément de leur parcours, de leurs études à ce qu’elles font aujourd’hui. Je pense qu’il est bien écrit, et assez marrant. Perso, je l’ai bien aimé. L’autrice a fait boulot incroyable.

J’ai bien aimé que la BD s’adresse directement au lecteur, c’est naturel et bien fait. Tout est expliqué, et donc c’est facile à lire. J’ai appris des choses sur les algorithmes, l’intelligence artificielle… Ça m’a fait découvrir des sujets que je ne connaissais pas, comme le green computing ou le contrôle des systèmes quantiques…

Ça m’a donné un nouveau point de vue sur l’intelligence artificielle, dont mes parents parlent tout le temps, et je me suis rendu compte que ça n’était pas si chiant que ça.

Ce livre s’adresse surtout à des ados, peut-être un peu plus grands que moi, genre 15-∞ ans. Bref, je recommande ce livre à 100%. Il est vraiment bien, et il permet d’apprendre en s’amusant.

👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍

Victor, 8 ans, en classe de CE2

La BD est bien, c’est facile à lire mais c’est un peu long. Il y avait quelques mots que je ne connaissais pas, mais ils étaient expliqués. Pour certains, je n’ai pas bien compris l’explication. En tous cas, ça m’a vraiment plu, et ça m’a appris des choses. Ce qui m’a le plus intéressé c’est la toute fin, la roboticienne, parce que je ne connaissais pas ce sujet. J’aime la robotique.

Charlotte Truchet, Justine Truchet-Bourdon et Victor Truchet-Bourdon.

12 novembre 2021
Mon moteur de recherche me cache-t-il des choses?

Comment les moteur de recherches gèrent-ils les frontières géographiques? la différences d’individus et de préférences de chacune et chacun d’entre nous? Les résultats sont-ils neutres ? impartieux? Nous vous proposons ce billet introductif d’un article qui se penche sur ces questions et vous invite à y réfléchir. Ikram Chraibi Kaadoud, Thierry Viéville

Partageons ici une article paru sur Numerama : Ce site montre à quel point les moteurs de recherche ne sont pas neutres et impartiaux. De quoi s’agit-il ?

Pour une même recherche internet, les moteurs de recherche ne fournissent pas les mêmes résultats d’une personne à une autre, d’une région à une autre et même d’un pays à un autre.

Pourquoi cela ? à cause de frontières dites invisibles tels que “géographiques, linguistiques, culturelles, politiques “ qui viennent façonner l’accès d’un individu à une information du fait de la personnalisation de la recherche.

Aurore Gayte s’est justement intéressée à la question de la partialité et la neutralité des moteurs de recherche à travers les travaux de recherche de Rogrigo Ochigame, chercheur au MIT et Katherine Ye, chercheuse à l’université de Carnegie Mellon. Grâce à un outil nommé Search Atlas qui permet de comparer les résultats d’une recherche émise depuis différents pays, elle et il ont réussi à mettre en évidence l’existence de frontières “géopolitiques” implicites qui tendent à expliquer la différence de résultats entre différentes recherches.

Aurore Gayte -à travers cet article- attire l’attention sur des questions concrètes et essentielles : éthique du numérique, interaction humain-machine et discute la notion de confiance que nous plaçons en tant qu’humain dans les résultats de recherche fournis par les moteurs de recherche.

Une recherche pour « place Tian’anmen » sur Search Atlas // Source : Search Atlas, extrait du site Numérama

Retrouvez son billet sur le site Numerama au lien suivant: “Search Atlas: Ce site montre à quel point les moteurs de recherche ne sont pas neutres et impartiaux”

Le plus de Numérama ? les articles sont aussi disponibles au format audio ce qui permet de profiter des articles autrement et cela malgré les contraintes de chacune et chacun !

Bonne lecture ou écoute à vous !

9 novembre 2021
Science ouverte, une vision européenne

Jean-François Abramatic est Directeur de Recherche Emérite chez Inria. Il a partagé son parcours professionnel entre l’industrie et la recherche. Sur le plan recherche, il est spécialiste du traitement d’image. Sur le plan industriel, il a été Chief Product Officer chez Ilog et directeur du développement de l’innovation chez IBM. Mais il est surtout connu pour avoir été un acteur clé du web en tant que président du W3C (World Wide Web Consortium), l’organisme de standardisation du Web. Plus récemment, il a travaillé auprès de la Commission Européenne sur les sujets de science ouverte. C’est à ce titre qu’il répond à nos questions.

Photo de Tim Douglas provenant de Pexels

Binaire : Comment es-tu arrivé à travailler sur la science ouverte ? Cela peut paraître assez loin de tes travaux sur les logiciels.

Jean-François Abramatic : Quand je suis devenu Directeur de Recherche Emérite chez Inria, j’ai eu à définir mon programme d’activité au sein de l’institut. J’ai choisi trois axes : l’aide aux startups, l’organisation de W3C et Software Heritage (*). Je me suis progressivement focalisé sur le troisième.

En 2017, Roberto Di Cosmo et moi-même avons rencontré des responsables de la Commission Européenne pour leur présenter Software Heritage. A la fin de cette réunion, un des responsables de la commission m’a sollicité pour intervenir sur le sujet de la science ouverte. J’ai initialement été choisi comme rapporteur de projets sur la science ouverte pour la commission. En 2018, la Commission a rassemblé les acteurs du domaine pour voir ce qu’on pouvait faire et cette initiative s’est transformée en un programme, l’EOSC (The European Open Science Cloud) un environnement pour héberger, traiter et partager les programmes et les données de la recherche pour soutenir la science. Deux organes ont été mis en place pour deux ans (2019-2020) : un Governing Board (un représentant par État) et un Executive Board de 13 personnes où j’ai été nommé. Fin 2020, l’Executive Board a produit un ensemble de recommandations pour la mise en place du programme Horizon Europe (2021-2027). J’ai animé la rédaction collective du document. J’ai, en particulier, écrit la première partie qui explique en quoi le numérique va changer la façon de faire de la recherche.

B : Quelle est ta définition de la science ouverte ?

JFA : Pour moi, c’est d’abord une nouvelle manière de faire de la recherche, en prenant en compte la disponibilité du numérique. Pour comprendre, il faut commencer par un peu d’histoire. Avant l’apparition de l’imprimerie, les résultats scientifiques étaient secrets, chiffrés parfois pour s’assurer qu’ils restaient la propriété exclusive de celui qui les avait découverts. Avec l’arrivée de l’imprimerie et la création des académies, un nouveau système a conduit à rendre disponibles les résultats de recherche grâce aux publications scientifiques.

Le numérique propose une nouvelle façon de faire de la science. Si on veut partager un résultat de recherche aujourd’hui et qu’on partage les publications, on fait une partie du chemin, mais une partie seulement. Il manque des éléments essentiels au lecteur de la publication pour comprendre et utiliser les résultats. Il faut lui donner accès à d’autres informations comme les cahiers d’expérience ou les descriptions d’algorithmes, les données et le code source. Un scientifique qui veut exploiter les résultats d’une recherche, peut le faire de manière précise et efficace.

B : Tu inclus l’open source comme élément essentiel de la science ouverte. Est-ce vraiment un aspect important de la science ouverte ?

JFA : Absolument. De nos jours, plus d’un papier sur deux dans Nature and Science fait appel à du numérique et du code. Le code permet d’expliquer les recherches et sa transmission est bien un composant essentiel de la science ouverte.

B : Tu définis la science ouverte comme une nouvelle façon plus coopérative de faire de la recherche. D’autres acteurs, Opscidia par exemple, nous l’ont défini comme une plus grande démocratisation de la recherche et le fait de faire sortir la science des laboratoires. Doit-on voir une contradiction entre vos points de vue?

JFA : Il faut d’abord que la science ouverte existe dans les laboratoires. On peut ensuite passer à sa démocratisation. On commence par les chercheurs, on passe après aux citoyens. En rendant les revues accessibles à tous, on les ouvre bien sûr à tous les chercheurs mais également à tous les citoyens. Cela soulève aussi la responsabilité des chercheurs d’expliquer ce qu’ils font pour que le plus grand nombre puisse le comprendre. On voit bien avec les controverses actuelles sur l’environnement ou les vaccins, l’importance de rendre la science accessible aux citoyens.

Il faut mentionner un danger à prendre en compte, et qui s’est manifesté clairement pendant la crise du Covid, c’est que certains papiers de recherches sont faux ou contiennent des erreurs. Vérifier les résultats, reproduire les expériences, sont donc des aspects essentiels de la recherche. La science ouverte en associant publications, données, et logiciels, ouvre la voie à la vérification et la reproductibilité.

Nous avons beaucoup à apprendre sur la science ouverte, c’est un sujet nouveau, en création, et pas encore mûr. C’est un sujet de recherche. Et puis, il faut être réaliste sur l’état de l’art de la science ouverte et son état du déploiement. Par exemple, tant que les chercheurs sont évalués sur la base de leur liste de publications, et par des indices comme le h-index, le processus d’évaluation reste un obstacle au développement de la science ouverte.

B : Tu soulèves un aspect essentiel. Est-ce que le mode de fonctionnement de la recherche scientifique est mal adapté à la science ouverte ?

JFA : La situation est très différente suivant les disciplines. Certaines disciplines comme l’astronomie ou la physique ont toujours ressenti un besoin naturel de communiquer et de partager les données. Elles ont rapidement adopté le numérique pour améliorer ce partage. Ce n’est pas un hasard si le Web est né au CERN dans un laboratoire de physique des hautes énergies. Mais dans de nombreuses disciplines, la science ouverte n’est pas encore assez prise en compte.

Par exemple, archiver du code ou des données, pour un informaticien, c’est naturel. Pourtant, le fait de partager son code ne fait pas suffisamment partie des critères d’évaluation des chercheurs en informatique.

L’ouverture des données est moins évidente pour un chercheur en sciences sociales. Les choses évoluent et se mettent lentement en place. Par exemple, Inrae a créé une direction pour la science ouverte.

B : Ce rapport est donc la vision européenne de l’Open Science ?

JFA : À ce jour, c’est le rapport de la Commission. Il représente sa vision aujourd’hui, une vision en construction parce que le sujet est complexe et difficile, pas tout à fait mûr, avec de vraies controverses.

B : Quel est l’avenir de ce rapport ?

JFA : La première version a été rendue publique. Le document a vocation à évoluer au fil du temps. L’étape suivante est la création d’une association (de droit belge) qui regroupe des acteurs de la recherche tels que les instituts de recherche, les universités, les organisations de financement, etc. Les statuts prévoient que chaque pays peut choisir un membre pour les représenter. Par exemple, Inria a été invité à représenter la France. Inria a choisi Laurent Romary pour tenir ce rôle. Par ailleurs, le conseil d’administration de l’association a été élu. Suzanne Dumouchel du CNRS fait partie du conseil. Cette association sera consultée pour chaque appel à projets dans le domaine des infrastructures pendant les sept ans à venir. Le message global de la commission et de l’organisation qu’elle met en place est que la science ouverte est devenue un citoyen de première classe, un sujet horizontal qui doit couvrir tous les aspects de la recherche scientifique.

Serge Abiteboul & François Bancilhon

https://binaire.socinfo.fr/page-les-communs-numeriques/

5 novembre 2021
Un wiki grand comme le monde

Florence Devouard est une ingénieure agronome française, devenue dirigeante associative. Vice-présidente de Wikimédia France de 2004 à 2008, elle a présidé la Wikimedia Foundation de 2006 à 2008, en remplacement de son fondateur, Jimmy Wales.

Florence Devouard, aka Anthere, sur devouard.org

binaire : Pouvez-vous nous raconter votre parcours ? Comment en êtes-vous arrivée à vous intéresser assez à Wikipédia pour devenir la présidente de la fondation qui chapeaute l’encyclopédie ?

FD : J’ai fait des études d’ingénieure agronome. A Nancy, je me suis spécialisée en biotechnologies. J’ai un peu travaillé dans le milieu académique initialement, mais j’ai rapidement bifurqué vers le monde de l’entreprise.

J’ai suivi mon époux en Belgique flamande, puis aux États-Unis et j’ai eu deux enfants. Je me suis intéressée à l’informatique, mais c’étaient plus les usages que le codage qui m’attiraient. J’ai travaillé, par exemple, sur des outils d’aide à la décision. Et puis, au début des années 2000, j’ai atterri à Clermont-Ferrand où je me suis sentie un peu isolée. Je me suis alors plongée dans le web qui me permettait de rencontrer des gens qui partageaient mes intérêts, c’était juste ce dont j’avais alors besoin. Je suis devenue un peu activiste anonyme du web.

J’étais aussi gameuse, et je passais pas mal de temps sur les forums, beaucoup avec des Américains. Sur ces forums, qui n’étaient pas faits pour ça, je me suis retrouvée à écrire de nombreux textes sur la sécurité biologique, parce j’avais des choses à raconter. C’était l’époque de l’envoi d’enveloppes avec de l’anthrax, juste après les attentats du 11 septembre.

J’ai notamment beaucoup discuté sur un forum avec un activiste de GreenPeace. C’est lui qui m’a fait découvrir Wikipédia qui démarrait à ce moment. Il m’a suggéré d’y raconter ce qui me tenait à cœur, sur la version anglophone. A cette époque, il n’y avait encore quasiment personne sur Wikipédia en français.

J’ai alors découvert ce qu’était un wiki. Techniquement c’est très simple, juste un site web sur lequel on peut facilement s’exprimer. Je pouvais comme tout le monde participer à l’écriture de pages web et la création de liens entre elles. À l’époque, c’était tout nouveau, ça nous paraissait génial et peu de gens intervenaient. Pourtant, je n’arrivais pas à sauter le pas, je craignais le regard des autres, et je doutais de ma capacité à m’exprimer en anglais. Alors, je procrastinais. Il m’a forcé la main : il a copié-collé mes explications pour créer des articles. Ils ont été lus et modifiés et ça m’a fait réaliser que je pouvais écrire, que je pouvais faire profiter les autres de mes connaissances, que je pouvais contrecarrer un peu le matraquage de l’administration américaine sur la sécurité biologique. Et cela correspondait à ce que j’avais envie de faire.

binaire : Pourquoi est-ce que cela vous correspondait si bien ?

FD : J’avais l’impression d’écrire des textes qui pouvaient être lus dans le monde entier, faire quelque chose d’utile en apportant des connaissances et en faisant passer des idées. Je participais alors en particulier à des controverses entre la France et les États-Unis sur des sujets comme les armes de destruction massive, les OGM, et la disparition des abeilles. Sur chacun de ces sujets, il y avait des écarts de pensée importants entre la France et les US. Je pouvais donc faire passer aux US des idées qui avaient cours en France et que je maitrisais. Je pouvais faire découvrir aux Américains qu’il n’y avait pas que l’Amérique et que d’autres, ailleurs, pensaient différemment.

binaire : Est-ce que c’est ce genre de motivation de passer des idées qui anime encore aujourd’hui les Wikipédiens ?

FD : Oui. Nombre d’entre eux collaborent à l’encyclopédie par altruisme, pour faire passer aux autres des idées auxquelles ils tiennent. Ils veulent participer au développement des connaissances globales, faire circuler ces connaissances. C’est ce qui est génial. Avec Wikipédia, on peut faire travailler en commun un groupe de personnes aux quatre coins de la planète. Le numérique permet de réunir les quelques personnes qui s’intéressent à un sujet, même le plus exotique, pour partager leurs connaissances et confronter les points de vue.

binaire : C’était vrai au début quand tout était à faire. Est-ce que c’est toujours pareil aujourd’hui ?

FD : C’est vrai que cela a beaucoup changé, aussi bien les méthodes de travail, et que les contenus. Au tout début, au début des années 2000, on travaillait seul hors ligne, puis on se connectait pour charger l’article. Maintenant, on est connecté en continu et on interagit en permanence avec les autres rédacteurs.

A l’époque, on arrivait souvent devant une page blanche. Quand j’ai commencé à bosser sur la Wikipédia francophone, on était cinq et on devait tout construire. Aujourd’hui sur un sujet précis, on arrive et une grosse masse de connaissances a déjà été réunie. On démarre rarement de nouveaux sujets. Il faut avoir une bonne expertise sur un sujet pour pouvoir y contribuer. Avant, on débroussaillait avec comme ligne de mire très lointaine la qualité d’une encyclopédie conventionnelle. Aujourd’hui, on vise la perfection, par exemple, le label « Article de qualité », qui est un label très difficile à obtenir. Certains travaillent comme des dingues sur un article pour y arriver. C’est de cette quête de perfection qu’ils tirent leur fierté.

Ils éprouvent bien sûr aussi du plaisir à faire partie d’un réseau, à rencontrer des gens,

La situation pionnière qu’on a connue et que j’ai beaucoup aimée, est parfois encore un peu celle que rencontrent certains Africains qui rejoignent le projet dans des langues locales, depuis des pays encore mal connectés à internet. Ce n’est d’ailleurs pas simple pour eux de s’insérer dans le collectif qui a beaucoup changé.

binaire : La fondation Wikimédia promeut d’autres services que l’encyclopédie Wikipédia. Vous pouvez nous en parler ?

FD : Exact. L’encyclopédie représente encore 95% des efforts, mais on a bien d’autres projets. C’est d’ailleurs sur les projets moins énormes que j’ai le plus de plaisir à participer.

J’ai travaillé notamment sur un projet pour améliorer les pages « biaisées », des pages assez anciennes, où il reste peu de contributeurs actifs. On peut se retrouver par exemple confronté à des services de communication d’entreprises qui transforment les pages en les biaisant pour gommer les aspects un peu négatifs de leurs entreprises. Il faut se battre contre ça.

Un autre projet très populaire, c’est Wikimedia Commons qui regroupe des millions d’images. C’est né de l’idée qu’il était inutile de stocker la même image dans plusieurs encyclopédies dans des langues différentes. Je trouve très sympa dans Wikimedia Commons que nous travaillions tous ensemble par-delà des frontières linguistiques, que nous arrivions à connecter les différentes versions linguistiques.

Un troisième projet, Wiki Data construit une base de connaissances. Le sujet est plutôt d’ordre technique. Cela consiste en la construction de bases de faits comme « “Napoléon” est mort à “Sainte Hélène” ». À une entité comme ”Napoléon”, on associe tout un ensemble de propriétés qui sont un peu agnostiques de la langue. Les connaissances sont ajoutées par des systèmes automatiques depuis d’autres bases de données ou entrées à la main par des membres de la communauté wikimédienne. On peut imaginer de super applications à partir de Wiki Data.

Enfin, il y a d’autres projets comme Wiktionnaire ou Wiki Books, et des projets naissants comme Wiki Abstracts.

binaire : La fondation développe des communs. Comment la fondation choisit-elle quels communs proposer ? Comment définit-elle sa stratégie ?

FD : Au début, on avait juste l’encyclopédie. La Fondation a été créée en 2003, mais sans véritablement de stratégie. On faisait ce que les gens avaient envie de faire. Par exemple, Wiktionnaire a été créé à cette époque. On avait des entrées qui étaient juste des définitions de mots. On se disputait pour savoir si elles avaient leur place ou pas dans Wikipédia. Comme on ne savait pas comment trancher le sujet, on a créé autre chose : le Wiktionnaire. Dans cette communauté, quand tu as une bonne idée, tu trouves toujours des développeurs. Les projets se faisaient d’eux-mêmes, du moment que suffisamment de personnes estimaient que c’était une belle idée. Il n’y avait pas de stratégie établie pour créer ces projets.

À partir de 2007-2008, les choses ont changé, et la Fondation a cherché à réfléchir sur ce qu’on voulait, définir où on allait. Mais ça a pris du temps pour y arriver. Si on n’y fait pas attention, en mettant plein de gens autour de la table, on arrive à une stratégie qui est un peu la moyenne de ce que tout le monde veut, qui confirme ce qu’on est déjà en train de faire, sans aucun souffle, qui ne donne pas de vraie direction et qui n’est donc pas une vraie stratégie proactive.

binaire : À défaut de stratégie, la communauté a au moins développé ses propres règles ?

FD : Au début, il n’y avait même pas de règles communes. Elles ont émergé au cours du temps, au fil des besoins. Le mode fonctionnement est très flexible. Chaque communauté définit en fait ses propres règles, ses propres priorités. Les différentes versions linguistiques s’adaptent aux cultures.

Dans le temps, le modèle a tendance à se scléroser en s’appuyant bien trop sur la règle du précédent. Si ça marche à peu près, on préfère ne toucher à rien. Le Fondation qui lie tout cela ne cherche pas non plus à imposer sa loi, à de rares exceptions près. Comme par exemple, quand elle a défini des critères pour les biographies individuelles. Elle cherche surtout à tenir compte des lois des pays, et donc à limiter les risques juridiques.

Les règles communes tout comme une stratégie commune ont doucement émergé. Mais le monde de Wikimédia reste un monde très flexible.

binaire : Pouvez-vous nous parler des individus qui participent à Wikipédia. Cela semble vraiment s’appuyer sur des communautés très différentes.

FD : En partant du plus massif, vous avez la communauté des lecteurs, puis celle les éditeurs. Parmi ces derniers, cela va de l’éditeur occasionnel peu impliqué, jusqu’au membre actif qui participe à la vie de la communauté. Vous avez ensuite les associations locales et la fondation qui définissent un certain cadre par exemple en lançant des nouveaux projets. Elles interviennent aussi directement dans la vie de la communauté, notamment pour des raisons juridiques. Enfin, il faut mentionner, les salariés et contractuels de la fondation qui implémentent certains choix de la Fondation, et parfois entrent en conflit avec la communauté.

Le nombre de salariés des associations est très variable. Wikimédia France a une dizaine d’employés. Wikimédia Allemagne est plus ancienne et a environ deux cents personnes. D’autres pays n’ont que des bénévoles.

binaire : Le nombre de salariés est lié à la richesse de l’association locale ?

FD : Oui. L’association allemande a existé assez tôt en vendant notamment des encyclopédies off-line. Dans certains pays, les associations ont eu le droit de mettre des bandeaux d’appel aux dons sur Wikipedia, ce qui rapporte de l’argent. Dans d’autres, comme en Pologne, on peut via les impôts choisir de contribuer financièrement à l’association locale.

Le modèle économique varie donc d’un pays à l’autre. La Fondation Wikimédia (mondiale) redistribue une partie de ses fonds. Certains pays comme l’Allemagne sont assez riches pour s’en passer. Il reste une énorme disparité sur la disponibilité de moyens pour les Wikipédiens suivant leur pays.

binaire : Vous êtes aussi impliquée dans d’autres associations comme Open Food Fact ? Quel y est votre rôle ?

FD : Je suis dans leur Conseil d’Administration. Je suis là avec quelques autres personnes pour garantir le futur de toutes ces ressources développées en commun, et garantir une certaine pérennité.

binaire : Une dernière question. Vous avez à cœur de défendre une certaine diversité. Est-ce que vous pouvez partager cela avec les lecteurs de binaire ?

FD : Tous ces projets sont massivement le fait de mâles, cis, blancs, jeunes. On perd des talents à cause de cela, car l’environnement participatif ou le cadre de travail peuvent repousser. Il faut absolument que l’implication soit plus globale. On essaie d’explorer des solutions par exemple en luttant contre le harcèlement. Mais à mon avis on y arrive mal. J’aimerais bien savoir comment faire. Aujourd’hui, le pilotage global est très anglosaxon, et ça ne marche pas bien.

Wikipédia est une superbe réussite, on a construit quelque chose de génial. Un temps, on s’est inquiété de la diminution du nombre de contributeurs, la fuite des cerveaux. Je pense qu’on a réglé ce problème, aujourd’hui la population de contributeurs est quasi stable. Maintenant, pour continuer notre œuvre, on a besoin de plus de diversité. Je dirais que c’est aujourd’hui notre plus gros challenge.

Serge Abiteboul, Inria et ENS, Paris, & François Bancilhon, serial entrepreneur

De wikimedia.org

https://binaire.socinfo.fr/page-les-communs-numeriques/

2 novembre 2021

5G : du côté des usages

Serge Abiteboul et Gérard Berry nous parlent de la 5G qui se déploie très rapidement en France. Dans un premier article, ils considéraient les aspects techniques. Dans un deuxième, ils traitaient des craintes autour de la 5G. Dans ce dernier, ils adressent la question des applications de cette technologie.
Cet article est en collaboration avec Theconversation France. Toute la série.

Comme c’est souvent le cas avec l’arrivée d’une nouvelle technologie, comme ça a été souvent le cas pour les générations de téléphonie cellulaire précédente, il est difficile de savoir quels seront les usages dominants, les “killer apps”. Pour le grand public et à court terme, la 5G servira surtout à éviter la saturation des réseaux 4G. Ce qui changera surtout ce sera l’arrivée d’applications autour de la vidéo et des jeux en réseaux s’appuyant sur des débits plus importants et une faible latence. La différence ne sera pas si évidente. C’est principalement le débit qui s’exprime dans ce contexte avec la 5G en 3.5 GHz.

Mais la 5G c’est aussi une plus faible latence (en particulier, avec la 26 GHz) et des garanties de service. Nous pensons que les usages les plus disruptifs seront plus que pour les générations précédentes à chercher du côté professionnel, notamment du côté des usines.

L’usine connectée. Un plateau de fabrication consiste aujourd’hui en des machines connectées par des kilomètres de câble. La moindre transformation d’une chaîne de production demande de repenser la connectique, une complexité qui disparaît avec la 5G. La maintenance, notamment prédictive, et la logistique, sont également simplifiées parce que le suivi des machines et de la production se font beaucoup plus simplement avec des garanties de latence satisfaisante. La 5G est au cœur de l’industrie 4.0.

Bien sûr, elle a des concurrents comme le Wifi. Mais la plus grande latence, la moins bonne fiabilité (l’absence de garantie de service) du Wifi même de dernière génération fait souvent pencher la balance en faveur de la 5G dans un cadre industriel. Une différence, même réduite en apparence, peut conduire à l’accident industriel.

En France, l’usage de la 5G pour les usines a été expérimenté sur le site de Schneider Electric du Vaudreuil, dans l’Eure.

Logistique. La 5G est aussi un élément essentiel d’une logistique plus automatisée dans l’industrie ou dans les territoires. Le premier enjeu est celui de l’optimisation et du suivi du transport des matières premières comme des produits fabriqués utilisant toutes les possibilités des objets connectés et de l’informatique. La 5G devrait permettre de mieux gérer les flux, les performances (délais de livraisons) tout comme l’impact environnemental (émissions de gaz à effet de serre).

Le port du Havre a été le premier port français complètement connecté en 5G. La 5G permet une gestion fine des bateaux qui entrent ou sortent du port, en communication permanente. Il devrait aussi permettre un suivi en temps réel des cargaisons. La 5G ouvre toute une gamme d’applications comme le pilotage en temps réel d’un robot connecté qui nettoie les déchets marins en surface.

Les territoires connectés. L’enjeu principal de la ville ou du territoire connecté est l’acquisition de données en temps réel via des réseaux de capteurs (comme de détecter l’arrivée d’une personne de nuit dans une rue mal éclairée), et la commande d’actionneurs (allumer les lampadaires de cette rue). Donc le territoire intelligent est informé et piloté avec la 5G. On imagine bien le déploiement massif d’objets connectés. Mais pour quoi faire ? Gérer les réseaux de distribution (eau, électricité, etc.), surveiller la pollution, détecter rapidement divers types d’alertes, améliorer le transport, etc. Le territoire intelligent peut aussi s’appuyer sur la 5G pour une télésurveillance de masse, mais ça, ça ne fait pas rêver.

Avec la 5G, une question qui se pose très vite est celle de la rapidité d’adoption de la nouvelle technologie. Pour ce qui est de son déploiement dans des territoires intelligents, les deux auteurs ne partagent pas le même point de vue. Pour l’un, cela va arriver très vite, quand l’autre en doute. Les deux tombent d’accord pour dire qu’on ne sait pas trop et que cela dépendra en particulier de la maîtrise des aspects sécurité.

Une agronome utilisant un ordinateur dans un champ de maïs.
Crédit : ©adobestock via Arcep

L’agriculture connectée. Les performances de la 5G en termes de densité d’objets connectés pourraient s’avérer très utiles dans l’agriculture. Le succès n’est pas garanti. Dans de nombreux cas comme celui des capteurs de l’hydrologie de champs, les constantes de temps sont souvent importantes, deux ou trois fois par jour. Les acteurs semblent parfois préférer des solutions 0G comme Sigfox ou Lora. C’est moins vrai pour l’élevage et la situation pourrait changer avec le contrôle de robots qui débarqueraient massivement dans les campagnes. La sécurité est également dans ce domaine une question critique qui pourrait ralentir le déploiement de la 5G en agriculture.

Médecine connectée. C’est souvent proposé comme un domaine d’application phare de la 5G. On n’est bien au-delà de la téléconsultation pour laquelle la 4G suffit souvent. L’hôpital, un lieu complexe et bourré de machines hyper-sophistiquées, est évidemment en première ligne. On a aussi assisté à des opérations chirurgicales à distance, par exemple, en 2019, sur une tumeur intestinale au Mobile World Congress à Barcelone. Le débit plus important et la faible latence rendent possibles de telles réalisations. Pourtant, dans le cadre de la chirurgie, une connexion filaire semble plus appropriée quand elle est présente. Le diagnostic appuyé sur de la réalité virtuelle et augmentée pourrait être une belle application de la 5G, tout comme le suivi de patients utilisant des objets connectés comme les pompes à insuline ou les pacemakers. On voit bien que la fiabilité des communications et leur sécurité sont essentielles dans ce contexte.

On trouve deux projets de 5G pour les CHU de Rennes et Toulouse dans le Plan France Relance.

Les transports. Le fait d’avoir une faible latence permet à la 5G d’être prometteuse pour le contrôle en temps réel de véhicules. Un domaine en forte progression, le transport collectif, devrait en bénéficier. Bien sûr, la 5G a sa place dans les gares qui concentrent une population dense. La 5G en 26GHz est par exemple expérimentée dans la gare de Rennes. Le transport collectif utilise déjà massivement des communications entre ses trains et les infrastructures. La 5G devrait apporter une plus grande qualité avec notamment des garanties de délais.

Pour l’automobile individuelle autonome, la situation est moins claire et les déploiements pourraient prendre plus de temps. (Les voitures autonomes testées aujourd’hui se passent en général de 5G.) La 5G pourrait s’installer dans les communications entre les véhicules et le reste du monde, le V2X (avec les autres véhicules et l’environnement). Dans ce cadre, elle est en concurrence avec un autre standard basé sur le Wifi. Les communications peuvent servir entre véhicules, par exemple, dans des “trains de camions” roulant à très faible distance l’un de l’autre sur l’autoroute. On imagine bien que toutes ces informations puissent réduire les risques d’accident, par exemple, en prévenant à l’avance le système d’une voiture de travaux sur la route ou de la présence de piétons ou de cyclistes.

Le V2X risque de prendre du temps pour s’installer pour plusieurs raisons. C’est d’abord la sécurité. Les spécialistes s’accordent à dire que les standards en développement ne sont pas sûrs, ce qui questionne évidemment. Et puis, des cadres de responsabilité légale en cas d’accident doivent être définis. Enfin, cette technologie demande des investissements lourds pour équiper les routes, et en particulier, les points névralgiques. On devrait donc la voir arriver à des vitesses différentes suivant les pays, et d’abord sur les axes routiers les plus importants. On peut aussi s’attendre à la voir débarquer dans des contextes locaux comme sur des tarmacs d’aéroports (véhicules pour les bagages ou le ravitaillement des avions) ou dans des ports (chargement et déchargement des cargaisons).

Le futur réseau radio des secours passera par la 5G. Crédit : Service départemental d’incendie et de secours, Dordogne

Et les autres. Cette liste ne se veut pas exhaustive. On aurait pu parler de smart grids, de service de secours, d’éducation, etc. Il faudra attendre pour voir où la 5G se déploie vraiment. Après ce tour d’horizon, on peut sans trop de doute se convaincre que la 5G révolutionnera de nombreux domaines, mais que cela ne se fera pas en un jour et que cela passera par la maîtrise des problèmes de fiabilité et de sécurité.

Serge Abiteboul, Inria et ENS Paris, Gérard Berry, Collège de France

Pour aller plus loin

La 5G et les réseaux de communications mobiles, rapport de l’Académie des sciences – 12 juillet 2021 – Groupe de travail de l’Académie des sciences sur les réseaux du futur

Parlons 5G : toutes vos questions sur la 5G, Arcep

https://binaire.socinfo.fr/5g/

29 octobre 2021

Toute l’informatique, librement

Nous devons toutes et tous nous former à l’informatique pour maîtriser le numérique, et chaque lycéenne et lycéen bénéficie désormais de cette initiation en classe de seconde, mais… existe-il un document qui propose une synthèse à cette formation citoyenne dont chaque personne a besoin ? À l’initiative de Vincent Doutaut et depuis quelques semaines : oui, et de plus cet ouvrage est davantage que gratuit, il est publié sous licence ouverte, donnons lui la parole. Thierry Viéville et Pascal Guitton.

binaire : Vincent, qui es tu ?

Ingénieur en acoustique, ma formation initiale n’est donc pas en informatique mais j’ai suivi les évolutions de cette discipline pour essayer de comprendre à quelle sauce nous mange ce monde informatisé. Comme les nombreuses [plus de 20 000] personnes qui se sont inscrites aux formations en ligne proposées par l’Inria telles que https://classcode.fr/snt et bénéficiant d’un peu de temps devant moi, j’en ai profité pour suivre plusieurs MOOCs à titre personnel.

b : Qu’en as-tu retenu et réalisé ?

Devant la richesse des contenus partagés à plusieurs endroits, mais aussi des liens divers et des références associées qui permettent de se former en déroulant un fil d’Ariane sans limite, il en est sorti l’idée de créer une sorte de « document unique » qui réalise une synthèse de ces éléments de référence et mette à disposition de tout un chacun le résultat.

[Accéder à la version PDF du livre]

L’ouvrage est aussi disponible en archive ouverte HAL https://hal.inria.fr/hal-03346079 .

b : Et que trouvons-nous dans cet ouvrage ?

Une initiation aux fondements du numérique au sens le plus large, une introduction donc, qui permet de comprendre comment ça marche pour que prennent sens tous ces termes techniques qui nous entourent. C’est comme un manuel de cuisine qui reste à disposition sur notre étagère pour y revenir dès que de besoin. Les contenus existaient déjà et je n’ai pas fait grand-chose de ce point de vue, juste partager une nouvelle mise en forme qui offre une nouvelle chance de se l’approprier.

b : Vraiment ? Ce serait juste un copié-collé 🙂 ?

Ce n’est pas strictement le cas 😉 Je me suis permis une remise en forme au niveau rédactionnel, car une formation en ligne a une vocation différente de celle d’un support écrit ; ici c’est le texte qui introduit les vidéos et non l’inverse. Il y a donc un travail de structuration et de synthèse. Des apports supplémentaires concernent modestement la partie sur les logiciels libres et celle sur le son et la musique. Et en l’état, il manque encore, par exemple, un chapitre sur les implications et applications de l’informatique.

b : Tu veux dire que c’est un ouvrage… Vivant ?

Oui, car la démarche s’inscrit dans celle de l’open source (donc libre redistribution, transparence des contenus, possibilité de réutilisation et de créer des ressources dérivées), voire dans celle du libre qui libère les contenus de verrous liés à la propriété industrielle. Intéressé par ces sujets depuis vingt-cinq ans, il s’avère que cette démarche va au-delà de l’informatique, par exemple la création d’objets dans les FabLab ou d’œuvres artistiques (voir plus de détails ici « tous-au-libre´´ ou là « podcast-logiciel-libre´´) comme des compositions musicales. Et on peut constater que dans la sphère économique, notamment informatique, beaucoup de réticences initiales se sont levées sur ces sujets depuis quelques années déjà.

b : On est au-delà d’un simple « livre » du coup ?

Bien entendu, par exemple le format numérique permet au fil de la lecture de garder tous les hyperliens des ressources et d’aller vers les contenus multimédias, de faire les quiz, etc. Tout cela est possible grâce au choix du langage LaTeX qui permet de composer des documents, y compris interactifs et facilite les contributions additionnelles ainsi que le fait que des enseignants ou des formateurs puissent reprendre certains passages pour leurs supports de formation. Toutes les sources sont disponibles sur une plateforme Web coopérative « GitHub » qui permet de contribuer via des manipulations sur les fichiers source en créant des branches dérivées avec des variantes, par exemple pour les fusionner :

[https://github.com/ejazzfr/Inria-mooc-handbook]

b : Quel sera le futur du projet alors ?

On pense à des contenus supplémentaires, comme compléter la partie sur le langage Python ou l’ajout d’annexes sur l’histoire des calculateurs et de l’informatique, l’électronique numérique ou le traitement numérique du signal, avec la volonté d’inviter les interlocuteurs à exprimer leurs besoins ou à apporter des contributions. Et à donner l’exemple pour encourager l’émergence d’initiatives comparables.

Merci Vincent, c’est un apport personnel extrêmement précieux pour les formateurs et enseignants et au delà toute notre société.

Vincent Doutaut , ingénieur-docteur en acoustique.

26 octobre 2021

5G : le temps des questionnements

Serge Abiteboul et Gérard Berry nous parlent de la 5G qui se déploie très rapidement en France. Dans un premier article, ils ont considéré les aspects techniques. Dans un deuxième, ils traitent des craintes autour de la 5G. Un dernier adressera la question des applications de cette technologie.
Cet article est en collaboration avec Theconversation France. Toute la série.

Quand on met dans un seul sac les opposants de la 5G, on mélange tout et n’importe quoi : risques sanitaires, destruction de la planète, atteintes à la sûreté des réseaux et au-delà à la souveraineté de l’État, surveillance de masse. Ces amalgames incluant des accusations facilement et factuellement déconstruites mêlées à de vrais problèmes suffisent-elles à disqualifier la critique ? Non, pas plus que les anti-vacs, anti-ondes, anti-sciences, anti-techno, etc. qui se sont agrégés au mouvement anti-5G au gré des municipales en France allant jusqu’à des incendies ou dégradations de stations radios. Répondre aux questionnements par la simple affirmation du déterminisme technologique n’est pas non plus suffisant. Les questionnements, les préoccupations sont légitimes pour une technologie qui va changer nos vies, selon ce qui est annoncé. Nous discutons de ces questionnements ici en ignorant les aspects irrationnels, voire conspirationnistes.

Environnement

Le numérique, de manière générale, questionne les défenseurs de l’environnement. Par plein de côtés, il a des effets positifs sur l’environnement. Par exemple, il permet des études fines du climat, la gestion intelligente de l’énergie dans des smart grids, celle des moteurs de tous types, de l’automobile à l’aviation, des économies de transports avec le travail à distance. Par contre, il participe à la course en avant vers toujours plus de productivité et de consommation. Cet aspect très général du débat sera ignoré ici, où nous nous focaliserons sur la 5G.

Du côté positif, la 5G a été conçue dès le départ pour être énergétiquement sobre. Sachant que les chiffres ne sont pas stabilisés, elle devrait diviser fortement la consommation d’électricité pour le transport d’un Gigaoctet de données ; on parle de division par 10 et à terme par 20 par rapport à la 4G. Même si ces prévisions sont peut-être trop optimistes, il faut noter qu’elles vont dans le sens de l’histoire, qui a effectivement vu de pareilles améliorations de la 2G à la 3G à la 4G. Et on pourrait citer aussi les économies du passage du fil de cuivre à la fibre, ou des “vieux” data centers aux plus modernes. Le numérique sait aussi aller vers plus de sobriété, ce qui lui a permis d’absorber une grande partie de l’explosion des données transférées sur le réseau depuis vingt ans.

Une partie de cette explosion, oui, mais une partie seulement, car il faut tenir compte de l’effet rebond. D’une manière très générale, l’effet rebond, encore appelé paradoxe de Jevons, observe que des économies (monétaire ou autres) prévues du fait d’une amélioration de la technologie peuvent être perdues à la suite d’une adaptation du comportement de la société. Avec les améliorations des techniques qui ont permis le transport de plus en plus de données, on a vu cette quantité de données transportées augmenter violemment, en gros, doubler tous les dix-huit mois. Si les récents confinements dus à la pendémie n’ont pas mis à genoux la 4G, c’est grâce à l’année d’avance que sont obligés de prendre les opérateurs pour absorber cette croissance, entièrement due aux utilisateurs d’ailleurs.

L’introduction de la 5G va permettre que cet accroissement se poursuive, ce qui résulterait selon certains en une augmentation de l’impact négatif des réseaux sur l’environnement.

Bien sûr, on doit s’interroger pour savoir si cela aurait été mieux en refusant la 5G. Sans 5G, les réseaux télécoms de centre-ville auraient vite été saturés ce qui aurait conduit à densifier le réseaux de stations 4G. On aurait sans doute assisté à un même impact négatif pour un réseau qui aurait alors fini massivement par dysfonctionner, car la 4G supporte mal la saturation pour des raisons intrinsèques à sa technologie. Ne pas déployer la 5G – ce que demandaient certains – n’aurait réglé aucun problème, le vrai sujet est celui de la sobriété.

Dans le cadre du déploiement en cours, une vraie question est celle des coûts environnementaux de fabrication des éléments de réseaux comme les stations radio, et surtout des téléphones. Il faut savoir que la fabrication d’un téléphone portable émet beaucoup plus de gaz à effet de serre (GES) que son utilisation. Si tous les français se précipitent et changent leur téléphone pour avoir accès à la 5G, on arrive à un coût énorme en émission de GES. Il faudrait les convaincre que ça ne sert à rien et qu’on peut se contenter du renouvellement “normal” des téléphones. Il est important d’insister ici sur “normal” : les français changent de téléphone tous les 18 mois, ce qui n’est pas normal du tout. Même si ça a été effectivement nécessaire quand les téléphones étaient loin de leur puissance de calcul actuelle, ça ne l’est plus maintenant. Et produire tous ces téléphones engendre une gabegie de ressources, d’énergie et d’émission de GES . Au-delà du sujet de la 5G, que faisons-nous pour ralentir ces remplacements ? Que faisons-nous pour qu’ils ne s’accélèrent pas à l’appel des sirènes de l’industrie des smartphones ?

Il faudrait aussi questionner les usages. Le visionnage d’une vidéo sur un smartphone consomme plusieurs fois l’électricité nécessaire au visionnage de la même vidéo après téléchargement par la fibre. Mais la situation est tout sauf simple. Comment comparer le visionnage d’un cours en 4G par un élève ne disposant pas d’autre connexion internet au visionnage d’une vidéo (qu’on aurait pu télécharger à l’avance) dans le métro parisien ? Il ne s’agit pas ici de décider pour le citoyen ce qu’il peut visionner suivant le contexte, mais juste de le sensibiliser à la question du coût environnemental de ses choix numériques et de lui donner les moyens, s’il le souhaite, d’avoir des comportements plus sobres.

Sécurité et surveillance massive

Dans ces dimensions, les effets sont contrastés.

Pour la cybersécurité, la 5G procure des moyens d’être plus exigeants, par exemple, en chiffrant les échanges de bout en bout. Par contre, en augmentant la surface des points névralgiques, on accroît les risques en matière de sécurité. En particulier, la virtualisation des réseaux qu’elle introduit ouvre la porte à des attaques logicielles. L’internet des objets, potentiellement boosté par la 5G, questionne également quand on voit la faiblesse de la sécurité des objets connectés, des plus simples comme les capteurs à basse énergie jusqu’aux plus critiques comme les pacemakers. Le risque lié à la cybersécurité venant de l’internet des objets est accru par la fragmentation de ce marché qui rend difficile de converger sur un cadre et des exigences communes .

Pour ce qui est de la surveillance, les effets sont également contrastés. Les pouvoirs publics s’inquiètent de ne pouvoir que plus difficilement intercepter les communications des escrocs, des terroristes, etc. Des citoyens s’inquiètent de la mise en place de surveillance vidéo massive. La 4G permet déjà une telle surveillance, mais la 5G, en augmentant les débits disponibles la facilite. On peut réaliser les rêves des dictateurs en couvrant le pays de caméra dont les flux sont analysés par des logiciels d’intelligence artificielle. Le cauchemar. Mais la 5G ne peut être tenue seule pour responsable ; si cela arrive, cela tiendra aussi du manque de vigilance des citoyens et de leurs élus.

Communication de l’OMS démentant un lien entre 5G et Covid-19

Santé

Est-ce que la 5G et/ou l’accumulation d’ondes électromagnétiques nuit à la santé ?

C’est un vieux sujet. Comme ces ondes sont très utilisées (télécoms, wifi, four à micro-ondes, radars, etc.) et qu’elles sont invisibles, elles inquiètent depuis longtemps. Leurs effets sur la santé ont été intensément étudiés sans véritablement permettre de conclure à une quelconque nocivité dans un usage raisonné. Une grande majorité des spécialistes pensent qu’il n’y a pas de risque sanitaire à condition de bien suivre les seuils de recommandation de l’OMS, qui ajoute déjà des marges importantes au-delà des seuils où on pense qu’il existe un risque. On notera que certains pays comme la France vont encore au-delà des recommandations de l’OMS.

Pourtant, d’autres spécialistes pensent que des risques sanitaires existent. Et on s’accorde généralement pour poursuivre les études pour toujours mieux comprendre les effets biologiques des ondes, en fonction des fréquences utilisées, de la puissance et de la durée d’exposition. Avec le temps, on soulève de nouvelles questions comme l’accumulation des effets de différentes ondes, et après avoir focalisé sur les énergies absorbées et les effets thermiques, on s’attaque aux effets non thermiques.

La controverse se cristallise autour de “l’hypersensibilité aux ondes électromagnétiques”. C’est une pathologie reconnue dans de nombreux pays, qui se manifeste par des maux de tête, des douleurs musculaires, des troubles du sommeil, etc. Malgré son nom, les recherches médicales n’ont montré aucun lien avec l’exposition aux ondes. Ses causes restent mystérieuses.

Venons-en à la question plus spécifique de la 5G. La 5G mobilise différentes nouvelles gammes de fréquence, autour de 3,5 GHz et autour de 26 GHz. Avec la 3.5 GHz, on est très proche de fréquences déjà utilisées, par exemple par le Wifi, et de fréquences dont les effets ont été très étudiés. Pour la 26 GHz, si l’utilisation dans un cadre grand public de telles ondes est nouveau, on dispose déjà d’études sur de telles fréquences élevées. Pourtant, l’utilisation nouvelle de ces fréquences spécifiques légitime le fait que de nouvelles études soient entreprises pour elles, ce qui est déjà le cas.

Un aspect de la 5G conduit naturellement aussi à de nouvelles études : les antennes MIMO dont nous avons parlé. Elles permettent de focaliser l’émission sur l’utilisateur. Cela évite de balancer des ondes dans tout l’espace. Par contre, l’utilisateur sera potentiellement exposé à moins d’ondes au total mais à des puissances plus importantes. Le contexte de l’exposition changeant aussi radicalement conduit à redéfinir la notion d’exposition aux ondes, et peut-être à de nouvelles normes d’exposition. Cela conduit donc à repenser même les notions de mesure.

Nous concluons cette section en mentionnant un autre effet sur la santé qui va bien au-delà de la 5G pour interpeller tout le numérique : la vitesse de développement de ces technologies. Le numérique met au service des personnes des moyens pour améliorer leurs vies. C’est souvent le cas et, en tant qu’informaticiens, nous aimons souligner cette dimension. Mais, le numérique impose aussi son rythme et son instantanéité à des individus, quelquefois (souvent?) à leur détriment. C’est particulièrement vrai dans un contexte professionnel. Dans le même temps où il nous décharge de tâches pénibles, il peut imposer des cadences inhumaines. Voici évidemment des usages qu’il faut repousser. Il faut notamment être vigilant pour éviter que la 5G ne participe à une déshumanisation du travail.

Économie et souveraineté

On peut difficilement évaluer les retombées économiques de la 5G, mais les analystes avancent qu’elle va bouleverser de nombreux secteurs, par exemple, la fabrication en usine et les entrepôts. On s’attend à ce qu’elle conduise aussi à de nouvelles gammes de services grand-public et à la transformation des services de l’État. On entend donc : Le monde de demain sera différent avec la 5G, et ceux qui n’auront pas pris le tournant 5G seront dépassés. C’est une des réponses avancées aux détracteurs de la 5G, la raison économique. On rejouerait un peu ce qui s’est passé avec les plateformes d’internet : on est parti trop tard et du coup on rame à rattraper ce retard. Sans la 5G, l’économie nationale perdrait en compétitivité et nous basculerions dans le tiers monde.

Il est difficile de valider ou réfuter une telle affirmation. N’abandonnerions-nous la 5G que pour un temps ou indéfiniment ? Est-ce que ce serait pour adopter une autre technologie ? Nous pouvons poser par contre la question de notre place dans cette technique particulière, celle de la France et celle de l’Europe.

Pour ce qui est du développement de la technologie, contrairement à d’autres domaines, l’Europe est bien placée avec deux entreprises européennes sur les trois qui dominent le marché, Nokia et Ericsson. On peut même dire que Nokia est “un peu” française puisqu’elle inclut Alcatel. La dernière entreprise dominante est chinoise, Huawei, que les États-Unis et d’autres essaient de tenir à l’écart parce qu’elle est plus ou moins sous le contrôle du parti communiste chinois. La France essaie d’éviter que des communications d’acteurs sensibles ne puissent passer par les matériels Huawei ce qui revient de fait à l’exclure en grande partie du réseau français.

Pour ce qui est des usages, les industriels français semblent s’y intéresser enfin. Les milieux scientifiques européens et les entreprises technologiques européennes ne sont pas (trop) à la traîne même si on peut s’inquiéter des dominations américaines et chinoises dans des secteurs comme les composants électroniques ou les logiciels, et des investissements véritablement massif des États-Unis et de la Chine dans les technologies numériques bien plus grands qu’en Europe. On peut donc s’inquiéter de voir l’économie et l’industrie européenne prendre du retard. Il est vrai que la 5G ne sera pleinement présente que dans deux ou trois ans. On peut espérer que ce délai sera utilisé pour mieux nous lancer peut-être quand on aura mieux compris les enjeux, en espérant que ce ne sera pas trop tard, qu’en arrivant avec un temps de retard, on n’aura pas laissé les premiers arrivants rafler la mise (“winner-take-all”).

Conclusion. Comme nous l’avons vu, certains questionnements sur la 5G méritent qu’on s’y arrête, qu’on poursuive des recherches, qu’on infléchisse nos usages des technologies cellulaires. La 5G est au tout début de son déploiement. Les sujets traversés interpellent le citoyen. Nous voulons mettre cette technologie à notre service, par exemple, éviter qu’elle ne conduise à de la surveillance de masse ou imposer des rythmes de travail inhumains. Nous avons l’obligation de la mettre au service de l’écologie par exemple en évitant des changements de smartphones trop fréquents ou des téléchargements intempestifs de vidéos en mobilité. C’est bien pourquoi les citoyens doivent se familiariser avec ces sujets pour choisir ce qu’ils veulent que la 5G soit. Décider sans comprendre est rarement la bonne solution.

Serge Abiteboul, Inria et ENS Paris, Gérard Berry, Collège de France

Pour aller plus loin

La 5G et les réseaux de communications mobiles, rapport de l’Académie des sciences – 12 juillet 2021 – Groupe de travail de l’Académie des sciences sur les réseaux du futur

Parlons 5G : toutes vos questions sur la 5G, Arcep

https://binaire.socinfo.fr/5g/

22 octobre 2021

5G : le coin de la technique

Serge Abiteboul et Gérard Berry nous parlent de la 5G qui se déploie très rapidement en France. Dans un premier article, ils considèrent les aspects techniques. Dans un deuxième, ils traiteront des craintes autour de la 5G. Un dernier adressera la question des applications de cette technologie.
Cet article est en collaboration avec Theconversation France. Toute la série.

On peut transmettre des messages en utilisant des ondes électromagnétiques. Par exemple, un téléphone cellulaire échange des messages avec une station radio le plus souvent située en haut d’un pylône ou sur un toit. On utilise pour cela des ondes de différentes fréquences ; les plus basses se propagent plus loin, les plus hautes exigent de plus petites antennes ; les encore plus hautes sont très peu utilisées pour l’instant.

Les premiers réseaux cellulaires étaient analogiques. Ils sont devenus numériques avec la 2G, qui a aussi introduit les SMS. Avec le nouveau millénaire, la 3G a fait entrer la téléphonie mobile dans le monde d’Internet. Avec des débits bien plus grands joints à l’explosion des smartphones, la 4G a apporté la vidéo en bonne définition.

Tous les 10 ans en gros, un nouveau standard et une nouvelle génération de téléphones cellulaires arrivent qui transforment les usages; récemment, c’était la 5G.

On assiste depuis l’arrivée de la 2G a une progression exponentielle des données transportées par le réseau, et une augmentation massive du nombre d’objets connectés (téléphone, télévision, télésurveillance, voitures connectées, etc). C’est permis par les avancées scientifiques et technologiques qui ont amélioré les “tuyaux” où circulent les données. De fait, les usages absorbent tout ce que la techno propose. Il faut noter que la partie essentielle de cette connectivité vient de la fibre optique, dont nous ne parlerons pas.

Les technologies de la téléphonie cellulaire ont apporté des solutions efficaces et abordables pour une couverture de service de communications global, reliant des lieux éloignés, les zones rurales, les voies de transports routiers ou ferroviaires. En cela, elles participent à la réduction de la fracture numérique territoriale.

La 5G amène une vraie disruption. On aimerait pointer une avancée scientifique à sa base, mais en fait elle repose toute une gamme d’innovations. Le monde du téléphone cellulaire est un monde des normes : il fonctionne parce que les opérateurs se mettent d’accord, dans un cadre qui s’appelle le 3GPP, sur des normes qui vont permettre, par exemple, à un paquet de bits de passer de votre téléphone au cœur de la Lozère, à l’ordi d’une amie dans son bureau à Rio. Ceci demande de regrouper tout un paquet d’avancées scientifiques et techniques avant de lancer une nouvelle norme. La 5G est donc plutôt comme un couteau multi-lames, où chaque lame est soit une techno venant de la 4G mais améliorée, soit une nouvelle techno sortie des labos dans les dix dernières années.

Nous allons mentionner dans ce premier article les belles avancées scientifiques et techniques qui sous-tendent la 5G, et ce qu’elles apportent en termes de fonctionnalités. Mais introduire des technologies dans nos vies quotidiennes n’est jamais innocent. Dans un second article, nous envisagerons les questionnements que cela soulève pour ce qui est de l’environnement principalement, mais aussi de la sécurité, la santé ou la souveraineté. Dans un dernier article, nous regarderons du côté des services et des usages et essaierons d’analyser la difficile question de savoir ce qui va vraiment changer, les changements réels induits par de telles technologies disruptives étant souvent différents de ce qui était prévu à l’origine ou annoncé au moment du lancement.

La portée de 3 bandes de fréquences. Source Arcep.

Les fonctionnalités

La 5G va permettre des améliorations techniques principalement dans quatre directions : le débit, la latence, la densité et la virtualisation.

Un aspect très visible dans les communications cellulaires est la quantité d’information échangée dans une unité de temps, le débit. Si le débit est trop faible, je ne peux pas visionner un film, ou je ne le fais qu’avec une qualité très médiocre. Avec la 5G, on peut s’attendre à ce que “le débit de pic” soit jusqu’à 10 fois supérieur à celui de la 4G, quasiment celui d’une fibre optique ordinaire. En fait, les débits vont surtout augmenter grâce à de nouvelles fréquences que la téléphonie mobile va coloniser avec la 5G, qui sont des fréquences hautes entre 1GHz et 6 GHz et des fréquences encore plus hautes dites « millimétriques » au-dessus de 6 GHz.

Mais ne rêvons pas : dans le cellulaire, on partage les fréquences entre les différents opérateurs, et pour chaque opérateur avec les gens autour de nous : le voisin qui regarde un match de rugby, la voisine qui passe sa soirée sur un jeu vidéo en réseau, etc. Donc que vont observer les utilisateurs que nous sommes ? Nous allons voir la situation s’améliorer dans les zones très denses où les réseaux cellulaires sont déjà saturés ou le seraient à court terme sans la 5G. Nous ne verrons pas vraiment de changement dans les zones peu denses déjà couvertes par la 4G, peut-être des téléchargements plus rapides de vidéos. Et si nous voyons une belle amélioration dans une zone blanche où il n’y avait quasiment rien, ce sera plus sûrement du fait de l’arrivée de réseaux 4G.

La deuxième direction d’amélioration est la latence, c’est-à-dire le temps pour un aller-retour entre le téléphone et le serveur d’applications, qui se compte aujourd’hui en dizaines de millisecondes. Avec la 5G, on va mesurer la latence en millisecondes. Pour visualiser un film, on s’en fout. Mais pour un jeu vidéo, pour de la réalité augmentée, pour réaliser à distance une opération chirurgicale, ça peut juste faire la différence entre possible ou impossible. Le but est que l’ensemble du système offre une réactivité beaucoup plus importante jointe à une garantie forte de transmission du message.

La troisième dimension est la densité. On parle de communications de machines à machines et de services nécessitant un nombre massif d’objets à faible consommation énergétique et faibles débits (l’Internet des objets) Un des objectifs est de pouvoir gérer un million d’objets au kilomètre carré. Dans cette dimension, la 5G est en compétition avec des techniques dites 0G comme Sigfox et Lora. Traditionnellement, pour la communication des objets, on distinguait des objets bon marché, bas de gamme, qui utilisaient le 0G, et des objets plus exigeants en 4G. La 5G a la prétention de pouvoir couvrir toute la gamme avec un même standard.

La dernière dimension, la virtualisation, est cette fois de nature logicielle. De même que le cloud computing virtualise les ressources de calcul et de stockage distantes, la 5G permet de virtualiser différents éléments d’un réseau de communication. Jusqu’à la 4G, un opérateur particulier disposait de sa propre bande de fréquences, de ses matériels notamment radio, et de logiciels qui s’exécutaient sur ces matériels. Les réseaux des différents opérateurs étaient bien isolés les uns des autres. La virtualisation (dont nous détaillerons des aspects techniques plus loin) permet de construire des réseaux virtuels étanches les uns aux autres mais partageant la même bande de fréquences ; par exemple, une industrie pourra exploiter son propre réseau étanche et limité géographiquement pour y connecter ses propres objets et services.

Attention, tout cela ne se fera pas en un jour. La 5G arrive par étapes, parce qu’il faut installer partout de nouveaux composants radio, mais aussi parce que, pour qu’elle fonctionne au mieux, il va falloir transformer les logiciels des “cœurs de réseaux”.

Il faut aussi parler de deux autres dimensions :

L’efficacité énergétique qui a été prise comme objectif depuis les débuts de la conception de la 5G. Une rupture avec les générations précédentes est annoncée. On vise une division par au moins dix du coût énergétique du gigaoctet transporté. Comme nous le verrons, cela n’empêche pas d’avoir des craintes légitimes sur l’effet de cette technologie sur l’environnement.
Pour la sécurité informatique, le sujet est contrasté : elle est plus prise en compte que pour la 4G ce qui améliore les choses. Par contre, la surface des attaques possibles explose comme nous le verrons, en particulier à cause de l’extension des aspects logiciels des réseaux, ouvrant la porte à d’autres possibilités d’attaque. De fait, le contrôle de la sécurité se déplace du matériel au logiciel. De plus, cela conduit à réaliser une surveillance en temps réel pour détecter les attaques et être prêt à y remédier. L’utilisation de plus en plus massive de l’intelligence artificielle complique la tâche : d’une part, parce que les logiciels des réseaux s’appuyant sur cette technologie auront des comportements plus difficiles à prévoir, et d’autre part, parce que les attaquants eux-mêmes pourront s’appuyer sur l’IA. A contrario, les systèmes de détection d’attaque pourront eux-aussi inclure de l’IA.

Pour ce qui est des innovations scientifiques et techniques sur lesquelles se fonde la 5G, elles peuvent se regrouper en deux classes : radios et logicielles.

Les innovations techniques logicielles

La virtualisation. Traditionnellement, les réseaux des télécoms s’appuient sur des machines dédiées : différents niveaux de routeurs, firewalls, etc. L’idée est de transporter cela sur des architectures logicielles comme celles des plateformes du web. On parle donc de convergence entre systèmes informatiques et systèmes de communication. Mis à part les éléments purement électroniques de radio, dès qu’on passe en numérique, on se place sur un réseau de machines génériques (de calcul, de stockage, de connexion) capables de réaliser toutes les différentes fonctions de façon logicielle. Par exemple, plutôt que d’installer un routeur physique qui gère l’acheminement des messages pour un réseau virtuel, on déploiera un routeur virtuel sur un ordinateur générique du réseau, que l’on pourra configurer suivant les besoins. Pour ce qui est de la virtualisation des fonctionnalités véritablement radio, cette convergence est à relativiser car, pour des questions de performances, on doit souvent utiliser des accélérations matérielles.
Edge Computing. Les services sont implantés aujourd’hui dans des data centers parfois très loin de leurs utilisateurs. Ce cloud computing induit des coûts de transport pour les messages et introduit une latence incompressible même si les communications sont hyper-rapides. L’idée est d’installer de petits data centers dans le réseau plus près des utilisations. Pour des applications, par exemple, de contrôle de machines ou de réalité augmentée, cela permet de gagner un temps précieux pour la détection d’événement et le contrôle.
Network slicing. Une limite actuelle de la technologie cellulaire est l’impossibilité de garantir la qualité du service. Le network slicing permet de réserver virtuellement une “tranche de fréquences” pour un service particulier, ou plus précisément d’offrir une certaine garantie de service. Dans certaines configurations ou pour certains usages ayant des exigences spécifiques, le service est en position de monopole et n’a donc pas à partager avec d’autres services. Quand on contrôle à distance une machine-outil de précision, on veut, par exemple, garantir un délai maximum de quelques millisecondes entre la commande exercée par le pilote et sa réception par la machine. Pour ce faire, on ne peut pas être en compétition avec d’autres services. En ondes millimétriques, le réseau concerné peut être de faible surface, par exemple, limité à un site industriel.

Les innovations techniques radios

Avec le « massive MIMO » (multiple input, multiple output), chaque antenne consiste en un grand nombre de petites antennes. Chaque petite antenne de la station focalise les ondes vers un utilisateur qu’elle suit. Plus précisément, des ondes émises par différents éléments de l’antenne se combinent intelligemment pour réaliser le rayon qui cible un utilisateur particulier. Cela évite l’arrosage très large de l’environnement que font les antennes classiques. C’est une techno plus complexe mais qui permettra des économies d’énergie une fois bien maitrisée. Et on peut utiliser plusieurs antennes distantes pour une même communication, améliorant encore la focalisation
L’utilisation de fréquences plus élevées, les bandes millimétriques comme la 26 GHz envisagée en France. Cela permet d’augmenter les fréquences utilisables pour les communications et surtout d’arriver dans des bandes où les disponibilités de fréquences sont importantes.
L’utilisation simultanée de différentes technologies et fréquences. Vous pouvez par exemple déjà téléphoner depuis chez vous en cellulaire ou en Wifi (voix sur Wifi). Votre téléphone doit choisir et le passage de l’un à l’autre est compliqué, et de nos jours très lent. Les futures générations de téléphones faciliteront de telles utilisations simultanées de plusieurs technos et fréquences afin d’améliorer les services, par exemple en évitant de tomber dans un “trou” lors du passage de l’une à l’autre.
Le mode TDD (Time Division Duplexing) : on partage de mêmes fréquences avec une répartition dans le temps des phases montantes (du téléphone vers la station) et descendantes (de la station au téléphone). Cela permet de ne pas choisir a priori un partage des fréquences entre le trafic montant et descendant. La meilleure utilisation des fréquences est un élément clé de l’utilisation des réseaux cellulaires, car c’est une ressource rare à partager entre tous les utilisateurs.
Les « petites cellules » (small cells). La techno permet d’utiliser les bandes très hautes (par exemple, 26 GHz) qui sont disponibles en très grandes quantités. Mais les messages s’y propagent beaucoup moins loin, quelques centaines de mètres au plus. On va donc utiliser de toutes petites antennes (les cellules) sur des lampadaires, des abribus, etc. C’est une technologie pour centre-ville et lieux très fréquentés comme des stades ou des festivals.
Les communications de terminal à terminal. Cela permet à des terminaux de communiquer directement entre eux sans passer par le système de l’opérateur. On peut continuer à communiquer même quand le réseau est saturé ou quand il dysfonctionne, par exemple en cas de catastrophe naturelle ou d’attaque informatique.
La radio cognitive. L’idée est de pouvoir mieux utiliser les fréquences, en se glissant temporairement quand c’est possible dans des fréquences non-utilisées.
Pour ce qui est de la radio cognitive et des communications de terminal à terminal, si ces deux aspects participent bien de la vision de la 5G, ils ne semblent pas encore vraiment mures à ce stade.

Et demain, la 6G

S’il n’est déjà pas simple de dire ce que sera la 5G en cours de déploiement, il devient carrément surréaliste de décrire une technologie encore dans les laboratoires de recherche, la 6G : nous ne sommes pas futurologues ! Nous nous contenterons donc d’en présenter les grands traits. Techniquement, tout en visant encore plus de débit, la 6G vise le “plus fin” : de plus petites antennes (small cells), et de plus petits data centers (edge). Nous serons en permanence connectés au réseau cellulaire et dans de mêmes standards, même quand ce sera par satellite. Le réseau doit se mettre à notre service, nous “humains”, probablement de plus en plus immergés dans un monde de robots (ce qu’individuellement nous ne souhaitons pas forcément, mais c’est un autre sujet) ; on parle de réalité virtuelle et augmentée (qui démarrent), d’holographie pour des réunions à distance. Et la 6G doit permettre aussi de bien suivre les objets se déplaçant à haute vitesse ou en environnement compliqué.

En fait, la 6G permettra l’aboutissement des promesses de la 5G en rendant possible les communications entre un nombre massif de machines de tout genre peut-être des millions au km2). Si la 5G a déjà été conçue avec la sobriété énergétique comme objectif, la 6G ira encore plus loin dans cette direction.

Bien sûr, l’intelligence artificielle sera hyper-présente, ce serait-ce que parce que les systèmes de communication et leur sécurité seront devenus trop complexes pour les simples humains que nous sommes.

La 6G règlera tous les problèmes des réseaux cellulaires, elle sera capable de tout, pourquoi pas de faire le café… Vous ne voyez pas bien où ça nous mène. Eh bien, nous non plus. C’est bien pour cela qu’il est indispensable de suivre tout cela de près, parce que nous aurons des choix sociétaux peut-être essentiels à faire sur des sujets comme le niveau de robotisation de nos vies, la sécurité ou l’environnement.

Serge Abiteboul, Inria et ENS Paris, Gérard Berry, Collège de France

Pour aller plus loin

La 5G et les réseaux de communications mobiles, rapport de l’Académie des sciences – 12 juillet 2021 – Groupe de travail de l’Académie des sciences sur les réseaux du futur

Parlons 5G : toutes vos questions sur la 5G, Arcep

https://binaire.socinfo.fr/5g/

15 octobre 2021

25 énigmes pour s’initier à la cryptographie

Notre amie Charlotte Truchet, longtemps éditrice de binaire, nous avait promis une critique du livre « 25 énigmes pour s’initier à la cryptographie » de Pascal Lafourcade et Malika More. La voici, et … Quoi ? … Que dis tu, Charlotte ?
Ah oui ! Ok, tu es « pote » avec Pascal Lafourcade. D’accord, nous lirons ton article en le sachant. Mais je crois que nous ne serons pas les seul·e·s à sympathiser avec le livre en tout cas, il a l’air passionnant.

Thierry Viéville et Pierre Paradinas.

Vendu comme une initiation à la cryptographie, ce livre s’adresse en réalité à notre insatiable curiosité. Ainsi, la lectrice doit décrypter des textes chiffrés par différentes techniques cryptographiques, qui vont de très faciles (faciles, faciles, encore faut-il se le farcir à la main, le décalage de l’alphabet !) à carrément démoniaque. Ce principe, qui revient à l’essence même du chiffrement, nous livre pieds et poings liés à la lecture des explications associées à chaque énigme : quand on a passé un certain temps à s’arracher les cheveux dans des calculs, faits à la main, et plus ou moins hasardeux, juste parce que c’est très énervant de ne pas savoir ce qui se cache derrière la séquence « DZMBVVHOLRQX », on est mieux disposé à comprendre comment les auteur et autrice ont caché leur message. De ce point de vue, j’ai trouvé que le livre marchait très, très bien. Même en tant qu’informaticienne, raisonnablement au fait des principales méthodes de cryptographie, je me suis prise au jeu, j’ai joué aux devinettes, et j’ai lu avec plaisir les solutions détaillées. Ce livre est une bénédiction autant qu’une torture pour les esprits curieux.

L’autre grande réussite du bouquin est le choix des systèmes cryptographiques présentés : les énigmes abordent des techniques de crypto très variées, présentées de façon progressive, de sorte qu’il est facile de s’y plonger en fonction du temps et de l’envie qu’on a. On y découvrira, en vrac, la stéganographie, différents chiffrements par substitution, le tatouage d’images, des attaques par canaux cachés, et même des sujets plus récents comme le fonctionnement du bitcoin, l’évaluation de la solidité d’un mot de passe ou encore la sécurité des protocoles de vote. Evidemment, plus les techniques sont élaborées, plus la résolution des énigmes devient ardue. Heureusement, on est aidé par une série d’indices, et surtout… on a le droit de craquer ! Chaque énigme est fournie avec sa solution, et surtout, des explications à la fois historiques et scientifiques qui se lisent vraiment bien. Et rien que cela, en soi, relève de la performance, tant la crypto, grande consommatrice de math pointues, est toujours difficile à vulgariser.

Il faut bien qu’une critique contienne quelques critiques… Attention, la mise en page est en elle-même presque un chiffrement. Sans doute pour ne pas nous pousser à aller trop vite regarder les indices et les réponses, ceux-ci sont regroupés en plusieurs catégories, de sorte qu’il n’est vraiment pas facile de trouver le numéro de la page qui nous intéresse. Prévoyez un paquet de post-its ! Promis, cela en vaut la peine.

Les auteur et autrice conseillent de s’attacher à résoudre les énigmes avant de lire les explications… en pratique, cela ne semble pas indispensable : on s’instruira déjà beaucoup en parcourant simplement les explications (bon, d’accord, c’est un peu dommage). Finalement, ce livre dit s’adresser à un niveau de math de lycée… C’est faux ! La variété et la clarté des explications pourra aussi bien intéresser un lectorat bien plus large ! Cela m’a été confirmé par une amie philosophe, qui comme moi s’est trouvé happée par les puzzles proposés. Curieux de tous âges et de toutes disciplines, courez le lire, vous y trouverez un éclairage original et bienvenu sur des techniques de crypto massivement utilisées, mais qui restent assez méconnues du grand public.

Charlotte Truchet.

12 octobre 2021

Une IA bien de chez nous raffle la mise

Mon IA est meilleure que la tienne ! Sérieusement, comment fait-on pour vérifier ? On organise des tournois multi-jeux entre elles. Le dernier a vu une victoire, on va dire écrasante, époustouflante, d’une équipe française. Pourquoi, bouder sa joie ? La recherche française a réalisée là une brillante démonstration. Et au-delà de la simple victoire, c’est un coup de projecteur sur la thèse de Quentin Cohen-Solal et son travail avec Tristan Cazenave. Laissons-leur la parole. Serge Abiteboul et Thierry Viéville

De fin août à mi septembre 2021 se tenaient les 24èmes Computer Olympiad, une compétition mondiale multi-jeux pour intelligences artificielles. Durant cet événement, de nombreux tournois sont organisés, chacun portant sur un jeu de réflexion spécifique, comme le jeu de Dames. La particularité de cette compétition est qu’il s’agit d’intelligences artificielles qui s’affrontent.

Il y a eu cette année 22 tournois et 60 équipes participantes de tous horizons. Les résultats sont disponibles sur le site de l’International Computer Games Association.

Quentin Cohen-Solal et Tristan Cazenave, chercheurs français affiliés au LAMSADE, Université Paris-Dauphine, PSL, CNRS ont participé à plusieurs de ces tournois en faisant concourir leur intelligence artificielle novatrice. Elle a gagné, lors de cette dernière édition des Computer Olympiad, 11 médailles d’or, aux jeux suivants : Surakarta, Hex 11, Hex 13, Hex 19, Havannah 8, Havannah 10, Othello, Amazons, Breakthrough, Dames canadiennes, Dames brésiliennes. C’est la première fois qu’une même équipe, et en particulier qu’une même intelligence artificielle, remporte autant de médailles d’or la même année, dépassant le double du record précédent de médailles d’or.

Cette intelligence artificielle, créée par Quentin Cohen-Solal [1], et étudiée plus finement ensuite avec l’aide de Tristan Cazenave [2], son encadrant postdoctoral dans le cadre de l’institut PRAIRIE, est la deuxième intelligence artificielle ayant la capacité d’apprendre par elle-même sans aide humaine. La première intelligence artificielle dotée de cette capacité est Alpha Zero [3], créée par des chercheurs de Google. Chacune de ces deux types d’intelligences artificielles apprend à bien jouer à un jeu en jouant contre elle-même, sans rien savoir a priori, à part les règles du jeu. Après chaque partie, ces intelligences artificielles apprennent de leurs succès et de leurs erreurs pour s’améliorer.

Cette nouvelle intelligence artificielle, nommons là Athénan sans bien entendu chercher à la personnifier. Athénan se distingue sur de nombreux aspects par rapport à Alpha Zero. D’une part, Alpha Zero cherche à maximiser la moyenne des différentes issues possibles de la partie, tout en minimisant le regret de ne pas anticiper suffisamment certaines stratégies de jeu prometteuses. Cette seconde intelligence artificielle considère les meilleures actions et non les actions meilleures en moyenne, et analyse toujours en premier les stratégies les plus intéressantes.

Pour guider sa recherche stratégique, Alpha Zero utilise un réseau de neurones artificiels, qui agit comme une intuition. Pour chaque état de jeu analysé, le réseau de neurones calcule sa valeur (i.e. une estimation d’à quel point cet état peut mener à la victoire) ainsi qu’une probabilité, pour chaque action, que cette action soit la meilleure dans cet état. Cette nouvelle approche utilise également un réseau de neurones pour guider sa recherche en calculant une valeur pour les états du jeu. Cependant, les probabilités que chaque action soit la meilleure ne sont ni utilisées ni calculées. Pour apprendre des parties effectuées, Alpha Zero met à jour son réseau de neurones, en considérant que la valeur d’un état est le résultat de fin de partie et que la probabilité qu’une action soit la meilleure est, grosso modo, la proportion du nombre de fois que cette action a été considérée plus intéressante durant la recherche. Ainsi, s’il se retrouve à nouveau dans cet état (ou un état analogue), il aura mémorisé les informations capitales de sa recherche précédente. C’est ce procédé qui lui permet de s’améliorer de partie en partie. Au fur et à mesure, il va affiner ses probabilités de jouer la meilleure action et avoir une meilleure estimation du résultat de fin de partie. Avec Athénan, la valeur d’un état n’est pas mise à jour par le résultat de fin de partie de la partie qui vient de se terminer : elle est mise à jour par le résultat de fin de partie de cet état estimé d’après les connaissances acquises lors des parties précédentes et de la recherche effectuée durant cette nouvelle partie. Cette information est a priori plus informative que le simple résultat de fin de partie de la dernière partie et permet de capitaliser les connaissances d’une partie à l’autre.

En outre, avec cette nouvelle approche, l’état actuel de la recherche de la meilleure stratégie est intégralement mémorisé. Au contraire, Alpha Zero n’apprend que le résumé de cette recherche. Il y a donc une perte d’information avec cette première approche. Cette différence est importante, car pour bien apprendre, il faut beaucoup de données. Ainsi, avec cette nouvelle approche, beaucoup plus de données sont générées pour le même nombre de parties. Mais ce n’est pas aussi simple car s’il y a trop de données incorrectes, cela peut pénaliser fortement l’apprentissage.

Il reste à souligner une dernière différence avec Alpha Zero : elle concerne la recherche stratégique durant l’apprentissage. Avec Athénan, chaque stratégie est complètement analysée, anticipée jusqu’à la fin de la partie, alors qu’avec Alpha Zero, l’analyse d’une stratégie s’arrête dès qu’il pense qu’elle n’est plus intéressante (il n’analyse que les premières actions d’une stratégie). Cette nouvelle façon de faire, bien que plus coûteuse, permet d’obtenir des données concrètes pour l’apprentissage.

Notons pour finir qu’Alpha Zero requiert généralement un super-calculateur équipé d’une centaine de cartes graphiques et d’une centaine de processeurs pour donner de bons résultats. Athénan, à titre de comparaison, n’a besoin que d’un ordinateur équipé d’une seule carte graphique et d’un nombre normal de processeurs.

Il s’avère que pour de nombreux jeux, cette nouvelle approche est bien plus performante à matériel équivalent. Elle est également très compétitive même si Alpha Zero utilise un super-calculateur [2].

Au-delà des applications évidentes dans le domaine des jeux de sociétés et des jeux vidéos (aide à la conception, personnages non joueurs plus intelligents), de nombreuses autres applications sont possibles. Cette intelligence artificielle peut théoriquement résoudre de manière optimale tout problème où le hasard n’intervient pas, où aucune information n’est cachée et où les personnes impliquées interagissent à tour de rôle. On devrait notamment s’attendre à des applications concernant le routage internet [4], les tournées de véhicules [5] et la conception de molécules d’ARN [6], puisque sur ces problèmes, des algorithmes de jeu ont déjà montré leur utilités. Des travaux sont évidemment en cours pour dépasser ses limites. Un prototype est en phase de test concernant la gestion du hasard.

Quentin Cohen-Solal (publications) et Tristan Cazenave (home page, publications).

[1] Cohen-Solal, Q. (2020). Learning to Play Two-Player Perfect-Information Games without Knowledge. arXiv preprint

[2] Cohen-Solal, Q., Cazenave, T. (2020). Minimax Strikes Back. arXiv preprint

[3] Silver, D., Hubert, T., et al. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science.

[4] https://www.lamsade.dauphine.fr/~cazenave/papers/Congestion.pdf

[5] https://www.lamsade.dauphine.fr/~cazenave/papers/PolicyAdaptationForVehicleRouting.pdf

[6] https://www.lamsade.dauphine.fr/~cazenave/papers/MonteCarloInverseFolding.pdf

Quelques images de la compétition :

	Amazons : Le premier joueur qui ne peut plus jouer perd. A son tour, un joueur déplace une de ses dames, puis pose un jeton sur le plateau de façon à ce qu’il soit aligné avec la dame qui vient de se déplacer et qu’il n’y ait aucune pièce située entre elles. Les dames et les jetons bloquent le déplacement.
	Hex : Le premier joueur à relier les bords du plateau de sa couleur avec un chemin de pièces contiguës de sa couleur gagne.
	Othello : A son tour, un joueur pose une pièce sur le plateau qui permet d’encercler un alignement de pièces adverses. Les pièces adverses encerclées sont alors remplacées par des pièces de sa couleur. Le joueur qui a le plus de pièces de sa couleur à la fin de la partie gagne.
	Breakthrough : Le premier joueur qui arrive à faire atteindre l’autre bout du plateau à un de ses pions gagne.
	Havannah : Le premier joueur qui arrive à relier trois des six bords du plateau ou deux des six coins du plateau ou à dessiner une boucle avec ses pièces gagne.
	Dames : Le premier joueur à avoir pris toutes les pièces adverses gagne. Un pion avance en diagonal et peut sauter par-dessus les pièces adverses, ce qui les élimine. Un pion qui atteint le bord de l’adversaire devient une dame qui peut se déplacer d’autant de cases qu’elle veut.
	Surakarta : Le premier joueur à avoir pris toutes les pièces adverses gagne. Un pion se déplace en diagonal ou orthogonalement. Il prend un pion adverse en atterrissant sur lui, s’il y a un chemin libre permettant de l’atteindre passant au moins une fois par une des boucles du plateau.

8 octobre 2021

Dessine-moi un graphe de connaissances !
Comment représenter des connaissances de manière formelle pour que des logiciels puissent les utiliser ? Plein de trucs ont été essayés et ce qui marche bien c’est la structure de graphe. Les nœuds sont des entités et les liens des relations entre elles. Bon, on a un peu trop simplifié. Fabien Gandon nous parle des graphes de connaissance, une branche de l’IA avec des applications impressionnantes, peut-être moins connue que l’apprentissage automatique mais toute aussi passionnante. Fabien est informaticien, chercheur chez Inria. Il est Professeur au Data ScienceTech Institute, Titulaire d’une Chaire 3IA aux Instituts Interdisciplinaires d’Intelligence Artificielle de l’Université Côte d’Azur. C’est un des meilleurs spécialistes en représentation des connaissances et Web Sémantique. Serge Abiteboul, Ikram Chraibi Kaadoud, Thierry Viéville

Page de Fabien Gandon, A partir de « Les défis de l’intelligence artificielle – Un reporter dans les labos de recherche », Jérémie Dres, 2021.

Le terme de « graphe de connaissance » existe depuis des décennies mais son utilisation par Google en 2012 pour un nouveau service, puis par un nombre grandissant d’autres entreprises, l’ont rendu extrêmement populaire dernièrement. De plus son couplage avec différentes techniques d’intelligence artificielle contribue à en faire un sujet d’intérêt d’actualité. Si, à l’instar de cette expression « intelligence artificielle », le terme « graphe de connaissance » ou Knowledge Graph est utilisé avec différentes acceptions et identifie actuellement une ressource numérique très différente d’un cas d’usage à un autre, le domaine de la représentation des connaissances à base de graphes existe depuis longtemps et étudie l’expressivité de ces modèles et la complexité de leurs traitements avec des interactions multidisciplinaires et des applications dans de nombreux domaines.

S’il vous plaît… dessine-moi un graphe de connaissances !

Un graphe est une structure mathématique contenant un ensemble d’objets dans lequel certaines paires d’objets sont en relation. Les objets et les relations peuvent être très variés comme par exemple des villes reliées par des routes, des personnes reliées par des relations sociales ou des livres reliés par des citations. Un graphe est typiquement dessiné sous la forme de points représentant les objets (sommets du graphe) et de lignes entre eux représentant les relations (arêtes du graphe).

Un graphe avec six sommets et sept arêtes

Un graphe de connaissances représente des données très variées en les augmentant avec des connaissances explicites attachées aux sommets et aux arêtes du graphe pour donner des informations sur leur sens, leur structure et leur contexte. Il est explicitement utilisé pour représenter et formaliser nos connaissances dans des applications informatiques.

Prenons l’exemple d’un graphe de connaissances dans le domaine de la musique. Les sommets de ce graphe peuvent représenter des albums, des artistes, des concerts, des chansons, des labels, des langues, des genres, etc., et les arêtes peuvent capturer les relations d’auteur, compositeur, interprète, parolier, indiquer les influences artistiques, connecter les différentes versions d’un morceau ou grouper les morceaux d’un album, etc.

Un petit graphe de connaissance en musique

Dans un graphe de connaissance on trouvera typiquement deux types de sommets : ceux qui représentent des objets (ex. les musiciens) et ceux qui représentent des données (ex. une date, un texte). On trouvera donc aussi deux types d’arêtes : celles qui relient des objets (ex. un père et son fils) et celles qui indiquent des attributs d’un objet (ex. la date de naissance d’une personne).

Des graphes à tout faire

Que ce soit au sein d’un même graphe ou entre des graphes différents, on trouve des connaissances de natures très variées dans ces graphes. Les connaissances peuvent être organisées dans des arbres pour une taxonomie d’espèces, ou plutôt en réseau pour un réseau social ou pour des liens entre sites web. On peut créer des ponts entre différents graphes de connaissances notamment en réutilisant des sommets de l’un dans l’autre. Par exemple, un graphe de connaissance géographique capturant des villes, des reliefs, des frontières, pourra en certains sommets rejoindre notre graphe sur la musique quand la description d’un concert indiquera le lieu de cet évènement.

Dans la pratique, une distinction peut se faire entre deux grandes familles de graphes de connaissances : les graphes de connaissance ouverts et les graphes de connaissance privés notamment les graphes d’entreprise.

Les graphes de connaissance ouverts sont publiés en ligne comme des biens publics. Certains sont publiés dans des domaines spécifiques, tels que les sciences naturelles (ex. le graphe UniProt décrivant les protéines), la géographie (ex. le graphe GeoNames) ou la musique (ex. le graphe de MusicBrainz). D’autres couvrent des connaissances générales comme DBpedia ou YAGO qui sont des graphes extraits de Wikipedia par des algorithmes, ou Wikidata qui est un graphe construit collaborativement par une communauté de volontaires.

Les graphes de connaissance d’entreprise sont généralement internes à celle-ci car ils font l’objet d’une utilisation commerciale ou sont au cœur de son système d’information. On en trouve dans tous les domaines, depuis l’industrie jusqu’aux différents acteurs de la finance en passant par les sites marchands, les services de relation client ou l’éducation.

Mais la variété des graphes de connaissance concerne bien d’autres aspects de ces structures. Ils peuvent être petits comme ceux qui capturent quelques données personnelles d’un individu ou très gros comme ceux qui forment les bases de connaissances biologiques. Ils peuvent être assez statiques comme un graphe de connaissances linguistiques du Latin ou très dynamiques comme ceux produits par le réseau des capteurs d’une ville.

Les connaissances communes d’un domaine : les schémas des graphes

En tant qu’êtres humains, nous pouvons déduire de l’exemple du graphe sur la musique que deux artistes se connaissent car ils jouent dans le même groupe. Nous pouvons déduire plus de choses que ce que les arêtes du graphe indiquent explicitement parce que nous faisons appel à des connaissances générales que nous partageons avec de nombreuses personnes. Pour un graphe plus spécialisé, ce phénomène se reproduit avec des connaissances partagées par les experts du domaine, les « connaissances de domaine ». Ces connaissances lorsqu’elles sont explicitement représentées en informatique sont appelées des « schémas » ou encore des vocabulaires ou des ontologies en fonction notamment du type de connaissances qu’ils capturent (ex. des connaissances pour valider la qualité des données vs. des connaissances pour déduire de nouvelles choses ; ou encore un lexique vs. une théorie formelle des catégories d’un domaine).

Ces schémas sont eux aussi des graphes de connaissances qui se relient aux autres, mais ils se concentrent sur des connaissances générales partagées, par exemple en indiquant que la catégorie « Musicien » est une sous-catégorie de « Personne » par une arête entre ces deux sommets, sans s’intéresser à un musicien ou une personne en particulier.

Graphe de connaissances et schéma

Les graphes de connaissances et leurs schémas sont alors utiles à diverses méthodes, notamment d’apprentissage et de raisonnement et permettent d’améliorer les réponses à nos requêtes, la classification automatique, la recherche d’incohérences, la suggestion de nouvelles connaissances, etc.

Ce sont de telles connaissances qui permettent à un moteur de recherche de capturer et de répondre, à la question « quelle est la date de naissance de Dave Brubeck ? » directement « le 6 décembre 1920 », plutôt que de vous proposer comme réponses une liste de pages du web

L’adoption d’un même schéma par plusieurs acteurs d’un domaine ou par plusieurs graphes de connaissances permet aussi à ces derniers d’être des éléments clefs dans l’intégration de données et l’intégration d’applications dans ce domaine.

La flexibilité des graphes et de leurs schémas est particulièrement importante lorsque l’on s’intéresse à découvrir des données dans un processus continuel par exemple lorsque ces données sont obtenues en parcourant le web en permanence ou lorsqu’elles sont issues de nouvelles expériences et analyses biologiques arrivant quotidiennement.

La vie rêvée d’un graphe

Les méthodes et outils de création et enrichissement de graphes de connaissances se basent sur des sources de données diverses qui peuvent aller du texte ou de la donnée brute, aux données très structurées. De plus, la flexibilité et l’extensibilité naturelle des graphes de connaissance se prête à une approche incrémentale et agile partant d’un petit graphe initial qui est progressivement enrichi à partir de sources multiples.

Ces extractions qui viennent nourrir les graphes seront généralement incomplètes ou en doublons, avec des contradictions ou même des erreurs. Un second ensemble de méthodes et outils s’intéresse à évaluer et raffiner les graphes de connaissances pour en assurer la qualité et, par répercussion, la fiabilité des applications construites au-dessus.

La variété des graphes de connaissances implique aussi une variété d’outils plus ou moins adaptés aux différents usages. Un outil performant pour un graphe de connaissances pourra se révéler inadapté pour un autre s’ils ont différentes caractéristiques en termes de dynamicité, de traitement ou de taille par exemple.

Outre l’extraction de connaissances qui les nourrit, les graphes de connaissance ont un autre lien particulier avec l’intelligence artificielle : ils font en effet partie des modèles de données de choix quand il s’agit de fournir les entrées ou de capturer les sorties des algorithmes que ce soit pour simuler un raisonnement ou un apprentissage. Le graphe de connaissance peut donc aussi jouer un rôle important dans l’intégration de différentes méthodes d’intelligence artificielle.

Ce double couplage de l’intelligence artificielle et des graphes de connaissance permet d’envisager un cercle vertueux ou le graphe de connaissances en entrée est suffisamment riche pour permettre des traitements intelligents et, en retour, les traitements intelligents augmentent et améliorent la qualité et l’accès au graphe. Dans l’exemple sur la musique, le graphe peut ainsi permettre en entrée d’améliorer un moteur de recherche avec des raisonnements ou de fournir des exemples pour entrainer une méthode d’apprentissage à reconnaitre un genre musical et, en retour, ces mêmes algorithmes d’intelligence artificielle peuvent nous permettre de détecter des manques ou des oublis dans le graphe et de l’améliorer par exemple en suggérant le genre d’un morceau qui manquait dans le graphe.

L’âge de graphe

Comme pour d’autres sujets en intelligence artificielle, si l’on regarde l’histoire des graphes de connaissances, plutôt que de dire qu’il s’agit d’une nouveauté on pourrait dire qu’il s’agit d’un regain d’intérêt dû à un certain nombre de progrès et d’évolutions du contexte scientifique, technique et économique.

Arbre de Porphyre de Tyr pour son Introduction aux Catégories d’Aristote (vers 268) et représenté par Boèce au 6e siècle

On trouve des diagrammes de représentations de connaissances et raisonnements dès l’antiquité et, en mathématique, les graphes sont introduits et utilisés pour représenter une variété de réseaux plus ou moins complexes. Au 19^e siècle, on représente des connaissances linguistiques sous forme de graphes. Au début du 20^e siècle, les sociogrammes capturent les connaissances sociales. Au début de la deuxième moitié du 20^e siècle, les réseaux sémantiques font le lien entre modèles de mémoire humaine et représentation informatique.

Sociogrammes de J. L. Moreno dans son livre “Who Shall Survive: A New Approach to the Problem of Human Interrelations” 1934

Le besoin de langages de haut niveau pour gérer automatiquement des données numériques indépendamment de leurs traitements et la recherche de l’indépendance aux représentations en machine vont encourager les progrès en matière de modèles de données en général et de graphes de données en particulier. Les années suivantes verront la proposition du modèle relationnel et l’émergence des bases de données, du modèle de graphe Entité-Relation, la formalisation logique des réseaux sémantiques, les modèles de frames et les graphes conceptuels, la programmation logique, les systèmes à base de règles et leur application aux systèmes experts et systèmes à base de connaissances, notamment sur des bases de graphes.

Exemple de Graphe Conceptuel (« John va à Boston en bus ») de John Sowa conçu dès les années 70

Dans les années 80 et 90, les langages orientés objets suivis par les représentations graphiques comme UML, mais aussi le développement des notions de schéma et d’ontologies en base de données et en représentation des connaissances renforcent encore l’indépendance des représentations et enrichissent les modèles de graphes de connaissances devenant plus modulaires et réutilisables. Le compromis entre le pouvoir expressif des modèles de représentation des connaissances et la complexité informatique de leur traitement est alors systématiquement étudié.

Le terme de Knowledge Graph (graphe de connaissance) apparait dans des titres de publications académiques à la fin des années 80 et au début des années 90 mais ne se répandra pas vraiment avant la deuxième décennie du siècle suivant. Internet puis le Web vont aussi augmenter à la fois le besoin et les solutions pour représenter, traiter et échanger des données. En particulier, la fin des années 90 voit le lancement au W3C (consortium de standardisation du Web) des langages standards du Web qui nous permettent maintenant de représenter, publier, interroger valider et raisonner sur des graphes de connaissances sur la toile.

Des années 2000 à nos jours, on assiste avant tout au déluge des données, notamment en termes de volume et d’hétérogénéité, suivi par le renouveau de l’intelligence artificielle nourrie par ces données. Dans ce contexte, les graphes de connaissances apparaissent comme un moyen de relier et d’intégrer ces données et leurs métadonnées. Sur le Web, les graphes de connaissances publics apparaissent sous le terme de Linked Data (Données Liées). Facebook annonce son Open Graph Protocol en 2010 et en 2012, Google annonce un produit appelé Knowledge Graph après son rachat de l’entreprise Freebase quelques années avant. A ce stade, beaucoup de vieilles idées atteignent une popularité mondiale et commence alors une adoption massive des graphes de connaissances par de grandes entreprises dans tous les domaines.

On lie… un peu… beaucoup… à l’infini

Les graphes de connaissances sont donc des ressources numériques en pleine ascension, des graphes de données destinés à accumuler et à transmettre des connaissances, dont les sommets représentent des entités d’intérêt et dont les arêtes représentent leurs relations. Ils deviennent le substrat commun à beaucoup d’activités humaines et informatiques, la mémoire collective de communautés hybrides d’intelligences artificielles et naturelles. Ils ne cessent de grandir, de s’enrichir et de se relier entre eux sur virtuellement tous les sujets. Il y a donc de fortes chances que les défis et résultats des travaux sur les graphes de connaissances soient encore pour longtemps au croisement de multiples disciplines et domaines d’activité, avec un fort potentiel de retombées sociétales.

Fabien Gandon, Inria

Pour en savoir plus… vous aussi suivez les liens :

Trois références sur les différentes facettes et activités autour des graphes de connaissances :
- – Hogan et al., Knowledge Graphs, 24 Jan 2021, arXiv:2003.02320
- – Claudio Gutierrez and Juan F. Sequeda. 2021. Knowledge graphs. Commun. ACM 64, 3 (March 2021), 96–104. DOI: https://doi.org/10.1145/3418294
- – Michel Chein et Marie-Laure Mugnier, Graph-based Knowledge Representation, 2009, Springer, ISBN 978-1-84800-286-9
Quatre références sur les graphes de connaissances sur le Web et les données liées :
- – Fabien Gandon. A Survey of the First 20 Years of Research on Semantic Web and Linked Data. Revue des Sciences et Technologies de l’Information – Série ISI : Ingénierie des Systèmes d’Information, Lavoisier, 2018, ⟨3166/ISI.23.3-4.11-56⟩. ⟨hal-01935898⟩
- – Allemang, D., Hendler, J., and Gandon, F. (2020). SemanticWeb for the Working Ontologist. ACM Books, ISBN-13: 978-1450376143
- – Michael Uschold, Demystifying OWL for the Enterprise, ISBN: 9781681731278
- – Fabien Gandon, Catherine Faron, Olivier Corby, Le web sémantique – Comment lier les données et les schémas sur le web ? Dunod, 2012, ISBN-13 ‏ : ‎ 978-2100572946
5 octobre 2021
Entrez dans le monde de l’IA !
Depuis le 25 septembre 2021, la Maison des Mathématiques et de l’Informatique à Lyon a rouvert ses portes et présente une nouvelle exposition sur l’intelligence artificielle, « Entrez dans le monde de l’IA ». Quelle chance ils ont ces Lyonnais ! Serge Abiteboul et Laurence Chevillot

Image de l’exposition (© Benoit Leturcq )

Qu’allez-vous trouver dans cette exposition ?

L’intelligence artificielle (IA), tout le monde en a sans doute entendu parler mais personne ne parle de la même chose. Pourtant, elle est présente dans votre quotidien, des publicités que vous recevez à votre appli de transport en passant par les jeux vidéo. Cette exposition vous permettra de découvrir et de tester des applications de l’IA, des plus sérieuses aux plus amusantes. Certaines sont tellement impressionnantes que vous aurez forcément envie de voir ce qui se cache derrière.

En manipulant et en expérimentant, venez découvrir l’apprentissage machine (« machine learning »), les réseaux de neurones, l’apprentissage profond (« deep learning ») ou encore l’apprentissage par renforcement. Pour comprendre comment une machine peut devenir « intelligente », le mieux, c’est encore de la voir apprendre en direct et, pourquoi pas, d’essayer de faire mieux qu’elle !

Cette exposition vous permettra d’entrer dans l’histoire de l’IA, sans se limiter au Deep Learning. Au travers d’une grande frise, vous découvrirez qu’elle est faite d’âges d’or et d’hivers, et qu’elle s’inspire de nombreuses disciplines (mathématiques, informatique, neurosciences, robotique…). Les regards croisés de spécialistes vous permettront de vous forger une réponse à la question : qu’est-ce donc que l’intelligence artificielle ?

Pourquoi iriez-vous voir une exposition sur l’IA ?

Dans les médias, l’IA est soit la solution à tous vos problèmes soit synonyme de catastrophe. Ces deux extrêmes ne reflètent pas la réalité de la recherche en IA, qui, si elle devenue récemment populaire dans l’industrie, s’est développée depuis 70 ans dans le monde académique. En donnant la parole à des chercheurs et chercheuses universitaires qui ont fait et font encore l’IA, cette exposition porte un regard apaisé sur l’IA, loin des projecteurs.

« Entrez dans le monde de l’IA » a été créée par Fermat Science, la Maison des Mathématiques et de l’Informatique, l’Institut Henri Poincaré, sous la responsabilité de deux commissaires scientifiques de l’ENS de Lyon, Aurélien Garivier et Alexeï Tsygvintsev. Ce sont des spécialistes d’horizons variés travaillant dans le domaine de l’intelligence artificielle qui ont permis de vous proposer un discours mesuré et raisonnable.

Montrer ce qu’est l’IA, ce qu’elle peut, ce qu’elle ne peut pas, ce qu’elle pourra peut-être : voilà ce que vous découvrirez !

Un exemple de manipulation de l’exposition (© Benoit Leturcq)

Et concrètement, quelles manipulations pourrez-vous faire dans l’exposition ?

L’intelligence artificielle et les jeux sont de bons amis. AlphaGo Zero a battu des champions du jeu de Go, en apprenant par lui-même, sans observer les humains. Dans l’exposition, vous pourrez jouer contre une machine physique qui apprend à jouer… au jeu des allumettes, moins complexe que le jeu de Go. La règle du jeu ? 8 allumettes sont placées en ligne entre deux joueurs. À tour de rôle, chaque joueur doit enlever une ou deux allumettes. Celui qui enlève la dernière a perdu. Réfléchissez à la meilleure stratégie pour vous assurer la victoire et venez ensuite défier cette intelligence artificielle sans ordinateur !

La machine est constituée de huit poches, correspondant aux huit allumettes sur la table. Dans chacune se trouve des billes jaunes et noires qui sont, au départ, en nombre égal. Vous jouez une partie contre elle en retirant des allumettes et quand c’est à elle de jouer, vous tirez une bille dans la poche en face de l’allumette qu’elle peut enlever. Si la bille est jaune, la machine enlève une allumette. Si elle est noire, elle prend deux allumettes. Une fois la partie terminée, il y a deux possibilités :
- Vous avez gagné : il faut punir la machine pour qu’elle apprenne de ses erreurs. Vous défaussez les billes tirées. Dans les poches, il y a moins de billes de couleurs qui correspondent à une mauvaise succession de coups. Les parties suivantes, la machine aura moins tendance à les jouer.
- Vous avez perdu : il faut récompenser la machine en renforçant ses coups. Vous allez remettre pour chaque poche jouée la bille tirée et en rajouter une de la même couleur. La machine aura plus de chance de jouer cette série de coups gagnants.
Et la machine apprend ! Elle joue au hasard du début à la fin mais le renforcement change les probabilités de chaque coup. Petit à petit, la machine va avoir de plus en plus de chances de faire les bons coups, ceux que vous avez trouvé en réfléchissant à la stratégie optimale.

En intelligence artificielle, ce principe est appelé l’apprentissage par renforcement. Sans avoir besoin de maîtriser un quelconque langage de programmation, cette machine vous montre simplement et sans ordinateur, comment un tel apprentissage fonctionne.

Un exemple de manipulation de l’exposition (© Benoit Leturcq)

Comment venir voir l’exposition ?

« Entrez dans le monde de l’IA » est ouverte du 25 septembre 2021 au 30 juin 2022, à la Maison des Mathématiques et de l’Informatique (MMI), 1, place de l’Ecole, 69007 Lyon.

La MMI propose de nombreuses visites guidées mais aussi de multiples activités et ateliers autour de l’IA au public les samedis après-midis. Informations et réservations sur mmi-lyon.fr.

Olivier Druet, directeur de la MMI, et Nina Gasking, chargée de médiation de la MMI

Image de l’exposition (© Benoit Leturcq)
1 octobre 2021
Les communs numériques

Un nouvel « Entretien autour de l’informatique ». Judith Rochfeld est professeure de droit privé à l’École de droit de la Sorbonne, et directrice du Master 2 « Droit du commerce électronique et de l’économie numérique ». C’est une des meilleures spécialistes des communs. Elle est co-éditrice du Dictionnaire des biens communs aux PUF, 2021. Elle est autrice de « Justice pour le climat ! Les nouvelles formes de mobilisation citoyenne » chez Odile Jacob, 2021.
Cet article est publié en collaboration avec theconversation.fr.

Judith Rochfeld

binaire : Judith, peux-tu nous dire qui tu es, d’où tu viens ?

JR : Je suis au départ une juriste, professeure de droit privé à l’Université Paris 1 Panthéon-Sorbonne. Au début, je m’intéressais aux grandes notions juridiques classiques, dont la propriété privée. Puis, sous le coup de rencontres et d’opportunités, j’ai exploré deux directions : le droit du numérique d’un côté ; et, avec un groupe de travail composé d’économistes, d’historiens, de sociologues, les « communs » dans la suite des travaux d’Elinor Ostrom (*), d’un autre côté. Cela m’a amenée à retravailler, entre autres, la notion de propriété. Par la suite, pour concrétiser certains des résultats de ces réflexions, j’ai dirigé, avec Marie Cornu et Fabienne Orsi, la rédaction d’un dictionnaire des biens communs. Aujourd’hui, je m’intéresse particulièrement à toutes les formes de biens communs et de communs, principalement en matière numérique et de données ainsi qu’en environnement.

binaire : Pourrais-tu préciser pour nos lecteurs les notions de « biens communs » et de « communs » ?

JR : Le vocabulaire n’est pas complètement stabilisé et peut varier suivant les interlocuteurs. Mais si l’on tente de synthétiser, on parlerait de « biens communs » pour saisir des biens, ressources, milieux, etc., à qui est associé un intérêt commun socialement, collectivement et juridiquement reconnu. Ce peut être l’intérêt d’une communauté nationale, internationale ou l’intérêt de groupes plus locaux ou restreints. On peut prendre l’exemple des monuments historiques : en 1913, on a assisté à des combats législatifs épiques pour faire reconnaître qu’il fallait les identifier, les classer, et admettre qu’ils présentaient un intérêt pour la nation française dans son ensemble ; qu’en conséquence, leurs propriétaires, fussent-ils privés, ne pouvaient pas avoir sur eux de pleins pouvoirs (comme le voudrait l’application de la propriété classique), jusqu’à celui de les détruire ; qu’ils devaient tenir compte de l’intérêt pour d’autres (voire pour les générations à venir), avec des conséquences juridiques importantes (l’obligation de les conserver dans leur état, de demander une autorisation pour les modifier, etc.).

Il existe d’ailleurs divers intérêts communs reconnus : l’intérêt historique et/ou artistique d’un monument ou d’autres biens culturels, l’intérêt environnemental ou d’usage commun d’un cours d’eau ou d’un terrain, l’intérêt sanitaire d’un vaccin, etc.

Mais précisons la terminologie. D’abord, il faut différencier entre « biens communs » et le « bien commun » discuté, par exemple, dans « Économie du bien commun » de Jean Tirole. Le second renvoie davantage à l’opposition entre bien et mal qu’à l’idée d’un intérêt commun.

Ensuite, il faut distinguer « biens communs » et « communs ». Avec la notion de « communs » (dans le sens que lui a donné Elinor Ostrom), on ajoute l’idée d’une organisation sociale, d’un gouvernement de la ressource par la communauté. C’est cette communauté qui gère les accès, les prélèvements, les différents droits…, et assure avec cela la pérennité de la ressource. C’est le cas par exemple pour un jardin partagé, un tiers-lieu, ou une encyclopédie en ligne telle que Wikipédia, administrés par leurs utilisateurs ou un groupe de personnes dédiées.

Un commun se caractérise typiquement par une communauté, une ressource que se partage cette communauté, et une gouvernance. Dans un bien commun, on n’a pas forcément cette gouvernance.

binaire : Cela conduit bien-sûr à des conflits avec la propriété privée ?

JR : On a souvent tendance à opposer les notions de biens communs ou de communs au droit de propriété privée, très belle avancée de la révolution française en termes d’émancipation et de reconnaissance d’un espace d’autonomie sur ses biens au bénéfice de l’individu propriétaire. Reconnaître qu’un bien porterait un intérêt commun poserait des limites au pouvoir absolu que la propriété renferme, en imposant la considération de l’intérêt d’une communauté. Cela peut être vrai dans certains cas, comme celui des monuments historiques évoqué.

Mais c’est oublié qu’il peut y avoir aussi une volonté du propriétaire d’aller en ce sens. La loi de protection de la biodiversité de 2016 permet ainsi, par exemple, de mettre un bien que l’on possède (un terrain, une forêt, etc.) au service d’une cause environnementale (la réintroduction d’une espèce animale ou végétale, la préservation d’une espèce d’arbre,…) en passant un accord pour formaliser cette direction : le propriétaire établit un contrat avec une association ou une collectivité, par exemple, et s’engage (et engage ses héritiers) à laisser ce dernier au service de la cause décrite. On assiste alors à une inversion de la logique de la propriété : elle sert à partager ou à faire du commun plutôt qu’à exclure autrui. C’est la même inversion qui sert de fondement à certaines licences de logiciel libre : celui qui pourrait bénéficier d’une « propriété » exclusive, à l’égard d’un logiciel qu’il a conçu, choisit plutôt de le mettre en partage et utilise pour cela une sorte de contrat (une licence de logiciel libre particulière) qui permet son usage, des modifications, mais impose à ceux qui l’utilise de le laisser en partage. Le droit de propriété sert ainsi à ouvrir l’usage de cette ressource plutôt qu’à le fermer.

binaire : Pour arriver aux communs numériques, commençons par internet. Est-ce que c’est un bien commun ? Un commun ?

JR : C’est une grande discussion ! On a pu soutenir qu’Internet était un commun mondial : on voit bien l’intérêt de cette ressource ou de cet ensemble de ressources (les différentes couches, matérielles, logicielles, etc.) pour une communauté très large ; ses fonctionnement et usages sont régis par des règles que se donnent des « parties prenantes » et qui sont censées exprimer une sorte de gouvernance par une partie de la communauté intéressée. En réalité, internet a même plusieurs gouvernances — technique, politique — et on est loin d’une représentation de l’ensemble des parties prenantes, sans domination de certains sur d’autres. La règle, cependant, qui exprime peut-être encore le mieux une partie de cette idée est celle de neutralité du net (dont on sait qu’elle a été bousculée aux États-Unis) : tout contenu devrait pouvoir y circuler sans discrimination.

binaire : Est-ce qu’on peut relier cela au droit de chacun d’avoir accès à internet ?

JR : Oui, ce lien est possible. Mais, en France, le droit à un accès à internet a plutôt été reconnu et fondé par le Conseil constitutionnel sur de vieilles libertés : comme condition des libertés d’information et d’expression.

binaire : Le sujet qui nous intéresse ici est celui des communs numériques. Est-ce tu vois des particularités aux communs numériques par rapport aux communs tangibles ?

JR : Oui tout à fait. Ostrom étudiait des communs tangibles comme des systèmes d’irrigation ou des forêts. La menace pour de telles ressources tient principalement dans leur surexploitation : s’il y a trop d’usagers, le cumul des usages de chacun peut conduire à la disparition matérielle de la ressource. D’ailleurs, l’économie classique postule que si j’ouvre l’usage d’un bien tangible (un champ par exemple, ouvert à tous les bergers désirant faire paître leurs moutons), ce dernier sera surexploité car personne ne ressentira individuellement la perte de façon suffisante et n’aura intérêt à préserver la ressource. C’est l’idée que synthétisera Garrett Hardin dans un article de 1968 resté célèbre, intitulé la « Tragédie des communs » (**). La seule manière de contrer cet effet serait d’octroyer la propriété (ou une réglementation publique). Ostrom s’inscrira précisément en faux en démontrant, à partir de l’analyse de cas concrets, que des systèmes de gouvernance peuvent se mettre en place, édicter des règles de prélèvements et d’accès (et autres) et assurer la pérennité de la ressource.

Pour ce qui est des communs numériques, ils soulèvent des problèmes différents : non celui de l’éventuelle surexploitation et de la disparition, mais celui qu’ils ne soient pas produits. En effet, si j’ouvre l’accès à des contenus (des notices de l’encyclopédie numérique, des données, des œuvres, etc.) et si, de plus, je rends gratuit cet usage (ce qui est une question un peu différente), quelle est alors l’incitation à les créer ?

Il faut bien préciser que la gratuité est une dimension qui a été placée au cœur du web à l’origine : la gratuité et la collaboration, dans une vision libertaire originaire, allaient quasi de soi. Les logiciels, les contenus distribués, etc. étaient créés par passion et diffusés dans un esprit de don par leurs concepteurs. Or, ce faisant, on fait un choix : celui de les placer en partie hors marché et de les faire reposer sur des engagements de passionnés ou d’amateurs désintéressés. La question se pose pourtant aujourd’hui d’aller vers le renforcement de modèles économiques qui ne soient plus basés que sur cette utopie du don, ou même sur des financements par fondations, comme ceux des Mozilla et Wikipedia Fundations.

Pour l’heure, la situation actuelle permet aux grandes plateformes du web d’absorber les communs (les contenus de wikipédia, des données de tous ordres, etc.), et ce sans réciprocité, alors que l’économie de l’attention de Google dégage des revenus énormes. Par exemple, alors que les contenus de l’encyclopédie Wikipédia, un commun, alimentent grandement le moteur de recherche de Google (ce sont souvent les premiers résultats), Wikipédia n’est que très peu rétribuée pour toute la valeur qu’elle apporte. Cela pose la question du modèle économique ou du modèle de réciprocité à mettre en place, qui reconnaisse plus justement la contribution de Wikipédia aux revenus de Google ou qui protège les communs pour qu’ils demeurent communs.

binaire : On pourrait également souhaiter que l’État soutienne le développement de communs. Quelle pourrait être une telle politique de soutien ?

JR : D’un côté, l’État pourrait s’afficher aux côtés des communs : inciter, voire obliger, ses administrations à choisir plutôt des communs numériques (logiciels libres, données ouvertes, etc.). C’est déjà une orientation mais elle n’est pas véritablement aboutie en pratique.

D’un autre côté, on pourrait penser et admettre des partenariats public-commun. En l’état des exigences des marchés publics, les acteurs des communs ont du mal à candidater à ces marchés et à être des acteurs reconnus de l’action publique.

Et puis, le législateur pourrait aider à penser et imposer la réciprocité : les communs se réclament du partage. Eux partagent mais pas les autres. Comment penser une forme de réciprocité ? Comment faire, par exemple, pour qu’une entreprise privée qui utilise des ressources communes redistribue une partie de la valeur qu’elle en retire ? On a évoqué le cas de Google et Wikipédia. Beaucoup travaillent actuellement sur une notion de « licence de réciprocité » (même si ce n’est pas simple) : vous pouvez utiliser la ressource mais à condition de consacrer des moyens ou du temps à son élaboration. Cela vise à ce que les entreprises commerciales qui font du profit sur les communs participent.

Dans l’autre direction, un projet d’article 8 de la Loi pour une République Numérique de 2016 (non adopté finalement) bloquait la réappropriation d’une ressource commune (bien commun ici) : il portait l’idée que les œuvres passées dans le domaine public (des contenus numériques par exemple) devenaient des « choses communes » et ne pouvaient pas être ré-appropriées par une entreprise, par exemple en les mettant dans un nouveau format ou en en limitant l’accès.

D’aucuns évoquent enfin aujourd’hui un « droit à la contribution », sur le modèle du droit à la formation (v. L. Maurel par exemple) : une personne pourrait consacrer du temps à un commun (au fonctionnement d’un lieu partagé, à l’élaboration d’un logiciel, etc.), temps qui lui serait reconnu pour le dédier à ces activités. Mais cela demande d’aller vers une comptabilité des contributions, ce qui, à nouveau, n’est pas facile.

En définitive toutes ces propositions nous conduisent à repenser les rapports entre les communs numériques, l’État et le marché.

binaire : Nous avons l’impression qu’il existe beaucoup de diversité dans les communautés qui prônent les communs ? Partages-tu cet avis ?

JR : C’est tout à fait le cas. Les communautés qu’étudiaient Ostrom et son École étaient petites, territorialisées, avec une centaine de membres au plus, identifiables. Avec l’idée des communs de la connaissance, on est passé à une autre échelle, parfois mondiale.

Certains communs se coulent encore dans le moule. Avec Wikipédia, par exemple, on a des communautés avec des rôles identifiés qui restent dans l’esprit d’Ostrom. On a la communauté des « bénéficiaires » ; ses membres profitent de l’usage de la ressource, comme ceux qui utilisent Wikipédia. On a aussi la communauté « délibérative », ce sont les administrateurs de Wikipédia qui décident des règles de rédaction et de correction des notices par exemple, ou la communauté « de contrôle » qui vérifie que les règles ont bien été respectées.

Mais pour d’autres communs numériques, les communautés regroupent souvent des membres bien plus mal identifiés, parfois non organisés, sans gouvernement. Je travaille d’ailleurs sur de telles communautés plus « diffuses », aux membres non identifiés a priori mais qui bénéficient de ressources et qui peuvent s’activer en justice pour les défendre quand celles-ci se trouvent attaquées. Dans l’exemple de l’article 8 dont je parlais, il était prévu de reconnaître que tout intéressé puissent remettre en cause, devant les tribunaux, le fait de ne plus pouvoir avoir accès à l’œuvre du domaine public du fait de la réappropriation par un acteur quelconque. Il s’agit bien d’une communauté diffuse de personnes, sur le modèle de ceux qui défendent des « ressources environnementales ». On peut y voir une forme de gouvernance, certes à la marge.

binaire : On a peu parlé de l’open data public ? Est-ce que la définition de commun que tu as donné, une ressource, des règles, une gouvernance, s’applique aussi pour les données publiques en accès ouvert ?

JR : Il y a des différences. D’une part, les lois ont vu dans l’open data public le moyen de rendre plus transparente l’action publique : les données générées par cette action devaient être ouvertes au public pour que les citoyens constatent l’action publique. Puis, en 2016, notamment avec la loi pour une République numérique évoquée, cette politique a été réorientée vers une valorisation du patrimoine public et vers une incitation à l’innovation : des startups ou d’autres entreprises doivent pouvoir innover à partir de ces données. Les deux motivations sont légitimes. Mais, mon impression est qu’aujourd’hui, en France, l’État voit moins dans l’open data un moyen de partage de données, qu’un espace de valorisation et de réappropriation. D’autre part, ce ne sont pas du tout des communs au sens où il n’y a pas de gouvernance par une communauté.

binaire : Tu travailles beaucoup sur le climat. On peut citer ton dernier livre « Justice pour le climat ». Quelle est la place des communs numériques dans la défense de l’écologie ?

JR : Je mets de côté la question de l’empreinte environnementale du numérique, qui est un sujet assez différent, mais néanmoins très préoccupant et au cœur des réflexions à mener.

Sur le croisement évoqué, on peut tracer deux directions. D’une part, il est évident qu’un partage de données « environnementales » est fondamental : pour mesurer les impacts, pour maîtriser les externalités. Ces données pourraient et devraient être saisies comme des « biens communs ». On a également, en droit, la notion voisine de « données d’intérêt général ». Il y a déjà des initiatives en ce sens en Europe et plus largement, que ce soit à l’égard des données publiques ou de données générées par des entreprises, ce qui, encore une fois, est délicat car elles peuvent recouper des secrets d’affaires.

D’autre part, la gravité de la crise environnementale, et climatique tout particulièrement, donne lieu à des formes de mobilisations qui, pour moi, témoignent de nouvelles approches et de la « conscientisation » des biens communs. Notamment, les procès citoyens que je décris dans le livre, qui se multiplient dans une bonne partie du monde, me semblent les expressions d’une volonté de réappropriation, par les citoyens et sous la pression de l’urgence, du gouvernement d’entités ressenties comme communes, même si le procès est une gouvernance qui reste marginale. Ils nous indiquent que nous aurions intérêt, pour leur donner une voie de gouvernement plus pacifique, à installer des instances de délibération, à destination de citoyens intéressés (territorialement, intellectuellement, par leur activité, leurs besoins, etc.) saisis comme des communautés diffuses. A cet égard, une initiative comme la Convention Citoyenne sur le climat était particulièrement intéressante, ouvrant à une version moins contentieuse que le procès.

Il pourrait en aller de même dans le cadre du numérique : l’utilisation de l’ensemble de nos données personnelles, des résultats de recherche obtenus en science ouverte, etc. pourraient, comme des communs, être soumise à des instances de délibération de communautés. On prendrait conscience de l’importance des données et on délibérerait sur le partage. Sans cela, on assistera toujours à une absorption de ces communs par les modèles d’affaires dominants, sans aucune discussion.

Serge Abiteboul, Inria & ENS Paris, François Bancilhon, serial entrepreneur

(*) Elinor Ostrom (1933-2012) est une politologue et économiste américaine. En 2009, elle est la première femme à recevoir le prix dit Nobel d’économie, avec Oliver Williamson, « pour son analyse de la gouvernance économique, et en particulier, des biens communs ». (Wikipédia)

(**) « La tragédie des biens communs » est un article décrivant un phénomène collectif de surexploitation d’une ressource commune que l’on retrouve en économie, en écologie, en sociologie, etc. La tragédie des biens communs se produirait dans une situation de compétition pour l’accès à une ressource limitée (créant un conflit entre l’intérêt individuel et le bien commun) face à laquelle la stratégie économique rationnelle aboutit à un résultat perdant-perdant.

https://binaire.socinfo.fr/page-les-communs-numeriques/

28 septembre 2021

Le numérique pour une agriculture durable

Un nouvel « Entretien autour de l’informatique ». Véronique Bellon-Maurel nous parle d’agriculture, de numérique, et d’environnement, des domaines qui, depuis des années, se rencontrent de plus en plus. Véronique Bellon-Maurel est agronome, une des meilleures expertes du domaine, et elle dirige l’Institut Convergences Agriculture Numérique, #DigitAg, depuis 2016. Elle a reçu le Grand Prix IMT – Académie des Sciences en 2020. Elle nous parle, entre autres, des « analyses de cycle de vie ». Nous espérons que vous prendrez autant de plaisir à découvrir cet échange que nous à le réaliser.

Binaire : Pour débuter, pourrais-tu nous parler de ton parcours ?
Véronique Bellon-Maurel : Tout d’abord, j’ai obtenu un diplôme d’ingénieur agronome à AgroParisTech (à l’époque INAP-G), et je me suis spécialisée dans les capteurs et la mesure des propriétés des produits complexes. Dans cette optique, j’ai préparé une thèse de doctorat sur l’évaluation du goût des fruits en utilisant une méthodologie de mesure non destructive pour les produits : la spectroscopie dans le proche infrarouge.

J’ai passé la plus grande partie de ma carrière comme chercheuse dans un institut qui a beaucoup évolué, le Cemagref devenu Irstea puis INRAE en 2020, à l’exception d’une période de 7 ans comme professeur à l’Institut Agro-Montpellier SupAgro. J’ai beaucoup travaillé sur les capteurs optiques, la spectrométrie et l’imagerie proche infrarouge, pour les produits agricoles, l’agriculture de précision mais aussi pour évaluer d’autres propriétés difficiles à mesurer comme la biodégradabilité des plastiques.

Ceci m’a amenée à réfléchir plus largement à l’évaluation de l’empreinte environnementale des produits. C’est ainsi qu’à partir de 2009-2010, à l’occasion d’un séjour sabbatique en Australie, j’ai exploré les questions liées à l’évaluation des impacts environnementaux des productions agricoles, forestières et des écotechnologies, basée sur les Analyses de Cycle de Vie (ACV).

Enfin, à partir de 2013, je suis devenue directrice du département Ecotechnologies à Irstea où j’ai pu contribuer à plusieurs rapports sur les technologies du futur en agriculture. En 2016, j’ai monté l’Institut Convergences #DigitAg sur l’agriculture numérique et j’en ai pris la direction.

Illustration des grandes phases d’une analyse de cycle de vie,
comme décrite par ISO 14040

B : Est-ce que tu pourrais expliquer en plus de détail aux lecteurs de Binaire ce que sont ces fameuses Analyses de Cycle de Vie ?
VBM : L’ACV est une méthode pour étudier « l’empreinte » environnementale d’un procédé ou d’un produit qui s’est surtout diffusée à partir du début des années 1990. Prenons l’exemple d’une technologie de transfert des données, comme la 5G. Si on veut analyser et comparer son empreinte à d’autres technologies, il faut d’abord définir le service rendu (par exemple « transférer 1Mb de données à telle vitesse »). Ensuite, on doit considérer le système complexe qui permet de fournir ce service et ce pour chaque technologie, afin de les comparer. On réalise donc la modélisation numérique de ces systèmes, des consommations de matière et d’énergie et de flux polluants. On intègre différents aspects : l’énergie consommée pour la fabrication, les ressources utilisées comme les terres rares, l’infrastructure télécom installée avec ses data centers, la consommation énergétique pendant l’usage, la durée de vie, la réparation ou le recyclage des téléphones, etc. Puis pour quantifier des impacts à partir de ces émissions, on utilise des « chemins d’impact » calculés par des spécialistes des sciences de l’environnement.

On obtient donc des impacts quantifiés à partir des estimations de la consommation énergétique et de matières premières. La tâche la plus difficile est vraiment la construction et l’ajustement du modèle qui permet de faire l’inventaire, c’est-à-dire la collecte ou la simulation des données de consommations et émissions associées. Avec trop de facteurs, trop de paramètres à considérer, on pourrait presque penser que c’est impossible. Mais le travail de l’expert praticien est justement de construire un modèle pertinent qui sera assez « fin » sur les étapes les plus impactantes. Dans un premier temps, une analyse grossière permet de comprendre quels sont les postes importants, puis on affine pour ces postes, et on se permet de négliger d’autres postes qui auraient réclamé de trop gros efforts de collecte.

B : Ça sert vraiment en pratique ?
VBM : Bien sûr. Mes travaux portent sur l’agriculture. Une ACV peut chercher à répondre avec des valeurs concrètes, précises, par exemple, à une question simple comme « quelle est l’empreinte environnementale pour produire un kilo de blé ».

Mais si la question est simple, la réponse peut être complexe. Cela va dépendre de la géographie, produire un litre d’eau en Guyane et dans le Sahel, on comprend que ce n’est pas la même chose ; ou de la nature du blé visé, la quantité, de nombreux paramètres. Les consommateurs demandent de plus en plus du bio. Mais, est-ce mieux sur tous les aspects d’un point de vue environnemental ? La réponse n’est pas aussi simple qu’on veut bien le dire. On a besoin de mieux maitriser le sujet pour progresser. L’étude de l’empreinte environnementale de l’agriculture est un sujet passionnant.

B : On sort des incantations. Vous apportez des faits, des vérités.
VBM : C’est ce que nous sommes tenus de faire. Il ne s’agit pas juste de publier des résultats. Il faut aussi que ces résultats puissent être vérifiés, répliqués si quelqu’un le demande. Pour cela, les choix du modèle doivent être clairs et explicités, on doit avoir accès au détail des formules, des logiciels, des données utilisées.

B : Les données sont importantes ?
VBM : On n’insiste jamais assez sur la valeur des données pour les ACV. Le plus dur c’est souvent d’obtenir ces données. Les informaticiens disent « Garbage in, garbage out ». Si vous utilisez des données médiocres pour une ACV, ses résultats n’auront aucune valeur.

Les ACV ont besoin de données et on pourrait d’ailleurs faire beaucoup mieux. On pourrait faire des analyses bien plus fines, par exemple, avec les « carnets de cultures ». Ce sont des carnets que les agriculteurs utilisent et dans lesquels ils décrivent les traitements réalisés, les conditions climatiques, hygrométriques, etc. Toutes ces informations représentent exactement les données nécessaires aux modèles numériques utilisés pour calculer des ACV. D’autres informations sont intéressantes comme la description des agroéquipements utilisés mais on peut facilement les trouver ailleurs. Pourquoi ces cahiers de culture ne sont-ils pas plus utilisés, surtout s’ils sont numériques ? Tous les acteurs, du producteur au consommateur, en tireraient des bénéfices.

« Un exemple de technologies frugales et « d’agro-sourcing » : l’évaluation du stress hydrique de la vigne à l’aide d’un smartphone (Crédit Chaire AgroTIC-L’Institut Agro) ».

B : Vos résultats sont souvent complexes. N’y-a-t-il pas un vrai défi par exemple à faire comprendre aux consommateurs les résultats d’une ACV de produits alimentaires ?
VBM : C’est une vraie question, un frein à l’emploi des ACV. Aujourd’hui, nous utilisons principalement des étiquetages (origine, bio, etc.) et des échelles de valeur (dans des nutri-scores (*) par exemple). Ces informations présentent l’avantage d’être simples à comprendre mais sont limitées dans leur précision et aussi dans leur caractère parfois uniquement déclaratif. A contrario, une ACV est beaucoup plus précise en apportant une vingtaine de valeurs de variables. Du coup, elle est nettement plus difficile à appréhender dans sa globalité pour un non-expert. C’est pour cette raison que j’aimerais voir se développer des projets de recherche mixant des compétences en agronomie (pour maîtriser et expliquer ce que sont les ACV), en sciences cognitives (pour comprendre comment nous percevons l’information) et en informatique (pour concevoir et proposer des métaphores de visualisation et d’interaction).

Il y a aussi une vraie difficulté à influencer les politiques publiques. Les politiques ont comme les consommateurs du mal à saisir la complexité des résultats des ACV. Et puis, leur focale est souvent nationale. Certains ont du mal à tenir compte des dégâts environnementaux causés, par exemple, en Tunisie, par la fabrication d’engrais utilisés en France. La Tunisie, c’est loin. Et pourtant, nous vivons tous sur la même planète…

B : Parlons maintenant de l’institut #DigitAg que tu diriges ?
VBM : Début 2016, fut publié le rapport sur « Agriculture et Innovation 2025 », qui émettait des recommandations auprès des ministres pour construire une agriculture compétitive et durable. Parmi les quatre grands piliers technologiques identifiés, entre autres leviers, figurait le numérique et le besoin de structurer la recherche française sur le sujet. C’est ainsi qu’un consortium (avec entre autres, l’Inria et l’INRAE) a porté le projet de l’Institut #DigitAg à l’AAP « Instituts Convergence » de 2016. Nous avons été l’un des 5 lauréats et #DigitAg a été créé début 2017. Il réunit près de 600 experts publics issus des sciences agronomiques, des sciences du numérique et jusqu’aux sciences sociales et de gestion et 8 entreprises privées. Recherche, innovation et formation figurent au menu de nos activités avec comme objectif de contribuer à mettre en place une agriculture numérique vertueuse. La pluridisciplinarité, voire l’interdisciplinarité, est dans notre ADN. Nous proposons des thèses et des postdocs au croisement de plusieurs de ces disciplines, le plus original et le difficile étant la rencontre des disciplines comme la création de jeux sérieux pour les agriculteurs.

« La carte des sites du Living Lab Occitanum qui ambitionne d’évaluer les coûts et bénéfices économiques, environnementaux et sociaux des technologies numériques dans plusieurs filières agricoles en Occitanie » (Crédit : INRAE)

B : Comment fais-tu le lien entre les ACV et l’agriculture numérique ?
VBM : Le lien est double. D’une part, comme je l’ai déjà dit, les outils numériques sont indispensables pour collecter les données nécessaires pour la première étape de l’ACV, l’inventaire, très consommatrice de ces données. D’autre part, dans l’autre direction, l’ACV sert à mesurer l’impact environnemental de l’introduction d’un outil numérique dans une culture. Cette évaluation est très importante pour créer des références sur les outils numériques en agriculture : quels sont leurs bénéfices et leurs coûts, non seulement économiques mais aussi environnementaux. C’est d’autant plus important que des interrogations sont de plus en plus vives sur l’impact environnemental du numérique en général. Pour y répondre, #DigitAg a construit le Living Lab Occitanum (Occitanie Agroécologie Numérique, www.occitanum.fr), dans lequel nous évaluerons sur le terrain les bénéfices et coûts des technologies numériques et des changements de pratiques agricoles qu’elles ont permis.

B : Binaire est particulièrement sensible à la place des femmes dans la science en général et dans le numérique en particulier ; as-tu envie de nous en parler ?
VBM : Oui, absolument. C’est un de mes chevaux de bataille et depuis de nombreuses années. Je pense que la société dans laquelle nous vivons entraîne chez beaucoup de jeunes filles une forme d’autocensure quant aux métiers qu’elles pourraient exercer. Il est important de lutter contre ces préjugés. En relation forte avec l’université de Montpellier, nous allons bientôt annoncer une campagne de stages d’observation de 3ème à destination de collégiennes, pour qu’elles découvrent le numérique. L’informatique et l’agriculture vont bien ensemble et les filles y ont autant leur place que les garçons.

Serge Abiteboul, Inria et ENS, Paris, Pascal Guitton, Université de Bordeaux et Inria

Teaser : un livre blanc sur « agriculture et numérique » rédigé par des scientifiques de l’INRAE et d’Inria va bientôt sortir. Binaire l’attend avec impatience et vous en reparlera dès que possible.

7 septembre 2021

Véhicules Autonomes Communicants
Dans un article précédent Gérard Le Lann et Nathalie Nevejans ont présenté les véhicules autonomes (VA) non communicants, voici maintenant un éclairage scientifique, technologique et juridique sur les VA communicants (VAC). Serge Abiteboul et Thierry Viéville

Source Research Gate.

Un VAC est un véhicule autonome pouvant émettre et recevoir des messages avec son environnement via un équipement de communication radio conforme aux standards connus sous l’appellation V2X (Vehicle-to-Everything). Les VAC sont donc des véhicules « communicants », appellation moins restrictive que « connectés », car ils peuvent communiquer directement entre eux sans être nécessairement connectés à un réseau extérieur. Par souci de concision, nous ne traitons dans cet article, ni les cas particuliers des véhicules de transport collectifs (bus, navettes, etc.), ni les problèmes posés par la coexistence de véhicules et de cyclistes ou de piétons.

Les trois principales idées à retenir concernant la conduite partiellement ou totalement automatisée sont les suivantes :
– Avant de prétendre « faire mieux » que les humains avec des VA ou des VAC, il faudrait commencer par démontrer que nous pouvons faire au moins aussi bien.
– Cela n’est pas du tout le cas en 2021 avec les VA ou les VAC conçus actuellement. Les possibilités offertes par les communications radio sont mal exploitées dans les standards V2X actuels, et les communications optiques sont ignorées.
– Il est possible de « faire mieux » que les humains avec des Véhicules de Nouvelle Génération (VNG).

Les VA dans une impasse ?

La dure réalité s’est imposée dès le milieu des années 2010 : les VA ne peuvent pas offrir de propriétés de sécurité et d’efficacité (voir définitions dans l’article précédent). Les VA ne sont pas très fiables en conduite autonome, comme en témoigne l’accident mortel avec une Tesla le 17 avril 2021. Ils sont de plus vulnérables aux cyberattaques ciblant les capteurs. Par

brouillage de leurs radars, lidars, ou caméras, il est possible de créer des collisions (pas de sécurité). Par contrefaçon (spoofing) des signaux GNSS, il est possible de dérouter un VA (pas d’efficacité et/ou de sécurité).

Il importe de ne pas se laisser abuser par des vidéos destinées à faire croire que le niveau SAE 5 (conduite totalement automatisée en tous lieux) est « pour bientôt ». Elles sont expurgées des séquences de reprise en main par un humain. Elles ont pour mérite involontaire de montrer qu’un VA se tient constamment très éloigné du véhicule qui le précède (donc, pas de propriété d’efficacité). Enfin, les trajets ont été enregistrés puis rejoués en simulation des milliers de fois (un « apprentissage » assez primaire) avant de finaliser les vidéos mises en ligne. Sous réserve de vérifications par les experts, il sera possible de croire que le niveau SAE 5 est atteint le jour où nous verrons des VA traverser la Place de l’Étoile à Paris vers 19h un jour non férié aux mêmes vitesses et densités que celles maîtrisées par les conducteurs humains. On n’y est pas encore.

Désormais, des progrès significatifs sont espérés dans trois domaines :
– l’intelligence artificielle (IA) avec l’apprentissage algorithmique supervisé ou autonome ;
– une redondance diversifiée des capteurs, pour fournir des données d’entrée fiables aux fonctions critiques des systèmes bord ;
– les communications radio et optiques.

La plupart des informaticiens rompus aux systèmes critiques se méfient de l’IA, à cause des exigences de preuves de propriétés dans les pires cas, preuves impossibles avec les techniques actuelles (l’IA est utile, mais pas pour l’obtention des propriétés de sécurité et d’efficacité). Trop souvent, les équipements radio sont vus comme des capteurs passifs, à l’instar des radars, lidars, caméras, etc. Au contraire, les communications radio permettent des interactions proactives entre véhicules : les messages contiennent les « intentions » de mouvements à très court terme (moins de 100 millisecondes). Le futur immédiat est donc connu a priori.

Les VAC : standards V2X

Les premiers standards (DSRC-V2X pour Dedicated Short-Range Communications) reposent sur le Wi-Fi omnidirectionnel (3G, 4G). Les standards plus récents (C-V2X) sont basés sur la radio cellulaire omnidirectionnelle et directionnelle (4G LTE, 5G). Les portées des équipements radio des VAC sont de l’ordre de 300 m. Un VAC peut être « connecté » à des antennes-relais et des unités d’infrastructures routières (V2I pour Vehicle-to-Infrastructure) qui offrent l’accès via Internet à des services disponibles dans des clouds. Les VAC peuvent aussi échanger des messages en direct, sans relais intermédiaires (V2V pour Vehicle-to-Vehicle).

Les autres capteurs (radars, lidars, caméras) ne peuvent traiter que des signaux reçus en ligne-de-vue directe. Au contraire, les messages radio ne sont pas « bloqués » par les obstacles.

Les communications radio dans les systèmes de mobiles ne sont pas fiables. Les délais de transmission réussie des messages V2I – qui transitent par des relais terrestres – sont plus élevés que les délais des messages V2V. Ils peuvent être infinis en cas de défaillances (pannes ou cyberattaques) d’unités d’infrastructures routières.

L’utilisation partagée du spectre radio est de type probabiliste (protocoles CSMA). Les délais d’accès à un canal radio croissent (progressions géométriques) avec le nombre de véhicules émetteurs. Ces nombres varient dans le temps et selon les lieux : ils sont soit non bornés, soit bornés mais les valeurs des bornes sont inconnues. Les réseaux de VAC sont donc des systèmes asynchrones.

Voici environ dix ans que l’industrie automobile expérimente les premiers standards V2X avec des tests sur route et par simulation numérique.

Sécurité et Efficacité

Selon les standards actuels, ces propriétés seraient obtenues via l’envoi de messages sur événements et via le balisage périodique. Un VAC doit diffuser très fréquemment, entre 100 millisecondes et 1 seconde, des messages appelés balises.

Dans un message/balise, on trouve, en particulier, vitesse, direction, coordonnées GNSS et caractéristiques du véhicule émetteur. Ce mécanisme est inspiré de celui employé par les smartphones (à des fréquences plus faibles) pour leur géolocalisation par les antennes-relais. Chaque VAC entretient une carte environnementale (local dynamic map) rafraichie par les contenus des balises reçues.

Le but espéré (propriété de sécurité) est d’éviter les collisions : tout VAC peut deviner les trajectoires de ses voisins (dans un rayon de 300 m environ) et décider de son comportement très fréquemment grâce à un algorithme qui traite les informations contenues dans sa carte environnementale.

Mais ce but est illusoire, pour au moins deux raisons.

– Les algorithmes décisionnels sont propres à chaque fabricant, et sont sujets à interprétations. Il est donc impossible de démontrer que deux VAC proches ne prendront pas de décisions contradictoires engendrant alors une collision, même s’ils disposent de la même carte environnementale.

– Les communications V2X n’étant pas fiables, une balise reçue par un VAC peut ne pas être reçue par un VAC voisin de ce dernier. Les cartes environnementales sont donc potentiellement différentes, mutuellement incohérentes. Elles sont inutilisables telles quelles. On ne peut espérer recourir à un algorithme pour rétablir la cohérence (cartes identiques). En effet, des résultats d’impossibilité établis depuis 1985 pour les systèmes asynchrones (réseaux de VAC) démontrent qu’un tel algorithme ne peut exister.

Pour contourner les résultats d’impossibilité, il faut « sortir » du modèle asynchrone, et considérer le modèle asynchrone temporisé, qui est le modèle asynchrone « enrichi » par la connaissance de bornes supérieures finies des délais. Ce modèle est réalisable à condition de recourir à des protocoles radio de type déterministe, comme les protocoles TDMA par exemple, qui assurent des délais de l’ordre de 20 millisecondes en pire cas, donc comparables aux délais de réactivité des autres capteurs (radars, lidars, caméras). Avec les protocoles V2X, les délais de transmission (non bornés) sont de l’ordre de 100 millisecondes en conditions de trafic moyennement dense.

L’autre but espéré (propriété d’efficacité) est une bonne utilisation des ressources.

Ce n’est bien évidemment pas le cas avec le balisage périodique, qui crée un gaspillage très significatif des ressources de calcul (systèmes-bord) et de communication (canaux de 10 MHz).

Idem pour l’occupation de l’asphalte, loin d’être améliorée par les communications V2X. Les distances de sécurité entre deux VAC sont les mêmes que pour les VA. En effet, intégrer les délais V2X dans les lois de calcul des distances ne procure aucun gain, puisque ces délais sont bien trop grands. En conséquence, afin de minimiser les risques de collision, les VAC maintiennent des distances inter-véhiculaires très supérieures aux valeurs optimales ou celles maitrisées par les humains.

Le balisage périodique peut être exploité pour créer des véhicules et des embouteillages fictifs. Pour ce faire, un VAC malveillant ou même un chariot rempli de smartphones promenés le long d’artères urbaines peut émettre des balises qui contiennent les coordonnées GNSS des artères qu’il souhaite emprunter afin de les vider frauduleusement.

Conclusion : on ne peut espérer de propriétés de sécurité et d’efficacité dans les réseaux de VAC.

Intéressons-nous maintenant aux risques pour la santé dans l’hypothèse d’un déploiement généralisé de VAC. Vis-à-vis des communications radio, tout véhicule se trouve au centre d’un disque de rayon d’environ 300 m. En conditions de trafic dense (en ville, sur autoroute multivoies), une centaine de VAC est contenue dans un tel disque. Nous n’avons pas connaissance d’études démontrant que des expositions prolongées de signaux Wi-Fi reçus depuis une centaine d’émetteurs à des fréquences de 1 Hz à 10 Hz sont sans danger pour les passagers d’un VAC.

Source : jmagazine.joins.com

Les VAC étant équivalents à des smartphones-sur-roues, ils exposent leurs utilisateurs aux risques bien connus de cyberattaques et de cyber-espionnage.

Cybersécurité

Les VAC sont vulnérables aux cyberattaques distantes. Voici quelques exemples.
1. a) Attaques par saturation
– Spectre électromagnétique : Le brouillage radio est à la portée de tout individu malfaisant ; les brouilleurs radio les plus simples coûtent moins de 200 euros. Les VAC sont « sourds et muets » au voisinage de tels brouilleurs, aussi longtemps qu’ils circulent à portée radio d’un brouilleur embarqué sur un véhicule. Une autre attaque connue est l’interception et la falsification des signaux GNSS. Le but est de dérouter un VAC en trompant son système-bord par exemple en introduisant des décalages croissants entre sa véritable géolocalisation et celle connue par la robotique embarquée.
– Systèmes-bord : Une attaque par « déni-distribué-de-service » consiste en des envois de messages incessants jusqu’à saturer les capacités de traitement des systèmes-bord, et rendre impossible l’exécution des fonctions critiques.
1. b) Attaques sur les messages et balises par suppression ou falsification des contenus des balises/messages émis par des VAC honnêtes ou injection de messages frauduleux comme des fausses alertes.
1. c) Attaques sur les systèmes-bord : Les logiciels des systèmes-bord (les systèmes d’exploitation en particulier, Android ou iOS par exemple) ne sont pas conformes aux principes d’isolation en vigueur dans le domaine des systèmes critiques. Il est donc possible de prendre par radio le contrôle d’un VAC distant ou d’introduire un virus, Cheval de Troie, rançongiciel, etc. au sein d’un système-bord.
Outre des motivations financières, les cyberattaques distantes ont pour but de créer des conditions chaotiques pour les cibles (pas pour les attaquants), notamment des collisions (éventuellement létales – perte de sécurité) et/ou de tromper les VAC quant aux trajectoires qu’ils doivent suivre – perte d’efficacité. Ainsi, par un effet boomerang non anticipé, les communications V2X « ajoutées » aux VA pour « améliorer » les propriétés de sécurité et d’efficacité peuvent en fait compromettre ces dernières. Ces cyberattaques peuvent bien sûr être déclenchées par des VAC voisins (sur les côtés, prédécesseur, suiveur). Mais dans ce cas, une cyberattaque peut « se retourner » contre son auteur (pris dans une collision, identifié sans ambiguïté par ses victimes). Il s’agit donc d’attaques irrationnelles, bien moins probables que les attaquantes distantes.

Un cyber attaquant peut falsifier son identifiant dans les messages et balises qu’il émet. La parade selon les standards V2X est la pseudonymisation par cryptographie asymétrique. Contrairement à l’anonymisation, la pseudonymisation permet d’établir les responsabilités en cas d’accident (accountability). Tout message/balise doit être accompagné d’un certificat délivré par un organisme habilité, et il doit être signé avec la clé privée liée à ce certificat. Un VAC récepteur peut vérifier la validité d’une signature. En cas de signature invalide, le VAC émetteur – a priori malveillant – est dénoncé auprès d’un service distant, lequel, après vérifications, « révoque » le VAC en question en annulant ses certificats. Ainsi, en cas d’accidents graves, les autorités peuvent identifier les responsables, en « renversant » les certificats.

L’idée est qu’un VAC révoqué ne peut plus nuire, puisque ses messages seront ignorés. Cette idée est erronée. Rien n’empêche un VAC malveillant d’émettre des messages aux contenus frauduleux accompagnés de certificats et de signatures valides. Une révocation n’étant pas instantanée, un VAC malveillant a amplement le temps, avant révocation, de fomenter des cyberattaques. En outre, après révocation, ses balises étant rejetées, son existence est ignorée de tous les VAC avoisinants. Il peut donc créer à loisir des collisions.

Conclusion : pas de propriété de cybersécurité dans les réseaux de VAC.

Protection des données Personnelles, Privacy

Dans l’article précédent sur les VA, nous avons abordé la question de la privacy intérieure. Des données personnelles concernant les passagers sont collectées via des capteurs, comme des caméras, enregistreurs de sons, assistants à commande vocale (à l’instar de ceux que l’on installe chez soi si l’on ne se soucie pas trop de protéger sa vie privée), etc. En application des dispositions de l’art. 6.1 du règlement général sur la protection des données à caractère personnel (RGPD), les passagers doivent exprimer leur consentement ou, dans le cas contraire, être en mesure de désactiver ces capteurs, à l’exception de ceux qui sont dédiés au suivi du conducteur dans le cas des VAC de niveaux SAE inférieurs à 5. Pour ce faire, il suffit d’offrir l’option « privacy intérieure », activée via une commande tactile ou vocale. Le choix du mode « on » serait l’« acte positif clair » interdisant la collecte et le traitement des données à caractère personnel, en application des articles 4, § 11 et 7.3 du RGPD.

Surveillance intérieure, Source : Seeing Machines

Intéressons-nous à présent à la question de la privacy extérieure (écoutes et enregistrements des communications V2X). Tous les messages et balises V2X sont obligatoirement transmis « en clair ». Ils contiennent les géolocalisations GNSS et les vitesses des émetteurs. Des données à caractère personnel sont donc exposées, toutes les secondes dans le meilleur des cas. Les vertus de la pseudonymisation, rendant en principe impossible la réattribution de données à caractère personnel à une personne précise (art. 4, § 5 du RGPD), sont perdues à cause du balisage périodique. Les lois de la Physique permettent de savoir si un VAC déclarant circuler à 90 km/h, positionné en un point X sur une route, est le même que celui qui est positionné en un point Y 500 millisecondes plus tard (X et Y sont séparés de 12,5 m). Si doute il y a, il est promptement éliminé grâce au rafraîchissement continu des positions et vitesses. Ainsi, les certificats ne protègent pas du pistage, donc du cyber espionnage, quand ils sont couplés au balisage périodique. Par exemple, connaissant les débuts et fins des trajets et les arrêts récurrents aux mêmes endroits, il est facile d’inférer l’identité du conducteur ou du propriétaire d’un véhicule pisté. En fait, les VAC sont pires que les smartphones : en V2X, il est impossible de « désactiver » la géolocalisation GNSS car elle est obligatoire dans les messages et balises.

Conclusion : pas de privacy dans les réseaux de VAC.

Contrairement aux slogans abondamment répandus, les propriétés de sécurité et privacy ne sont pas antagonistes (elles le sont avec les standards V2X). Nous avons montré que le balisage périodique est inutile vis-à-vis de la sécurité. Aucune raison rationnelle ne peut donc être invoquée pour s’opposer à l’adoption d’une option « privacy extérieure ». Activée (via une commande tactile ou vocale) par les passagers, elle interdit les émissions de balises, ce qui rend impossible le cyber-espionnage illégitime des trajets.

Une mise en œuvre réaliste du RGPD dans les réseaux de VA/VAC n’est pas en vue. Ainsi, ni le pack de conformité sur les véhicules connectés de 2017 de la CNIL en France, ni les Lignes Directrices 1/2020 sur le traitement des données personnelles dans le cadre des véhicules connectés et des applications liées à la mobilité (Comité européen de la protection des données) ne prévoient de fournir aux passagers un moyen simple pour refuser a priori la collecte de telles données quand les propriétés de sécurité, efficacité et cybersécurité sont garanties. Les approches fondées sur les demandes a posteriori (consultation de données enregistrées, droit à l’oubli, etc.) sont (1) inapplicables, (2) dangereuses, car les données personnelles sont multicopiées et exploitées bien avant que tout passager ait eu le temps de
réagir. Et d’ailleurs, qui peut obliger un géant du Numérique à se conformer vraiment et rapidement aux lois qui portent atteinte à ses stratégies de profits ?

Responsabilités et preuves (accountability)

Les VAC sont équipés de « boîtes noires » (enregistreurs infalsifiables). L’examen de l’historique des données enregistrées dans les secondes qui précèdent un accident permet de déterminer, dans chaque véhicule impliqué, la/les cause(s) de l’accident. L’attribution des responsabilités civiles et pénales serait donc a priori la même qu’avec les VA à un « détail » près : une cyberattaque pouvant être menée à distance, le VAC (ou les VAC en cas de
coalition) responsable d’un accident ne fait pas partie des VAC accidentés. Il faut cependant l’identifier puis le retrouver pour inspecter sa boîte noire, en même temps que celles des autres véhicules impliqués. C’est à cette condition que l’on peut établir les causes. Mais le véhicule à l’origine d’une cyberattaque distante a le temps de disparaître ou même d’être détruit volontairement avant d’être retrouvé. La détermination de la cause ou des causes d’un accident a toutes les chances d’être non triviale avec les VAC, rendant juridiquement difficile l’attribution des responsabilités.

La proposition de règlement des Nations Unies du 23 juin 2020 relative à la cybersécurité des VA, qui impose de sécuriser les véhicules by design, est à l’évidence totalement inadaptée pour les cas de cyberattaques distantes.

En France, selon l’ordonnance du 14 avril 2021 et son décret d’application du 29 juin 2021, le constructeur d’un véhicule à délégation de conduite est pénalement responsable des infractions commises pendant les périodes où le système de conduite automatisée exerce le contrôle du véhicule. Un conducteur est responsable pénalement dès qu’il reprend effectivement le contrôle du véhicule ou s’il ne le fait pas à la suite d’une demande du système. Dans le cycle qui va de la conception d’un VAC à son autorisation de commercialisation, puis à ses utilisations, il y a toujours in fine un ou des humains sur qui faire peser la responsabilité : concepteurs, développeurs, testeurs, certificateurs, gestionnaires des infrastructures routières, ou conducteurs. Il ne sert donc à rien d’inventer une personnalité juridique des « robots sur roues ».

Les assureurs savent qu’ils doivent s’adapter à ces nouveaux défis dans leurs contrats d’assurance automobile.

Qu’attendre vraiment des VAC ?

La question mérite d’être posée puisque les standards V2X actuels ne garantissent aucune des quatre propriétés SPEC (sécurité, privacy, efficacité, cybersécurité). Il est même légitime de se demander si les VAC conformes aux standards V2X ne seront pas plus dangereux que les VA. De facto, ils sont principalement destinés à fournir aux humains « motorisés » les mêmes services et environnements (loisir, travail, éducation, informations, etc.) qu’ils utilisent lorsqu’ils sont « statiques » (domicile, bureau, etc.) – la notion de « sans couture » (seamless).

Que peut-on dire de la sécurité, de la cybersécurité et de la réduction des temps de trajets (de l’efficacité) ? À l’évidence, considérées « non prioritaires » … Et pas en vue avec les VAC qui disposent de tous les moyens pour détourner l’attention des passagers (affichage sur les tableaux de bord de publicités diverses, d’écrans des smartphones, de films, etc.), alors qu’un passager de VAC de niveau SAE inférieur à 5 doit être prêt à reprendre la conduite en manuel à tout moment si nécessaire. La contradiction avec le slogan « les VAC vous libèrent de la conduite en toute sécurité » est flagrante.

Quant à la propriété de privacy, si rien n’est fait, elle n’existera pas plus qu’en dehors des véhicules. Les systèmes embarqués fonctionnent avec les mêmes logiciels que ceux de nos smartphones, PC, et récepteurs de télévision (environ 75% sous Android et 25% sous iOS). Les enjeux financiers des futurs marchés centrés sur les données personnelles sont trop importants pour être négligés, et les VA/VAC conformes aux standards V2X sont de fantastiques « aspirateurs » de telles données. En entrant en coopétition (compétition coopérative) avec les GAFAM et leurs équivalents chinois BHATX (voir glossaire), l’industrie automobile prend des risques, puisque le Numérique n’est pas son domaine de prédilection. Mais elle n’a pas d’autre choix si elle vise les mêmes profits que ceux dont bénéficient ces géants du Numérique.

Si les VAC présentent de multiples failles vis-à-vis des propriétés SPEC, c’est tout simplement parce que les problèmes posés sont redoutables. La conduite totalement automatisée, annoncée comme imminente dans les années 2010, serait-elle en voie d’être purement et simplement abandonnée ? Sans doute si rien ne change vraiment. Les résultats du sondage annuel AAA de février 2021 sont édifiants : “AAA’s survey found that 14% of drivers would trust riding in a vehicle that drives itself, similar to last year’s results. However, 86% either said they would be afraid to ride in a self-driving vehicle (54%) or are unsure about it (32%)”.

Notons que dans aucun de leurs projets de VA, ni Waymo (filiale d’Alphabet) ni Tesla n’envisagent l’utilisation de communications radio. C’est surprenant de la part d’industriels issus du numérique. L’explication est simple : ils ne croient pas à la pertinence des standards V2X actuels pour garantir les propriétés de sécurité et d’efficacité. Ils ont raison. Les possibilités offertes par les communications radio sont mal exploitées avec les standards V2X actuels. Les communications optiques sont inutilement ignorées.

La question que nous devons nous poser dès maintenant est très simple : dans quelle future société motorisée voulons-nous vivre ? Toutes les possibilités sont ouvertes (il n’y a pas que V2X dans notre futur). La vraie révolution de la conduite totalement automatisée éthiquement, socialement et juridiquement acceptable surviendra avec l’émergence des VNG, dont la conception ainsi que celle des réseaux qu’ils formeront sont fondées sur des innovations technologiques et diverses disciplines scientifiques peu exploitées actuellement (automation control, distributed algorithms, multiagent systems, biomimétique, etc.)..

Source : ResearchGate

Avec les VNG, il sera possible de démontrer les quatre propriétés SPEC. Cette condition est incontournable dans toute société motorisée soucieuse d’éthique et de respect de la vie humaine. Il est probable que dans une industrie où la propriété intellectuelle et les brevets sont des « armes » de conquête de marchés, un certain nombre de constructeurs ont d’ores et déjà
mis les VNG au programme de travail de leurs laboratoires de R&D.

Gérard Le Lann (Directeur de Recherche Émérite, INRIA Paris-Rocquencourt) et Nathalie Nevejans (Titulaire de la Chaire IA Responsable, Université d’Artois, Membre du Comité d’éthique du CNRS (COMETS)) ont publié récemment sur ces sujets.

Glossaire

AAA American Automobile Association

BHATX Baidu, Huaweï, Alibaba, Tencent, Xiaomi

CNIL Commission Nationale de l’Informatique et des Libertés

GAFAM Google, Amazon, Facebook, Apple, Microsoft

GNSS Global Navigation Satellite System (GPS, Galileo, Glonass, …)

SAE Society of Automotive Engineers

TDMA Time Division Multiple Access

VNG Véhicules de Nouvelle Génération

[1] G. Le Lann : « Cyberphysical constructs and concepts for fully automated networked vehicles », Rapport de recherche INRIA n°9297, Octobre 2019, 64 p., disponible à https://hal.inria.fr/hal-02318242 gerard.le_lann@inria.fr

[2] N. Nevejans : « Traité de droit et d’éthique de la robotique », LEH éd., 2017, https://www.leh.fr/edition/p/traite-de-droit-et-d-ethique-de-la-robotique-civile-9782848746685 nathalie.nevejans@univ-artois.fr

[3] L‘interview de Gérard Le Lann, au sujet de création du web, réalisée par Altitude Infra à l’occasion du World Wide Web Say : https://lnkd.in/dB28eri
3 septembre 2021
Philippe Aigrain nous a quitté

Philippe Aigrainà la Journée du domaine public, Paris, 2012. Wikipédia

Philippe était informaticien, mais aussi écrivain, poète, passionné de montagne, militant. J’en oublie sûrement. Le dernier courriel que j’ai reçu de lui, c’était en sa qualité de dirigeant de publie.net, une maison d’édition où il avait pris la suite de François Bon. Une des dernières fois où je l’ai rencontré, nous faisions tous les deux parties du jury de l’Habilitation à diriger des recherches de Nicolas Anciaux. C’était de l’informatique mais le sujet allait bien à Philippe : « Gestion de données personnelles respectueuse de la vie privée ». Il défendait les libertés, notamment sur internet, ce qui l’avait conduit à cofonder « la Quadrature du net ». C’était aussi un brillant défenseur des biens communs. Pour de nombreux informaticiens, il était aussi le défenseur intransigeant des logiciels libres. Il s’est beaucoup battu pour les valeurs dans lesquelles il croyait,contre la loi Dadvsi, la loi Hadopi, la loi de Renseignement…

Difficile d’imaginer le paysage numérique français sans Philippe. Il manquera dans les combats futurs pour les libertés et pour le partage, mais nombreux sont ceux qu’il a influencés et à travers lesquels il se battra encore longtemps.

Serge Abiteboul

16 juillet 2021
L’open source, à manier avec précaution

Les logiciels libres ont pris aujourd’hui une place importante dans le développement de pratiquement tous les systèmes numériques. Malheureusement, dans certains cas, l’utilisation de composants parfois obsolètes posent des questions de sécurité. Après nous avoir expliqué les attaques supply chain dans un article précédent, Charles Cuveliez, Jean-Jacques Quisquater et Tim Vaes commentent une étude portant sur 1500 logiciels qui révèle un grand nombre de failles dues à ces dépendances mal maîtrisées. Pascal Guitton

Aujourd’hui, la plupart des programmes informatiques utilisent du code open source, c’est-à-dire des composants et des librairies informatiques prêts à l’emploi, proposés librement sur le Net par une communauté qui les maintient, ainsi que par des sociétés commerciales. Cela permet aux développeurs informatique de ne pas devoir chaque fois réinventer la roue quand ils mettent au point leurs propres applications. Ils peuvent se concentrer sur ce qui est nouveau, fera la différence et ne pas perdre de temps à reprogrammer ce que d’autres ont fait avant eux. En fait, pratiquement tous les programmes commerciaux, y compris des systèmes d’exploitation comme Windows ou MacOSX, font largement appel à l’open source.

L’open source se retrouve donc dans un large spectre de contextes depuis des librairies écrites par des développeurs isolés sans connaissance particulière en sécurité jusque des librairies entretenues par des organisations professionnelles avec des standards de sécurité élevés. Dans le premier cas, il est facile pour un hacker malveillant de compromettre le code open source sous couvert de participer au développement. Dans le deuxième cas, on retrouve l ‘Apache Software Foundation ou la Linux Foundation qui maintiennent des suites entières de logiciels open source au sein desquels chaque changement fait l’objet d’une revue par les pairs et est discuté par plusieurs échelons de développeurs (par exemple, dans des forums). Ce type d’approche peut permettre à des codes open source d’atteindre une meilleure qualité que des logiciels proposés par des sociétés commerciales.

La garantie de sécurité de ces codes open source reste pourtant vague. Elle se base sur l’idée – pas totalement fausse, mais pas garantie – que la communauté qui participe à un projet open source demeurera active dans la durée. Quand cette communauté fonctionne bien, les logiciels open source sont revus en permanence par la communauté qui y ajoute souvent en continu de nouvelles fonctionnalités. Des sociétés commerciales proposent, en sus de la communauté, du support et de la maintenance à leurs clients qui voudraient utiliser cet open source sans s’y investir eux-mêmes. Un bel exemple de ce modèle vertueux est Kubernetes (un logiciel pour le déploiement d’applications) qui est énormément utilisé et qu’on retrouve dans de nombreux systèmes informatiques et qui se décline en plusieurs variantes professionnelles avec support et maintenance (Red Hat Openshift, Azure Kubernetes, Google Kubernetes Engine, etc.).

Malheureusement cette belle réussite ne s’applique pas à la majorité des codes open source disponibles en ligne. Les chiffres révélés par Synopsys, une société spécialisée dans la promotion de logiciels de qualité, le mettent en évidence. En 2020, elle a audité 1500 programmes pour le compte de clients. Parmi eux, 84 % contenaient au moins une vulnérabilité provenant de l’open source. C’est 9 % de plus qu’en 2019. De plus, 60 % contenait une vulnérabilité à haut risque, c’est-à-dire dire qui pouvait être exploitée par des moyens déjà connus. Plus ennuyant : le top 10 des vulnérabilités qui apparaissaient le plus en 2019 se retrouvent dans le palmarès 2020. Le problème ne se résout pas.

Dépendance des composants. Extrait de https://xkcd.com/2347/ Licence Creative Commons

S’il y a un domaine où l’open source règne en maitre, c’est bien celui des applications pour smartphones sous Android : 98 % d’entre elles contiennent de l’open source et selon le constat de Synopsys, 63 % révélaient une vulnérabilité critique. Comme pendant la pandémie, les utilisateurs ont téléchargé encore plus d’applications que précédemment, le risque de malveillances a donc augmenté mécaniquement.

Parmi les 1500 programmes analysées, 91 % contenaient des dépendances à des codes open sources qui ne connaissaient plus de développement actif, d’amélioration du code, de résolution des soucis rencontrés sur les deux dernières années. Le fait que la communauté ne soit plus active augmente considérablement les risques. Et puis, 85 % des programmes contenaient des dépendances à du code open source périmé depuis 4 ans. De nouvelles versions existaient qui résolvaient peut-être les vulnérabilités mais les programmes n’en tenaient pas compte.

Pourquoi?

Comment expliquer des chiffres aussi alarmants ? Les équipes de développement se battent avec le côté ultra dynamique des codes open sources qui évoluent en permanence et dont l’usage s’est installé partout. Une bibliothèque open source qui à un moment donné est, sans vulnérabilité, peut ne pas le rester pas longtemps car son environnement évolue vite . Le bât blesse au niveau organisationnel car il faudrait mettre en place un moyen simple d’avertir les développeurs, lorsqu’ils utilisent une bibliothèque open source, qu’une vulnérabilité y a été détectée. Mais comment ? Cela demande beaucoup de discipline au sein même de l’entreprise et de ses développeurs. Cela se complique encore plus si l’entreprise fait appel à des tiers pour ses développements.

Des plateformes comme GitHub dont l’activité consiste à mettre à disposition des codes open source jouent un rôle important pour combler ce trou sécuritaire : elles intègrent des contrôles de sécurité, scannent les codes qui s’y trouvent, même gratuitement quand il s’agit de code open source. Elles s’attaquent au problème à la source (en équipant les développeurs eux-mêmes avec les outils adéquats) plutôt que de laisser cette tâche du côté des utilisateurs d’open source qui n’auraient pas tous la même discipline.

Il se peut aussi que la mémoire collective « oublie » la vulnérabilité d’une librairie de logicielle. La vulnérabilité a bien été détectée mais elle a été mal ou pas documentée et de nouveaux développeurs l’ignorent. Ou bien encore, on continue à utiliser de vieilles bibliothèques qui ne sont plus maintenues alors que leur ancienneté procure un faux sentiment de confiance : s’il existait une vulnérabilité, cela se saurait, pense-t-on. Or le bug Heartbleed a prouvé le contraire : cette bibliothèque était animée et entretenue par des doctorants pendant leur thèse mais un jour ce travail cessa faute de combattants sans que tous ne soient prévenus de l’arrêt de la maintenance.

Symbole utilisé pour communiquer sur HeartBleed. Par Leena Snidate – WikiMedia

Le problème des licences

Il n’y a pas que les vulnérabilités qui posent problème, il faut aussi évoquer les licences. Ces licences sont plus ou moins libres d’utilisation et un logiciel peut proposer (involontairement) des usages qui ne respectent pas les licences de logiciel open source qu’il utilise. Par exemple, 65 % des programmes analysés par Synopsys recelaient un conflit de licence. Et les 3/4 d’entre elles étaient en conflit spécifiquement avec une version ou un autre de la célèbre « GNU General Public Licence » qui est très limitante.

26% des programmes utilisaient de l’open source sans licence ou alors avec une licence modifiée par l’auteur, ce qui place souvent l’utilisateur en conflit car la licence risque d’être mal (ré)écrite ou pas adaptée à l’usage qui est fait du code. Les conflits sur les licences open sources sont d’ailleurs en croissance (copyright, contrat, antitrust, brevet et fair usage). Et il y a parfois des situations ubuesques : la licence GNU General Public Licence v2 crée un conflit si le code est inclus dans un programme commercial compilé et distribué mais ce ne sera pas le cas si c’est un service de type SaaS car on ne distribue pas de code SaaS, on y accède….

Dans un article précédent, nous avons décrit les attaques supply chain qui utilisaient des codes sur lesquels s’appuyaient un logiciel. Mais au moins, le ou les fournisseurs de tels codes dans une supply chain sont connus. Avec l’open source, la situation est encore plus complexe : qui est le fournisseur des codes qu’on utilise ?

Ceci dit, Synopsys a pu faire ce rapport et établir ces statistiques grâce à une transparence qui est dans l’ADN de l’open source. Avec un code commercial, le secret qui l’entoure ne permettrait même pas d’établir un tel état des lieux.

Que faire à court terme du côté utilisateur ?

Pour affronter ces nouveaux défis, on peut réaliser soi-même une vérification approfondie des logiciels open source qu’on utilise : comment le code est-il maintenu ? Combien de développeurs travaillent sur le projet ? Informent-ils sur les vulnérabilités ? Combien de temps entre deux versions successives du logiciel ? Le code est-il revu par les pairs ? La licence est-elle compatible avec l’usage qu’on veut en faire ? C’est tout un faisceau de questions qu’on pourrait tout aussi bien poser pour les logiciels commerciaux.

Une telle vérification n’est pas la fin de l’histoire. Il faut aussi vérifier dans le temps que le logiciel et les bibliothèques restent à jour et sûres. Des outils qui partent du principe que les vulnérabilités sont de toute façon présentes dans le code voient aussi le jour. Ils protègent le code considéré comme « vulnérable par défaut » contre des modèles d’attaques à la manière d’un mini-firewall dans le logiciel même en fonctionnement.

Enfin, même si toutes ces barrières se sont révélées inefficaces, il faut aussi mettre en place des outils pour détecter les attaques. On a compris l’ampleur de l’attaque SolarWinds suite à une détection lancée par Fireeye qui en a été victime.

Charles Cuvelliez (Ecole Polytechnique de Bruxelles, Université de Bruxelles), Jean-Jacques Quisquater (Ecole Polytechnique de Louvain, Université de Louvain) & Tim Vaes (Ernst & Young, Cyber Security Lead, EY Financial Services)

Pour en savoir plus :

2021 Open Source Security and Risk Analysis Report, Synopsys, June 2021,

13 juillet 2021
Ouvrez, ouvrez les revues scientifiques

Le site web d’Opscidia explique que la société « s’appuie sur la littérature scientifique en accès ouvert ainsi que sur les dernières avancées du traitement automatique du langage naturel dans le but de vous apporter le meilleur de l’information technologique ». Pour comprendre ce que ça voulait dire, nous avons rencontré ses dirigeants-fondateurs, Sylvain Massip et Charles Letaillieur. Le CEO Sylvain a une thèse en physique de l’université de Cambridge et a été chercheur et directeur de l’innovation dans une start-up, Natural Grass. Le CTO Charles est ingénieur Télécom Paris et a eu de nombreuses expériences dans le numérique, Cap Gemini, Streamezzo, La Netscouade, Adminext. Ils ont tous les deux une solide expérience dans l’open access et open data, ainsi qu’en apprentissage automatique.

Photo de Ben Taylor provenant de Pexels

Binaire : Quelle a été l’idée de départ pour Opscidia ?

SMCL : Nous étions tous les deux passionnés par la science ouverte. Notre vision est que le développement de la publication scientifique en accès ouvert et le développement d’applications, qui permettent de faciliter la diffusion de la connaissance scientifique dans la société au-delà des cercles académiques sont des mouvements qui vont de pair et se nourrissent mutuellement.

Au début, nous voulions tout révolutionner en même temps, et cela reste notre objectif à long terme ! Plus modestement, aujourd’hui, l’essentiel de nos travaux portent sur la diffusion des articles ouverts au-delà des chercheurs académiques. Nous proposons des applications qui s’appuient sur des technologies d’intelligence artificielle pour analyser automatiquement les publications scientifiques en accès ouvert, ce qui permet de réutiliser les résultats de la recherche pour les entreprises qui font de la R&D, et pour les décideurs publics. Nous avons construit une plateforme que nous commercialisons par abonnement.

Et puis, au-delà de ces deux premières cibles, nous voulons aller jusqu’à l’information du grand public. Si les articles scientifiques sont écrits par des chercheurs pour des chercheurs, ils peuvent aussi être de superbes outils pédagogiques pour le grand public.

Notre plateforme permet de naviguer dans la littérature scientifique. Nos utilisateurs peuvent la personnaliser pour leurs besoins propres. Nous avons par exemple travaillé avec la commission européenne et avec l’entrepôt de données ouvert OpenAIRE, un dépôt d’articles scientifiques en open access.

Nous réalisons aussi des projets qui ne sont pas directement liés à la plateforme, en nous appuyant sur nos domaines d’expertise, comme l’analyse automatique de publications scientifiques avec de l’intelligence artificielle.

Opscidia est maintenant une équipe de huit personnes avec des experts en traitement du langage naturel, des développeurs de logiciels et des business développeurs. Nous avons à ce jour une dizaine de clients, parmi eux, la Commission Européenne, pour qui nous analysons les signaux faibles issus des projets de recherche, l’INRAE ou encore la Fondation Vietsch avec qui nous avons développé un fact-checker scientifique.

binaire : Science ouverte (open science), accès ouvert (open access), vous pouvez expliquer aux lecteurs de binaire de quoi on parle.

SMCL : Pour nous, l’idée de l’open science est que la science ne doit pas être réservée aux seuls chercheurs académiques, mais qu’elle doit être partagée par tous. Elle doit donc sortir des murs des universités et des laboratoires de recherche et devenir accessible aux industriels, aux décideurs politiques et aux citoyens. Dans notre société moderne, de nombreux problèmes ne peuvent pas être compris si on ne comprend pas la science en action.

Pour que la science soit ouverte, il faut que les publications scientifiques soient accessibles à tous, c’est l’open access, et il faut que les données scientifiques soient ouvertes à tous, c’est l’open data. L’open science, c’est le cadre général ; l’open access et l’open data sont des éléments de l’open science.

binaire : Parlons un peu de la manière dont fonctionnent les revues scientifiques.

SMCL : Le « vieux » système des publications scientifiques date d’après la deuxième guerre mondiale. C’est à cette époque que se sont formés les éditeurs scientifiques, et qu’après un processus de fusion/acquisition ils sont devenus les quelques gros éditeurs qui dominent le domaine aujourd’hui.

Les éditeurs mettaient alors en forme les articles, les imprimaient sur du papier, puis diffusaient les revues scientifiques imprimées dans les universités. Tout cela coûtait cher. Les universités et les laboratoires devaient donc payer pour recevoir les revues.

Avec l’avènement d’internet et du web, une grande partie de ce travail a disparu et tout le monde a pensé que les coûts allaient diminuer, que les prix baisseraient en conséquence. Pas du tout ! Il y a eu au contraire création d’un grand nombre de nouvelles revues alors que les prix individuels baissaient peu. Le coût pour les universités a augmenté considérablement au lieu de diminuer.

Ça mérite de s’arrêter un instant sur l’écosystème : des chercheurs écrivent des articles, les éditent en grande partie eux-mêmes maintenant, les soumettent à publications, d’autres chercheurs les relisent (le reviewing) et les sélectionnent. En bout de chaîne, les universités paient. Et les éditeurs ? Ils se contentent de faire payer très cher les abonnements pour juste organiser le processus et mettre les articles sur le web.

A part le fait que la collectivité paie cher pour un service somme toute limité, le processus empêche les chercheurs dans des organisations moins bien dotées que les grandes universités occidentales d’avoir accès aux publications, ce qui est un problème pour le développement de la recherche scientifique.

Ce sont les motivations principales du mouvement open access pour rendre les publications scientifiques accessibles à tous. Ce mouvement s’est beaucoup développé depuis les années 90.

binaire : Comment est-ce que cela fonctionne ?

SMCL : Le monde de l’open access est compliqué. On se perd dans les modèles de publication et dans les modèles de financement des publications. Comme les éditeurs de publications scientifiques ont subi de fortes pressions pour rendre leurs publications ouvertes, ils l’ont fait mais avec des modes tels que cela n’a pas vraiment suffi pour que les gens accèdent à la connaissance contenue dans les publications.

Une solution proposée et promue par les éditeurs est la « voie dorée » (gold open access) : le chercheur paye pour publier son papier et qu’il soit accessible à tous. C’est une première réponse, mais une solution qui ne nous paraît pas optimale parce qu’elle reste coûteuse et que ce ne sont pas les chercheurs qui pilotent le processus. Aujourd’hui, les négociations entre les universités et les éditeurs se font en général au niveau des États. Ce sont de très gros contrats pour se mettre d’accord sur le prix, dans une grande complexité et une relative opacité.

Un modèle alternatif est que tout soit organisé directement par les chercheurs et gratuitement pour tous. Évidemment, il n’y a pas de miracle : il faut bien que quelqu’un paie pour absorber les coûts, par exemple des institutions comme la commission européenne.

L’environnement est encore instable et il est difficile de dire comment tout ça va évoluer.

binaire : Quelle est la pénétration de l’open access, et comment la situation évolue-t-elle ?

SMCL : On mesure ça assez précisément. Le ministère de la recherche publie d’ailleurs un baromètre pour la France. On peut aussi consulter les travaux d’Eric Jeangirard sur le sujet. Il y a aussi des équivalents internationaux. En gros, au niveau mondial 30 à 40% des articles sont en open access.

Les chiffres de pénétration sont très dépendants des domaines de recherche. L’informatique est parmi les bons élèves. Et ce pour beaucoup de raisons : les informaticiens ont l’expertise technique, il y a des bases de publications, il y a la mentalité et la culture de l’open source. Les mauvais élèves sont plutôt l’ingénierie et la chimie. Les sciences humaines et sociales, avec une dépendance plus forte des chercheurs dans les éditeurs du fait de l’importance que joue la publication de livres dans ces disciplines, mais aussi avec beaucoup d’initiatives pour promouvoir l’Open Access, sont dans une dynamique assez spécifique.

Certaines des différences sont fondées. Comparons les publications d’articles dans le domaine médical et en informatique. En informatique, les chercheurs publient souvent leurs résultats en « preprints », c’est-à-dire des versions open access avant publication officielle dans une revue. En médecine, une telle publication peut conduire à des risques sanitaires graves. On l’a vu dans le cas du Covid avec des batailles de publication de preprints. Parmi les 2000 articles par semaine qui ont été publiés sur le coronavirus, beaucoup étaient des preprints, tous n’ont pas été relus par des pairs (peer review), beaucoup ont été abandonnés et n’ont pas eu de suite. Du coup, les chercheurs en médecine sont plus réticents à publier avant que l’article n’ait été accepté pour publication, et ce, même si les preprints permettent en fait d’améliorer la qualité des publications en augmentant la transparence.

Pour terminer, on pourra noter que la diffusion de l’open access est clairement en croissance. C’est ce que montrent les chiffres. Cela vient notamment de règles comme le plan S qui, par exemple, oblige les chercheurs à publier en open access s’ils ont bénéficié de financement de l’Union européenne.

binaire : Est-ce que ouvert ou pas, cela a des impacts sur la qualité des publications ?

SMCL : Les journaux en open access gold ont le même niveau de sérieux que les journaux classiques : les articles sont revus par des pairs. Donc la qualité est là et la seule différence avec les journaux classiques est le modèle économique avec transfert du paiement du lecteur vers l’auteur. Avec un bon système de peer review, la qualité est au rendez-vous quel que soit le modèle économique. Le mécanisme du preprint privilégie par contre la transparence, la facilité et la rapidité d’accès au dépend du contrôle de qualité. Mais les preprints ont vocation à être publiés ensuite dans des revues à comité de lecture, et la transparence supplémentaire offerte par le système de preprint permet en général d’augmenter la qualité du processus de relecture !

binaire : De 30 à 40% du marché, c’est déjà une victoire ! Quel est le panorama mondial et quelle est la position de la France sur l’open access ?

SMCL : Oui. Ça progresse bien et l’open access finira par s’imposer. C’est le sens de l’histoire.

L’Europe est assez leader sur ces thématiques, ce qui est récent et n’a pas toujours été le cas. Il faut rappeler que les principaux éditeurs sont européens (britanniques, néerlandais et allemands), donc ils ont forcément voix au chapitre en termes de lobbying. La commission européenne est un lieu d’affrontement entre les parties. L’Amérique du sud est assez en pointe pour l’open access avec des initiatives comme SciELO ou Redalyc.

Aux États Unis, le grand entrepôt de données et d’articles médicaux (Pubmed) a été organisé par l’État avec une vraie volonté d’open data. Il y a en revanche beaucoup moins d’obligations écrites pour les chercheurs qu’en Europe ; ils publient où ils veulent, mais ils doivent publier leurs données dans Pubmed. Il y a de sérieux combats au moment des renouvellements des revues. En Europe, les éditeurs ont un argument de choc. C’est eux qui contrôlent l’historique et personne ne veut perdre l’accès à des dizaines d’années de résultats scientifiques. Aux Etats-Unis, grâce à Pubmed, c’est moins vrai.

La France est plutôt active en faveur de l’open access. La Loi sur la république numérique a levé des interdictions importantes. Le Ministère de la Recherche et de l’Enseignement Supérieur est très moteur, et la nomination de Marin Dacos, un militant de l’open science, comme Conseiller science ouverte au Ministère a fait avancer les choses.

binaire : Qu’est-ce que la science ouverte apporte ?

SMCL : La promotion de modes ouverts fait diminuer la compétition, encourage la collaboration. Le travail collaboratif s’impose. Avec un meilleur accès, plus précoce, aux résultats d’autres chercheurs, on peut plus facilement faire évoluer cette recherche. En travaillant sur des données ouvertes, on peut plus facilement travailler ensemble.

Prenons une problématique importante, celle de l’évaluation des chercheurs, qui conditionne le recrutement et les promotions. Le fait d’aller vers de l’open science et de l’open data, conduit à modifier ce processus d’évaluation. Par exemple, si un chercheur met à disposition un jeu de données que tous exploitent pendant des années, son impact en termes de recherche peut être immense, et ce même s’il n’a que peu publié. Il faut modifier l’évaluation pour qu’elle tienne compte de son apport à la communauté.

Évidemment, cela dépend beaucoup du domaine. On ne va pas offrir un large électron-positron collisionneur à chaque groupe qui a envie de faire de la physique des particules. Donc forcément, dans ce domaine, les données doivent être par nature partagées. En revanche, dans d’autres domaines où les expériences sont plus petites et où potentiellement les applications industrielles sont plus rapides, les choses auront tendance à être plus fermées.

Et puis, on n’a pas forcément à choisir entre tout ouvert ou tout fermé. Dans le travail qu’Opscidia fait pour la commission européenne, la commission veut croiser des données sur le financement des projets avec des données scientifiques publiques. Cela n’oblige évidemment pas la commission à ouvrir ses données sensibles.

binaire : Du côté logiciel libre, de nombreuses associations et quelques organisations, fédèrent la communauté. Est-ce pareil pour l’open access ?

SMCL : Les militants de l’open science sont le plus souvent des fonctionnaires et des chercheurs académiques. Ils s’appuient sur des institutions comme le Comité pour la science ouverte. Ce comité, organisé par le ministère, réalise un travail considérable. Il fédère de nombreux acteurs publics qui ont chacun leur spécificité et leur apport. Malgré le militantisme, on reste dans un cadre assez institutionnel.

binaire : Est-ce qu’il y a un pape de l’open access, un équivalent de Richard Stallman pour le logiciel libre ?

SMCL : De nombreuses personnes ont eu un grand impact sur ce domaine. On peut peut-être citer Aaron Swartz, un peu le martyr de l’open access ou Peter Suber qui a fait beaucoup pour populariser l’approche mais à notre sens, l’Open Access reste avant tout une affaire aux mains des communautés de recherche et des chercheurs individuels sur le terrain.

Serge Abiteboul, Inria et ENS, Paris, François Bancilhon sérial-entrepreneur

https://binaire.socinfo.fr/page-les-communs-numeriques/

6 juillet 2021