L’Association Epi (enseignement public et informatique) fête cette année ses 50 ans.
A cette occasion la revue EpiNET sort un numéro spécial recueil de témoignages plus intéressants les uns que les autres racontant les campagnes « militantes », les déploiements chaotiques, les victoires, la persévérance, toujours, des membres de l’association … pour développer, intégrer et maintenir l’informatique comme instrument pédagogique et objet d’enseignement.
Si Pixees ne devait en retenir qu’un pour vous donner envie de lire les autres ? Peut-être serait-ce celui de Monique Grandbastien : une pionnière qui raconte comment sa carrière est intimement liée à l’enseignement de l’informatique.
Rappel : l’EPI crée en 1971 veut faire de l’informatique, et des technologies de l’information et de la communication en général, un facteur de progrès et un instrument de démocratisation.
Courteousy of Hiba Kalache, therefore the most profound though is a beating heart (bannière du site de datacraft)
Datacraft, c’est quoi ce « machin » ? On est à Sorbonne Université [1], dans le Sorbonne Center for Artificial Intelligence, sur le campus de Jussieu, un haut lieu des sciences. Pourtant, ce n’est pas un labo universitaire, même si cela y ressemble. Ça tient du club, un peu du fablab. C’est un espace de cotravail apprenant où on travaille vraiment en commun, plus que dans un espace de cotravail classique. Officiellement, c’est une startup. En fait, ce n’est pas facile à classifier, ce qui est pour moi assez positif dans le monde de la science des données qui se réinvente en permanence.
J’ai été tenté de dire que c’était un « temple des données » tant les données sont au centre des préoccupations de tous et toutes dans ce lieu. Mais non, les données ne sont pas adorées ici, elles sont questionnées, challengées. On vous parle ici de leur mise au service des entreprises et de la société, de « responsabilité sociale des données ».
En fait, la vraie valeur, il faut la chercher dans le nom de l’entreprise, datacraft, en français « l’artisanat de la science des données » (traduction personnelle). C’est tellement plus joli qu’en anglais, même si c’est certainement moins vendeur. Avec datacraft, nous sommes bien dans l’artisanat, dans un savoir-faire spécifique, hors contexte industriel de masse. Nous sommes pile poil dans le compagnonnage en sciences des données, dans l’idée de se former en faisant, en échangeant, en bénéficiant de conseils d’experts.
Je pense qu’un tel compagnonnage est particulièrement bien adapté à la science des données. En 2014, dans un rapport pour le gouvernement [2], nous parlions de la nécessité de booster les formations aux sciences des données, en insistant sur le caractère indispensable de projets « les yeux dans les yeux, de données en vraie grandeur ». Depuis, de telles formations ont vu le jour et les entreprises ont souvent maintenant leurs data scientists. Mais ceux-ci souffrent d’être isolés, de ne pas pouvoir partager leurs questionnements, leurs expériences. L’image du geek qui bosse seul dans son coin est à des kilomètres de la réalité de l’informatique – on travaille le plus souvent en équipe – et tout particulièrement dans la science des données. Un beau projet en science des données met typiquement en jeu des compétences variées que l’on trouve rarement chez une personne unique : gestion de données, big data, machine learning, compétence métier, etc.
Les data scientists des entreprises adhérentes à datacraft peuvent venir travailler dans un espace de cotravail où ils rencontreront des data scientists, leurs homologues d’autres entreprises et des experts résidence. Il ne s’agit pas juste de partager de beaux bureaux et du café. Ils peuvent par exemple dans des ateliers pratiques échanger des idées, apprendre, et partager. Et ce contexte permet aux idées d’infuser entre des domaines différents.
Par exemple, datacraft a organisé un atelier avec l’INSEP (l‘Institut national du sport, de l’expertise et de la performance) autour de l’utilisation de données dans le sport de haut niveau. Il s’agissait d’arriver à construire la meilleure équipe selon le contexte, les adversaires, la météo, etc. Il était difficile de prévoir l’intérêt des ingés de Vinci Autoroutes sur ce sujet, pourtant, ils ont apporté une expertise précieuse.
Pas de bol, datacraft s’est lancée en février 2020, pas le meilleur moment pour un concept basé sur un lieu de rencontre physique. Les membres ont initié des projets autour de la santé et de l’éducation, pour aider la société dans un temps de crise sanitaire grave. Je me serais aussi attendu à ce qu’ils découvrent les avantages considérables du travail à distance, d’une certaine inutilité de la rencontre physique. Pas du tout, Isabelle Hilali, fondatrice et pédégère de datacraft, explique : « Pour moi, la dimension physique est essentielle, et j’aimerais revenir dès que possible au présentiel car il est important de garder du lien. » Et quand j’insiste sur les avantages du distanciel, elle précise : « Il faut aussi le plaisir du travail. Il y a moins de plaisir à collaborer à distance. »
Quand on met des gens brillants ensemble, les initiatives fleurissent. Des membres se regroupent pour former des consortiums et répondre à des appels à projets ambitieux auxquels ils n’auraient pas les moyens de répondre individuellement. Ils mettent en place des formations, des espaces d’échanges dans des domaines spécifiques comme les ressources humaines ou les aspects légaux des applications de la science des données.
J’ai parlé de datacraft à des collègues chiliens. Leur réaction : un tel club serait encore plus indispensable au Chili où les data scientists des entreprises sont encore plus isolés qu’en France. Je pense que c’est vrai pour de nombreux pays, datacraft devrait donc s’exporter ? J’ai posé la question : ils ouvrent une base au Maroc en 2022. À quand le Chili ?
Postscriptum : Quand je m’enthousiasme pour une startup dans binaire, il se trouve parfois un de nos très chers lecteurs pour questionner mon objectivité, m’accuser d’avoir des amis dans la startup, d’y avoir investi, voire de me faire payer pour la pub. Et bien non rien de tout cela. J’ai trouvé que c’était une idée géniale et j’ai voulu la raconter.
Serge Abiteboul, Inria et ENS, Paris
[1] Sorbonne Université est une université française située à Paris. Elle a été créée le 1er janvier 2018 par regroupement des universités Paris-Sorbonne (Paris-IV) et Pierre-et-Marie-Curie (Paris-VI), elles-mêmes créées en 1970 et héritières de l’université de Paris fondée en 1896.
[2] Serge Abiteboul, François Bancilhon, François Bourdoncle, Stephan Clemencon, Colin De La Higuera, et al. L’émergence d’une nouvelle filière de formation : data scientists », 2014 https://hal.inria.fr/hal-01092062
Nous poursuivons notre balade avec David Pointcheval, Directeur du Laboratoire d’informatique de l’École Normale Supérieure, Paris, dans « l’agrégation confidentielle ». Il nous conduit aux frontières de ce domaine de recherche. Serge Abiteboul
Pexels
Nous avons vu dans un premier article que le FHE (chiffrement complètement homomorphe) permettait d’effectuer des calculs sur les chiffrés. Mais il ne permet pas le partage des résultats : toute personne capable de déchiffrer le résultat final est en mesure de déchiffrer les entrées du calcul, puisque le tout est chiffré sous la même clef. Le chiffrement fonctionnel [1] fournit un outil complémentaire : il permet la diffusion de résultats, restreints par les capacités de la clef que possède l’utilisateur et les contraintes choisies par l’émetteur des chiffrés. Par exemple, la clef peut ne permettre le déchiffrement que sous certaines conditions d’accès (chiffrement basé sur l’identité, ou sur des attributs), mais peut aussi restreindre le déchiffrement à certaines agrégations sur les clairs, et à rien d’autre. Usuellement, à partir d’un chiffré E(x) de x, la clef de déchiffrement permet de retrouver le clair x. Avec le chiffrement fonctionnel, plusieurs clefs de déchiffrement peuvent être générées, selon différentes fonctions f. A partir d’un chiffré E(x) de x, la clé de déchiffrement kf associée à la fonction f permet d’obtenir f(x) et aucune autre information sur x. Ainsi, la fonction f peut tester l’identité du destinataire (intégrée dans le clair x au moment du chiffrement), avant de retourner ou non le clair, ce qui conduit à un simple contrôle d’accès. Mais la fonction f peut également faire des calculs plus complexes, et notamment ne donner accès qu’à certains types d’agrégations.
Agrégations de données
Le grand intérêt du chiffrement fonctionnel est en effet la contrainte by design des informations partielles obtenues sur la donnée en clair, par exemple une moyenne, des agrégations et toutes sortes de statistiques, sans jamais révéler d’information supplémentaire. On peut notamment effectuer des chiffrements de vecteurs et n’autoriser que certains calculs statistiques. Mais contrairement au FHE qui retourne le calcul sous forme chiffrée et nécessite donc de posséder la clef de déchiffrement qui permet non seulement de retrouver le résultat en clair mais également les données initiales en clair, la clef de déchiffrement fonctionnel effectue le calcul et fournit le résultat en clair. Cette dernière ne permet en revanche pas de déchiffrer les données initiales. Il a été montré possible de générer des clefs pour évaluer n’importe quel circuit sur des données chiffrées [2]. Néanmoins, ce résultat générique est très théorique, sous des hypothèses très fortes, et notamment la possibilité d’obfusquer (*) du code, ce pour quoi nous n’avons pas encore de solution. Ainsi, la première construction effective a été donnée pour la famille des produits scalaires, ou moyennes pondérées [3] : les messages clairs sont des vecteurs et les clefs de déchiffrement fonctionnel sont associées à des vecteurs. L’opération de déchiffrement retourne le produit scalaire entre le vecteur chiffré et le vecteur associé à la clef.
Moyennes sur des données temporelles
Il s’agit certainement du cas d’usage le plus classique. Bien que très simple, il semble adapté à de nombreuses situations concrètes : des séries de données temporelles sont générées, et le propriétaire de ces données souhaite ne diffuser que des agrégations sous formes de moyennes pondérées, à chaque période de temps. Ces pondérations peuvent dépendre des destinataires, voire s’affiner au cours du temps. Pour cela, pour chaque vecteur de pondérations, une clef de déchiffrement fonctionnel est générée par le propriétaire des données, une bonne fois pour toutes, et transmise au destinataire autorisé. A chaque période de temps, la série de données est publiée chiffrée, et chaque propriétaire de clef peut obtenir le calcul agrégé autorisé, et rien de plus. Tous les destinataires ont accès aux mêmes données chiffrées, mais selon la clef en leur possession, des agrégations différentes seront accessibles.
Plus récemment, des versions multi-clients [4] ont été définies, permettant à des fournisseurs de données distincts de contribuer à la série temporelle, et de garder le contrôle des clefs fonctionnelles générées. Les exemples d’applications sont multiples, dans la finance, en sécurité, ou dans le domaine médical. Considérons les compagnies d’assurance, qui sont en forte concurrence, et qui n’imaginent pas un instant partager les volumes dans chaque catégorie de sinistres rencontrés par leurs clients. Par contre, ces clients seraient intéressés par le volume global, au niveau national, toutes compagnies d’assurance confondues. Cela rentre exactement dans le contexte d’une somme pondérée générée régulièrement sur des données chiffrées. Et bien sûr, les compagnies d’assurance doivent contribuer à la génération des clefs fonctionnelles, afin de s’assurer qu’elles permettront un calcul qu’elles autorisent. Un autre cas d’usage similaire en sécurité est la remontée des attaques subies par les entreprises. Ces données sont sensibles au niveau de chaque entreprise, mais sont très utiles à un niveau global pour connaître les menaces, et réagir de façon adaptée. Le chiffrement fonctionnel, y compris multi-client, est quant à lui parfaitement opérationnel sur des données réelles, pour obtenir de telles moyennes pondérées. En effet, les calculs à effectuer demeurent relativement simples et peu coûteux.
Chiffrement fonctionnel et apprentissage
Est-ce la fin de l’histoire ? Non, car de fortes limitations subsistent. La technique permet de réaliser un grand nombre de statistiques basées sur des additions avec des coefficients. Elle permet notamment des techniques de classification de données, mais de médiocre qualité. On aimerait aller au-delà de tels calculs linaires. C’est indispensable pour réaliser des calculs statistiques plus riches, par exemple des calculs de variance. Ça l’est aussi pour pouvoir utiliser des méthodes d’apprentissage automatique plus sophistiquées [6]. Il n’y a pas d’impossibilité, juste de belles opportunités pour les scientifiques.
Conclusion
Avec le RGPD (ou Règlement Général sur la Protection des Données), la protection de la vie privée et des données personnelles est désormais une exigence pour toute entité qui stocke et traite des informations à caractère personnel. La cryptographie propose des outils opérationnels pour des traitements simples, tels que la recherche par mots-clefs parmi des données chiffrées, la classification de données chiffrées, et les calculs statistiques sur des données chiffrées. Même l’apprentissage fédéré peut être efficacement traité. Mais selon les contextes d’applications, des choix doivent être faits qui auront un impact important sur l’efficacité, voire la faisabilité.
David Pointcheval, CNRS, ENS/PSL et Inria
(*) obfusquer(du vieux français offusquer) : Obscurcir, assombrir. En Informatique, rendre un programme ou des données illisibles pour éviter qu’ils soient exploités de façon non autorisée.
[1] Dan Boneh, Amit Sahai et Brent Waters. Functional encryption: Definitions and challenges. TCC 2011
[2] Sanjam Garg, Craig Gentry, Shai Halevi, Mariana Raykova, Amit Sahai et Brent Waters. Candidate indistinguishability obfuscation and functional encryption for all circuits. FOCS 2013
[3] Michel Abdalla, Florian Bourse, Angelo De Caro et David Pointcheval. Simple functional encryption schemes for inner products. PKC 2015
[4] Jérémy Chotard, Edouard Dufour-Sans, Romain Gay, Duong Hieu Phan, et David Pointcheval. Decentralized multi-client functional encryption for inner product. ASIACRYPT 2018
[5] Théo Ryffel, Edouard Dufour-Sans, Romain Gay, Francis Bach et David Pointcheval. Partially encrypted machine learning using functional encryption. NeurIPS 2019
[6] Théo Ryffel, Edouard Dufour-Sans, Romain Gay, Francis Bach et David Pointcheval. Partially encrypted machine learning using functional encryption. NeurIPS 2019
Dans de nombreuses situations, on a envie de garder chaque information confidentielle, mais réaliser, sur leur ensemble, une agrégation, leur somme, leur moyenne, leur évolution dans le temps, etc. Par exemple, en tant que cycliste, vous n’avez pas peut-être pas envie que le reste du monde sache où vous êtes, mais vous aimeriez bien savoir qu’il faut éviter le Boulevard Sébastopol à Paris à cause de sa surcharge. Ça semble impossible ? Et pourtant des avancées scientifiques basées sur la cryptographie permettent de le faire. Ce n’est pas de la magie mais de l’algorithmique super astucieuse avec plein de maths derrière. Alors, en voiture avec David Pointcheval, Directeur du Laboratoire d’informatique de l’École Normale Supérieure, Paris, pour une balade incroyable dans « l’agrégation confidentielle ». Serge Abiteboul
David Pointcheval, Cryptographe
L’externalisation des données est devenue pratique courante et la volonté de mettre des informations en commun, pour détecter des anomalies, prédire des événements ou juste effectuer des calculs s’intensifie. Nombre de ces données restent néanmoins sensibles, et leur confidentialité doit être garantie.
Un exemple d’actualité est l’analyse massive de données médicales pour suivre une épidémie, son mode d’expansion et son évolution chez les malades. Les hôpitaux ont de telles informations en grande quantité, mais elles sont d’une extrême sensibilité.
La cryptographie a développé plusieurs outils pour concilier ces besoins contradictoires que sont le partage des données et leur confidentialité, à savoir le « calcul multi-parties sécurisé », MPC pour Multi-Party Computation, le chiffrement complètement homomorphe, FHE, pour Fully Homomorphic Encryption, et le chiffrement fonctionnel, FE, pour Functional Encryption. Nous allons rapidement rappeler les deux premières solutions. Dans un prochain article, nous nous attarderons plus longuement sur la dernière approche, développée plus récemment, qui répond efficacement à des besoins concrets de calculs sur des données mutualisées sensibles.
Photo de Cottonbro – Pexels
Le calcul multi-parties sécurisé (MPC)
Le MPC a été proposé il y a plus de 30 ans [1], pour permettre à des utilisateurs, possédant chacun des données secrètes, d’effectuer un calcul commun et d’obtenir le résultat tout en gardant les entrées confidentielles. Intuitivement, le MPC permet de remplacer la situation idéale, où chacun transmettrait sa donnée à un tiers de confiance et ce dernier effectuerait le calcul pour ne retourner que le résultat, par un protocole interactif entre les seuls participants. Contrairement à l’utilisation d’un tiers de confiance, dont la capacité à protéger les données et les échanges est essentiel, le MPC ne requiert aucune confiance en qui que ce soit.
Un exemple pour illustrer cela est le vote électronique, où tous les participants ont leur choix de candidat à l’esprit, et le résultat commun annoncé est le nombre total de voix pour chaque candidat. Néanmoins, même les opérations simples, telles que ces sommes dans le cas du vote, nécessitent un très grand nombre d’interactions entre tous les participants. Avec seulement deux utilisateurs, on dispose de solutions particulièrement efficaces, avec notamment les versions optimisées de Garbled Circuits [2]. Un exemple célèbre du calcul sécurisé entre deux individus est le « problème du millionnaire », où deux personnes fortunées veulent savoir laquelle est la plus riche, mais sans pour autant révéler les montants en question. Il s’agit donc d’effectuer une comparaison sur deux données secrètes.
De telles comparaisons sont également la base de techniques d’apprentissage automatique, au niveau de la fonction d’activation de neurones. Il est donc possible de tester un réseau de neurones, entre le propriétaire de la donnée à classifier et le possesseur du réseau, sans qu’aucune information autre que le résultat de classe ne soit disponible au deux.
Le chiffrement complètement homomorphe (FHE)
Pour éviter les interactions, les données doivent être stockées en un même lieu, de façon chiffrée pour garantir la confidentialité. Le chiffrement permet de stocker des données tout en les maintenant à l’abri des regards. Il permet aussi d’exclure toute forme de manipulation, pour en garantir l’intégrité. Cependant, certaines propriétés algébriques ont été utilisées, et notamment la multiplicativité, avec des schémas de chiffrement qui permettent de générer, à partir de deux chiffrés, le chiffré du produit des clairs. En d’autres termes, à partir des valeurs chiffrées E(a) et E(b), de deux données a et b, il est possible de calculer la valeur chiffrée E(a*b) de a*b sans avoir à connaitre a et b. D’autres schémas proposent l’additivité, ce qui permet d’obtenir le chiffré de la somme des clairs par une simple opération sur les chiffrés.
Mais à quoi cela peut-il servir ? La propriété d’additivité est par exemple largement exploitée au sein de systèmes de vote électronique. Les votants chiffrent leur choix (1 ou 0, selon que la case est cochée ou non), et une opération publique permet d’obtenir le chiffré de la somme de leurs votes. Le déchiffrement final, mené par le bureau de vote, permet de prendre connaissance du résultat, sans avoir besoin de déchiffrer chaque vote individuellement.
On connaissait des méthodes qui permettent l’additivité et d’autres la multiplicativité. Les deux ont semblé longtemps incompatibles jusqu’aux travaux de Craig Gentry [3]. En 2009, il a présenté la première construction permettant ces deux opérations en nombre illimité sur les clairs, par des opérations publiques sur les chiffrés. Il devient alors possible d’évaluer n’importe quel circuit booléen sur des entrées chiffrées, avec le résultat chiffré sous la même clef. Comment passe-t-on de ces deux propriétés aux circuits booléens ? Un circuit est composé de portes logiques qui peuvent se traduire en termes d’additions, de négations et de multiplications. Ce FHE permet alors à une personne d’externaliser des calculs sur ses données confidentielles, sans aucune interaction. Il lui suffit de les chiffrer sous sa propre clef ; le prestataire peut faire tous les calculs souhaités sur ces données, sans en prendre connaissance ; l’utilisateur peut enfin récupérer le résultat chiffré toujours sous sa propre clef. Un exemple peut être le stockage de photos, permettant de faire tourner des algorithmes d’atténuation des yeux rouges ou de regroupement selon la reconnaissance faciale, tout en garantissant la confidentialité. On peut même imaginer poser des requêtes chiffrées à un moteur de recherche et obtenir des réponses pertinentes, sans révéler ni les questions, ni les réponses.
Les applications de ces techniques sont extrêmement nombreuses. Mais elles ont une énorme limitation : la confidentialité est garantie au prix d’énormes quantités de calculs, de temps parfois prohibitifs même pour un supercalculateur.
David Pointcheval, CNRS, ENS/PSL et Inria
[1] Oded Goldreich, Silvio Micali et Avi Wigderson. How to play any mental game or A completeness theorem for protocols with honest majority. STOC 1987
[2] Andrew Chi-Chih Yao. How to generate and exchange secrets. FOCS 1986
Un algorithme peut-il composer de la musique, un texte, un tableau ? C’est le sujet que traite Philippe Rigaux, professeur d’informatique au CNAM et excellent gambiste. L’éditeur que je suis peut vous garantir que l’article, comme le plus souvent les articles de binaire, a bien été écrit pas un humain et pas par un algorithme. Serge Abiteboul.
Philippe Rigaux à la viole de gambe
Un algorithme peut-il composer de la musique ? La question n’est pas nouvelle, c’est peut-être même un des plus anciens fantasmes de l’informatique, exprimé dès la première moitié du XIXe siècle par Ada Lovelace (1815-1852) en ces termes : «la machine pourrait composer de manière scientifique et élaborée des morceaux de musique de n’importe quelle longueur ou degré de complexité ». À la base de cette hypothèse, certains aspects mathématiques des règles de la composition musicale. Bien.
De là à penser qu’un ordinateur peut faire l’affaire, il y a quand même une faille qu’un article du Monde [1] enjambe en nous expliquant que c’est (peut-être) en cours. L’anecdote initiale est la suivante. Au départ, une chanson, passée inaperçue à l’origine, qui devient populaire par la grâce de deux facteurs : (i) elle a subi quelques transformations (longueur, tempo) qui lui permettent de s’inscrire dans une forme de norme, et (ii) du coup, elle se trouve happée par un algorithme qui la considère comme totalement recommandable puisque plus rien ne dépasse en termes d’originalité ou de créativité. Ensuite c’est l’effet boule de neige : plus le morceau est écouté et plus il devient écoutable. Pas de surprise, nous sommes bien dans un système qui par ses suggestions encourage un flot de musique produit dans le même moule. Mais surprise quand même de voir un bide se transformer en hit.
Magique ? Non, il suffit de comprendre comment fonctionne l’algorithme. D’un côté ce qui caractérise un morceau, de l’autre un catalogage des émotions qu’il suscite (avec une petite dose de personnalisation, domaine routinier des industriels du captage de données personnelles). On fait tourner sur ces données un algorithme d’apprentissage automatique qui va mettre en évidence des similarités, entre utilisateurs (vous avez des goûts très semblables à ceux de plein d’inconnus) et entre morceaux. Ça va permettre d’envoyer « le bon contenu pour le bon auditeur au bon moment ». C’est énervant mais nous sommes finalement très prévisibles. Il ne reste plus qu’à garder un peu de place pour envoyer la pub !
Ce que cette histoire, qui n’a rien de renversant, raconte, c’est le passage de la recommandation à la prédiction, un petit pas. Demain, quand un artiste arrivera chez un producteur, ce dernier aura en main les estimations qui lui permettront de dire si le morceau proposé sera un succès ou non. D’ailleurs pourquoi avoir encore besoin d’un producteur ? Et puis, de la prédiction à la création, encore un petit pas. Pourquoi continuer à avoir des auteurs (humains) alors que la machine dispose de tous les paramètres pour produire un morceau « presque pareil » que ceux qui sont écoutés en masse, et réaliser la vision d’Ada Lovelace ?
Au secours ! Cela nous nous conduit à une vision d’un monde effrayant où on écoute, on lit, et on visionne toujours la même chose, une sorte de culture mollement consensuelle et farouchement opposée à toute originalité, qui vous infiltre silencieusement, insidieusement, vous proposant ses variants de temps en temps, histoire de vous empêcher de réaliser ce qui vous arrive. Non, à la culture-Covid !
“Je rêvais d’un autre monde” (vous la reconnaissez celle-là ? Était-elle recommandable à l’origine ?) où des artistes continueront à nous surprendre par leur créativité, à nous sortir délicieusement des sentiers battus par la société du contrôle et du marketing. Rêvons d’un monde où on préfèrera encore se laisser surprendre et affronter parfois le sentiment d’être largué, plutôt que de tourner en rond comme un hamster, entre deux pubs et trois chansons préformatées de trois minutes !
Philippe Rigaux, CNAM
[1] L’algorithme, nouvelle machine à tubes, Laurent Carpentier, Le Monde, 15 février 2021
Liliana Cucu-Grosjean est chercheuse à l’Inria. Elle est aussi , avec son complice Steve Kremer, co-présidente du comité Parité et Égalité des Chances à l’Inria. Ce groupe de réflexion et de proposition travaille depuis 2015 sur des sujets aussi variés que la valorisation des profils internationaux, l’inclusion des personnes LGBTI+ au sein de l’Institut, ou encore la place des femmes qui représente aujourd’hui moins de 20% des effectifs scientifiques dans les sciences du numérique. En ce 8 mars, Liliana nous recommande une lecture… Antoine Rousseau
Chaque année à l’approche du 8 mars, je me pose la question de comment souligner l’importance de cette date, qui rappelle qu’on doit, encore et toujours, se battre pour les droits des femmes. D’ailleurs, toute personne mordue par cette bataille cherche un cadeau ou un moyen pour rappeler (ou crier) que nous sommes le 8 mars, tout en se disant qu’un jour cette date n’aurait plus lieu d’être fêtée tellement les choses auraient évolué.
Cette année les adeptes des droits des femmes sont gâtés par la sortie du livre d’Anne-Marie Kermarrec début mars. Coïncidence ou choix délibéré ? Anne-Marie reste un petit miracle dans ce monde binaire, en faisant partie de celles et ceux qui n’attendent pas qu’on leur demande pour nous offrir des belles surprises. L’autrice admet, aussi, passer de plus en plus du temps sur la cause des femmes. Je dirais, donc, un choix délibéré.
J’ai appris via le réseau linkedin l’apparition du livre et je me suis dépêchée pour l’avoir entre mes mains, bon, plutôt devant mes yeux car je suis passée par une version électronique. Pourquoi me dépêcher ? Car j’ai pu constater par le passé l’absence de langue de bois dans les interventions d’Anne-Marie sur le sujet de la parité et, surtout, la pertinence de ses propos. Et je n’ai pas été déçue. J’avais pris le livre comme une lecture de soir et je me suis retrouvée à la dévorer jusqu’à des heures pas possibles ; cela ne m’était plus arrivé depuis le dernier volume des Milléniums (désolée pour la sortie de piste sans aucun lien avec ce billet), mais le livre m’y oblige par sa grande honnêteté.
Comment Anne-Marie attaque des sujets chauds, contradictoires, voire tabous des discussions sur la parité, impressionne la lectrice que je suis. Prenons sa discussion sur les quotas. Sujet sensible en France, Anne-Marie ose le mettre sur la table et le disséquer. Quels sont ces préjugés sur les quotas et pourquoi en sommes-nous là ? Un frein ou l’arme ultime ? Pour convaincre le lecteur ou la lectrice, Anne-Marie gagne sa confiance par le fil rouge de son livre qui est, à la fois historique, en faisant rentrer dans ses pages Grace Murray Hopper ou Sheryl Sandberg (avec la même aisance), et thématique, en passant par le décodage des idées reçues ou encore la vague #metoo dans le numérique (toujours avec la même honnêteté).
Mon passage préféré reste la discussion sur la question “Les femmes sont-elles des pestes entre elles ?” et la référence au syndrome “Queen Bee” m’a fait du bien, un peu comme dans les contes pour les enfants quand seulement la (belle-)mère est méchante et veut nuire à ses enfants, jamais le père, comme me l’a fait remarquer une de mes filles.
Je parle d’une attaque en décrivant l’écriture d’Anne-Marie car son style est frais et direct, il fait penser à une pièce de stand-up. Anne-Marie se met à table et nous partage ses doutes, l’évolution de ses opinions et, surtout, propose d’une manière constructive comment faire évoluer nos préjugés. Dans le feu de la lecture, je n’étais pas d’accord avec une ou deux de ses opinions et, maintenant après avoir dormi dessus, je me demande si ses opinions ne rentrent pas en conflit avec mes préjugés.
Êtes-vous prêts ou prêtes à quitter vos préjugés ? Si la réponse est oui, alors faites-vous du bien et lisez ce livre. Si vous pensez ne pas en avoir, lisez-le pour vous en assurer.
À l’occasion de la Journée Internationale des Droits des Femmes, Anne-Marie Kermarrec retrouve binaire pour nous parler de difficultés rencontrées par les femmes au temps du Covid. La route est longue, on le savait, jusqu’à la vraie parité. On le vérifie. Serge Abiteboul et Pauline Bolignano
PS : binaire est fier de réaliser que nombre des chapitres du dernier livre d’Anne-Marie Kermarrec, ont été d’abord « testés » dans ses colonnes.
Le 8 mars dernier nous observions, encore d’un peu loin, avec une once, une once seulement, quels naïfs nous faisions, d’inquiétude les dégâts du coronavirus en Asie, lançant les paris sur l’éventualité d’un confinement que nous imaginions durer une ou deux semaines. Le couperet est tombé un peu plus d’une semaine après, nous coinçant là où nous étions ce soir du 16 mars 2020. Confinés, un mot un peu nouveau dans notre vocabulaire courant, dont il a fallu s’accommoder et que l’on ne finit de conjuguer depuis à tous les temps. Les écoles et les universités sont passées intégralement aux cours en ligne mettant au défi parents et enseignants, les commerces ont baissé leur rideau avec dépit, les soignants se sont mobilisés, les entreprises ont généralisé le télétravail, l’état s’est démené pour déclencher des aides, les familles se sont recroquevillées ou épanouies ensemble selon les cas, les parents se sont transformés en enseignants du jour au lendemain, les étudiants se sont retrouvés un peu à l’étroit dans leurs 20m2 ou au contraire ont filé dare-dare chez leurs parents pour avoir plus d’espace et bénéficier de la logistique familiale, certains parisiens ont débarqué dans leur résidence secondaire en Bretagne ou Normandie sous l’œil, parfois, réprobateur et méfiant des autochtones, qui les imaginaient trimballer le virus dans leurs poches.
Le numérique à la rescousse
Finalement nous avons survécu, certains mêmes, les plus chanceux, ont pu apprécier cette parenthèse hors norme où le temps s’étirait. Le numérique s’est avéré extrêmement salutaire pour tous dans cette période. En un mot, il a évité que le monde ne s’écroule pendant cette pandémie. C’est grâce au numérique que nous avons pu continuer à travailler, redoublant de créativité pour travailler en équipe, à grand renfort de Zoom, Teams, que sais-je, comparant dans le processus les avantages et inconvénients de chaque plateforme. Les professeurs ont pu effectuer leurs cours en ligne. Familles et amis se sont retrouvés pour des apéritifs virtuel, les artistes ont redoublé d’imagination pour pallier la fermeture des lieux de culture, et ont organisé des concerts virtuels depuis leur salon, des ballets synchronisés sur Internet. Les animaux en tous genres on refait surface en ville. Les radios en un tour de main ont organisé leurs émissions à distance. Les conférences, hauts lieux de rencontres académiques, se sont organisées à distance. Les scientifiques, largement aidés par des algorithmes d’apprentissage se sont lancés dans la quête du vaccin. D ’autres encore se sont lancés dans les applications de traçage ou la modélisation de la propagation du virus.
Et tout ça aura peut-être même un effet salvateur pour notre planète. En effet les plus de 3 millions de trajets qui ont ainsi pu être évités en France chaque semaine grâce au télétravail [1] ont certainement eu un impact non négligeable sur la pollution. On n’a jamais vu le ciel des mégalopoles chinoises aussi clair que début 2020. Même si on peut déplorer que les grosses entreprises de transport aériens aient beaucoup souffert dans le processus, nous avons pris de nouvelles habitudes qui potentiellement pourraient contribuer à la quête d’une empreinte carbone atténuée, y compris sur le long terme. Nous n’en sommes pas encore sortis et il est encore difficile de dresser un bilan. Espérons que le naturel ne revienne pas au galop sur tous les fronts. En particulier maintenant qu’il est avéré qu’une réunion sur zoom face à la mer n’est pas moins efficace qu’une réunion en présentiel (tiens encore un nouveau mot à notre arc) qui aurait nécessité un aller-retour Paris-Oslo dans la journée.
Outre qu’il nous a sauvé, le numérique a été le grand bénéficiaire de cet épisode. À la faveur de cette pandémie qui a mis des millions de personnes sur la paille, Eric Yuanle fondateur de Zoom, au contraire, a vu sa fortune grandir exponentiellement et le placer parmi les 400 américains les plus riches. Amazon, dont la place était d’ores et déjà bien établie, a vu ses bénéfices monter en flèche au troisième trimestre 2020 et tripler grâce aux ventes pandémiques. Un quart de la population s’est abonné à une nouvelle plateforme de streaming vidéo pendant cette période. Le e-commerce a fait un bond, y compris pour les plus petits acteurs, de nouvelles applications sont nées, la télémédecine s’est enfin imposée, etc. Bon, ça ce sont les bonnes nouvelles. On sait bien évidemment que malheureusement de nombreux secteurs ont pâti de cette crise et que de bien nombreuses personnes ont souffert (et continuent) financièrement, psychologiquement voire même physiquement. Comme on ne peut évoquer tous les sujets, je me propose en ce 8 mars de nous interroger, sur l’impact, en particulier celui du télétravail généralisé pendant le confinement, sur les femmes ?
Crédit photo: wocintechchat.com
Le télétravail au féminin : la vraie fausse bonne idée ?
Le télétravail, oui…
Dans certains pays, le télétravail est un véritable atout pour attirer les femmes dans des domaines peu féminisés, comme celui de l’informatique par exemple [2]. Cela dit, c’est un argument à double tranchant puisque la raison principale est qu’il permet en effet d’apporter une certaine flexibilité quant à l’organisation de son temps, le rendant ainsi compatible avec le fait de rester à la maison pour les enfants. Cette flexibilité peut cependant s’avérer assez salutaire, ainsi si certaines mettent un frein à une carrière exigeante qui leur demande de voyager à l’autre bout du monde pour une réunion de quelques heures, le faire depuis son salon leur permet d’être plus présentes dans le milieu professionnel. Ou encore leur laisse l’opportunité d’accepter une réunion tardive qui n’entre pas en conflit avec les horaires scolaires. Bien sûr la raison est que les femmes ont une petite tendance à ne pas souhaiter déroger à leurs obligations familiales pour gagner des galons. Mais puisque nous en sommes encore là, le télétravail peut s’avérer salutaire et ouvrir des portes aux femmes en particulier dans le domaine du numérique qui s’y prête particulièrement. Le télétravail peut ainsi représenter une excellente opportunité sur le long terme pour permettre aux femmes de s’ouvrir à des carrières qu’elles n’auraient pas considérées autrement.
…mais pas en pandémie
D’ailleurs, il se trouve que le travail chez les cadres s’est généralisé à la faveur de cette crise sanitaire dont nous ne sommes pas encore sortis. Un quart de la population a eu recours au télétravail des mars 2020 [1]. Si les entreprises ont dû transformer leurs pratiques managériales dans le processus, elles ont accusé réception des avantages potentiels comme des besoins réduits de mètres carrés de locaux et ont même parfois observé des gains de productivité.
Mais le bât blesse encore et toujours. Et si ces habitudes de travailler depuis la maison, faisaient partir en fumée 25 ans de lutte pour l’égalité homme-femme [3] ? Si le télétravail creusait les inégalités contre lesquelles on lutte depuis tout ce temps ?
Tout d’abord, tous les métiers ne se prêtent pas au télétravail, et c’est en majorité les cadres qui s’y sont collés à 86% pendant le premier confinement. Et bien c’est justement dans cette catégorie que les inégalités sont les plus importantes quant au meilleur spot de la maison pour travailler. Ainsi chez les cadres, 29% des femmes disposait d’un bureau à la maison contre 47% des hommes [4]. Pourquoi donc ? Est-ce parce que le bureau va plutôt à la personne du foyer qui occupe le poste le plus important ? Comme on sait que les hommes, s’ils ne préfèrent pas les blondes nécessairement, sont rarement en couple avec des femmes plus diplômées [6]. Et même à diplôme égale, il n’est pas rare que la carrière féminine n’ait pas suivi la même trajectoire et à la même rapidité. Il n’est pas exclu que les femmes elles-mêmes se portent volontaires pour laisser le bureau à leur conjoint.
La conséquence directe est, qu’outre que la répartition naturelle des tâches domestiques dans un couple, qui si elle s’est vaguement améliorée reste largement inégalitaire [7], que ce sont les femmes qui ont assuré en majorité les tâches domestiques pendant les confinements. Tâches du reste d’autant plus importantes que la famille entière prend ses repas à la maison matin, midi et soir en confinement, ce qui augmente singulièrement le volume de courses, cuisine et ménage. Et devinez qui a en majorité jouer à l’institutrice puisque Maman travaillait dans le salon ?
Crédit photo : https://nappy.co/alyssasieb
D’ailleurs, ce télétravail « pandémique » a eu un effet désastreux sur les femmes du milieu académique, celles- là même qui ont déjà bien du mal à gravir les échelons [2]. Ainsi les dernières études sur le sujet montrent que les femmes ont soumis proportionnellement beaucoup moins d’articles scientifiques que les hommes pendant cette pandémie [8].
Pour finir, selon les données de l’ONU, les violences conjugales ont augmenté de 30% en France pendant le confinement, à l’instar de ce qui s’est passé dans de très nombreux pays d’ailleurs. De là à dire que le télétravail augmente la probabilité de se faire taper dessus est exagéré. Mais il semblerait quand même que pour une proportion non négligeable de femmes, la maison n’est pas nécessairement l’endroit le plus sûr.
Pour conclure, le télétravail qui est désormais une option beaucoup plus répandue et probablement le restera, n’a pas été nécessairement un cadeau pendant cette pandémie. Mais espérons que dans le monde d’après, le télétravail permettra aux femmes de saisir de nouvelles opportunités que ce soit dans le numérique ou ailleurs.
À l’heure des GAFAM, des fakenews, de prétendues addictions au numérique, etc., l’informatique ne manque pas de détracteurs. La définition même de cette science inédite du XXe qui a bouleversé nos sociétés divise. Serge Abiteboul et Gilles Dowek, les auteurs du best seller « Le temps des Algorithmes »[0] nous racontent ces sources de désaccords. Thierry Viéville.
À chaque fois qu’il y a un nouveau support technique,
il y a un Socrate qui engueule Platon.
Michel Serres, Télérama, 12 Avril 1996.
À l’heure des GAFAM, des fakenews, de prétendues addictions au numérique, etc., l’informatique ne manque pas de détracteurs. Sa définition même est source de désaccords. Le Conseil Scientifique de la Société Informatique de France a proposé une définition dans un article [1] publié en 2014 par le blog binaire du Monde. Il ne fut pas simple d’arriver à se mettre d’accord. Le souvenir de ce travail est l’occasion d’une pensée émue pour l’un des rédacteurs, Maurice Nivat, qui nous avait fait le plaisir et l’honneur de participer à cette rédaction, ce qui n’a pas été sans élever la barre des exigences.
Cet article soulève des questions sur l’informatique, susceptibles de vous fâcher avec des amis. Certaines étaient discutées dans l’article de la SIF, nous les reprenons rapidement ici. Nous en soulevons d’autres tout aussi délicates.
Nouvelle science, quel est ton nom ?
Le texte de la SIF adresse le sujet :
Comme les ados qui ne veulent pas utiliser le même mot que leurs parents pour parler de surprise-partie, les informaticiens changent (ou laissent les autres changer) le nom de leur discipline régulièrement. Par exemple, le CNRS invente régulièrement des néologismes pour désigner l’informatique : STIC pour « sciences et techniques de l’information et de la communication » a eu un temps le vent en poupe. Ce qui gêne sans doute, et conduit à changer de mot, ce sont les multiples facettes de l’informatique.
Un autre terme est très utilisé : « numérique ». Ce qu’en dit le texte de la SIF :
L’adjectif « numérique » qualifie toutes les activités qui s’appuient sur la numérisation de l’information comme le livre, l’image ou le son numérique, la commande numérique de voiture ou d’avion, le commerce numérique (e-commerce), l’administration numérique, l’édition numérique, l’art numérique, etc. On parle de « monde numérique ».
Cette énumération montre bien qu’avec le numérique, on a largement dépassé le cadre strict de l’informatique. On assiste pourtant à une certaine confusion entre le mot informatique et le mot numérique et de plus en plus avec digital (selon le dictionnaire « qui appartient, se rapporte aux doigts »), un anglicisme pour numérique. Le terme numérique est souvent convoqué quand on parle de logiciel ou de matériel informatique, celui de digital est plutôt convoqué quand on discute d’usages de l’informatique.
Un moyen assez sûr de démarrer une controverse est de demander à des amis quelle est la différence entre informatique et numérique, ou de leur faire préciser ce qui distingue numérique et digital.
L’informatique, science ou technique ?
Certains ont trouvé que le texte de la SIF laissait la part trop belle à la science, d’autres à la technique, d’autres enfin pensaient qu’il était faux d’autant mêler les deux. La question partage : est-ce que l’informatique est une science ou une technique plutôt l’une ou plutôt l’autre. Le texte de la SIF commence ainsi :
L’informatique est la science et la technique de la représentation de l’information d’origine artificielle ou naturelle, ainsi que des processus algorithmiques de collecte, stockage, analyse, transformation, communication et exploitation de cette information, exprimés dans des langages formels ou des langues naturelles et effectués par des machines ou des êtres humains, seuls ou collectivement.
C’est beaucoup pour une seule phrase, mais c’est clair. L’informatique est à la fois science et technique, ce que le texte explique clairement. Évidemment, cette prise de position ne clôt pas le débat et on peut parier que certains lecteurs voient dans l’informatique surtout une science, et d’autres essentiellement une technique. Un autre moyen assez sûr de démarrer une controverse. Mais plus que de distinguer entre science et technique, le sujet n’est-il pas plutôt leur interdépendance, l’enchevêtrement entre les deux que propose l’informatique, une source considérable de richesse ?
Être informaticien, ou pas
Les frontières de l’informatique ne sont pas très précises. C’est un autre sujet de discorde.
N’est pas informaticien qui veut. Les ordinateurs sont des machines à tout faire, et de plus en plus de personnes conçoivent des algorithmes, les programment. Pourtant, il ne suffit pas de concevoir un algorithme pour être informaticien : le sieur al-Khuwārizmī, s’il a donné son nom aux algorithmes, était mathématicien. On peut aussi être à l’origine de logiciels sans être informaticienne mais physicienne, biologiste, sociologue, etc. Un étudiant se définit souvent suivant la discipline principale qu’il étudie. On devient géographe, statisticien, économiste, etc., parce qu’on obtient un diplôme dans la discipline correspondante. Comme chercheur, nous étudions des problèmes et cherchons la ou les sciences qui nous aideront à les résoudre, dans quelque discipline qu’elles soient. Les problèmes eux ne participent pas de la même classification qui nous a placés dans une case. Donc on peut, par exemple, être physicienne et développer des algorithmes et des logiciels du matin au soir. On reste physicienne.
Informaticiens ou pas. Où placer Claude Shannon ? Est-il, aux côtés d’Alan Turing « fondateur » de l’informatique ? Ou ailleurs ? Dans le cadre du saucissonnage des sciences, nécessité pour les structurer un tant soit peu, la section 27 du CNU est « Informatique » (à la Turing), et la 61 « Génie informatique, automatique et traitement du signal » (peut-être plutôt à la Shannon). Mais n’oublions pas que pour Shannon, toute information peut se voir comme une suite de bits, ce qui est véritablement un fondement de l’informatique. Et puis, la distinction entre la 27 et 61 semble bien arbitraire aujourd’hui quand le traitement du signal et l’automatique sont massivement numériques. Dans certains domaines, la frontière de l’informatique est particulièrement floue. Par exemple, considérons la robotique qui s’appuie de manière essentielle sur des pans entiers de l’informatique comme la géométrie algorithmique, les algorithmes de planification ou l’apprentissage automatique. Bien sûr, la robotique utilise aussi la mécanique, fait parfois appel à la perception haptique, etc. Un roboticien est-il mécanicien ou informaticien ? Il peut évidemment se déclarer l’un ou l’autre, voire les deux s’il le souhaite.
Le grand voisin. Une des frontières les plus sensibles peut-être est celle avec les mathématiques. L’informatique est parfois née dans les départements de mathématiques où les informaticiens étaient les vilains petits canards. Les informaticiens ont acquis leur indépendance et habitent aujourd’hui des départements d’informatique. À l’heure de la recherche de contrats, certains mathématiciens regrettent-ils, peut-être, leur départ quand ils revendiquent l’analyse de données massives (le big data) ou l’apprentissage automatique (le machine learning) comme faisant partie des mathématiques. Pour nous, c’est de l’informatique. Mais après tout , on s’en moque ! C’est de la science avec de beaux résultats et c’est ça qui compte.
Par nature, l’informatique reste proche des mathématiques. Ce sont toutes deux des sciences de l’artificiel. Depuis des siècles, on considère que pour être un honnête chercheur (pour être un honnête homme), il faut une maîtrise raisonnable des mathématiques. Aujourd’hui, il faut aussi celle de l’informatique. Des chercheurs font de la recherche en « mathématiques pures », mais d’autres chercheurs partent de problèmes d’autres sciences pour faire des « mathématiques appliquées ». La situation est assez semblable entre informatique fondamentale et informatiques appliquées incluant la bio-informatique, les systèmes d’information géométrique, les humanités numériques, etc.
Pour conclure sur cette question, si l’informatique n’a pas de frontières bien délimitées, s’il n’est pas possible d’en trouver de périmètre précis, pas besoin de convoquer la pluridisciplinarité pour conclure que cela aussi en fait sa richesse.
L’informatique a transformé les sciences plus encore que l’imprimerie
L’informatique est engagée dans un riche dialogue avec les autres sciences. De quelles sciences parle-t-on ? Des sciences dans un sens très large incluant les sciences de la nature ou de la vie, les sciences humaines et sociales (sociologie, économie, histoire, etc.) mais aussi, les mathématiques.
La transformation des sciences par l’informatique est la raison d’être des « Entretiens autour de l’informatique », qui invitent des spécialistes de toutes disciplines à raconter leurs liens avec l’informatique. Leur lecture confirme que l’informatique transforme en profondeur presque toutes les autres sciences. Et nous utilisons ici « presque » surtout par précaution oratoire. De fait, nous avons du mal à trouver une science qui n’ait été profondément transformée par l’informatique.
Comment comprendre tout cela quand on est pas spécialiste ? https://classcode.fr/iai
Presque indépendamment de leurs disciplines, les scientifiques aujourd’hui consultent des systèmes d’information, utilisent des bases de données, tweetent, bloggent, tchatent à distance avec leurs collègues, leurs étudiants, etc. L’informatique a modifié leur façon de travailler, leur permet de le faire de manière de plus en plus distribuée, de partager des données, des logiciels. La littératie informatique est devenue leur quotidien, ou en tous cas, devrait l’être. Avec l’informatique, ils analysent des données massives qu’ils réunissent pour améliorer leurs connaissances, ils simulent des phénomènes complexes qu’ils essaient de comprendre.
On assiste à une mutation radicale du paysage scientifique, de l’essence de ses pratiques, une entreprise de transformation fondamentale des sciences. Plus que l’utilisation d’outils informatiques, nous verrons plus loin que l’informatique transforme les sciences en apportant d’autres manières de penser, de faire de la recherche, fondées sur la pensée algorithmique, s’appuyant sur des modèles algorithmiques, l’analyse de données numériques, et la simulation. Nous manquons sans doute encore de recul et ces transformations sont encore pour partie en devenir mais il semble de plus en plus clair que si chaque science est restée essentiellement la même, chacune s’est profondément enrichie par l’utilisation d’outils numériques et surtout par le dialogue avec la pensée algorithmique. Peut-on imaginer aujourd’hui la linguistique sans le traitement automatique des langues, l’astronomie sans ses pipelines de calculs informatiques, la génomique sans les algorithmes d’analyse de séquences ADN ? Etc.
Au risque de choquer, nous irons donc jusqu’à écrire que l’informatique a transformé en profondeur les sciences plus encore que l’imprimerie. Mais évidemment ce n’est pas à nous de le dire, mais aux historiens des sciences quand ils auront assez de recul pour réaliser sereinement une telle comparaison. En attendant, que la question ait du sens ou pas, c’est sûrement une occasion pour se fâcher entre amis.
Les informaticiens ne servent à rien
Les scientifiques confrontés à l’informatique se tournent vers nous, collègues informaticiens, pour trouver de l’aide. Mais, désolé, nous ne savons pas quels ordinateurs vous devez acheter, ni quels logiciels. Vos sujets de recherche sont passionnants mais comprenez que nous ayons aussi les nôtres et que nous ne voulons pas forcément les abandonner pour travailler sur les vôtres. Ayez pitié de nous !
Par exemple, les bases de données sont essentielles dans nombre de disciplines. Pendant des années, le sujet de recherche du premier auteur étaient les bases de données « semi-structurées » avec des modèles de données moins rigides que les relations à deux dimensions, ce qui conduit à des formats de données comme XML ou JSON. Sa recherche était motivée par des travaux dans d’autres disciplines et des questions soulevées notamment par des biologistes. Mais les systèmes dont il participait à la construction étaient des prototypes déconseillés pour des scientifiques non informaticiens. Ces derniers devaient attendre les systèmes disponibles aujourd’hui.
Certains informaticiens sautent le pas vers d’autres sciences pour participer à des domaines comme la bio-informatique ou les humanités numériques. Bravo ! Mais, même eux ne suffisent pas à répondre à toutes les demandes. Alors…
Collègues scientifiques non-informaticiens, apprenez à vous débrouiller !
Quand vous avez besoin d’informatique, embauchez des ingénieurs ou payez des sociétés de services. Surtout, apprenez suffisamment d’informatique pour réaliser vous-mêmes vos propres simulations, vos propres analyses de données. Vous ne perdrez pas de temps à expliquer ce que vous voulez à des informaticiens qui ne parlent probablement pas le même langage que vous. Les logiciels sont devenus beaucoup plus simples à utiliser. Vos étudiants, de plus en plus, savent programmer. Et si au hasard de la recherche, vous tombez sur un vrai challenge pour l’informatique, alors làseulement allez voir un informaticien :
(i) vous aurez déjà appris à parler son langage et aurez plus de chance d’être compris,
(ii) vous aurez plus de chance de l’intéresser.
Se former à l’informatique quand on est pas spécialiste ? https://classcode.fr/snt
Pour éviter toute ambiguïté : on ne vous demande pas à tous d’atteindre la sophistication en informatique d’un chercheur Inria ou d’un développeur Google, mais seulement à un grand nombre d’entre vous d’être capable d’écrire les programmes simples dont vous aurez besoin. C’est déjà la norme dans de nombreuses disciplines comme la physique ou la géographie, ça peut être le cas demain aussi dans votre discipline. Si ce n’est pas encore le cas, redéfinissez la formation dans vos disciplines pour que vos étudiants aient un solide bagage en informatique.
Est-ce que cela s’accompagnera pour ces étudiants de pertes de compétence ? Sans doute. Pour vous consoler, dites-vous que de tous temps il s’est trouvé des chantres du « les étudiants ne sont plus ce qu’ils étaient avant. » Leur niveau est supposé baisser depuis des centaines peut-être des milliers d’années, alors nous n’allons pas nous inquiéter s’il baisse aujourd’hui. Mais, il est vrai que le temps d’étude n’est pas extensible à l’infini. Les archéologues d’antan étaient d’excellents dessinateurs, les dessins de Pompéi par les archéologues juste après la découverte du site sont impressionnants de précision. Aujourd’hui, avec la photo, les archéologues ont perdu ce talent (en gagnant d’autres compétences). Nous pensons que c’est plus important pour eux de programmer que d’être de brillants dessinateurs, mais nous ne sommes pas archéologues. C’est aux archéologues de choisir ce que leurs étudiants doivent apprendre.
Et pour conclure, une question qui divise :
Assiste-t-on avec l’informatique à un affaiblissement des sciences ?
La clé de voûte de notre compréhension du monde est la construction de théories comme la mécanique newtonienne ou la théorie darwinienne de l’évolution. La science exige que les théories valident les observations, qu’elles permettent de faire des prédictions.
Certaines théories sont aujourd’hui formulées sous la forme d’algorithmes qui permettent de construire des modèles de phénomènes pour ensuite pouvoir les « simuler ». Elles résultent en des logiciels parfois de taille considérable. Nous développons des modèles algorithmiques de nombreux phénomènes : l’évolution de l’atmosphère et des océans, le fonctionnement du cerveau, le développement des villes, la variation des cours de la bourse, les mouvements de foule, etc.
Quand les théories classiques se basaient sur un petit nombre d’équations typiquement focalisées dans un petit nombre de domaines scientifiques, les modèles algorithmiques d’aujourd’hui peuvent prendre en compte des aspects très divers. Par exemple, les modèles du climat s’appuient sur des connaissances en électricité, mécanique des solides et des liquides, chimie, etc. Le modèle de développement d’une ville doit tenir compte de processus démographiques, économiques, politiques, géographiques, etc., qui interagissent. Dans un tel modèle algorithmique, certains aspects mal compris peuvent aussi être pris en charge par l’apprentissage automatique.
Les modèles algorithmiques complexes résultent de collaborations de nombreux spécialistes de disciplines diverses. Personne n’en maîtrise toutes les facettes. Surtout, on ne sait en général pas expliquer leurs résultats. Si les modèles météorologiques nous disent avec des probabilités qui ne cessent de s’améliorer quel temps il fera demain, ils n’expliquent pas pourquoi.
Quand une théorie classique se trompait, on essayait de proposer une autre théorie. Avec un modèle algorithmique, cela n’est pas nécessairement le cas. On va essayer de l’améliorer en précisant le modèle, en le complexifiant, en rajoutant des données, etc. Peut-être, seulement s’il s’avère vraiment décevant, essaiera-t-on de trouver un cadre véritablement nouveau. Mais le plus souvent on cherchera à faire évoluer le modèle algorithmique ne serait-ce que pour ne pas perdre tout le travail accumulé, les logiciels et les données amoncelées.
Est-ce satisfaisant ? Pas complètement. D’abord, on doit accepter de vivre avec des théories qui comportent des erreurs. Si ces théories s’améliorent sans cesse, même modestement, cela semble acceptable. Surtout, on doit accepter de ne pouvoir expliquer les résultats ; c’est indéniablement un aveu d’échec. Pourtant cela peut se justifier : les modèles algorithmiques nous permettent d’étudier des phénomènes beaucoup plus complexes que les théories classiques. Si nous ne pouvons présenter des explications c’est que les explications qu’on pourrait avancer seraient par nature pluridisciplinaires et extrêmement complexes, peut-être trop complexes pour qu’un humain les énonce ou les comprenne.
En ce sens, il faut plutôt voir l’utilisation de modèles algorithmiques comme une extension du domaine de la science à des champs qui nous étaient encore interdits.
En guise de conclusion
Il n’y a pas si longtemps encore, les autres sciences hésitaient entre s’enthousiasmer pour la nouvelle venue, l’informatique, et lui refuser de l’accueillir comme une science. Questionner si l’informatique est une science n’est plus à l’ordre du jour : L’informatique a ses départements dans les universités, une salle dédiée au Palais de la Découverte, ses académiciens des sciences ; elle est enseignée au Collège de France, et puis dans tous les collèges et lycées de France même si le nombre de professeurs informaticiens reste faible.
L’informatique a aligné les avancées fulgurantes : compilateurs de plus en plus efficaces, langages de programmation de plus en plus sophistiqués, internet, le web, moteurs de recherche du web, systèmes cryptographiques à clés publiques, l’apprentissage automatique, etc. Et puis, elle a transformé l’économie mondiale, la culture, la vie sociale. Surtout, elle nous a émerveillés dans des rencontres surprenantes avec les autres sciences. On peut parier que l’informatique nous réservera encore de nombreuses surprises, et de belles occasions de nous engueuler entre amis…
Thomas Debris-Alazard est lauréat du prix de thèse Gilles Kahn 2020, pour sa thèse effectuée à l’Inria Paris. Pendant sa thèse, Thomas s’est attaqué a un problème de cryptographie post-quantique ouvert depuis 40 ans ! Il vient nous l’expliquer dans binaire. Pauline Bolignano.
Thomas Debris
La sécurité de nos données personnelles, de nos communications ou encore de nos échanges bancaires, en bref notre sécurité numérique n’est possible qu’au prix d’une protection : la cryptographie. Les menaces contre lesquelles elle nous protège sont légion et ne cessent d’évoluer, que ce soit avec les nouvelles habitudes d’utilisateurs ou l’amélioration des moyens techniques. Il est donc nécessaire d’analyser et d’adapter en permanence la cryptographie.
La cryptographie se scinde en deux grands domaines (voir cet article binaire). Le premier est la cryptographie à clef secrète. Mes travaux se sont concentrés sur le second paradigme dit cryptographie asymétrique ou à clef publique. Cette dernière repose sur l’utilisation de problèmes “difficiles” de type question/réponse là où la question joue le rôle de donnée publique, tandis que la réponse est le secret.
Il doit donc être difficile de trouver la réponse d’une question (personne ne peut calculer votre secret à partir de vos données publiques) alors qu’il doit être facile de calculer une question pour une réponse donnée (calculer ses données publiques à partir de son secret). Ce genre de problème est particulièrement naturel et commun dans nos vies. Prenons par exemple un annuaire. Il est facile de trouver le numéro de M. Hallyday alors qu’il est “difficile” étant donné un numéro de retrouver son détenteur. Malheureusement ce problème ne peut être utilisé en cryptographie. En effet, tout détenteur d’un ordinateur peut parcourir très rapidement l’annuaire pour retrouver une personne à partir de son numéro de téléphone. C’est ici que les mathématiques interviennent en nous offrant des problèmes tels que, même avec toute la puissance de calcul disponible sur terre, aucun ordinateur ne sera en mesure d’offrir une résolution. Il s’avère cependant que la cryptographie à clef publique actuellement déployée (notre sécurité numérique) repose uniquement sur des problèmes faciles à résoudre avec un ordinateur quantique. Les protocoles de sécurité que nous utilisons chaque jour seront donc caducs une fois que les premiers ordinateurs quantiques auront été construits. Face à ce danger il ne peut être invoqué l’infaisabilité d’un tel ordinateur à la lumière des récents progrès techniques (voir publication de Google). Fort heureusement nous connaissons des solutions cryptographiques fonctionnant sur nos ordinateurs et qui ont des chances d’être “sûres quantiquement”. On parle usuellement de cryptographie post-quantique.
C’est dans ce contexte que le National Institute of Standard Technology (NIST) du gouvernement américain lança en 2017 un appel pour la standardisation de systèmes à clef publique sûrs contre un ordinateur quantique. Cet appel se focalise sur deux fonctionnalités cruciales pour le fonctionnement d’internet : les échanges de clefs et les signatures numériques. Les signatures permettent de “signer” des messages. De cette façon nous sommes sûrs, d’une part de l’émetteur du message, et d’autre part que ce message n’a pas été altéré par une partie tierce. Cette fonctionnalité est par exemple primordiale lors de nos mises à jour logiciel : nous voulons nous assurer que la mise à jour vient bien de notre fournisseur et que personne n’y a intégré de virus. Ce dernier nous fournit donc des mises à jour signées.
Ma thèse se déroula dans ce cadre d’étude de la cryptographie post-quantique à clef publique avec comme tâche de fond la standardisation du NIST. Je me suis tout particulièrement intéressé à la branche cryptographique née de la proposition de McEliece et qui utilise des objets mathématiques appelés codes correcteurs d’erreurs. Bien que cette solution soit la plus vieille proposition post-quantique, aucune signature utilisant des codes n’a été retenu au NIST. Il existe en effet d’importants problèmes techniques pour construire des signatures et tout particulièrement avec des codes (problème ouvert par McEliece lui-même dans son article fondateur). Mes travaux se sont entre autres consacrés à la résolution de ce problème ouvert depuis 40 ans.
Des télécommunications aux codes correcteurs
La cryptographie à clef publique est en quête de problèmes difficiles. Une source particulièrement prolifique pour cette dernière fut l’un des grands tournants de notre époque : la numérisation de l’information. Revenons un instant sur ce point. La numérisation ouvrit la possibilité de la conservation illimitée de l’information tout comme notre capacité à la transmettre quasi-instantanément. En revanche, ceci ne fut possible qu’au prix de la protection contre les erreurs. En effet, toute donnée enregistrée sur un support (pensons à nos vieux CD-ROM) ou téléchargée d’un serveur à l’autre bout du monde est susceptible d’être altérée. Le principe pour s’en prémunir est alors simple et naturel : adjoindre de la redondance à chaque symbole que l’on souhaite transmettre ou sauvegarder. Une illustration banale est lorsque nous cherchons à épeler notre nom au téléphone : T comme Thierry, I comme Inès, L comme Léo etc… Avec notre interlocuteur à l’autre bout du fil nous convenons en fait implicitement de la règle suivante : nous “encodons” les lettres de notre nom en prénom (ici T s’encode en Thierry). Ensuite une fois les prénoms transmis, même si la qualité de transmission est mauvaise l’interlocuteur sera en mesure de retrouver le prénom et donc la lettre encodé. Par exemple si votre interlocuteur entend “iéri”, il en déduira que vous lui avez transmis Thierry et donc T.
Dans un contexte numérique où nous souhaitons envoyer des bits l’idée est essentiellement la même. Prenons un petit exemple. Supposons que l’on souhaite sauvegarder ou transmettre une suite de deux bits (par exemple 01). Nous commençons par les encoder en une suite de trois bits de la façon suivante:
00 → 000, 01 → 101, 10 → 110 et 11 → 011
Ici 01 s’encode en 101. Nous pouvons alors constater que les encodages possibles ne recouvrent pas toutes les suites de trois bits : 111 n’est pas un encodage valide. Imaginons désormais que vous souhaitiez transmettre les bits 11. Vous commencez par les encoder en 011, vous transmettez ensuite ces trois bits. Si lors de la transmission aucune erreur ne se produit votre interlocuteur recevra 011 et il en déduira que vous lui avez envoyé 11. En revanche, que se passe t-il si une erreur se produit lors de la transmission (une rayure sur votre CD-ROM…)? Il se peut très bien qu’une fois 011 envoyé le premier bit, ici 0, soit modifié en 1. Dans ce cas votre interlocuteur recevra 111. Cet encodage n’étant pas valide il en déduira qu’une erreur a eu lieu pendant la transmission. On parle alors de détection d’erreur. De façon plus générale l’encodage décrit précédemment permet toujours de détecter une erreur. La figure qui suit est une illustration de l’encodage que nous venons de décrire.
Encodage du code correcteur
Ce encodage ne permet malheureusement pas de décoder ne serait-ce qu’une erreur, c’est à dire corriger une erreur. En effet, en recevant 111 votre interlocuteur ne peut pas savoir si vous lui avez envoyé 011 ou 110… Votre encodage permet effectivement de détecter une erreur mais pas de la décoder… L’ambition de la théorie mathématiques des codes correcteurs a alors été de proposer des familles de codes (d’encodage) avec une “structure mathématique” sophistiquée permettant de décoder. La recherche des dernières décennies a offert des structures de plus en plus complexes permettant de corriger de plus en plus d’erreurs. L’introduction de la 5G fait par exemple suite à la découverte d’un nouveau type d’encodage extrêmement efficace. Si de nombreuses structures ont été introduites au fil du temps c’est que décoder des erreurs pour un encodage “naïf”, c’est à dire sans structure particulière, est particulièrement difficile, ce que confirment près de soixante années de recherche.
Des codes correcteurs à la cryptographie.
McEliece eut alors l’idée en 1978 d’utiliser ce problème difficile de décodage d’un code quelconque dans un contexte de cryptographie à clef publique.
Supposons que Bob souhaite communiquer à Alice un message formé de bits de façon confidentielle. L’idée est la suivante. Alice commence par choisir son code (encodage) préféré mais qu’elle sait décoder. En d’autres termes si Alice reçoit un encodage où des erreurs se sont produites (certains bits ont été modifié) elle peut retrouver l’encodage envoyé, donc le mot encodé. Notons qu’Alice ne peut pas non plus corriger trop d’erreurs (si votre CD-ROM est trop rayé il est illisible…). Alice rend alors public son encodage. Bob qui souhaite maintenant envoyer un message commence par l’encoder. Bob met ensuite lui-même des erreurs sur cet encodage (mais pas trop). Bob envoie alors son encodé avec des erreurs à Alice qui retrouve donc l’encodé et ainsi le message puisqu’elle sait décoder. Désormais si Eve (une personne malveillante…) intercepte les communications entre Alice et Bob elle se retrouve avec un encodage erroné. Eve doit donc savoir décoder pour retrouver le message. C’est ici qu’intervient l’une des idées de McEliece. Alice a certes choisi son code préféré qu’elle sait décoder mais elle doit le faire de façon précautionneuse. Alice doit être la seule à pouvoir décoder. Pour cela elle va choisir un code structuré mais elle va cacher cette structure mathématique de façon à ce qu’en rendant son encodage public, ce dernier semble quelconque. Ainsi même si Eve connaît l’encodage, elle ne connaît pas la structure permettant le décodage. Elle se retrouve à devoir résoudre le problème de décodage d’un code quelconque, problème difficile. Eve est donc incapable de retrouver le message envoyé par Bob. Ce-dernier est donc sûr d’avoir transmis à Alice de façon confidentielle son message.
Les travaux de ma thèse se sont alors inscrits dans ce contexte de cryptographie avec des codes correcteurs, que ce soit à travers des analyses de la difficulté algorithmique du problème de décodage d’un encodage quelconque (voir nos articles de 2017 et 2019), des attaques (retrouver des structures cachées) ou encore la proposition d’un schéma de signature avec des codes : Wave. La signature Wave s’est faite en rupture de l’approche classique en cryptographie avec des codes, qui utilise la difficulté du problème de décodage avec peu d’erreurs. On parle de décodage à petite distance. J’ai avec Wave introduit une nouvelle notion originale et nouvelle : le décodage avec beaucoup d’erreurs, c’est à dire à grande distance (i.e: rechercher l’encodage le plus éloigné).Cette idée n’a aucun sens dans un contexte de télécommunication. Si nous reprenons notre exemple téléphonique, le décodage le plus proche de “iéry” est effectivement Thierry et donc T alors qu’un décodage éloigné est pas exemple Zinédine et donc Z… En revanche, comme je l’ai montré, ce nouveau paradigme a d’ores et déjà un grand intérêt cryptographique car essentiel au bon fonctionnement de Wave. De plus, en guise d’ouverture le décodage en grande distance pose de nombreuses questions, laissant espérer de nouvelles opportunités cryptographiques.
Un algorithme quantique, ça se dessine ? Oui ! C’est ce sur quoi a porté la thèse de Renaud Vilmart, il nous l’explique dans la rubrique « Il était une fois… ma thèse ». Renaud Vilmart est lauréat d’un accessit au prix de thèse Gilles Kahn 2020 et a effectué sa thèse au Loria.Pauline Bolignano et Antoine Rousseau
Renaud Vilmart
L’ordinateur quantique. On en entend parler dans les œuvres de fictions, souvent pour justifier une puissance de calcul invraisemblable, et plus récemment dans les actualités, avec entre autres le coup d’éclat de Google qui a réussi à faire tourner un programme bien plus efficacement que sur un ordinateur classique, ou encore avec les annonces gouvernementales pour promouvoir la recherche dans ce domaine.
Ça n’est pas pour rien que gouvernements et entreprises privées investissent dans cette recherche : les retombées auront un impact fort sur la société. On peut citer par exemple le protocole RSA, énormément utilisé dans notre vie de tous les jours (pour sécuriser des transactions bancaires ou des échanges d’information sur internet), et qui serait mis à mal avec un ordinateur quantique suffisamment dimensionné (ce qui n’est pour l’heure pas le cas). Plus rassurant : on peut citer la création de nouveaux protocoles de sécurité plus robustes, ou encore, comme ça a été mentionné ci-dessus, un coût de calcul moindre pour la résolution de certains problèmes.
Afin d’obtenir une compréhension plus profonde des phénomènes à l’œuvre dans les processus quantiques, de pouvoir les analyser (par exemple pour connaître l’utilisation des ressources qui en est faite), de vérifier qu’ils satisfont une certaine spécification, ou même encore de pouvoir les optimiser, il est important de se doter d’outils puissants permettant de réaliser ces tâches. C’est là qu’intervient le ZX-Calcul.
Ce langage permet de représenter avec des “dessins” (qui restent très formels) n’importe quel algorithme ou protocole quantique, et ainsi de visualiser le chemin emprunté par l’information (un peu comme la lumière suit une fibre optique). Un problème qui survient alors est que deux dessins différents peuvent représenter le même programme. Ça, on pouvait s’y attendre, car c’est également le cas pour les algorithmes classiques : il n’y a pas qu’une seule façon de trier un paquet de cartes, pourtant le résultat est toujours le même, à la fin les cartes sont triées.
Un “dessin” du langage ZX.
Pour pallier ce problème, le langage est muni d’un ensemble de petites transformations, qui changent le dessin sans changer le résultat du programme. On peut d’ailleurs se servir de ces transformations pour prouver des propriétés sur nos programmes, ou même pour les optimiser : on va alors se servir des transformations pour réduire au maximum la taille du dessin, ce qui se traduit par une plus grande efficacité du programme qu’on représente.
Un exemple de transformation autorisée
Une question tout-à-fait légitime que l’on peut se poser alors est : a-t-on suffisamment de ces transformations ? Dit autrement, si deux dessins donnent le même résultat, est-ce que j’ai suffisamment de transformations dans ma besace pour passer de l’un à l’autre ? Cette question n’est pas seulement importante pour les applications citées au-dessus : elle l’est aussi pour mieux comprendre, à un niveau fondamental, l’informatique quantique.
Cela a fait l’objet de ma thèse, dans laquelle j’ai montré qu’un petit ensemble de transformations intuitives, qui de plus peuvent être justifiées très naturellement, est suffisant pour capturer le calcul quantique. Pour ce faire, on montre que l’on peut réécrire (à l’aide de nos transformations) n’importe lequel de ces dessins dans une forme particulière, qui de plus est la même pour deux dessins représentant le même programme. On obtient ainsi une chaîne de transformations qui permet de systématiquement passer d’un dessin à un autre s’ils représentent le même opérateur.
Les centres de sciences La Casemate (Grenoble) et le Quai des Savoirs (Toulouse) organisent du 11 au 14 mars prochain un éditathon Wikipédia intitulé « Femmes de l’Intelligence artificielle VS Femmes des sciences de la Terre : le match ». Binaire souhaite donner un coup de projecteur à cette initiative, en profitant de l’occasion pour inciter à aller enrichir l’encyclopédie libre pour mettre en lumière de manière plus large les femmes de l’informatique. Marie-Agnès Enard
Sarah Krichen WMFr CC BY-SA 4.0
Qu’est-ce qu’un éditathon Wikipédia ?
Un édithathon est un évènement organisé par des communautés pour que des contributeurs créent, modifient et améliorent des articles sur un thème, sujet ou un type spécifique de contenu. Ici, ce marathon d’édition a lieu sur Wikipédia que l’on ne présente plus. Vous n’avez jamais contribué à Wikipédia, pas de panique, les nouveaux contributeurs y reçoivent généralement une formation de base à l’édition et tout type de profils sont recherchés pour améliorer ces contenus.
Une battle dédiée au femmes
« Femmes de l’Intelligence artificielle VS Femmes des sciences de la Terre : le match ». Choisissez votre équipe et défendez-la sur Wikipédia. Pendant 4 jours, que vous soyez un.e contributeur.trice habitué.e ou débutant.e, enrichissez les biographies de femmes dans ces deux disciplines. Tous les coups (ou presque) sont permis : création d’article, traduction d’un article depuis un Wikipédia étranger, enrichissement / correction d’un article existant, ajout de sources, légende de photos… A la fin, ce sont les femmes qui gagnent ! 😉
Le programme
Cet évènement est entièrement en ligne.
A partir du 11 février 2021, début du repérage et de la collecte des ressources pour préparer l’éditathon
Jeudi 11 mars matin, initiation à la plateforme Wikipédia, en ligne
Du jeudi 11 au dimanche 14 mars : éditathon avec soutien de Wikipédiens bénévoles sur un canal de messagerie Discord
Cet éditathon s’insère dans une semaine où d’autres événements « femmes et sciences » sont programmés à Toulouse et Grenoble (dont des conférences accessibles à tous). Plus d’infos sur la page projet sur Wikipédia
Fournir des explications du fonctionnement des algorithmes compréhensibles par des profanes ? Félicien Vallet s’entretient avec Clément Henin et Daniel Le Métayer, de l’équipe Inria Privatics, sur les enjeux de l’explicabilité des algorithmes et leurs travaux de recherche sur ce sujet. Serge Abiteboul et Thierry Viéville.
Les systèmes algorithmiques prennent une place de plus en plus importante dans nos vies, ce qui représente un indéniable progrès. Toutefois, si nous leur déléguons de plus en plus de tâches, cela ne doit pas se faire au détriment de notre capacité à garder le contrôle et la compréhension de leur fonctionnement.
LINC : En premier lieu, et même si cela peut sembler évident, pouvez-vous nous rappeler pourquoi il est indispensable de se préoccuper de l’opacité des systèmes algorithmiques ?
Daniel Le Métayer : Il s’agit d’un problème majeur, notamment quand ces systèmes ont pour objet d’aider des humains à prendre des décisions qui peuvent avoir des conséquences importantes. Tout d’abord, si le décideur n’est pas en mesure de comprendre la logique à l’œuvre ou les raisons qui ont conduit à un résultat donné (prédiction, recommandation, etc.), il risque d’utiliser le système à mauvais escient. Des systèmes opaques, qui semblaient par ailleurs performants, ont été écartés de certaines applications sensibles pour cette raison précise. Le législateur l’a bien compris puisque l’obligation d’expliquer les résultats de certains types de systèmes algorithmiques a été introduite dans le droit. On peut penser notamment au RGPD en Europe, à la loi pour une République numérique en France ou encore à la Directive sur la prise de décision automatisée au Canada. On notera toutefois que ces obligations ne concernent pas tous les systèmes algorithmiques et que la définition des explications à fournir est souvent sujette à interprétation. Enfin, au-delà du droit positif, on sait que l’IA et les systèmes algorithmiques en général, posent de nombreuses questions d’ordre éthique (biais, perte d’autonomie, impacts sur la société, la démocratie, etc.). Or, comme l’a justement affirmé le rapport Villani en 2017, « une grande partie des considérations éthiques soulevées par l’IA tiennent à l’opacité de ces technologies ». Dans le même esprit, la CNIL a recommandé de « rendre les systèmes algorithmiques compréhensibles en renforçant les droits existants et en organisant la médiation avec les utilisateurs » dans son rapport de synthèse « Comment permettre à l’homme de garder la main ».
Transparence, loyauté, explicabilité, redevabilité, etc. De nombreux termes sont fréquemment utilisés lorsqu’on évoque la compréhension du fonctionnement des systèmes algorithmiques. Pouvez-vous nous rappeler de quoi il est question ?
Clément Hénin : En effet, il existe dans ce domaine une profusion de termes qui ne sont pas toujours bien définis, ni utilisés dans le même sens par différents auteurs. Pour notre part, nous pensons qu’il est utile de distinguer au moins quatre concepts essentiels que nous appelons respectivement transparence, explication, justification et contestation. Tout d’abord l’objectif de la transparence est de rendre visible. On rend transparent quand on montre, on expose. On pense généralement au code du système, mais ce peut être également le texte de l’algorithme, les documents de conception, ou encore les données d’apprentissage. Une explication a un but différent : il s’agit de rendre compréhensible. On distingue généralement les explications locales, qui consistent à expliquer une décision ou un résultat particulier, des explications globales, qui portent sur la logique générale du système. La justification est encore d’une autre nature : il ne s’agit pas de rendre compréhensible mais de rendre acceptable, de convaincre qu’une décision est « bonne ». Enfin, la contestation peut être vue comme l’opposée de la justification : son but est de convaincre qu’une décision est mauvaise.
Daniel Le Métayer : Les termes « explication » et « justification » sont parfois utilisés de manière indifférenciée dans la littérature. Pourtant, ils recouvrent des concepts tout à fait différents : une explication est endogène, dans le sens où elle constitue une information sur l’algorithme qui ne dépend que de celui-ci ; inversement, une justification est exogène, dans le sens où elle doit faire référence à un élément extérieur, qu’on peut appeler une norme, pour justifier le système (ou un de ses résultats). Prenons à titre d’illustration un système d’aide à la décision pour traiter des demandes de prêt bancaire. Un exemple d’explication pourrait être « votre demande de prêt est refusée car votre taux d’endettement dépasserait le tiers de vos revenus ». Cette information explique le refus mais ne le justifie pas. Une justification pourrait être : « votre demande de prêt est refusée car la loi interdit aux banques d’octroyer des prêts conduisant à un taux d’endettement dépassant le tiers des revenus ». Cette justification fait référence à une norme juridique mais d’autres formes de normes peuvent être envisagées (règle interne ou objectif de minimiser les défauts de remboursement par exemple). Quelle que soit sa forme, une justification doit pouvoir être contestée. La contestabilité est souvent mise en avant comme un objectif important dans la littérature mais peu de travaux ont jusqu’à présent porté spécifiquement sur ce point. Pour conclure sur la terminologie, il faut souligner que, même si elles ne répondent pas aux mêmes objectifs, la transparence, les explications et les justifications ne sont évidemment pas sans rapport : la transparence peut contribuer à la compréhension et les explications peuvent fournir des informations utiles pour formuler des justifications ou des contestations.
On parle souvent de système aidant à l’explication ou à la justification, menant des analyses globales ou locales, etc. On observe depuis quelques années une augmentation très importante du nombre de recherches menées sur ces sujets. Pouvez-vous préciser quels sont les enjeux de l’explicabilité des systèmes du point de vue scientifique ?
Clément Hénin : En effet, vue l’importance du problème, de plus en plus de chercheurs s’intéressent aux différents moyens de s’attaquer à l’opacité des systèmes algorithmiques. Une nouvelle communauté de recherche s’est d’ailleurs développée ces dernières années autour de ce qu’on appelle parfois XAI (pour « explainable AI »). De nombreuses méthodes ont été proposées, certaines fonctionnant « en boîte noire », c’est à dire sans connaissance du code du système, alors que d’autres, dites en « boîte blanche », interviennent sur ce code. Certaines ont pour but de rendre les systèmes interprétables (ou parle alors de système « intelligible ») alors que d’autres produisent des explications a posteriori de systèmes opaques. Chaque approche comporte des avantages et des inconvénients mais on peut identifier, de manière générale, plusieurs défis qui n’ont pas encore été relevés. Tout d’abord, celui de fournir des explications ou des justifications véritablement compréhensibles par des utilisateurs profanes (médecin, juriste ou personne affectée par les résultats des systèmes, par exemple). Ce domaine souffre encore beaucoup de ce que le chercheur Tim Miller et ses collègues ont appelé le syndrome des détenus qui veulent diriger l’asile (« beware of inmates running the asylum »), en l’occurrence des experts d’IA expliquant leurs propres productions. Les explications fournies par les méthodes existantes sont généralement unilatérales (non interactives) et fournies sous une forme fixe, décidée au préalable (par exemple des arbres de décision ou des listes de facteurs prépondérants) alors que les besoins des utilisateurs peuvent être variés et dépendants de leurs motivations et de leur degré de compétence. Par ailleurs, les justifications et les contestations n’ont pas fait l’objet de nombreux travaux de recherche jusqu’à ce jour. Pour conclure sur ce point, un aspect qui mérite également plus d’attention est aussi celui de l’évaluation expérimentale des résultats : on sait qu’il n’est pas simple de mesurer la qualité d’une explication ou d’une justification.
Plus spécifiquement pouvez-vous décrire les travaux que vous menez ?
Daniel Le Métayer : Nos travaux, qui se focalisent sur les méthodes « en boîte noire », portent sur deux aspects : les explications interactives et les justifications. Pour ce qui est des explications, nous partons du constat que les besoins diffèrent beaucoup d’une situation à une autre. Un employé de la banque qui cherche à comprendre les grandes lignes du système d’attribution de crédits n’a pas les mêmes besoins qu’un client qui souhaite contester une décision de refus ou un auditeur en charge de vérifier la conformité du système. Nous avons proposé un outil d’explications (appelé IBEX) qui repose sur une architecture à plusieurs couches permettant d’interagir avec chaque type d’utilisateur au niveau d’abstraction qui lui convient. Ses demandes sont traduites automatiquement en exigences sur les explications à générer (simple ou complexe, générale ou spécifique, etc.), puis en paramètres du système de génération d’explications. Celui-ci comporte deux phases principales : la sélection des données à fournir en entrée de l’algorithme et l’analyse des résultats produits par celui-ci.
Clément Hénin : Le deuxième volet concerne les justifications. Comme nous l’avons déjà mentionné, celles-ci font référence à des normes extérieures pour convaincre qu’une décision est bonne. Le système de justification que nous avons conçu (appelé Algocate) inclut trois types de normes (des règles explicites, des objectifs et des données de référence) qu’il peut employer pour appuyer des justifications ou des contestations de décisions particulières. Les justifications (ou les contestations, selon la situation) donnent lieu à un dialogue entre Algocate et l’utilisateur. Dans la première étape, un utilisateur peut fournir ses raisons de penser que la décision est mauvaise. Ces raisons sont analysées par Algocate en regard des normes disponibles. La réponse d’Algocate peut conforter l’utilisateur dans ses raisons ou au contraire contrer ses arguments. À l’issue du dialogue, l’utilisateur a collecté des arguments suffisants pour contester la décision ou pour l’accepter s’il juge que les normes employées sont légitimes et qu’elles s’appliquent effectivement dans ce cas.
Sonia Desmoulin-Canselier, Daniel Le Métayer, Décider avec les algorithmes – Quelle place pour l’Homme, quelle place pour le droit ?, Dalloz, Les Sens du Droit, février 2020.
Claude Castelluccia, Daniel Le Métayer, Understanding algorithmic decision-making: Opportunities and challenges, Rapport pour le Parlement Européen, mars 2019.
Peut-on établir un lien mathématique entre le comportement des gens et la propagation d’un virus ? La réponse est oui, et cela permet, en résolvant des équations, d’aider à la prise de décisions stratégiques pour gérer une pandémie. Carl-Joar Karlsson et Julie Rowlett, chercheur et chercheuse au département des Sciences Mathématiques de l’université technique de Chalmers et de l’université de Göteborg, ont récemment publié un article dans le journal Scientific Reports du groupe Nature à ce sujet. Ils viennent nous l’expliquer dans binaire. Lonni Besançon et Pauline Bolignano
Connaissez-vous le jeu « pierre-feuille-ciseaux » ? Pour jouer, vous choisissez de montrer soit une pierre (poing fermé), soit une feuille (main ouverte), soit des ciseaux (deux doigts).
Figure 1. Trois enfants jouant à pierre-feuille-ciseaux, et dessinant pierre, ciseaux et feuille de gauche à droite. Licence et source de l’image : creative commons zero 1.0 public domain https://openclipart.org/
Le jeu « pierre-feuille-ciseaux » est un exemple de jeu non coopératif. Il s’agit d’un type de jeu dans lequel chaque personne décide indépendamment de ce qu’il veut faire. Un autre exemple de jeu non coopératif est le dilemme du prisonnier. Deux prisonniers ont été arrêtés et accusés d’avoir commis un crime. Avant d’être emmenés dans des salles d’interrogatoire séparées, les prisonniers acceptent de garder le silence pendant l’interrogatoire. En attendant d’être interrogés individuellement, comme dans la figure 2, les prisonniers se demandent s’ils doivent se taire et tenir leur promesse, ou s’ils doivent la rompre et rejeter la responsabilité du crime sur l’autre prisonnier, en clamant leur innocence. Nous considérons que le prisonnier choisit de coopérer s’il garde le silence, ou d’accuser s’il rejette la responsabilité du crime sur l’autre prisonnier. Si un prisonnier coopère alors que l’autre accuse, l’accusateur est libéré, tandis que le coopérateur est condamné à la totalité de la peine. Si les deux prisonniers coopèrent, ils reçoivent une peine minimale. Si les deux prisonniers s’accusent mutuellement, ils reçoivent une peine modérée. Que pensez-vous que les prisonniers sont le plus susceptibles de faire ?
Figure 2. La décision de coopérer ou non en portant un masque pour limiter la propagation d’une maladie est un « dilemme de la maladie » similaire à celui du prisonnier. Licence et source de l’image : creative commons zero 1.0 public domain https://openclipart.org/
Si vous répondez que les prisonniers vont probablement tous les deux s’accuser, alors soit vous avez un peu de bon sens, soit vous reconnaissez que c’est la stratégie d’équilibre unique dans le jeu. Une stratégie d’équilibre est comme une impasse : personne dans le jeu ne peut améliorer sa situation en changeant son action seul. Dans le dilemme du prisonnier, si les deux prisonniers s’accusent, si l’un d’entre eux changeait pour coopérer, alors ce prisonnier se verrait attribuer l’entière responsabilité du crime. Ce n’est certainement pas une amélioration. D’un autre côté, si un prisonnier coopère alors que l’autre accuse, alors il peut améliorer sa situation en accusant son complice également. Enfin, si les deux prisonniers coopèrent, alors si l’un d’eux passe à l’accusation de son complice, il améliore directement sa situation. Ainsi, dans ce jeu, la seule stratégie d’équilibre est l’accusation mutuelle.
Même un jeu aussi simple que le dilemme du prisonnier peut prédire non seulement les choix de comportement individuels mais aussi les tendances de comportement dans la société. Comme de nombreux scientifiques, lorsque la pandémie a frappé, nous nous sommes demandés : pouvons-nous apporter une contribution scientifique significative pour aider d’une manière ou d’une autre ?
Comme la voie de transmission la plus courante de la COVID19 est aérienne, les masques sont une mesure d’atténuation importante [1]. Dans les endroits où les masques ne sont pas imposés par la loi, les gens peuvent choisir de les porter ou non. Ainsi, par exemple, deux étrangers, Alice et Bob, choisissent de coopérer, en portant un masque, ou de se défaire, en ne portant pas de masque. Ils font ce choix de manière indépendante, de sorte que nous pouvons considérer qu’il s’agit d’un « jeu » non coopératif, comme le montre les figures 2 et 3. Si Alice coopère alors mais pas Bob, Alice paie le coût d’achat du masque et reçoit une certaine protection de son masque, alors que Bob ne paie aucun coût et reçoit une plus grande protection grâce à Alice. S’ils portent tous deux un masque, ils paient tous deux un coût mais reçoivent également le maximum de protection. Si aucun des deux ne porte de masque, ils ne paient rien mais ne bénéficient d’aucune protection.
Figure 3. La décision de coopérer ou non en portant un masque pour limiter la propagation de la maladie est un « dilemme de la maladie » similaire à celui du prisonnier. Licence et source des images : creative commons zero 1.0 public domain https://openclipart.org/
Dans notre travail [2], nous avons généralisé ce dilemme à un jeu à l’échelle de la société qui intègre davantage les contacts sociaux et la pression sociale. La pression sociale peut surpasser la tentation de faire de la non-coopération lorsque d’autres personnes coopèrent et faire en sorte que les gens soient plus enclins à coopérer [3-7]. La décision de coopérer ou non est également influencée par la perception qu’ont les gens de la maladie et de son danger. Lorsque les gens constatent des taux d’infection élevés, ils peuvent être plus enclins à faire preuve de prudence. Leur décision est en outre influencée par le rythme auquel ils accèdent et reçoivent des informations sur la maladie, ainsi que par l’exactitude de ces informations. Par exemple, s’ils reçoivent des informations indiquant qu’il n’est pas nécessaire d’atténuer la maladie ou que c’est une bonne idée de contracter la maladie et d’acquérir une immunité naturelle, le taux de coopération sera plus faible. Les décisions des gens ne restent pas les mêmes ; ils peuvent à tout moment passer de la coopération à la non-coopération.
Dans un modèle épidémiologique compartimenté classique de propagation de la maladie, ces choix comportementaux ainsi que la possibilité de changer de comportement et d’influer sur la propagation de la maladie ne sont pas intégrés [8]. Inspiré par Poletti et. al. [9], nous avons modifié les modèles épidémiologiques de propagation des maladies pour intégrer tous ces facteurs de comportement humain, en nous concentrant sur les deux modèles épidémiologiques compartimentés les plus simples. Dans le premier modèle, toutes les personnes de la population sont classées en deux compartiments : sensibles ou infectieuses. C’est-à-dire qu’il n’y a pas d’immunité durable à la maladie. Dans le second modèle, les personnes sont classées en trois compartiments : sensibles, infectieuses ou résistantes. Dans ce modèle, les personnes qui se remettent d’une infection deviennent immunisées (résistantes) pendant un certain temps. Dans notre travail, nous avons créé un ensemble d’équations mathématiques qui intègrent toutes ces considérations simultanément. En d’autres termes, nous avons combiné tous les facteurs comportementaux humains et leurs implications dans la propagation de la maladie. Les équations que nous avons obtenues créent un système dynamique, qui peut décrire comment les comportements des personnes et les taux d’infection changent au fil du temps. Tout comme la stratégie d’équilibre dans le dilemme du prisonnier qui prédit que les prisonniers vont très probablement s’accuser (donc ne pas coopérer), les points d’équilibre stables d’un système dynamique prédisent ce qui se passera au fil du temps.
Dans notre travail [2], nous avons calculé tous les points d’équilibre stables des systèmes dynamiques qui décrivent la façon dont les comportements et les taux d’infection changent au fil du temps. Cela revient à résoudre (à la main) plusieurs équations mathématiques.
Les solutions de ces équations peuvent fournir des informations utiles pour les pandémies actuelles et futures. Nous résumons ici ce que nous avons appris :
– Si la pression sociale est suffisamment élevée, il y aura une large coopération au sein de la population.
– Si ce n’est pas le cas, lorsqu’il est possible d’être infecté et d’être ensuite immunisé, sans lois ni sanctions pour défaut de coopération, il n’y aura pas de coopération généralisée dans l’ensemble de la population.
– Pour les maladies sans immunité durable, si la population générale reçoit suffisamment souvent des informations précises concernant les mesures d’atténuation efficaces, alors une coopération généralisée se produira au fil du temps entre tous les individus rationnels qui cherchent à agir dans leur meilleur intérêt.
– Pour la pandémie actuelle, nos travaux indiquent qu’avec le temps, les individus rationnels qui cherchent à agir dans leur intérêt et qui sont fréquemment exposés à des informations précises concernant les mesures d’atténuation efficaces auront tendance à porter des masques pour atténuer la propagation du virus.
Il est vrai que la théorie des jeux a une limite : elle ne fait aucune prédiction pour les individus qui ne sont pas rationnels et/ou qui ne cherchent pas à agir dans leur propre intérêt. D’autre part, l’une des forces des mathématiques pures est qu’elles ne sont pas limitées à une maladie spécifique ou à une mesure d’atténuation. Les mêmes principes s’appliquent à toute nouvelle maladie future. De nombreux experts affirment que la question n’est pas de savoir si de nouvelles maladies apparaîtront à l’avenir, mais quand elles le feront. Ainsi, tant pour la pandémie actuelle que pour toute autre pandémie future, notre travail propose une stratégie en trois étapes
Étape 1 : Supposer que la nouvelle maladie causée par le virus ne confère pas une immunité durable.
Étape 2 : Étudier le nouveau virus pour comprendre ses caractéristiques particulières et identifier ainsi des mesures d’atténuation efficaces pour ce nouveau virus particulier.
Étape 3 : Sensibiliser le public aux dangers de la maladie causée par le virus dans le cadre d’une campagne de publicité de masse et d’influence recommandant vivement d’éviter la maladie. Conclure la publicité par un message positif et responsabilisant : une explication claire des mesures d’atténuation efficaces.
Il existe au moins deux exemples d’une stratégie comme celle que nous suggérons qui a été utilisée avec succès pour atténuer la propagation des maladies. Le premier est la campagne publicitaire de la Faucheuse utilisée en Australie pour atténuer la propagation du VIH dans les années 1980. La seconde est la vidéo de la COVID jalouse du Vietnam.
L’application de ce que nous avons appris pour gérer le VIH afin de gérer les pandémies actuelles et futures est examinée plus en détail dans cet article [10].
La stratégie que nous suggérons peut sembler relever du bon sens pour de nombreux lecteurs, et si c’est le cas, alors tous ces calculs ne sont qu’un ensemble de sciences et d’équations qui réaffirment votre bon sens. La stratégie pourrait également sembler familière aux combattants, car elle pourrait se résumer ainsi :
Figure 4. Un ninja porte un masque et est prêt à se battre ! Licence et source de l’image : creative commons zero 1.0 public domain https://openclipart.org/
Ne sous-estimez pas votre adversaire.
Étudiez la technique de votre adversaire pour identifier ses faiblesses.
Combattez votre adversaire et exploitez ses faiblesses.
Alors, portez votre masque comme le ninja de la figure 4 et continuez à vous battre jusqu’à ce que cet ennemi corona soit vaincu ! Les mathématiques et la science sont de votre côté !
Carl-Joar Karlsson et Julie Rowlett (Department of Mathematical Sciences, Chalmers University of Technology and The University of Gothenburg).
References:
[1]. Mitze, T., Kosfeld, R., Rode, J., and Wälde, K. Face masks considerably reduce COVID-19 cases in Germany. Proceedings of the National Academy of Sciences, 202015954; DOI: 10.1073/pnas.2015954117 December (2020)
[3]. Tanimoto, J. A simple scaling in the effectiveness of supporting mutual cooperation in donor-recipient games by various reciprocity mechanisms. BioSystems 96, 29–34 (2009).
[4]. Ohtsuki, H. & Nowak, M. A. The replicator equation on graphs. J. Theor. Biol. 243, 86–97 (2006).
[5]. Tanimoto, J. Fundamentals of evolutionary game theory and its applications, vol. 6 of Evolutionary Economics and Social Complexity Science (Springer, 2015).
[6]. Ohtsuki, H. & Nowak, M. A. Evolutionary games on cycles. Proc. Royal Soc. B 273, 2249–2256 (2006).
[7]. Taylor, M. A., C. & Nowak. Transforming the dilemma. Evolution 61, 2281–2292 (2007).
[9]. Poletti, P., Caprile, B., Ajelli, M., Pugliese, A. & Merler, S. Spontaneous behavioural changes in response to epidemics. J. theoretical biology 260, 31–40 (2009).
[10]. Rowlett J. Mathematics Indicates That an HIV-Style Strategy Could Be Applied to Manage the Coronavirus. In: Mathematics Online First Collections. Springer, Cham. (2020) https://doi.org/10.1007/16618_2020_22
Dans la rubrique Il était une fois… ma thèse, Mathilde Boltenhagen, doctorante en informatique à l’Université Paris-Saclay, à l’ENS Paris-Saclay, au CNRS, à l’Inria et au LSV, vient nous raconter ses travaux. Dans cet article, Mathilde fait faire le tour du monde à notre valise, un prétexte pour nous parler de son domaine de recherche : la fouille de processus. Pauline Bolignano et Serge Abiteboul
Aujourd’hui les entreprises se perdent dans l’immensité d’information qu’elles récoltent. Sans omettre les risques liés à la collecte massive de données personnelles, qui méritent une grande attention, enregistrer de l’information est souvent nécessaire mais aussi précieux pour améliorer le fonctionnement des entreprises. Dans cet article, nous nous concentrons sur les données de comportements, d’objets ou d’humains.
Prenons l’exemple d’une valise en soute [1]. Notre valise est d’abord étiquetée, puis enregistrée, avant de suivre son parcours personnalisé sur les tapis roulants l’amenant à son premier vol. Si escales il y a, les aéroports de transitions enregistreront son arrivée et son départ. A destination, la valise circulera sur le tapis devant lequel nous l’attendrons. Cette suite d’événements représente le comportement de notre valise.
Comportement d’une valise – Mathilde Boltenhagen
Les informations recueillies au sujet de celle-ci, telles que sa destination et ses escales, doivent être connues des agences et aéroports afin de lui faire réaliser le voyage. Toutes ces données sont donc nécessairement enregistrées pour le bon fonctionnement du processus de transport de notre valise.
Supposons maintenant que notre valise ne soit pas arrivée. Comment est-ce possible alors que nous avions enregistré toutes les informations requises ? Il y a sans doute eu un problème dans le processus de cheminement qui a créé ce comportement anormal. L’analyse du problème permettra peut-être de la localiser. Mais se pose alors la question de comprendre comment détecter et prévenir de tels problèmes afin que cela n’arrive plus ?
C’est là qu’intervient la fouille de processus (en anglais, process mining) [2], si précieuse pour améliorer le fonctionnement des entreprises. En analysant les données des évènements enregistrés pour toutes les valises, on peut extraire une visualisation des comportements normaux et des comportements erronés. On construit des modèles qui sont une représentation simplifiée de la réalité destinés à être manipulés pour des traitements informatiques et décisionnels. C’est grâce à des modèles simples mais aussi conformes et précis que l’on parvient à améliorer des processus d’entreprises comme celui du cheminement de notre valise perdue.
Trouver un modèle présentant tous ces critères de qualité (simple, conforme et précis) est encore un problème de recherche [3]. Ma thèse en fouille de processus a pour objectif de confronter les données réelles et celles modélisées. Par exemple, j’ai proposé une méthode de partitionnement des comportements qui s’appuie sur un modèle [4]. Chaque groupe de comportements est alors associé à une petite partie de celui-ci qui le représente. Cette technique est très utile lorsque le modèle est complexe et peu lisible pour un humain, puisqu’on n’en extrait qu’une partie par groupe de comportements. De plus, si des comportements ne sont pas associés à une partie du modèle, on comprend qu’il existe des différences entre la modélisation et la réalité. Ce dernier point est un autre objectif de ma thèse : arriver à quantifier la différence entre la modélisation et la réalité.
Des processus comme l’acheminement d’une valise sont très nombreux, notamment dans les organisations complexes que sont nos hôpitaux. Ces structures présentent des quantités colossales de comportements différents. Réussir à modéliser et schématiser ces comportements promet alors une aide primordiale aux choix de décisions des organisations.
[1] Exemple inspiré de cas réels cités dans la littérature: Process Mining Case Story: Copenhagen Airports A/S — Flux Capacitor et Gunnarsson, Björn Rafn, Seppe KLM vanden Broucke, and Jochen De Weerdt. « Predictive Process Monitoring in Operational Logistics: A Case Study in Aviation. » International Conference on Business Process Management. Springer, Cham, 2019.
[2] Van Der Aalst, Wil, et al. « Process mining manifesto. » International Conference on Business Process Management. Springer, Berlin, Heidelberg, 2011.
[3] Carmona, Josep, et al. Conformance Checking. Springer, Cham, 2018.
[4] Boltenhagen, Mathilde, Thomas Chatain, and Josep Carmona. « Generalized alignment-based trace clustering of process behavior. » International Conference on Applications and Theory of Petri Nets and Concurrency. Springer, Cham, 2019.
La bande dessinée Mirror, Mirror de Falaah Arif Khan et Julia Stoyanovich parle de l’Intelligence Artificielle. À quoi sert aujourd’hui l’apprentissage automatique ? À quoi devrait-il servir ? À améliorer l’accessibilité des applis numériques notamment. C’était une réflexion destinée au départ aux étudiants en IA. Nous l’avons traduite en français pour binaire, avec l’aide de Eve Francoise Trement, parce que nous pensons qu’elle peut intéresser un bien plus large public.
Un nouvel « Entretien autour de l’informatique ». Christophe Lazaro est Professeur au Centre de Philosophie du Droit, à l’Université de Louvain, et membre du Comité National Pilote d’Éthique du Numérique (France). Nous poursuivons avec lui le voyage commencé avec Célia Zolynski sur le droit du numérique. Christophe nous amène aux frontières du droit, de la philosophie et de l’anthropologie.
Cet article est publié en collaboration avec theconversation.fr.
Christophe Lazaro, UCLouvain
B : Tu es juriste. Mais en préparant l’entretien, nous avons découvert que tu étais aussi spécialiste d’autres domaines. Peut-être pourrais-tu commencer par nous dire d’où tu viens.
TL : Je suis au départ juriste, en effet. Au début de ma carrière, j’ai été avocat pendant une courte période. J’’ai également étudié en parallèle la philosophie et l’anthropologie. Puis j’ai fait une thèse de droit assez tardivement, à 33 ans, à l’Institut Universitaire Européen de Florence sur les enjeux juridiques et philosophiques des rapports entre corps et prothèses. Je suis passionné par la question de la technique et du corps. Je pratique d’ailleurs le Tai Chi depuis des années. Ce qui me passionne, c’est surtout la rencontre entre l’être humain et les nouvelles technologies, d’un point de vue juridique bien sûr mais aussi anthropologique et philosophique.
B : Un de tes premiers travaux a porté sur les communautés de logiciel libre, plus particulièrement Debian.
TL : Oui. Ce travail reflète d’ailleurs bien la rencontre de mes intérêts croisés pour le droit et l’anthropologie. J’ai fait une étude anthropologique de la communauté dite virtuelle Debian. C’est une communauté très démocratique qui développe des systèmes d’exploitation basés exclusivement sur des logiciels libres. Elle est virtuelle parce que ses membres se rencontrent principalement sur Internet. C’était la première fois que j’avais vraiment l’occasion d’échanger avec des informaticiens. Dans mon labo d’alors, on travaillait sur le droit du numérique mais on ne parlait pas trop avec eux.
B : Tu as des compétences en informatique ?
TL : Je me vois un peu comme un « handicapé des machines » avec une grande soif de savoir parce que je n’y comprends pas grand-chose. Cela me pousse à poser des questions aux spécialistes. J’ai été bluffé par l’hyper-structure sociale et politique de la communauté Debian. J’ai d’ailleurs pu participer à cette communauté. C’était passionnant ! J’ai voulu comprendre comment ils fonctionnaient.
Ça a donné un livre. Ce genre d’études d’une communauté virtuelle était original pour l’époque. Avec le regain d’intérêt actuel pour les communs, cela vaut la peine d’aller regarder des communautés fondées sur cette notion de commun. Par exemple, à côté des communautés de logiciels libres, il y a des collectifs d’habitat groupé, des coopératives d’agriculture alternative ou des communautés d’éditeurs de Wikipédia. D’un point de vue anthropologique, ces initiatives interrogent l’essence même du concept de communauté. Comment peut fonctionner une communauté avec le don comme seule modalité d’échange et de coopération entre ses membres ?
B : Tu as aussi beaucoup réfléchi à l’ « augmentation » de l’humain avec la technique, et aux questions que cela pose en terme de justice ?
TL : D’abord, pour moi, une technologie n’augmente pas, elle transforme. Une simple note adhésive que nous utilisons au bureau n’ « augmente » pas la mémoire à proprement parler. Il permet d’organiser les tâches différemment, en transformant les actions à accomplir. Un sujet, par exemple, me passionne depuis ma thèse sur les prothèses : une fois la personne « transformée » par la technologie, que devient l’égalité ? Comment doit-on la traiter ? La technologie bouleverse les notions d’égalité et de mérite qui sont au cœur de nombreuses activités humaines. On peut parler d’Oscar Pistorius ou plus récemment de Blake Leeper, deux athlètes amputés équipés de prothèses souhaitant concourir au plus haut niveau aux côtés des « valides ». Mon ouvrage La prothèse et le droit (vous excuserez l’autopromotion) qui a remporté en France le prix du livre juridique en 2016, aborde ce type de questions. Maintenant, avec l’IA, on va de plus en plus loin et cela questionne radicalement la nature de certaines activités qui étaient autrefois l’apanage exclusif des humains.
Surveillance numérique @serab
B : Pour prendre un exemple concret de question que cela pose, des outils informatiques notamment basés sur l’IA aident les employés des entreprises. Mais ils posent aussi des problèmes en termes de surveillance excessive des employés. Comment gérer cela ?
TL : Dans l’entreprise, on propose des outils pour organiser et faciliter le travail, pour optimiser la coordination et l’effectuation des tâches. Mais ces outils peuvent aussi servir à de la surveillance. Est-ce que les avantages apportés par cette transformation du travail et du rôle de l’employé compensent les risques de surveillance qu’ils introduisent ? La loi devrait être là pour dissuader de certaines formes disproportionnées de contrôle des employés, mais le juriste d’aujourd’hui doit aussi être conscient des limites du droit face à l’ambivalence intrinsèque des technologies,. Je n’ai pas de solution pour empêcher les abus de ces technologies parce que celles-ci sont si géniales qu’on ne les voit pas, qu’elles opèrent en toute discrétion, et qu’on ne sait pas comment elles fonctionnent. J’ajouterais même que plus grand est leur confort d’utilisation, plus elles « disparaissent ». Cette invisibilité rend les modes de résistances juridiques ou autres difficiles à mettre en œuvre.
B : Cette invisibilité est quand même relative. Avec le numérique, on peut garder des traces de tous les traitements. On pourrait argumenter que le numérique est au contraire beaucoup plus transparent.
CL : C’est là que ça devient intéressant. Il faudrait distinguer des régimes suivant la visibilité d’un processus. Du point de vue de l’employé, s’il ne peut pas voir la surveillance, le processus de surveillance est transparent. C’est en cela que je parle d’invisibilité car les effets de la technologie ne s’éprouvent plus, à travers le corps et les sens. Et avec l’IA, on ira vers encore plus d’invisibilité en ce qu’on ne sait souvent même pas expliquer les choix des logiciels. Je pense que c’est un sujet à étudier.
B : Qu’est ce qui pourrait débloquer la situation ?
TL : L’anthropologie. (rire) Une alliance entre des informaticiens, des philosophes, des juristes… On est par essence en pleine interdisciplinarité. Les questions ne sont pas philosophiquement nouvelles. Mais, plutôt que d’en parler abstraitement, il faut s’attaquer à des questions précises sur des pratiques, dans des situations d’usage. Pour moi, la recherche a aujourd’hui atteint un seuil. D’un point de vue juridique ou éthique, elle tourne en rond en ressassant les mêmes questions et principes. Plutôt que de disserter sur l’éthique de l’IA d’une manière désincarnée, plutôt que de proposer un énième réflexion sur le dilemme du tramway et les véhicules autonomes… il faut envisager les choses de manière empirique et poser des questions en situation.
Par ailleurs, pour développer une éthique de l’IA, il faudrait se mettre d’accord d’abord sur une véritable méthodologie et l’appliquer ensuite en faisant collaborer des points de vue interdisciplinaires. Comme toute discipline, l’éthique ça ne s’improvise pas et, dans l’histoire récente, nous ne sommes qu’aux premiers balbutiements d’une coopération entre sciences humaines et sciences dures.
B : Qu’est-ce que le juriste peut nous dire sur le contentement éclairé et libre ?
TL : C’est un des points les plus problématiques à la fois d’un point de vue juridique et philosophique pour les technologies du 21e siècle. Le problème
Contentement totem @serab
c’est l’idée même que l’être humain pourrait exprimer un choix éclairé et libre dans ces nouveaux contextes ; les deux adjectifs étant essentiels.
Comment le consentement peut-il être « éclairé » ? L’utilisateur ne s’intéresse pas vraiment au fonctionnement des technologies qu’il utilise quotidiennement et on ne l’encourage pas à comprendre ce qu’elles font ou ce qu’elles lui font faire. On lui propose des services user-friendly et cette amitié « machinique » implique des routines incorporées, un aspect prothétique fort, une forme d’hybridation. Dans ce contexte, il est difficilement envisageable d’interrompre le cours de l’action pour demander à chaque fois un consentement, en espérant en plus que ce consentement ait un sens.
Il faudrait aussi parler du caractère « libre » du consentement. Avec les GAFAM, quelle est la liberté de choix face à un tel déséquilibre de pouvoir et d’information ? Avec Facebook, par exemple, vous devez accepter des CGU qui peuvent changer par simple notification. Et quel adolescent a vraiment le choix d’aller ou non sur Facebook ? Le choix n’existe plus d’un point de vue sociologique car se passer de Facebook pour un jeune c’est synonyme de mort sociale.
Si le RGPD a fait un peu avancer les choses, l’accent qui continue d’être mis sur la notion de consentement éclairé et libre est problématique. Avec la complexité de l’informatique, c’est la fiction du sujet rationnel, autonome, capable de consentir qui s’effondre. Depuis toujours, le droit est friand de fictions ; elles lui permettent d’appréhender la complexité du réel et de gérer les litiges qui en résultent. Aujourd’hui, il faudrait sans doute en inventer d’autres, car la magie du consentement dans l’univers numérique n’opère plus.
« Vous avez consenti, alors c’est bon ». Vous acceptez de vous livrer gracieusement à la bienveillance des plateformes qui prennent les décisions à votre place. C’est peu satisfaisant. Vous pouvez aussi attendre de l’informatique qu’elle vous aide. Oui, mais ça n’existe pas encore.
Antoinette Rouvroy parle de « fétichisation des données personnelles ». On devrait aussi parler de fétichisation du consentement. On ne peut continuer à mettre autant de poids dans le consentement. Il faut imposer des contraintes beaucoup plus fortes aux plateformes.
B : Tu as parlé d’aide apportée par l’informatique. Peut-on imaginer des systèmes informatiques, des assistants personnels, des systèmes d’information personnelle, qui nous aident à exprimer nos choix ?
TL : Bien sûr, on peut imaginer une collaboration entre les machines et l’utilisateur. Mais il faudrait déjà que l’utilisateur ait les capacités de spécifier ce qu’il veut. Ce n’est pas évident. Qu’est-ce que cela représenterait pour un jeune, par exemple, de spécifier sa politique d’autorisation de cookies ?
B : Est-ce qu’on peut parler de personnalité juridique du robot ?
TL : C’est compliqué. La question fondamentale c’est de savoir si la notion de personnalité en droit procède de la simple pragmatique juridique, ou si c’est plus, si cela inclut une véritable valeur philosophique. Pour prendre un exemple, un chien d’aveugle est blessé par une voiture. Le juge a considéré ce chien comme une « prothèse vivante », une extension de la personnalité de l’aveugle. Cette construction lui a permis de donner une meilleure compensation car les régimes d’indemnisation diffèrent selon qu’il s’agisse d’une atteinte à l’intégrité physique d’un individu ou d’un dommage aux biens qu’il possède. Le droit ne dit pas ontologiquement si ce chien d’aveugle est une personne ou pas. C’est le contexte et la visée de justice qui ont conduit le juge à créer cette chimère. Pour ce qui est des robots, je pense, avec les pragmatistes, que l’on pourrait accorder une forme de personnalité aux robots. Il ne s’agit pas de dire qu’un robot est comme une « personne physique » et qu’il peut jouir de droits fondamentaux, par exemple. Non, c’est une autre forme de personne, un peu comme on l’a fait avec les « personnes morales ». Cela permettrait de résoudre des problèmes en matière de responsabilité.
B : Quelle est le sujet de recherche qui te passionne en ce moment ?
CL : Je travaille sur la notion de prédiction algorithmique ; ce qui va me donner beaucoup d’occasions de travailler avec des informaticiens. Il y a aujourd’hui une véritable obsession autour des vertus prédictives de l’intelligence artificielle. Je trouve dingue l’expression « prédiction en temps réel » (nowcasting en anglais) ; une prédiction, c’est pour le futur. Comme anthropologue, je suis passionné par l’idée de comparer la prédiction algorithmique avec les pratiques divinatoires, qui restent encore très répandues. Dans son ouvrage « De divinatione », Cicéron s’attaquait à la question de l’irrationalité de la divination. C’est fascinant de voir qu’on rejoue au 21e siècle cette même question de la rationalité scientifique avec l’intelligence artificielle. C’est ça que j’essaie de comprendre. Comment est-ce qu’on part de résultats d’IA pour établir des savoirs prédictifs quasiment indiscutables ? Bien sûr, on peut comprendre la prédiction algorithmique quand elle s’appuie sur des validations expérimentales, qu’elle établit des taux de confiance dans les résultats. Mais on voit aussi se développer des prédictions algorithmiques qui par certains aspects rejoignent plus les pratiques magiques que scientifiques.
En raison de la situation sanitaire, Inria a fait vivre aux petit·e·s et grand·e·s une Fête de la Science 100% … dématérialisée début octobre 2020. Comment s’est déroulée cette suite d’échanges en ligne ? Même si beaucoup d’entre nous sont devenu.e.s utilisateurs de solutions largement répandues comme Zoom, Teams, GoToMeeting… comment les met-on en œuvre ? Comment respectent-elles la souveraineté ou la maîtrise de nos données ? Comment minimiser leur impact environnemental ? Benjamin Ninassi, qui était aux manettes de cet événement, nous raconte les coulisses et apporte des éléments de réponse à ces questions importantes. Pascal Guitton & Thierry Viéville.
Au fait, qu’est ce que la fête de la science ?
Tous les ans, les établissements de recherche français ouvrent leurs portes au grand public (ou vont à la rencontre du public) pendant quelques jours pour échanger sur leurs travaux sous forme de partages scientifiques ou d’activités ludiques. Cette année, le contexte sanitaire a rendu difficile voire impossible la tenue de ces événements dans les laboratoires et les universités. Ce fut alors l’opportunité de proposer pour la première fois au sein d’Inria une coordination nationale de l’événement, transverse à l’ensemble des huits centres de recherche, en offrant un contenu 100% dématérialisé et néanmoins 100% en direct live !
En effet, l’un des aspects très apprécié par le public de la fête de la science est la possibilité de dialoguer, de questionner en direct les scientifiques. Nous souhaitions conserver cette richesse malgré la distance imposée par l’utilisation d’outils numériques. Pas juste pré-enregistrer des vidéos, donc, mais bien produire en direct du contenu de qualité, permettant des interactions avec le public. Nous nous sommes alors penchés sur la question … car il y avait plusieurs défis techniques à relever !
Concrètement, en quoi consistait ces défis ?
Pour produire ces événements en direct, nous avions trois besoins essentiels :
– Permettre aux intervenant·e·s, et aux animateur·e·s, réparti·e·s sur tout le territoire, d’échanger comme s’illes étaient dans une seule et même pièce.
– Réaliser le montage vidéo en direct de l’intervention, à l‘image d’une régie de télévision.
– Offrir la possibilité au grand public d’échanger avec les scientifiques, en toute simplicité et en respectant la conformité avec les règles de protection de notre vie privée inscrites dans le RGPD.
Pour y répondre, nous avons pu nous appuyer sur les outils que nous avions mis en place pour nous adapter au contexte sanitaire depuis le mois de mars, dans la continuité de l’action du projet “Parlons Math”.
Vous avez donc réuni les intervenants dans une pièce virtuelle ?
Oui, pour relever ce défi, nous avons effectivement mis en place un “salon virtuel” : un outil de visioconférence permettant ainsi aux différentes intervenant.e.s d’interagir entre eux comme si elles étaient sur un plateau de télévision. Nous souhaitions également privilégier une solution open source et hébergée sur des serveurs français, dans une logique de souveraineté et de sobriété.
Nous avons eu la chance de pouvoir bénéficier de l’étude comparative de différentes solutions, réalisée quelques semaines avant par l’association Animath qui nous a été d’une grande aide par ses retours d’expériences très riches. C’est donc vers le logiciel open sourceBigBlueButton, initialement développé par des universitaires canadiens pour la formation à distance, que nous nous sommes tournés. Il offre à la fois les meilleures performances, une simplicité d’installation et d’administration, et un plus grand panel de fonctionnalités que ses concurrents actuels.
Le logiciel lui-même est une chose, mais nous voulions également une solution d’hébergement qui soit fiable, robuste, adaptable à l’évolution de nos besoins et localisée en France. Ce dernier point est non seulement important une logique de souveraineté, mais également de privacy by design, c’est-à-dire de veiller dès la conception d’une plateforme au respect de la vie privée des utilisateurs par exemple en conservant leurs données sur le territoire national.
Il est hélas communément admis que le numérique est “juste” virtuel, mais la réalité est tout autre : le numérique repose sur des infrastructures physiques et toute action réalisée dans un logiciel a directement un impact matériel. Ces infrastructures possèdent naturellement des limites qui, une fois dépassées, rendent les logiciels inutilisables. Dans le cas de la visioconférence, la principale ressource limitante est le temps de calcul disponible sur les processeurs du serveur . Une fois la saturation atteinte, l’utilisation est dégradée pour tous les utilisateurs de la plateforme (déconnexion, perte de stabilité, vidéo figée et/ou pixelisée ou son haché).
Notre besoin étant lié à de l’événementiel, il est très fluctuant : il était essentiel que nous puissions redimensionner notre infrastructure rapidement et en toute autonomie. Nous avons donc sélectionné un hébergeur professionnel (Scaleway) avec des serveurs localisés en France, capable de nous fournir la fiabilité, la sécurité, ainsi qu’une très grande souplesse et autonomie dans notre utilisation, le tout à des prix très compétitifs.
Après avoir affiné les procédures d’installation et d’intégration au contexte de l’hébergeur, il est devenu assez simple de déployer en quelques minutes notre propre serveur de visioconférence. Une première étape de franchie, notre salon virtuel dédié était opérationnel !
Une seconde difficulté est très vite apparue : les micros intégrés des équipements informatiques sont de qualités très inégales, de même que les connexions internet des différents intervenants. Il a ainsi fallu faire un certain nombre de tests techniques préparatoires individuels avec chacun d’entre eux, afin de déterminer les conditions idéales de connexion. Nous avons également eu recours, quand c’était nécessaire, à des hauts parleurs de conférence permettant de capter un son de bonne qualité tout en limitant l’écho. Ce type de matériel est largement démocratisé aujourd’hui, et en y ajoutant une bonne webcam il est possible d’équiper un espace dédié aux visioconférences avec une prise de son et d’image de bonne qualité pour un peu plus d’une centaine d’euros .
Le salon virtuel bigbluebutton juste avant le direct d’Hélène Barucq
Un peu comme à la télévision ?
Oui, il ne fallait donc pas juste diffuser un salon de visioconférence ; l’objectif était de produire un contenu qui soit agréable à regarder et à écouter. Il nous semblait important de travailler sur les médias de diffusion autant que sur le contenu des échanges. Pour autant, il était impensable d’imaginer réunir les personnes en charge du montage et de la diffusion sur un plateau : nous avons donc également virtualisé la régie.
Là encore nous avons privilégié la piste d’une solution open source (OBS Studio) disponible sur tous les systèmes d’exploitation. Ce logiciel offre, de manière intuitive, un grand nombre de fonctionnalités de montage vidéo. Il permet par exemple d’assembler sur une même scène une image de fond, sur laquelle on vient superposer les flux vidéos et audios des caméras des différents protagonistes. L’utilisateur peut également préparer plusieurs scènes à l’avance : la mire de début d’une émission, le lancement du jingle, une scène d’introduction avec les caméras des protagonistes affichées sur un infodécor, une autre scène présentant une caméra mobile ou des planches d’une présentation, une illustration ou une démonstration logicielle, etc.
Grâce à cet outil, nous avons ainsi pu créer un contenu dynamique, c’est-à-dire avec des plans de vue qui évoluent en fonction du déroulé, des changements de lieux, etc. Par exemple lors des deux interventions sur la robotique, nous alternons des scènes très diverses comme l’affichage ponctuel de la caméra mobile utilisée dans la vidéo de Serena Ivaldi sur les cobots, ces robots qui interagissent avec nous au quotidien, pour nous faire visiter la hall de robotique dans laquelle elle travaille, ou bien comme les déplacements réels du robot de la démonstration dans la vidéo de Jean-Pierre Merlet, sur les robots parallèles à câbles, juxtaposés à sa trajectoire théorique.
L’une des 3 “régies” en pleine diffusion
Serena Ivaldi nous fait visiter la halle de robotique du centre Inria – Nancy Grand Est à l’aide d’une simple caméra USB
Le logiciel intègre toutes les fonctionnalités permettant la diffusion en direct du flux vidéo ainsi généré, sur différentes plateformes de diffusions comme Youtube ou Twitch. Nous avons aussi prévu un diffuseur de secours, avec OBS Studio et les scènes préparées sur son poste de travail, prêt à prendre la relève en cas de soucis de connexion ou de matériel avec le diffuseur initial.
Mais nous pouvons aussi nous passer de plateforme propriétaires comme Youtube ou Twitch. À cette fin, nous avions déployé un second serveur dédié à la réception et à la diffusion du flux vidéo qui offre une alternative. Diffuser les vidéos sur la chaîne Youtube InriaChannel, n’est donc pas une contrainte technique, mais un choix éditorial.
Et comment le public pouvait-il participer ?
Pour reproduire toute la saveur du présentiel, le public était en mesure de poser des questions aux scientifiques de manière simple, sans nécessiter une connexion à un média quelconque. Être le plus inclusif possible faisait partie de nos priorités. Nous avons donc mis au point une page web adaptative, accessible à la fois sur un ordinateur, une tablette ou un smartphone, agrégeant le flux vidéo et un canal de discussion léger et ouvert à tou·te·s. Ainsi, tout spectateur pouvait interagir simplement en un clic. Un modérateur animait les discussions textuelles, et relayait oralement les questions aux intervenants, afin que l’enregistrement du direct contienne bien les questions et les réponses pour un visionnage ultérieur.
Nous avons également expérimenté l’usage d’un outil libre de quizz externe, mis à disposition par Framasoft qui rassemble les acteurs du libre en France, afin d’augmenter l’implication du public.
La page web dédiée au direct d’Antoine Rousseau, “Immersion au cœur d’un Tsunami”, où le public pouvait interagir pendant l’intervention, sur la simulation et la visualisation de tsunamis à partir de modèles géophysiques
Finalement, quelles étaient les ressources humaines impliquées ?
Sur les aspects techniques, une fois les plateformes logicielles en place, nous nous sommes relayés à trois pour assurer l’ensemble des tests techniques et des quatorze diffusions. Les animateur·e·s, modérateur·e·s et intervenant·e·s étaient propres à chaque intervention avec une coordinatrice nationale et un relais local.
Le coût matériel de l’ensemble de l’opération est également très léger, à peine quelques centaines d’euros en incluant la location des serveurs. Toutes les technologies open source mises en œuvre sont bien documentées et largement accessibles à qui voudrait se lancer dans l’aventure de la dématérialisation d’événements, de conférences, de formation. …
A vous de jouer !
Benjamin Ninassi (ingénieur de recherche au sein de la direction générale déléguée à la science d’Inria)
Vous pouvez retrouver l’ensemble des vidéos produites sur la playlist dédiée sur la chaîne youtube InriaChannel.
ToutEduc a rendu compte des propositions Inria émises dans le cadre des Etats généraux du numérique pour l’Éducation. L’institut national en sciences et technologies du numérique partage ici le 3ème volet de ses recommandations, celles qui concernent la formation au numérique en education. Serge Abiteboul
Dans le cadre des Etats généraux du numérique pour l’Éducation, Inria a émis plusieurs recommandations et a choisi ToutEduc pour leur présentation. Nous avons publié le premier volet sur la recherche (ici) et le second volet sur l’action publique (ici). Voici le troisième volet, relatif à la formation aux compétences de base du numérique ainsi qu’aux usages du numérique tant pour les enseignants que les citoyens. A venir une présentation du « Livre blanc » d’Inria sur les enjeux et défis du numérique pour l’éducation.
La formation au numérique : un enjeu fondamental, un défi colossal.
Il est urgent de ne plus attendre (1) pour initier nos enfants aux fondements du numérique afin qu’ils puissent appréhender au mieux le monde d’aujourd’hui sans uniquement être dans une posture de consommateurs, voire y être aliénés. Ce travail a commencé : introduit progressivement (2) dans l’enseignement secondaire (et aussi primaire), tous·tes les élèves en classe de seconde des lycées généraux et technologiques sont maintenant initié·e·s à la science informatique et aux technologies du numérique, abordant aussi les aspects sociétaux, tandis qu’une vraie formation à l’informatique est proposée parmi les spécialités de fin de lycée. Mais la maîtrise des usages des outils numériques s’est révélée primordiale pendant la crise sanitaire et le travail à distance qui s’est imposé continuera à être utilisé dans la durée. De plus, les différences dans les usages développés par les enseignant·e·s peuvent également être un facteur d’inégalité. Des élèves n’ont pas le même accès aux mêmes types d’activités selon le degré d’accessibilité et d’intégration du numérique de leurs enseignant·e·s. On voit donc combien il est urgent et essentiel d’accompagner l’ensemble des enseignant·e·s dans leurs compétences numériques et dans leur capacité à faire un usage raisonné et éclairé du numérique pour soutenir les apprentissages notamment dans une optique de réduction des inégalités.
Les besoins sont immenses et au-delà des enseignant.e.s, ils nous concernent toutes et tous. Il est urgent de considérer la maîtrise des fondamentaux du numérique comme faisant partie de la culture du citoyen du XXIème siècle. Qu’est-ce qu’une donnée ? Un algorithme ? À quoi sert la programmation ? Comment une machine calcule ? en sont des éléments essentiels. Il s’agit de réaliser une alphabétisation au numérique en contribuant au développement des compétences transversales comme la pensée informatique ou les compétences numériques auprès du plus grand nombre.
La formation au numérique est un enjeu citoyen qui doit donner lieu à des actions visant à développer la culture numérique et les compétences numériques des différentes catégories d’âges et de métiers. Cette formation est particulièrement critique pour les décideurs et décideuses dans les choix d’investissement notamment liés au numérique éducatif dans les collectivités territoriales et à l’échelle nationale. Il s’agit donc de nous former, tous et toutes, en commençant par nos enfants. Et pour cela, il faut commencer par les professionnels de l’éducation (enseignant·e·s et les cadres de l’éducation).
Une première priorité : la formation des professionnel·le·s de l’éducation.
Au-delà de la nécessaire formation aux fondamentaux de l’informatique, les professionnel·le·s de l’éducation doivent développer leur capacité à analyser les différents usages du numérique dans le contexte des différentes tâches de leur métier. Ils doivent également savoir intégrer différents types d’outils numériques (3) afin de les utiliser de manière la plus pertinente possible et créative dans leur activité pédagogique, comme une analyse au niveau européen (4) le recommande très justement. La formation aux usages du numérique doit tenir compte tant des usages numériques déjà pressentis d’un point de vue éducatif (par exemple. les jeux sérieux ou éducatifs ayant été conçus avec une intention à la fois ludique et éducative), que des usages numériques généraux (p. ex. les tendances à utiliser les jeux numériques afin de permettre aux enseignants d’exploiter leur usage ludique pour en faire un usage pédagogique).
À ce titre, l’intégration au sein des INSPÉ (Instituts nationaux supérieurs du professorat et de l’éducation) de formations plus approfondies en informatique est essentielle, en particulier pour les futur·e·s professeur·e·s de la spécialité NSI (Numérique et sciences informatiques). Cela l’est aussi pour des formations plus larges en lien avec l’enseignement de SNT (Sciences numériques et technologie), et cela concerne tous les enseignant.e.s au sein de leurs différentes spécialisations. En effet, comment concevoir d’être face à des élèves ayant acquis des compétences et un usage éclairé du numérique, par des savoirs et savoir-faire au niveau de ses fondements, sans avoir reçu soi-même cette formation minimale ?
Nous recommandons des formations aux SNT pour tous et toutes, apprenants de tous niveaux et de toutes spécialités, ainsi que pour tous les formateurs, enseignant·e·s et cadres d’éducation. Cela n’est pas encore acquis, car cet enseignement sur le numérique n’est pas explicitement prévu dans les heures de formation de la nouvelle maquette du Master MEÉF (Métiers de l’enseignement, de l’éducation, et de la formation). Il faudrait également créer un RAP (réseau d’apprentissage personnel) pour développer une entraide et tirer profit des communautés de pratiques, pour soutenir le développement professionnel des personnels enseignants. Sur un autre plan, pour les personnels d’encadrement de l’Éducation nationale, une formation au management du numérique éducatif existe, incluant la mise en place d’une offre pédagogique numérique à destination de l’ensemble de la communauté éducative.
Ceci nécessite une augmentation importante du nombre d’heures consacrées à la formation des enseignant·e·s en exercice, avec une reconnaissance des heures de formation en ligne et de la participation aux communautés de pratiques. On notera que, dans le cadre de la réorganisation annoncée de Réseau Canopé, la formation continue des enseignants sera l’une de ses missions principales.
Par ailleurs, le besoin de formation en pédagogie des ingénieures et ingénieurs pédagogiques produisant des ressources éducatives, est également important. En effet, la création de ressources numériques interactives, parfois utilisées en autonomie ou en semi-autonomie, déporte la création pédagogique beaucoup plus dans la phase de développement de la ressource (conception amont) que sur son utilisation (usage aval). Il est donc essentiel de former ces professionnel·le·s à la fois à la didactique des disciplines enseignées et aux leviers pédagogiques, en les rendant capables de scénariser et de faire un usage critique et éclairé du numérique. Des actions de formation innovantes de type SmartEdTech (6) permettent, tant à des professionnel·le·s issu·e·s du monde de l’éducation qu’à ceux venant du monde industriel du numérique, de développer collectivement une approche interdisciplinaire dans les projets EdTechs, intégrant de manière opérationnelle les savoir-faire des deux communautés.
Une seconde priorité : faire « université » de manière citoyenne autour du numérique.
Ce sera dans plusieurs années qu’une génération d’élèves aura progressivement acquis les compétences nécessaires pour maîtriser collectivement le numérique, au fil des formations de leurs enseignant·e·s. Il faut agir aussi dès maintenant au niveau de la formation tout au long de la vie. Bien sûr, il faut construire des formations adaptées selon les branches professionnelles et les besoins générationnels mais surtout, il faut envisager des formations de base pour les citoyens et les citoyennes de notre pays.
Il est important que ces formations citoyennes se fassent en regard d’un référentiel de compétences indépendant des certifications liées à des produits commerciaux eu égard à des questions de souveraineté. Aussi, nous proposons que la certification PIX (5) soit la référence française en matière de compétences culturelles de base en informatique.
Pour illustrer la stratégie que nous proposons, citons un pays, la Finlande qui a mis en place une formation en ligne de 50 heures à destination privilégiée des cadres du pays (1% de la population), mais accessible à l’ensemble de la population, afin de comprendre les bases de l’intelligence artificielle et des enjeux sociétaux induits par ces technologies disruptives (cette formation est également disponible en français (7)).
En France, la formation https://classcode.fr/iai, qui met l’accent sur des activités ludiques, concrètes et faciles à partager, devrait permettre d’inclure le plus grand nombre et pourrait servir de base à une formation plus large en complément d’autres formations moins techniques comme Objectif IA venant offrir une première entrée culturelle sur ces sujets.
Au-delà de ces ressources, il faut créer un espace de partage et de réflexion collective sur ces sujets. Dans cette optique, la notion d’ ‘université citoyenne et populaire du numérique en ligne’ adossée à un maillage d’initiatives territoriales, pourrait s’appuyer sur les succès d’initiatives déjà déployées en France, par exemple, Class’Code (8), engagée par Inria et ses partenaires en 2016 ou encore mobilisant les entreprises du numérique pour engager leur personnel dans des actions et en prenant appui sur celles qui le font déjà, Concrètement, il s’agit de passer de la formation des enseignant·e·s à la formation de toutes les citoyennes et tous les citoyens, labellisée et attestée, pour couvrir un besoin de formation à la pensée informatique tout au long de la vie, à travers une démarche partenariale et collective implémentée par l’action collaborative de ses partenaires. De façon hybride (en ligne et sur les territoires) on vient y satisfaire sa curiosité, discuter des questionnements posés par ces sujets, et surtout relier à son quotidien – p. ex. à l’aide de démarches de maker ou d’autres dans des tiers lieux – ces techniques pour les apprivoiser, cette offre se mettant au service des structures existantes comme détaillé par l’association EPI (9).
Conclusion
Selon une étude France Digitale-Roland Berger (10), la France était en 2019 en tête des investissements dans l’Intelligence Artificielle – levier du numérique de demain – en Europe avec un doublement des fonds levés par rapport à 2018, et l’Europe elle-même se positionne très fortement sur ces sujets. Notre pays a aussi fait le choix crucial de ne pas s’en remettre aux grands acteurs industriels du numérique, mais de former ses jeunes générations, de gagner son indépendance pour choisir son avenir en ce ‘temps des algorithmes’ (11). Nous voilà en bonne voie de réussite et finalisons le travail commencé afin de relever ce défi.
Gérard Giraudon (Inria) Pascal Guitton (Université de Bordeaux & Inria), Margarida Romero (Université Côte d’Azur), Didier Roy (Inria & LEARN EPFL) et Thierry Viéville (Inria) se sont associés pour la rédaction de cette tribune.
NOTES
(1) L’enseignement de l’informatique en France – Il est urgent de ne plus attendre, rapport de l’Académie des Sciences, 2013 ici
(2) Le numérique pour apprendre le numérique ? Blog binaire de LeMonde.fr, 2020 (ici)
(3) Le référentiel de compétences des métiers du professorat et de l’éducation, 2013 (ici)
(4) Recommandation du conseil de l’Euope relative à des systèmes de qualité pour l’éducation et l’accueil de la petite enfance, 2019 (ici)
(7) Un cours en ligne gratuit – Elements of AI (ici)
(8) Cette action de formation hybride offre un maillage du territoire au sein de tiers-lieux permettant de faire coopérer les acteurs de terrain. Après quatre ans de déploiement, plus de 80 000 personnes ont été formées, plus de 70 partenaires dans 10 régions métropolitaines et en outre-mer participent à des niveaux divers et plus de 430 000 internautes ont accédé aux ressources – librement réutilisables – proposées (ici)
(9) Apprentissage de la pensée informatique : de la formation des enseignant·e·s à la formation de tou·te·s les citoyen.ne.s, EPI, 2019 (ici)
(10) La France en tête des investissements européens dans l’IA en 2019, maddyness.com 2019 (ici)
Victor Storchan (VS): Quelles ont été vos motivations initiales et vos objectifs pour l’élaboration de votre cours en ligne ?
L’équipe de Class´Code (CC): Il s’agit d’offrir une initiation à l’Intelligence Artificielle via une formation citoyenne, gratuite et attestée https://classcode.fr/iai, dans le cadre d’une perspective « d’Université Citoyenne et Populaire en Sciences et Culture du Numérique » où chacune et chacun de la chercheuse au politique en passant par l’ingénieure ou l’étudiant venons avec nos questionnements, nos savoirs et savoir-faire à partager.
Très concrètement on y explique ce qu’est l’IA et ce qu’elle n’est pas, comment ça marche, et quoi faire ou pas avec. On découvre les concepts de l’IA en pratiquant des activités concrètes, on y joue par exemple avec un réseau de neurones pour en démystifier le fonctionnement. On réfléchit aussi, ensemble, à ce que le développement de l’IA peut soulever comme questions vis-à-vis de l’intelligence humaine.
CC: La cible primaire est l’ensemble des personnes en situation d’éducation : enseignant·e, animateur·e et parents, qui doivent comprendre pour re-partager ce qu’est l’IA. C’est —par exemple— abordé au lycée dans les cours de sciences de 1ère et terminale, c’est abordé de manière transversale dans les enseignements d’informatique et présent dans de nombreux ateliers extra-scolaires.
Par extension, toutes les personnes qui veulent découvrir ce qu’est l’IA et se faire une vision claire des défis et enjeux posés, ceci en “soulevant le capot”, c’est-à-dire en comprenant comment ça marche, sont bienvenues. Et c’est de fait une vraie formation citoyenne.
VS: Quels sont les apports de votre cours pour ce public ?
Ce qui rend ce cours attrayant est une approche ludique et pratique avec une diversité de ses supports – vidéos conçues avec humour, tutos et activités pour manipuler (y compris avec des objets du quotidien) les mécanismes sous-jacents, des ressources textuelles pour aller plus loin, et des exercices pour s’évaluer. Toutes ces ressources sont réutilisables.
Ce qui rend ce cours unique, par rapport aux autres offres connues, est un forum pour échanger et des webinaires et rencontres en ligne ou en présentiel sur ces sujets, à la demande des personnes participantes : la formation sert de support pour des rencontres avec le monde de la recherche. Cette possibilité de dialogue direct entre personnes participantes, de proposer des ressources ou des liens en fonction des besoins est vécu comme un point majeur de cette formation.
VS: Pouvez-vous partager les premiers résultats à ce stade et quelles sont vos perspectives futures ?
CC: Ouvert en avril 2020, le MOOC Class’Code IAI “Intelligence Artificielle avec Intelligence” a attiré jusqu’à présent (mi-novembre) plus de 18800 personnes, dont beaucoup ont effectivement profité d’au moins un élément de la formation et délivré 1038 attestations de suivi. Il y a plus de 5300 personnes sur le forum et près de 600 messages échangés, beaucoup entre l’équipe pédagogique et les personnes participantes, mais aussi entre elles. Nos mooqueurs et mooqueuses se disent satisfaits à plus de 94%. Les rencontres en ligne attirent entre 50 et 100 personnes et sont vues par plusieurs centaines en replay. Les vidéos sont réutilisées au sein de plusieurs ressources numériques en lien avec les manuels d’apprentissage des sciences en première et terminale qui inclut le sujet de l’IA ou sur le sitelumni.fr de France Télévision (qq milliers de vues, mais pas de comptage précis).
Au niveau des perspectives, nous invitons les personnes à suivre ensuite par exemple Elements Of AI course.elementsofai.com/fr-be dans sa version francophone, pour se renforcer sur des éléments plus techniques, tandis que notre action s’inscrit dans la perspective de cette université citoyenne déjà citée.
VS: Comment vos ressources participent-elles à la création d’une confiance dans le développement de ces innovations, et aident-elles à développer un esprit critique constructif à ces sujets ?
Nous avons deux leviers principaux. Le premier est de dépasser les idées reçues (les “pourquoi-pas”) sur ce sujet et d’inviter à distinguer les croyances, les hypothèses scientifiques (qui pourront être infirmées, contrairement aux croyances qui ne seront jamais ni fausses, ni vraies), des faits avérés. Pour développer l’esprit scientifique il est particulièrement intéressant de montrer que, à l’instar de l’astrologie par exemple, il y a dans le domaine de l’IA l’émergence d’une pseudo-science qu’il faut expliciter et dépasser. Le second est de “comprendre pour pouvoir en juger”. Nous voulons aider les personnes à avoir une vision opérationnelle de ce qu’est l’IA, pas uniquement des mots pour en parler, de façon à réfléchir en profondeur sur ce qu’elle peut apporter.
Motivé par ladéclaration commune franco-finlandaise de “promouvoir une vision de l’intelligence artificielle juste, solidaire et centrée sur l’humain” nous pensons que la première étape est d’instruire et donner les moyens de s’éduquer.
VS: Quelles difficultés surmonte-t-on pour déployer un projet comme celui-ci ?
CC: Au niveau des moyens, forts de la réussite du projet Class´Code nous avons été soutenus sans souci par des fonds publics et avons eu les moyens des objectifs choisis.
Au niveau de la diffusion, il est moins facile de faire connaître notre offre qui est peu relayée médiatiquement, car le message est moins “sensationnel” que d’autres, nous construisons notre notoriété principalement sur les retours des personnes qui ont pu en bénéficier.
Au niveau des personnes, le principal défi est d’apaiser les peurs et d’aider à dépasser les idées reçues, parfois les fantasmes sur ces sujets : l’idée d’une intelligence qui émergerait d’un dispositif inanimé de la légende de Pinocchioau mythe du Golem est ancrée dans nos inconscients et c’est un obstacle à lever.
VS: Quels sont les bénéfices de la coopération entre partenaires de votre initiative, en particulier pour la réalisation d’un cours sur l’IA par nature interdisciplinaire ?
CC: Ils sont triples.
D’une part en associant des compétences académiques en sciences du numérique, neurosciences cognitives et sciences de l’éducation on se donne vraiment les moyens de bien faire comprendre les liens entre intelligence artificielle et naturelle, et d’avoir les bons leviers pour permettre d’apprendre à apprendre.
Par ailleurs, à travers Class´Code et plus de 70 de ses partenaires, on donne les moyens aux initiatives locales, associatives ou structurelles de disposer de ressources de qualité et de les co-construire avec elles et eux, pour être au plus près du terrain. Notre collaboration avec des entreprises d’éducation populaire de droit public comme La Ligue de l’Enseignement ou de droit privé comme Magic Maker, ou des clusters d’entreprise EdTech comme celles d’EducAzur montre aussi que les différents modèles économiques ne s’excluent pas mais se renforcent sur un sujet qui est l’affaire de toutes et tous.
VS: Au-delà de la formation, quels sont les atouts et les faiblesses de l’Europe pour peser dans la compétition technologique mondiale ?
CC: Il y a de multiples facteurs qui dépassent notre action. Mais relevons en un qui nous concerne directement : celui d’éduquer au numérique et ses fondements, que nous discutons ci-dessous.
VS: Votre initiative crée donc un lien éducation et IA, quels sont les liens à renforcer entre IA et éducation (par exemple apprentissage de l’IA dans le secondaire) et éducation et IA (par exemple des assistants algorithmiques), et quels sont les impacts socio-économiques visés ?
CC: Les liens entre IA et éducation sont doubles : éduquer par et au numérique comme on le discute ici en explicitant les liens entre IA et éducation au-delà des idées reçues qui sont bien décryptées montrant les limites de l’idée que le numérique va révolutionner l’éducation. Nous nous donnons avec ce MOOC IAI les moyens pour que nos forces citoyennes soient vraiment prêtes à relever ces défis. L’apprentissage scolaire de l’informatique est un vrai levier et un immense investissement pour notre avenir, et la France a fait ce choix d’enseigner les fondements du numérique pour maîtriser le numérique.
VS: Confier à des algorithmes des tâches qui mènent à des décisions cruciales, par exemple en matière de justice, d’embauche, ou d’autres décisions à forte conséquence humaine, questionne, quel est votre positionnement sur ce sujet ? Quelle place pensez-vous que l’éthique doit prendre dans votre enseignement ?
CC: Pouvoir se construire une éthique, c’est-à-dire se forger un jugement moral sur ce qu’il convient de faire ou pas avec l’IA, est en quelque sorte l’aboutissement de cette formation. Là encore cela passe par la compréhension de notions fines comme interprétabilité et explicabilité ou les causes des biais dans les mécanismes d’IA venant des données ou des algorithmes pour ne pas juste émettre des opinions superficielles à ce sujet. Aucun sujet technique n’est abordé sans que ces aspects éthiques ou sociétaux le soient comme c’est le cas en robotique.
D’un point de vue éthique, la responsabilité est toujours “humaine”, par exemple si on laisse l’algorithme décider, c’est notre décision de le faire : de déléguer la décision à un algorithme au lieu de la prendre soi-même, c’est un choix et c’est un humain qui doit faire ce choix. Si vous choisissez de “faire confiance” à une machine avec un algorithme d’IA, vous faites surtout confiance en votre propre jugement quant aux performances de ce mécanisme.
VS: Le fait que des tâches cognitives de plus en plus complexes soient réalisées par des programmes nous amène-t-il à reconsidérer l’intelligence humaine ? Est-ce que cela a des impacts sur notre vision de l’IA ? Sur son enseignement ?
CC: C’est tout à fait le cas. On se pose souvent la question « symétrique » de savoir si une machine peut être ou devenir intelligente : le débat est interminable, car -en gros- il suffit de changer la définition de ce que l’on appelle intelligence pour répondre “oui, pourquoi-pas” ou au contraire “non, jamais”. La vraie définition de l’IA est de “faire faire à une machine ce qui aurait été intelligent si réalisé par un humain”, ce qui évite de considérer cette question mal posée.
En revanche, avec la mécanisation de processus cognitifs, ce qui paraissait “intelligent” il y a des années par exemple, le calcul mental devient moins intéressant avec l’apparition -dans ce cas- de calculettes. De même l’intelligence artificielle soulage les humains de travaux intellectuels que l’on peut rendre automatiques. Du coup, cela oblige à réfléchir à l’intelligence humaine en fonction et au-delà de ce que nous appelons la pensée informatique.
Par exemple, nous savons que plus le problème à résoudre est spécifique, plus une méthode algorithmique sera efficace, possiblement plus que la cognition humaine, tandis qu’à l’inverse plus le problème à résoudre est général, moins un algorithme ne pourra intrinsèquement être performant, quelle que soit la solution (no free lunch theorem). Il se trouve que les systèmes biologiques eux aussi ont cette restriction, l’intelligence humaine n’est donc peut-être pas aussi “générale” qu’on ne le pense.
VS: Nous vivons au temps des algorithmes. Quelle place voulons-nous accorder aux algorithmes dans la “cité” ? Est-ce que cela nous conduit à repenser cette cité ? Comment mieux nous préparer au monde de demain ?
CC: En formant en profondeur les citoyennes et citoyens, nous nous donnerons « les moyens de construire un outil qui rend possible la construction d’un monde meilleur, d’un monde plus libre, d’un monde plus juste … » écrivent Gilles Dowek et Serge Abiteboul en conclusion du “temps des algorithmes”.
Que des robots assistent des personnes âgées pour reprendre leur exemple, sera un progrès, permettant de les maintenir chez eux, à leur domicile et dans l’intimité de leur dignité, mais si cela est vu uniquement comme un levier de réduction des coûts de prise en charge, ou un moyen de nous désengager d’une tâche parmi les plus humaines qui soit à savoir s’occuper des autres, alors la machine nous déshumanisera.
Cet exemple nous montre surtout, comme la crise sanitaire le fait aussi depuis quelques mois, que des circonstances exceptionnelles nous obligent à revoir en profondeur les équilibres que nous pensions acquis pour notre société. Quand, et cela est en train d’advenir, nous aurons mécanisé la plupart des tâches professionnelles qui sont les nôtres aujourd’hui, nous allons devoir organiser autrement la société.
Frédéric Alexandre, Marie-Hélène Comte, Martine Courbin-Coulaud et Bastien Masse.
Grand merci à Inria Learning Lab pour avoir porté et adapté le MOOC sur FUN ainsi que pour le forum.
ToutEduc a rendu compte des propositions Inria émises dans le cadre des Etats généraux du numérique pour l’Éducation. L’institut national en sciences et technologies du numérique partage ici la suite de ses recommandations, celles qui concernent les EdTechs. Serge Abiteboul
Dans le cadre des Etats généraux du numérique pour l’Éducation, Inria a émis plusieurs recommandations et a choisi ToutEduc pour leur présentation. Nous avons publié le premier volet sur la recherche (ici). En voici un second relatif à l’action publique.
Les auteurs* de cette tribune veulent « mettre en exergue la nécessité d’engager l’Etat et ses opérateurs dans la création de cadre permettant à des écosystèmes de se développer et de créer des dynamiques collectives au bénéfice de tous les acteurs qu’ils soient publics ou privés en favorisant la mise en commun des forces et en favorisant la dynamique économique ». Il s’agit de « créer les conditions du développement et de la mise à jour de ressources éducatives numériques », celles-ci étant conçues comme des « biens communs ». Toutefois, les auteurs que cette notion n’exclut pas l’intervention d’opérateurs privés, puisque, aujourd’hui des structures qui n’ont pas de statut « public » diffusent en ligne du contenu éducatif librement accessible et ouvert au plus grand nombre sur la planète à l’instar de ce que ferait un « Etat planétaire ». La question ne porte donc pas tant sur l’opposition « public-privé » que sur la restriction (au sens « réserver à un petit nombre ») de l’éducation et surtout des contenus pédagogiques. Le « Savoir » a vocation à être à libre disposition de tous, et le contenu pédagogique qui permet d’enseigner ce savoir doit être accessible au plus grand nombre. La question est surtout « Qui doit garantir le respect de la qualité scientifique des contenus et des valeurs culturelles de la société des matières enseignées ? ». Qui maîtrise le contenu enseigné maîtrise en effet la culture de la société et ses valeurs. Plus qu’une opposition « public-privé » il s’agit donc surtout de souveraineté, estiment les auteurs.
La tribune
« Inria a beaucoup œuvré depuis la fin des années 1990 au développement du logiciel ‘open source’, notamment pour le développement d’infrastructures sur lesquelles la société numérique se construit et où l’on retrouve la question de biens communs (voir ici). Mais le développement de logiciels open source au sein de communautés de personnes n’empêche pas la création d’activités économiques autour de ces logiciels et même la création d’entreprises privées (dont les plus emblématiques travaillent autour de Linux) qui contribuent à un bien commun.
Il semble ‘évident’ qu’il soit nécessaire de créer des biens communs en éducation.
Mais, d’une part il faut que ces bien communs soient évolutifs et basés sur des ressources libres et éditables par les acteurs éducatifs ce qui n’empêche pas que ces acteurs puissent être des entreprises privées aptes à assurer au mieux la maintenabilité des solutions et leur pérennité si cela garantit la meilleure efficience avec le modèle économique qu’il convient de trouver dans les meilleurs équilibres ; l’innovation réside en grand partie sur ce point.
D’autre part, ces ressources doivent pouvoir être indexées de manière à faciliter leur usage par les enseignants. Actuellement, malgré l’existence d’une quantité très importante de ressources, la localisation de celles-ci et la capacité à trouver facilement les ressources nécessaires pour les différentes disciplines et niveaux éducatifs reste un défi.
Par ailleurs, certaines ressources sont limitées dans leur diffusion parce qu’elles ont été développées par peu de personnes et que, pour de multiples raison les mises à jour s’arrêtent, voire quelques unes disparaissent ou parce qu’elles ont été développées avec des technologies propriétaires qui n’interopèrent pas. L’accessibilité de toutes les REN (ressources éducatives numériques) relève d’un enjeu éducatif majeur pour s’assurer que les inégalités éducatives ne s’accentuent pas du fait des limites d’accessibilité des ressources. Il faut souligner que les situations de handicap aggravent ce problème d’accès aux ressources. Dans ce contexte, on parle alors de l’absence d’accessibilité numérique qui exclut de facto des personnes du droit élémentaire de tous les citoyens à la formation. Cette remarque peut être étendue à l’accès à l’information, au divertissement, à l’emploi via les outils numériques devenus incontournables aujourd’hui. Enfin, nous pouvons rappeler que cette exclusion est d’autant plus douloureuse à vivre et à constater que le numérique offre des solutions bénéfiques potentielles aux personnes en situation de handicap.
Garantir la portabilité des données personnelles éducatives et développer l’interopérabilité des solutions logicielles
Le règlement général sur la protection des données (RGPD) a été un acte fondateur en définissant le cadre juridique pour les données à caractère personnel des citoyens de l’Union Européenne. Ce règlement, construit sur les principes de ‘privacy by design’ (c’est à dire la prise en compte de la gestion de la confidentialité en amont, dès la conception du système, et non pas en aval une fois le logiciel développé) et de consentement individuel, garantit la portabilité des données pour chaque résident de l’UE qui est donc un droit exécutoire. À ce jour, aucun système, y compris au sein de l’Éducation nationale ou de l’Enseignement supérieur ne garantit cette portabilité. En effet, au motif que le cadre juridique autorise une exception à ce droit individuel dans le cadre de l’exercice du service public d’éducation, peu d’efforts sont faits pour permettre aux données personnelles d’éducation de circuler.
Difficile donc de concevoir qu’à l’âge où la plupart des productions individuelles des élèves se font par le numérique, on s’interdise de leur permettre de les conserver et réutiliser facilement ; chose qui paradoxalement, à l’âge du cahier papier semblait une évidence et était encouragée ! On se coupe ainsi d’une formidable opportunité de développement individuel et économique, pour le bénéfice de chacun des acteurs : élèves, enseignants, parents, chercheurs, et entreprises du secteur. Sans rentrer dans les débats techniques, des principes techniques existent en particulier via les systèmes de gestion des informations personnelles (PIMS) (1). Les PIMS permettent aux personnes de gérer leurs données à caractère personnel dans des systèmes de stockage sécurisés locaux ou en ligne et de les partager au moment et avec les personnes de leur choix. La start-up Inrupt, co-fondée par l’inventeur du Web, Tim Bernes-Lee, a été créée avec pour objectif de redonner aux internautes un plein contrôle sur leurs données et elle vient d’annoncer le lancement de son produit entreprise Solid (ici). Le cœur de l’action publique est alors de favoriser et de garantir la portabilité des données personnelles éducatives et nous recommandons la création du dossier de formation personnalisé permettant à tout apprenant de se réapproprier ses données d’éducation dans le contexte de société apprenante (2) (3) et qui s’inscrit pleinement dans la réforme du compte personnel de formation. Mais cela ne suffit pas car il faut aussi encourager voire imposer des standards pour l’interopérabilité des solutions logicielles, seule apte à garantir que toute solution technique ne tombe pas dans une escarcelle monopolistique quelle qu’elle soit dont on sait que c’est un frein à toute évolution, à toute innovation y compris dans le cadre d’une vision de ‘bien public’ (4).
Créer un observatoire des EdTechs
Nous proposons d’ailleurs de re-créer un observatoire des Edtechs. Une première initiative avait vu le jour en mars 2017 avec la création d’un Observatoire EdTechs porté par Cap Digital avec le soutien de la Caisse des dépôts et de la MAIF. Cet observatoire a permis de mettre en avant la dynamique des startups EdTechs mais n’a pas réussi, peut-être par manque de moyens et de maturité du secteur, à créer un observatoire des pratiques, des usages, de l’offre et de la demande dans le vaste champ de la formation (formation initiale et continue, etc.). Cet observatoire a été fermé en 2019.
Néanmoins, le besoin existe et va au-delà de la première version qui était essentiellement une liste statique d’entreprises des EdTechs. Actuellement, de très nombreux sites web fournissent des informations relatives au numérique éducatif : le très riche site Eduscol de l’Éducation nationale, le site de la DNE pour la veille et la diffusion des travaux de recherche sur le numérique dans l’éducation, les ressources pédagogiques développées par le CNED, les ressources de Canal U, l’initiative HUBBLE déjà citée, l’observatoire eCarto des territoires porté par la Banque des territoires, des observatoires d’académies (Paris, La Réunion, etc.), des sites d’associations d’entreprises (Afinef, EdTech France, EducAzur, etc.) Mais il n’y a pas à ce jour un observatoire qui permette d’agréger des informations, d’observer à l’échelle nationale des tendances et de mettre à disposition des données consolidées du numérique éducatif et encore moins d’avoir un travail de synthèse de référence et de parangonnage français et international (a minima dans l’espace francophone).
Aujourd’hui l’information sur le numérique éducatif est donc fragmentée et mélange contenus, solutions, informations, etc.
Aussi, nous recommandons de mettre en place un observatoire (français) des EdTechs pérenne sous la forme d’une plateforme web recensant les dispositifs utilisés dans l’enseignement et la formation, avec des évaluations quand elles existent, une cartographie des équipes de recherche travaillant sur le numérique pour l’éducation, une cartographie des entreprises du secteur et de leurs solutions, un blog listant les innovations du moment, etc.
Un tel observatoire doit être le reflet de l’écosystème français de l’usage des EdTechs et à ce titre il doit être construit en partenariat avec les associations d’entreprises et les clusters EdTechs régionaux mais aussi avec l’implication forte des acteurs de la formation (Éducation nationale, universités, écoles, etc.), du monde de la recherche et des collectivités territoriales. Cet observatoire devrait pouvoir jouer un rôle majeur de mise en relation avec des alter ego en Europe mais aussi dans ceux de l’espace francophone.
Pour porter une telle ambition, des moyens seront nécessaires mais il nous semble que pour garantir la neutralité et la pertinence de cet observatoire, il doit être porté par l’action publique à l’instar de ce qu’elle a réussi à faire avec PIX ; on pourrait par exemple réfléchir à le structurer avec les nouvelles missions actuellement envisagées pour le réseau Canopé et certainement avec la collaboration des ministères les plus concernés (MENJ, MESRI, MEIN).
* Les auteurs :
Gérard Giraudon (Inria). Pascal Guitton (Université de Bordeaux & Inria, Jean-Baptiste Piacentino (Edtech One), Margarida Romero (Université Côte d’Azur), Didier Roy (Inria & LEARN EPFL) et Thierry Viéville (INRIA) se sont associés pour la rédaction de cette tribune.
Notes
(1) « Managing your digital life with a Personal information management system », Serge Abiteboul, Benjamin André et Daniel Kaplan, Communications of the ACM, ACM, 2015, 58 (5), pp.32-35. hal-01068006
(2) « L’école dans la société du numérique », rapport n°1296 de la commission parlementaire des affaires culturelles et de l’éducation, rapporteur Bruno Studer, octobre 2018 (92 pages).
http://www.assemblee-nationale.fr/15/rap-info/i1296.asp
(3) « Un plan pour co-construire une société apprenante », François Taddei, Catherine Becchetti-Bizot, Guillaume Houzel, avril 2018 (88 pages).https://cri-paris.org/wp-content/uploads/2018/04/Un-plan-pour-co-contruire-une-societe-apprenante.pdf
(4) Les standards pour le numérique éducatif se sont développés au cours des dernières décennies, notamment en lien avec des plates-formes de formation (Learning Management Systems) par le biais des normes comme SCORM, AICC ou xAPI. Le standard Learning Technology Standards, IEEE-LTSC-LOM, permet également de décrire des objets d’apprentissage. Malgré le développement initial de SCORM, les standards restent encore trop peu intégrés dans de nombreuses ressources éducatives. Ces standards ne tiennent pas suffisamment compte des aspects pédagogiques et didactiques, bien que la LOM ou sa forme plus moderne la MLR (compatible avec le Web sémantique) intègre des éléments pédagogiques, sans vraiment faire office de standard. La plateforme edX y réfléchit car il est nécessaire de développer un standard si l’on veut disposer de normes plus largement utilisées. Le développement d’une terminologie commune en sciences de l’éducation comme le propose le « Lexicon project » est également un enjeu tant pour la recherche en sciences de l’éducation que pour le développement de solutions éducatives interopérables.