Catégorie : Actualité

  • Geek toi même !

    Vous connaissez la méthode « agile » ? Non ? Vous n’êtes pas informaticien·ne alors !  Vous connaissez quelqu’un qui ressemble à un « nerd´´ ou un « geek´´ ? Ça ne doit pas être un·e informaticien·ne alors ! Dans ce billet, Pauline Bolignano  avec la complicité de Camille Wolff pour les illustrations, déconstruit des idées reçues et nous explique ce que méthode « agile´´ veut dire. Serge Abiteboul et Thierry Viéville

    Après quelques jours de confinement, une amie me dit : « je travaille dans la même pièce que mon coloc’, il passe sa journée à parler ! Je n’aurais jamais imaginé que votre travail était si sociable !». Son coloc’, tout comme moi, fait du développement informatique. L’étonnement de mon amie m’a étonnée, mais il est vrai que l’on n’associe pas naturellement « informaticien·ne » à « sociable ». D’ailleurs, si je vous demande de fermer les yeux et d’imaginer un·e informaticien·ne, vous me répondrez surement un homme aux cheveux cachés sous la capuche de son sweat-shirt, tout seul devant son écran, et pas sociable pour un sous :

    Un geek quoi. En réalité, le métier d’ingénieur·e informaticien·ne demande énormément de collaboration. Je voulais donc plonger dans cet aspect du métier qui me semble être rarement mis en avant.

    Les spécificités du domaine informatique

    Lorsqu’on construit un logiciel, les contraintes et les possibilités sont différentes que lorsque l’on construit un édifice. Prenez par exemple la construction d’un pont. L’architecte passe de longs mois à dessiner le pont. Les ingénieur·es civil·e·s passent des mois, voir des années, à étudier le terrain, les matériaux et faire tous les calculs nécessaires. Puis les conducteurs/trices de travaux planifient et dirigent la construction pendant quelques années. Ensuite le pont ne bouge plus pendant des centaines d’années.

    En informatique, c’est tout à fait différent. D’une part, il arrive que l’ingénieur·e soit à la fois l’architecte, le/a planificateur/rice, et le.a programmatrice/teur du logiciel. D’autre part, les cycles sont en général beaucoup plus courts. Pour reprendre la comparaison avec le pont, avant même de commencer l’architecture, on sait qu’il est possible que dans quelques mois le sol ait bougé, et qu’il faille adapter les fondations. Les ingénieur·e·s de l’équipe doivent sans cesse se synchroniser car il y a une forte dépendance entre les tâches de chacun·e.

    Le développement logiciel offre plein de nouvelles possibilités. Il donne l’opportunité de construire de manière incrémentale, d’essayer des choses et de changer de direction, de commencer petit et d’agrandir rapidement. C’est comme si vous construisiez un pont piéton, puis que vous puissiez par la suite l’agrandir en pont à voiture en l’espace de quelques semaines ou mois, sans bloquer à aucun moment le trafic piéton.

    L’organisation de la collaboration

    La malléabilité et la mouvance du logiciel demandent une grande collaboration dans l’équipe. C’est d’ailleurs ce que prône la méthode Agile [1]. Ce manifeste met la collaboration et les interactions au centre du développement logiciel. Déclinée en diverses implémentations, la méthode Agile est largement adoptée dans l’industrie. Scrum est une implémentation possible de la méthode Agile, bien que la mise en place varie fortement d’une équipe à l’autre.

    Prenons un exemple concret d’organisation du travail suivant la méthode Scrum : la vie de l’équipe est typiquement organisée autour de cycles, disons 2 semaines, que l’on appelle des « sprints ». A chaque début de sprint, l’équipe se met d’accord sur la capacité de travail de l’équipe pour le sprint, et sur le but qu’elle veut atteindre pendant ce sprint. Les tâches sont listées sur un tableau, sur lequel chacun notera l’avancement des siennes. Tous les jours, l’équipe se réunit pour le « stand-up ». Le « stand-up » est une réunion très courte, où chaque membre de l’équipe dit ce qu’ille a fait la veille, ce qu’ille compte faire aujourd’hui et si ille rencontre des éléments bloquant. Cela permet de rebondir vite, et de s’entraider en cas de problème. Régulièrement, au cours du sprint ou en fin de sprint, un ou plusieurs membres de l’équipe peuvent présenter ce qu’illes ont fait au cours de « démos ». Enfin, à la fin du sprint, l’équipe fait une « rétro ». C’est une réunion au cours de laquelle chacun·e exprime ce qui s’est bien passé ou mal passé selon lui.elle, et où l’on réfléchit ensemble aux solutions. Ces solutions seront ajoutées comme des nouvelles tâches aux sprints suivants dans une démarche d’amélioration continue.

    Une pratique très courante dans les équipes travaillant en Agile est la programmation en binôme. Comme son nom l’indique, dans la programmation en binôme, deux programmeuses/eurs travaillent ensemble sur la même machine. Cela permet au binôme de réfléchir ensemble à l’implémentation ou de détecter des erreurs en amont. Le binôme peut aussi fonctionner de manière asymétrique, quand l’une des deux personnes aide l’autre à progresser ou monter en compétence sur une technologie.

    Ainsi si vous vous promenez dans un bureau d’informaticien·ne·s, vous y croiserez à coup sûr des groupes de personnes devant un écran en train de débugger un programme, une équipe devant un tableau blanc en train de discuter le design d’un système, ou une personne en train de faire une « démo » de son dernier développement. Bien loin de Mr Robot, n’est ce pas ?

    De Monsieur robot à Madame tout le monde

    On peut également enlever son sweat-shirt à capuche à notre représentation de l’informaticien·ne, puisque développer du logiciel peut a priori être fait dans n’importe quelle tenue. En revanche, notre représentation de l’informaticien a bien une chose de vraie : dans la grande majorité des cas, c’est un homme. Si vous vous promenez dans un bureau d’informatique, vous ne croiserez que très peu de femmes. En France, il y a moins de 20 % de femmes en informatique, tant dans la recherche que dans l’industrie [2]. À l’échelle d’une équipe, cela veut dire que, si vous êtes une femme, vous ne travaillez probablement qu’avec des hommes.

    Ceci est surprenant car l’informatique est appliquée à tellement de secteurs qu’elle devrait moins souffrir des stéréotypes de genre que d’autres domaines de l’ingénierie. L’informatique est utilisée en médecine, par exemple pour modéliser la résistance d’une artère à l’implantation d’une prothèse. Elle est utilisée dans le domaine de l’énergie, pour garantir l’équilibre du réseau électrique. L’informatique est aussi elle-même sujet d’étude, quand on souhaite optimiser un algorithme ou sécuriser une architecture [3,4]. Elle est même souvent une combinaison des deux. Quand l’informatique est appliquée à des domaines considérés comme plus « féminins » comme la biologie, la médecine, les humanités numériques, le déséquilibre est d’ailleurs moins marqué.

    Il y a encore du chemin à faire pour établir l’équilibre, mais je suis assez optimiste. Beaucoup d’entreprises et institutions font un travail remarquable en ce sens, non seulement pour inverser la tendance, mais aussi pour que tout employé·e se sente bien et s’épanouisse dans son environnement de travail.

    Pour inverser la tendance, il me semble important de sortir les métiers de leur case, car sinon on prend le risque de perdre en route tout·te·s celles et ceux qui auraient peur de ne pas rentrer dans cette case. En particulier, il me semble que cette image du développeur génie solitaire, en plus d’être peu représentative de la réalité, peut être intimidante et délétère pour la diversité. Dans ce court article, j’espére en avoir déconstruit quelques aspects.

    En conclusion, cher·e·s étudiant·e·s, si vous vous demandez si le métier d’ingénieur·e informaticien·ne est fait pour vous, ne vous arrêtez pas aux stéréotypes. À la question « à quoi ressemble un·e ingénieur·e informaticien·ne ?», je réponds : « si vous choisissez cette voie … à vous, tout simplement ! ».

    Pauline Bolignano, docteure en Informatique, Ingénieure R&D chez Amazon, Les vues exprimées ici sont les miennes..

    Camille Wolff, ancienne responsable communication en startup tech en reconversion pour devenir professeur des écoles, et illustratrice ici, à ses heures perdues.

    Références :

    [1] Manifeste pour le développement Agile de logiciels
    [2] Chiffres-clés de l’égalité femmes-hommes (parution 2019):
    [3] L’optimisation est dans les crêpes
    [4] La cybersécurité aux multiples facettes

  • Contact tracing contre Covid 19

    On trouve profusion d’articles sur l’utilisation du contact tracing pour combattre le virus. Le sujet passionne : les informaticiens qui aimeraient participer plus à la lutte contre le virus, les médecins souvent sceptiques, les défenseurs des libertés qui ne veulent pas que ce soit l’occasion de rogner sur la protection de la vie privée. Certains mélangent tout, géolocalisation et Bluetooth, avoir attrapé un jour le virus et être contagieux, etc. Et puis, l’utilité n’est encore pas très claire.

    L’idée est simple. À partir d’applications sur les téléphones mobiles, on peut savoir que deux personnes ont peut-être été en contact et si l’une développe le virus, on peut prévenir l’autre qu’elle a été peut-être contaminée. Il y a deux grandes techniques possibles : la géolocalisation qui est intrusive et flique en permanence son utilisateur, et le Bluetooth discuté en France en ce moment.

    Bluetooth est une norme de communication qui utilise des ondes radios pour échanger des données entre un téléphone (intelligent) et un ordinateur, ses écouteurs, ou un autre téléphone… Le Bluetooth fonctionne sans géolocalisation.

    On peut être a priori réticent mais les choix du gouvernement comme évoqués par Cédric O vont dans le bon sens pour protéger la confidentialité des données personnelles.

    Comment marche une telle App ?

    Il y a de nombreuses possibilités techniques plus ou moins intrusives. En voici une.

    Quand deux téléphones sont proches physiquement (quelques mètres ?) pendant un certain temps (par exemple, 5mn ou plus), ils utilisent leur connexion Bluetooth pour se dire « coucou » ; chacun envoie à l’autre un nombre aléatoire utilisé juste pour cette rencontre (ou pour un laps de temps très court). Si une personne se découvre le virus, elle le déclare volontairement dans l’application et son téléphone transmet alors à un site centralisateur les nombres aléatoires qu’elle a utilisés avec les dates associées. Chaque téléphone consulte régulièrement la base de données de ces nombres et s’il trouve dans un des nombres un de ceux qu’il a reçus d’un téléphone au cours d’un de ces coucous, il prévient son utilisateur qu’il a peut-être été contaminé. Il suffira ensuite de suivre les recommandations des autorités de santé, comme se faire tester, se confiner chez soi…

    Des pays ont déjà utilisé des applications pour contrôler la propagation du virus notamment Singapour, Taïwan et la Corée du Sud. La France, l’Allemagne, des centres de recherche, des entreprises… travaillent aussi là-dessus. Pour la France et un consortium de chercheurs piloté par Inria, une application StopCovid est considérée en lien avec l’Europe et le projet Peppt-PT dont une App est déjà testée en Allemagne. Dans le cadre de cette collaboration, Inria et Fraunhofer AISEC ont publié le protocole ROBERT, pour ROBust and privacy-presERving proximity Tracing (1). Google et Apple préparent les briques de bases d’une API commune qui permettraient à ces App de fonctionner aussi bien sur Android que sur iOS. L’aide des entreprises est importante, mais il reste préférable que l’application elle-même soit développée par des scientifiques, en toute transparence.

    Des difficultés techniques

    Le Bluetooth apprécie mal les distances surtout si le téléphone est dans une poche ou un sac ; on cherche à améliorer cela. Une autre difficulté, s’il y a trop de personnes contaminantes en circulation, on risque assez vite d’être inondé de notifications et tous être considérés potentiellement comme contaminés. Ça ne marche plus.

    Et puis, cette technique n’est utile que si une proportion importante de la population joue le jeu, on parle de 60%. Il faut déjà exclure une petite, mais non négligeable, partie de cette population qui n’a pas de téléphone intelligent ou qui aurait des difficultés à se servir d’une App même simple. (Des solutions sont à l’étude pour inclure également ces personnes.) Et parmi les connectés, qui aura assez confiance dans l’appli pour l’installer, pour se déclarer infecté… ? Ce n’est pas bien parti en France selon des sondages. Espérons que, devant l’urgence médicale, si une App « éthique » est proposée, et si les médecins nous disent que c’est efficace, les mentalités changeront.

    La protection de la vie privée

    On est en plein dans le domaine de la CNIL. Marie-Laure Denis, sa Présidente, a pris des positions claires (2), ainsi que le Comité National Pilote d’Éthique du Numérique (3).

    On semble se diriger en France vers de bons choix : (i) l’utilisation du Bluetooth, (ii) la décision d’installer l’appli est laissée totalement à l’utilisateur, sans atteinte aux libertés, (iii) le code de l’application est open-source, comme cela des spécialistes pourront vérifier qu’il n’y a pas de trou de sécurité, (iv) l’utilisation est limitée dans le temps.

    Est-ce que cela pourrait présenter des risques pour la protection de la vie privée ? Plus ou moins selon les Apps utilisées. L’équipe Privatics d’Inria, par exemple, travaille sur le sujet , comme d’autres équipes scientifiques.

    Dernier point : qui sera en charge de la centralisation des données ? Pour l’instant, en France, Inria pilote le projet. Mais, qui sera l’opérateur à l’heure de l’exploitation ? Qui aura accès aux données ? Si les nombres aléatoires anonymes protègent quelque peu les utilisateurs, on n’est jamais à l’abri d’analyses de données qui permettraient de désanonymiser. Les choix des contenus des messages échangés entre les téléphones conduisent à des solutions plus ou moins sûres.

    Les difficultés médicales

    Une question pour les épidémiologiste sera de choisir les paramètres de l’appli suivant leurs connaissances du virus et de sa propagation (combien de temps faut-il être proche pour contaminer ? Comment définir proche ? …). Une autre : que faire si l’App détecte qu’on a peut-être été contaminé ?

    Est-ce que qu’une telle App serait utile ? Les avis sont partagés. Par exemple, une appli super claire (en anglais) décrite dans ncase.me/contact-tracing/ explique qu’avec le Covid 19, il faut environ 3 jours avant de devenir contagieux, et deux de plus environ avant de savoir qu’on est infecté. Si on a été contaminé par quelqu’un qui utilise l’App, on est prévenu et on peut se mettre en quarantaine avant d’avoir contaminé quelqu’un. Voir la figure en fin du document. Donc avec une telle application, on casse la chaine de contamination.

    Des médecins contestent ces chiffres. Évidemment, tout dépend du virus dont on ignore encore beaucoup de choses, même si les connaissances progressent rapidement. C’est aux épidémiologistes, aux médecins, suivant la situation sanitaire, d’évaluer l’utilité ou pas d’une telle App. C’est à l’État de décider. Ce qui semble certain, c’est qu’elle ne sera pas un remède miracle pour enrayer l’épidémie, mais qu’elle pourrait peut-être permettre de casser certaines chaines de contamination, être un des outils au service des médecins.

    Et les craintes à long terme

    On peut s’interroger sur le fait qu’il y ait tant de débat sur une utilisation  de données médicales totalement anonymisées alors que les Google, Apple et les FAI utilisent depuis longtemps de telles données sur nous, par exemple avec la géolocalisation à détecter des ralentissements de circulation. Il ne faudrait pas que cela nous encourage à livrer au gouvernement ces données. Cela devrait plutôt nous interroger sur le fait que des entreprises les possèdent… À poser la vraie question : à quoi servent-elles ?

    Pour ce qui est de leur utilisation en période de crise sanitaire, on peut craindre que cela habitue les gens à ce genre d’outils. C’est aujourd’hui une urgence sanitaire, une utilisation d’exception. Mais on a vu par le passé des lois d’exception devenir des lois de toujours. C’est en cela que finalement ces techniques même réalisées correctement posent question, et qu’il faut être tout particulièrement vigilant.

    Serge Abiteboul

    Note : je prend la parole ici à titre personnel. Je suis membre du Collège de l’Arcep mais ne parle pas ici en son nom. Je suis également chercheur émérite à Inria qui est très engagée dans la lutte contre le Covid 19 et communique sur le sujet (1).

    Quelques références

    (1) « Contact tracing » : Bruno Sportisse, PDG d’Inria, donne quelques éléments pour mieux comprendre les enjeux, 18 avril 2020. Voir aussi ROBERT – pour ROBust and privacy-presERving proximity Tracing, protocole disponible sous Github.

    (2) Coronavirus : « Les applications de “contact tracing” appellent à une vigilance particulière », entretien avec Le Monde, 5 avril 2020.

    (3) Réflexions et points d’alerte sur les enjeux d’éthique du numérique en situation de crise sanitaire aiguë, Bulletin de veille n°1, 7 avril 2020

    (4) Une vidéo sur Arte

    Mon interprétation de la présentation de ncase.me
    Le protocole ROBERT d’Inria
  • Lire une courbe épidémique

    Nous entendons beaucoup : il faut aplatir la courbe. Mais de quoi s’agit il ? Tina Nikoukhah prend ici le temps de nous expliquer le plus simplement du monde de quoi il s’agit, nous propose une animation logicielle et … nous permet de faire des jeux avec ses voisins par la fenêtre … Thierry Viéville et  Serge Abiteboul.

     

    Cher·e lecteur ou lectrice, je suppose que toi aussi, comme près de la moitié de la population mondiale, tu es confiné chez toi afin d’aplatir la courbe épidémique. Cette fameuse courbe qui représente le nombre de nouvelles personnes connues pour être infectées par le virus en fonction du temps, dans une population, un lieu et une période donnée.

    Mais qui a dessiné cette courbe ?

    De nombreux scientifiques travaillent en ce moment sur la modélisation de l’épidémie. Pour ce faire, ils établissent à partir des données qu’ils récupèrent chaque jour, des modèles mathématiques afin de prédire l’évolution de l’épidémie du Covid-19. Elles ou Ils obtiennent des courbes comme celle-ci :

    Courbe d’évolution du nombre de nouveaux cas en France depuis mi-mars.

    Mais c’est quoi ce pic que tout le monde cherche ?

    Le pic de l’épidémie représente le point à partir duquel la courbe commence à descendre. Cette pente descendante représente le moment où le nombre de nouvelles personnes déclarées avec un Covid 19 quotidiennement décroit.

    Ok bah le pic il est là sur le dessin, où il y a une croix.

    Oui, mais ce qu’on cherche à connaître, c’est la position de ce pic. Pour cela, il faut comprendre comment est fait ce graphique. Sais-tu de quoi est composé un graphique ?

    Pas vraiment… Je n’ai pas bien suivi mon cours de mathématiques malheureusement.

    Il s’agit d’un moyen de visualiser « virtuellement » des données. Plus simplement, ce dessin est composé d’un titre, d’un axe vertical représentant la grandeur mesurée et d’un axe horizontal représentant la grandeur variable. Ici, l’axe vertical appelé l’axe des ordonnées est le nombre de nouvelles personnes infectées par le virus et l’axe horizontal appelé l’axe des abscisses est le temps, en jours. Alors, on cherche à connaître sa position horizontale et sa position verticale, c’est-à-dire ses coordonnées. On appelle souvent ces données par les lettres x et y.

    Courbe d’évolution du nombre de nouveaux cas de Covid 19 déclarés en France depuis mi-mars.
    Le pic aura lieu la x-ième journée et il y aura y nouveaux cas.

    Ok ok, donc c’est encore des maths mais ça ne sert qu’à lire des graphiques.

    Tu veux dire que les mathématiques ça sert partout et en effet, toute la journée, tout autour de toi, il y a des éléments qui récupèrent des coordonnées.
    Par exemple, chaque petit point sur ton écran qui te permet de lire cet article possède une coordonnée horizontale et une coordonnée verticale. Tout comme chaque pixel qui compose tes photos est représenté par ses coordonnées en x et en y.
    Les lutins que tu peux programmer dans ton logiciel Scratch possèdent eux aussi des coordonnées, tout comme toi qui possède des coordonnées géographiques qui ne varient pas beaucoup ces derniers temps dû au confinement !

    Ah donc savoir se repérer sur un graphique en fait c’est quelque chose qui est fait partout autour de moi sans que je m’en rende compte et sans que je ne m’en serve directement.

    Alors toi cher lecteur du blog binaire, je ne sais pas… Mais moi, durant cette durée de confinement, je m’en sers pour jouer à la bataille navale par la fenêtre avec mon voisin Gaspard, 5 ans.

    Tina Nikoukhah est doctorante en traitement d’images au Centre Borelli (ex-CMLA), ENS Paris-Saclay.

    Pour en savoir plus:

    – Un article de Tomas Peyo traduit en français qui utilise un simulateur épidémique montrant combien il est indispensable de ce confiner :coronavirus-le-marteau-et-la-danse
    – Un exemple d’étude scientifique datant de début mars qui permet de prédire (partiellement) ce qui se passe au niveau de cette pandémie.
    – Un ancien article toujours d’actualité qui explique comment modéliser une épidémie.

  • Bravo & merci Internet !

    En ces moments de confinement, beaucoup de nos activités reposent sur l’utilisation d’Internet. Que ce soit pour télétravailler quand c’est possible, pour étudier,  nous informer, nous distraire, nous utilisons de façon intensive les réseaux informatiques quand nous disposons des ressources (en termes de matériel, de connexion et de maîtrise des outils) nécessaires. Pour l’instant, les infrastructures, tant logicielles que matérielles, répondent de façon raisonnable à la forte croissance de la demande (pas toujours raisonnable). Pourquoi ? Laurent Fribourg (CNRS) nous explique le coeur de ce fonctionnement : le protocole TCP/IP. Pascal Guitton
    Laurent Fribourg

    A l’heure où notre gratitude de confinés s’adresse à juste titre aux soignants de la première ligne, aux agriculteurs, postiers, distributeurs, caissiers de la seconde ligne, ainsi que, parmi d’autres, aux pompiers, policiers, militaires et bénévoles, nous, lecteurs de Binaire, avons, je crois, aussi une pensée émue pour un service qui remplit admirablement sa tâche, vitale dans le contexte démultiplié de télétravail et de streaming d’aujourd’hui : j’ai évidemment nommé Internet et, tout particulièrement, son protocole TCP/IP.

    Son créateur, Joseph Kahn (avec Vinton Cerf), déclarait encore récemment [4] qu’il était optimiste par raport aux défis extraordinaires qu’Internet allait devoir de toute façon relever en période “normale” : milliards d’objets connectés, lutte contre la cybercriminalité par exemple. Il est aujourd’hui remarquable de constater qu’alors que des cercles de rush et de pénurie s’instaurent dangereusement dans plusieurs secteurs, nous continuons à mener nos tâches, loisirs et communications virtuelles toujours aussi efficacement.

    Pourtant, à ses débuts, dans les années 1986-1987, la situation n’a pas été aussi facile pour le réseau des réseaux, et son trafic connut de graves problèmes d’engorgement qui le virent même s’écrouler de façon répétée [2]. Malgré de multiples interventions, ces problèmes ne prirent fin qu’en 1988 , année où s’acheva l’implantation de l’algorithme de gestion de contrôle du trafic TCP de Jacobson&Karels [1]. Ce sont sur certaines des innovations de cet algorithme salvateur que nous revenons ici.

    Rappelons d’abord la raison qui amena Internet à connaître en octobre 1986 la première occurrence d’une série d’effondrements, le débit passant soudainement de 32 kbit/s à 40 bit/s [2]. A l’origine, le protocole TCP (Transmission Control Protocol) [6] utilisait l’idée classique de « fenêtre glissante » : l’information à transmettre était découpée en paquets,  puis l’émetteur envoyait sur le réseau W paquets d’information et attendait l’accusé de réception (ACK) de ces W paquets, avant d’envoyer une nouvelle séquence de W paquets, et ainsi de suite. Ce protocole de fenêtre glissante (sliding window) était bien connu en télécommunication et avait largement fait ses preuves en termes de fiabilité de transmission, contrôle de flux et d’engorgement.

    Schématiquement, le problème apparaissant avec ce protocole sur un réseau de la taille d’Internet était le suivant : lorsque l’émetteur accroit son débit, la file du récepteur, dans laquelle s’entassent les paquets en attente d’envoi d’acquittement, augmente ; du coup, ne recevant pas l’accusé de réception (ACK) attendu au bout d’une durée (Time-Out) établie statiquement (à l’avance), l’émetteur croit, à tort, que ses paquets émis sont perdus ; il les réémet alors, encombrant ainsi davantage le réseau. L’engorgement s’aggrave ainsi , et le phénomène s’amplifie exponentiellement avec le nombre de connexions. La retransmission prématurée de paquets non perdus entraine donc à terme l’effondrement de tout le réseau.

    Pour éviter ce problème d’engorgement, il convient de diminuer la réactivité du réseau (ou d’augmenter sa latence). Pour atteindre un tel objectif, Jacobson&Karels [1] ont proposé des modifications décisives de l’algorithme classique de la fenêtre glissante, dont notamment :

    • un calcul dynamique de la durée du Time-Out lorsque l’émetteur attend un ACK ; désormais, quand un Time-Out expire, la valeur du Time-Out suivant est augmentée exponentiellement (exponential backoff) ;

    • un auto-cadencement (self-clocking) des accusés de réception : quand le tuyau de la connexion est proche de la saturation, la vitesse d’émission des ACKs s’auto-régule pour prévenir un encombrement accru du tuyau ;

    • un paramétrage dynamique, lui aussi, de la taille de la fenêtre d’émission afin de trouver un bon compromis entre maximalisation du débit et minimisation du temps de latence.

    Le progrès exceptionnel du contrôle de trafic Internet permis par l’algorithme de Jacobson&Karels a fait l’objet, depuis sa réalisation, d’une vague de travaux théoriques passionnants pour modéliser le protocole Internet (IP) et sa couche transport (TCP) ainsi que le réseau et le trafic lui-même. Ces travaux théoriques ont à leur tour suggéré des versions améliorées de l’algorithme TCP, en s’appuyant sur des méthodes de preuve de propriétés bien établies en algorithmique distribuée, comme la convergence, la stabilité et l’équité. Ainsi, un cercle fécond d’interactions entre modélisation, preuve, algorithmes, expérimentation s’est mis en place autour de la problématique d’Internet. Des ponts inattendus ont été jetés entre disciplines comme l’algorithmique distribuée, la théorie du contrôle et la théorie des jeux [5]

    C’est donc en pensant aussi à Internet, TCP/IP et la toile d’études interdisciplinaires tissée autour, que j’applaudis très fort, tous les jours, à 20h.

    Laurent Fribourg (CNRS, LSV, Saclay)

    Références

    1. V. Jacobson & M. J. Karels. Congestion avoidance and control. Proc. SIGCOMM’88. 1988.
    2. Xiaowei Yang. CompSci514: Computer Networks Lect. 4 (End-to-end Congestion Control) https://www.google.com/search?client=firefox-b-d&ei=WXqDXvyYLO-KjLsPl_mAiAk&q=CompSci+514%3AComputer+Networks+Lecture+4%3A+End-to-end+Congestion+Control+&oq=CompSci+514%3AComputer+Networks+Lecture+4
    3. Steven H. Low, Fernando Paganini, and John C. Doyle. Internet Congestion Control. IEEE Control Systems Magazine (Vol. 22) Feb. 2002
    4. R. Kahn. « Il n’y a pas de limite à l’expansion d’Internet”. Le Temps.2017 https://www.letemps.ch/economie/robert-kahn-inventeur-protocole-tcpip-ny-limite-lexpansion-dinternet
    5. S. Zampieri. Trends in Networked Control Systems. Proceedings of the 17th World Congress
IFAC, Seoul, Korea, July 6-11, 2008
    6. V. Cerf & R. Kahn. A Protocol for Packet Network Intercommunication. IEEE Transactions on Communications (Vol. 22:5), 1974

  • “Parlons Maths” : Animath se démathérialise !

    Les mathématiques s’invitent chez vous ! Une nouvelle activité pour parler de maths a été lancée en quelques jours par l’association Animath. Sur “Parlons Maths”, des bénévoles proposent chaque jour une vidéo en direct avec une énigme, des exposés ainsi que des discussions mathématiques. Pendant le direct, les internautes peuvent commenter à l’écrit via le tchat.

    Les publics visés par cette activité sont les élèves de collège et lycée, dans la continuité des activités existantes d’Animath. Il s’agit d’activités périscolaires et non de cours, les contenus ne suivant pas nécessairement le programme scolaire.

    Actuellement, la chaîne “Parlons maths” diffuse 2h par jour, du lundi au vendredi de 16h à 18h. Plusieurs exposés de 30 min à 1h s’enchaînent pendant ce créneau : conférence grand public, analyse d’un problème (du tournoi TFJM², des Correspondances, ou de MATh.en.JEANS, notamment, présentation d’une notion mathématique, historique, d’une énigme qui sera résolue le lendemain, questions/réponses avec l’intervenant, etc.

    Retrouvez-nous sur :

  • The Game, d’Alessandro Baricco

    Dans son essai The Game, Alessandro Baricco remonte le temps pour nous expliquer les mutations liées aux nouvelles technologies. Isabelle Collet, enseignante-chercheuse à l’université de Genève, nous le fait découvrir et en fait l’analyse critique. Clémentine Maurice.

    Alessandro Baricco est ce magnifique auteur qui a écrit Novecento : pianiste, et pour cela, il a ma reconnaissance éternelle.

    Il n’a pas écrit que cela. En Italie, c’est un auteur à succès, très présent dans les médias, il écrit des romans, des essais, du théâtre, des films, des chroniques dans des journaux, et il a refusé le Ministère de la Culture. C’est un auteur avec un style indéniable (qui plaît ou pas), un avis, un humour et un bel optimisme sur la vie.

    Il a remporté le Prix de la fondation Veillon de l’essai européen pour son ouvrage sur la révolution numérique : The Game sorti en 2019 chez Gallimard. Il va être invité à Lausanne pour une cérémonie, ainsi qu’à une table ronde à l’Université de Lausanne le lendemain, où je serai invitée également pour discuter de l’absence des femmes dans la révolution numérique, parce que, me dit-on, il y fait allusion dans son ouvrage.

    J’achète alors son livre et je me prépare à jouer les groupies, en me demandant si je lui demanderai un autographe sur The Game ou sur Novecento… parce que sur les deux, ça fait plouc (j’ai aussi Soie, Châteaux de la colère, Océan mer… bref, je suis fan…).

    Et paf, le Covid. Tout est reporté, mais je lis quand même The Game.

    Bon, tout d’abord, enlevons tout suspens : les allusions à l’absence de femmes dans la révolution numérique sont minuscules. Je dirais 2 x 2 lignes sur 400 pages. Les femmes elles-mêmes y sont aussi remarquablement absentes : 0 sur 400 pages aussi. Pêché véniel : difficile de parler des femmes dans le numérique, quand on est préalablement persuadé qu’il n’y en a pas… Il n’est pas sociologue, il est pardonné. Mais c’est quand même un point aveugle.

    Qu’y a-t-il alors dans ce livre ?

    Tout d’abord, c’est un ouvrage qui m’a donné de la peine. À la fois, il est tout à fait brillant dans beaucoup de ce qu’il dit. La construction de son récit est originale, agrémentée de cartes de géographie pour nous repérer dans Le Game, qui est le nom qu’il donne à tout l’espace numérique. On retrouve dans ce livre son style, son humour, sa manière particulière de raconter les histoires. Personnellement, c’est là que je décroche. C’est un livre littéraire qui parle de sociologie du numérique et je n’arrive pas à me caler. Le littéraire, les artifices de style me gênent. Les raccourcis ou les partis-pris me dérangent. Mais en réalité, ce que je dis, c’est qu’il n’a pas écrit un ouvrage sociologique, mais un essai. Ce qui tombe bien, c’est précisément ce qu’il prétendait faire. Ce faisant, il ouvre le sujet vers un public qui ne lirait peut-être pas un ouvrage de sociologie, mais qui pourrait lire un essai, un public de littéraires qui serait en demande d’un autre type de récit, d’un autre storytelling.

    Et il s’y connaît en storytelling, Baricco, il le défendra même à la fin de l’ouvrage. Le storytelling, ce n’est pas un déguisement des faits, c’est une partie du réel, c’est le design qu’on donne aux faits pour les mettre en mouvement et leur permettre de s’intégrer dans la réalité, leur faire prendre sens. Baricco donne un certain design à la révolution numérique qu’il nomme même finalement : « insurrection numérique ». C’est avec un certain sens du design, que Baricco nous fait entrer dans sa réflexion… et c’est aussi ce design qui m’a fatigué à la longue. Mais revenons au contenu.

    Tout d’abord, Baricco pense résolument du bien de la transformation numérique du monde et se moque de ceux qui y voient la mort de la culture : « Quand les gens pensent voir la fin de la culture chez un jeune de 16 ans qui n’emploie pas le subjonctif, sans remarquer que par ailleurs ce garçon a vu trente fois plus de films que son père au même âge, ce n’est pas moi qui suis optimiste, ce sont eux qui sont distraits ».

    Il part d’une idée extrêmement intéressante : ce n’est pas la révolution numérique qui produit une révolution mentale (c’est à dire une nouvelle manière de penser). Le monde numérique n’est pas la cause des changements de mentalités, il en est la conséquence. C’est bien une nouvelle forme d’intelligence qui a généré la révolution numérique et non le numérique qui a produit ex nihilo une nouvelle façon de penser. Cette nouvelle forme d’intelligence avait besoin d’outils pour sa nouvelle façon d’être au monde. Et elle s’en est dotée avec internet, les apps, les réseaux sociaux… Il faut en fait se demander quel genre d’esprit désire utiliser Google ? Quel genre d’esprit s’amuse sur un smartphone ? Quel genre d’esprit s’est passionné pour Space Invaders ? Ce sont ces esprits-là qui ont créé la révolution numérique en se dotant des outils qu’ils avaient envie ou besoin d’utiliser. Et qui continuent de l’alimenter.

    Comme le dit Stewart Brand, l’auteur de l’ouvrage de chevet de Steve Jobs The Whole Earth Catalog : « Beaucoup de gens croient pouvoir changer la nature des personnes, mais ils perdent leur temps. On ne change pas la nature des personnes. En revanche, on peut transformer la nature des outils qu’ils utilisent. C’est ainsi qu’on changera le monde ». 

    Voilà ce qu’il s’est passé : le numérique a supprimé les intermédiaires, a shunté les anciennes élites. Il a transformé en profondeur les manières de faire et ainsi il nous a transformés. Mais à l’origine, il y a eu une poignée de hippies, en Californie qui ont voulu un autre monde. Attention, Baricco ne dit pas qu’ils avaient une idéologie pour un autre monde, au contraire. Certains l’avaient, mais ce n’est pas l’essentiel. Ils voulaient un autre type d’interaction au monde. Pourquoi aller dans une librairie alors qu’on veut juste acheter un livre ? Pourquoi aller au cinéma si on veut juste voir un film ? Pourquoi réunir des experts, se soumettre à des protocoles, respecter des rites de passage, prendre un dictionnaire, un annuaire, une encyclopédie pour produire une connaissance si finalement la somme des connaissances de tout le monde permet de générer la même chose ou presque ? Pourquoi passer par une agence de voyages alors qu’on veut juste voyager ? 

    Ces gens n’avaient pas une théorie sur le monde, mais une pratique du monde. Ils faisaient de la résolution de problèmes, créaient des outils. Jeff Bezos se moque de la mort des librairies. Airbnb de la mort des hôtels ou de la disparition des appartements à louer dans les grandes villes. Les apps apportent des solutions à des problèmes précis. C’est tout.

    Parmi ces hippies de Californie, certains avaient tout de même un combat : enterrer le XXe siècle qui a été le siècle le plus atroce de l’histoire de l’humanité. Une civilisation riche et raffinée, possédant toute sorte de ressources matérielle et culturelle, a déclenché sous de vagues prétextes deux guerres mondiales, a généré la Shoah, le moyen de se détruire elle-même avec une bombe et s’en est aussitôt servie. Et encore, Baricco oublie la colonisation… Bref, les meneurs de l’insurrection numérique ont voulu faire en sorte que le XXe siècle devienne impossible, tout d’abord parce qu’il deviendra impossible de dissimuler des mensonges géants ou des tueries géantes. On retrouve là les rêves de Norbert Wiener, le père de la Cybernétique, tels qu’il les expose dans Cybernétique et Société, en 1948… et Norbert Wiener n’était certainement pas un hippie. « Le XXe est le siècle de Hiroshima et de Bergen-Belsen » disait-il.

    L’insurrection numérique abat des élites et en particulier, les faiseurs de vérité. Baricco raconte que dans son enfance, le journal télé de l’unique chaîne était la nouvelle messe. Il n’y avait qu’un seul journal, détenu par l’homme le plus riche de la ville et quand les USA ont bombardé Hiroshima, tout le monde a trouvé ça génial. Certes, il y a aujourd’hui des fake news… Mais quand Colin Powell a parlé des armes de destructions massives en Irak en agitant une fausse capsule d’Anthrax, c’était une méga fake news qui a emporté le monde à la guerre. Aujourd’hui, tout le monde a accès à de nombreux médias, et peut poster son avis, même incompétent. La bataille contre les fake news est certes utile mais elle est aussi menée par ceux qui hier étaient les seuls à avoir le pouvoir de les créer. Aujourd’hui, il n’y a plus une poignée de gens qui vont décider ce qui a le droit d’être écrit et qui a le droit de le faire.

    Tout le monde ou presque a accès à toute la musique du monde ou presque, peut voir tous les films possibles ou presque, écouter des concerts, voir des spectacles, et plus seulement le top de la bourgeoisie. Certes il existe des fractures numériques. Le « ou presque » est là pour signifier que la culture nord-américaine est surreprésentée. Mais les pauvres ont des smartphones. A quelle époque a-t-on connu un tel partage de l’information ? Un tel accès généralisé à une culture mondiale (certes, un peu trop occidentale-centrée) ? Autant de moyen de mettre en cause les « vérités » énoncées par l’élite ? Autant d’accès au savoir ?

    Mais pourquoi appeler le monde numérique The Game ? Pour Baricco, l’instant fondateur, c’est la présentation de l’iPhone par Steve Jobs en 2007. Regardez-le sur scène : il présente un outil qui n’est pas vraiment un téléphone et il s’amuse avec. Tout est léger, tout est en mouvement, l’objet est joli, coloré et amusant. Une cabine téléphonique, ce n’était pas amusant. Le BlackBerry n’était pas amusant. l’iPhone était élégant, confortable et amusant. L’iPhone existe pour les joueurs qui ont délaissé le babyfoot pour Space Invaders. La transition numérique, c’est la ludification d’un monde toujours en mouvement.

    Un monde toujours plus dense, plus riche. C’est pour cela qu’on le poste sur les réseaux sociaux. Il n’y a pas 2 mondes, le réel et le virtuel. Le monde réel a colonisé le 2e monde via les réseaux sociaux : si on poste des photos de soi et de sa vie, c’est pour enrichir le 1er monde. On peut y voir des personnes incapables d’apprécier le quotidien, le présent, d’apprécier ce qu’elles ont. On peut y voir aussi une façon de refuser de se résigner au banal, de lancer sa vie dans le deuxième monde pour la rendre plus vivante, pour y mettre encore plus de vie, faire en sorte qu’elle soit à la hauteur de nos attentes.

    Pour Baricco, l’insurrection numérique n’est pas finie. Il constate que les riches du Game le sont de manière traditionnelle (et les pauvres également). Il constate aussi que cette succession de pratiques a généré beaucoup d’individualisme de masse et souvent, quand le Game croise la politique, on en ressort des mouvements populistes. Il conclut en plaidant pour remettre de l’humanité dans le Game, sans le remettre en cause, car il lui est reconnaissant d’avoir tué le XXe siècle.

    Il manque à ce livre une analyse critique et politique du fonctionnement actuel du numérique, de ses liens en particulier avec l’argent, et des stratégies psychologiques d’addiction dissimulée sous la ludification. L’individualisme de masse n’est-il pas consubstantiel au Game ? Néanmoins, pour l’originalité de l’éclairage qu’il apporte, le travail d’histoire de l’informatique qui fait plaisir à lire et la légèreté de ton, je pense que The Game est un ouvrage brillant. Et s’il est un peu fouillis, l’auteur a l’amabilité de nous en faire une très belle synthèse en conclusion.

    Isabelle Collet est une informaticienne, enseignante-chercheuse à l’université de Genève et romancière française qui travaille sur les questions de genre et les discriminations des femmes dans l’informatique et dans les sciences.

  • Gouvernance numérique et santé publique. Vers un confinement sélectif basé sur les informations personnelles ?

    Vers un confinement sélectif basé sur les informations personnelles ?  Stéphane Grumbach et  Pablo Jensen. posent clairement la question qui va se poser dans les heures qui viennent dans notre pays, et nous propose une analyse sereine et factuelle de ce choix pour notre société. Thierry Viéville.

     

    ©wikimedia.org

    La présente pandémie de coronavirus confronte les gouvernements à une question simple : comment utiliser les données et les systèmes numériques pour une plus grande résilience sociale et économique ? Car force est de constater que le confinement généralisé tel qu’il est assez largement pratiqué aujourd’hui dans le monde est tout à fait anachronique. Il ne fait aucune distinction entre les personnes, infectées, à risque, malades ou déjà immunisées. Or, de telles informations personnelles sont désormais potentiellement accessibles grâce aux technologies numériques. Certains pays d’Asie, comme la Corée et Singapour, ont mis en place des politiques combinant dépistage à large échelle et exploitation des données personnelles et d’interaction sociales. Les données disponibles à ce jour indiquent que ces pays ont réussi à infléchir leur courbe de contagion avec succès.

    Si la capacité de récolter ce type de données n’est pas sans poser de questions politiques essentielles, il nous semble qu’il fait peu de doute que de telles méthodes seront déployées rapidement dans la majorité des pays du monde. Elles seront justifiées par la protection des personnes les plus faibles, premières victimes des pandémies, mais également par le coût abyssal du confinement généralisé, en termes monétaires, mais également de santé publique: suicides, maltraitances, etc. Les arbitrages dans ces domaines se font généralement en faveur de l’intérêt collectif au détriment de l’avantage personnel. En ce qui concerne l’accès aux données personnelles, des moyens technologiques et légaux ont été mis en oeuvre dans la plupart des pays dans la dernière décennie pour renforcer la sécurité globale. Ils permettent la surveillance de la population et la censure de contenus jugés indésirables par les Etats. Ces outils ne relèvent pas d’une nécessité plus impérieuse que celle des crises sanitaires. De surcroît, la politique de santé est souvent coercitive, comme c’est le cas pour la vaccination, qui est obligatoire.

    ©magritte.brussels

    S’il nous apparaît évident qu’une forte pression vers une gouvernance numérique invasive résultera de cette crise, il convient de réfléchir aux conditions de sa mise en oeuvre. Il faut avoir conscience que cette crise offre une extraordinaire opportunité pour les grandes plateformes globales de se saisir des données santé personnelles en offrant des services dont l’utilité garantira leur adoption d’abord par les individus puis par les acteurs de la santé, faisant sauter les barrières légales. Mais la crise offre aussi une extraordinaire opportunité aux Etats de mettre en place un véritable service numérique de santé public satisfaisant des exigences éthiques fortes. Un des principes de base d’un tel déploiement consiste à remonter seulement l’information strictement nécessaire vers les centres de contrôle. Ainsi, des techniques basées sur bluetooth, capables d’enregistrer des voisinages entre personnes sans dévoiler leurs positions, semblent moins invasives que le traçage GPS, tout en fournissant des informations de contact plus précises pour prévenir la propagation de l’épidémie.  Un consortium européen s’est créé pour proposer ce type d’outils de traçage, qu’il convient de maintenir sous surveillance citoyenne.

    Dans un récent article de Science, Ferretti et al., proposent des modèles de l’impact d’un traçage numérique personnalisé, en fonction de son adoption par la population (e.g., pourcentage d’utilisateurs, respect des consignes) et des paramètres externes, comme le nombre de tests, de masques, de lits d’hôpitaux, etc. Ces simulations montrent qu’une adoption même partielle de ces techniques de traçage combinées à un dépistage suffisamment large peut contribuer significativement au ralentissement de la propagation de l’épidémie. En combinant les comparaisons entre pays à des outils de simulations numériques, une vision informée des compromis nécessaires pour la santé publique sera possible.

    Stéphane Grumbach et  Pablo Jensen.

    Pour en savoir plus :

  • Comité national pilote d’éthique du numérique – BV1

    Bulletin de veille n°1

    Réflexions et points d’alerte sur les enjeux d’éthique du numérique en situation de crise sanitaire aiguë: Ce premier bulletin de veille du Comité national pilote d’éthique du numérique présente le contexte et développe deux points spécifiques. D’une part les questionnements éthiques liés à l’usage des outils numériques dans le cadre d’actions de fraternité, et d’autre part celui des enjeux éthiques liés aux suivis numériques pour la gestion de la pandémie.  Télécharger le document

  • Lancement du Mooc Class’Code IAI : une formation en ligne pour appréhender l’intelligence artificielle… avec intelligence !

    A partir du 6 avril, Class’Code lance une formation gratuite en ligne pour permettre à toutes et tous de comprendre les enjeux de l’intelligence artificielle en fournissant aux apprenants des repères simples et actuels, sous la forme de parcours élaborés par des experts en sciences informatiques. Grâce à des contenus ludiques et variés, le MOOC permet à chacun·e de décrypter les discours sur l’intelligence artificielle, d’expérimenter, de comprendre comment cette avancée technologique s’inscrit dans l’histoire des humains et de leurs idées, et offre plus largement les moyens de s’approprier le sujet.

    Nous vivons au temps des algorithmes et de plus en plus de tâches cognitives dites “intelligentes” tant qu’elle sont exécutées par un humain sont aujourd’hui mécanisées et exécutées par des machines. Tous les aspects de la société – économiques, sociétaux, culturels – sont profondément impactés par les avancées informatiques et cette situation prend une tournure nouvelle avec l’arrivée de ce qui est désigné sous le terme d’intelligence artificielle.

    L’IA, au-delà des idées reçues

    Employée par tous désormais, la notion d’“intelligence artificielle” nécessite pourtant d’être expliquée et comprise afin de pouvoir s’en emparer et de prendre le recul nécessaire face aux idées reçues qui sont nombreuses. Tout en rappelant que l’intelligence artificielle doit être au service de l’humain, le nouveau Mooc de Class’Code décrypte par étapes les enjeux et les leviers technologiques liés à l’IA. La formation s’attache à présenter les principes de l’apprentissage machine (machine learning) et définit des mots techniques comme l’apprentissage profond (deep learning), ainsi que la place cruciale de la maîtrise des jeux de données. Il s’agit par l’intermédiaire d’un cours interactif de partager une culture minimale sur le sujet, afin de choisir librement et de maîtriser l’usage de ces technologies.

    Une mini-formation citoyenne qui démystifie sans simplifier

    Si l’objectif de la formation est bien de toucher un public large non néophyte par des biais ludiques, des vidéos et des activités, l’équipe d’experts* ayant élaboré les cours met avant tout l’accent sur des savoirs rigoureux permettant à l’apprenant.e de se forger une vision correcte et opérationnelle sur l’IA et ses enjeux.

    Disponible sur la plateforme FUN MOOC, co-réalisée par Inria Learning-Lab, la formation Class’Code IAI hébergée par Inria est ouverte à tous dès le 6 avril.

    À propos de Class’Code

    Class’Code, projet initialement créé en 2014 dans le cadre du PIA, est une association d’utilité publique qui a pour ambition de répondre au besoin de formation et d’accompagnement de la population en matière d’éducation à la pensée informatique dans un contexte où la France affiche un certain retard face au enjeux numériques. Class’Code regroupe des acteurs privés et publics, et coordonne des actions destinées au grand public sur tout le territoire tout en produisant des ressources innovantes accessibles à tous, en ligne et gratuitement.

    A propos d’Inria 

    Inria est l’institut national de recherche en sciences et technologies du numérique. La recherche de rang mondial et l’innovation technologique constituent son ADN, avec pour ambition de faire émerger et d’accompagner des projets scientifiques et entrepreneuriaux créateurs de valeur pour la France dans la dynamique européenne.

    *Une co-production Class’Code avec Inria, Magic Makers , S24B interactive, la participation de 4 minutes 34, Data Bingo, Université de Nantes, La Compagnie du Code et de La Ligue de l’enseignement, et avec le soutien du Ministère de l’Éducation nationale et de la Jeunesse, UNIT, EducAzur et leblob.fr, avec le concours et la collaboration de :

  • Évaluer le respect du confinement grâce à nos smartphones

    L’utilisation des données des téléphones mobiles est envisagée pour le suivi numérique de la population, notamment à la fin du confinement. Il est indispensable qu’une telle surveillance soit réalisée en respectant la vie privée. Mais déjà pendant le confinement, on peut observer ses effets grâce aux données agrégées de localisation des milliers de smartphones. En France comme en Europe, les autorités utilisent cette « carte du confinement », mais le public n’y a pas accès. Pourtant avoir une information précise selon les villes, en temps réel, cela nous intéresserait tous ! Elle est disponible dans d’autres pays, comme nous explique Alexei Grinbaum. Pierre Paradinas

    Utiliser les données des applications qui tournent en permanence sur nos smartphones pour évaluer le respect du confinement ? Testée aux États-Unis, cette idée a été mise en œuvre en Russie par Yandex, le principal moteur de recherche et un des géants de l’internet russophone. Chacun peut désormais accéder librement à une carte interactive, sur laquelle plusieurs dizaines de villes russes, biélorusses, kazakhs et arméniennes, grandes ou moyennes, se voient attribuer une indice, allant de 0 à 5, qui décrit le degré des déplacements de ses habitants. La valeur 0 correspond à une situation habituelle en temps normal, estimée à partir des données agrégées pendant la première semaine de mars ; et 5, la situation nocturne où quasiment toute la population se trouve chez elle. La carte se met à jour très régulièrement.

    Le 30 mars à midi, par exemple, la situation à Moscou était de 3.0, avant de progresser légèrement à 3.1 à 17h. On peut aussi évaluer le respect du confinement par ville selon trois codes couleur (https://yandex.ru/company/researches/2020/podomam), rouge, jaune et vert. Encore la semaine dernière, toute la Russie se trouvait dans le rouge chaque jour ouvrable, de lundi à vendredi. Mais ce lundi 30 mars, plus aucune ville n’était marquée en rouge ; quasiment toutes sont devenues jaunes, une couleur que Yandex fait accompagner de cette légende incitative : « La majorité des gens sont chez eux. Restez-y, vous aussi ».

    Lorsque les médias russes parlent de cette carte – et ils le font tous –, s’installe dans l’ensemble du pays une sorte de compétition entre différentes villes : qui respecte mieux le confinement ? Qui se protège mieux que les autres ? Quelle population est plus disciplinée ? Une mesure « douce », non coercitive, mais sera-t-elle efficace ? Pour répondre, il faudra sans doute suivre la dynamique du confinement sur plusieurs jours, voire des semaines.

    Et en France ? Des données de géolocalisation agrégées ne sont disponibles qu’aux propriétaires des applications que nous utilisons le plus souvent, lesquels s’appellent Google, Apple…, et aux fournisseurs d’accès internet. Orange, par exemple, partage de telles données avec l’Inserm et la Commission Européenne. Le public n’y a pas accès et ne dispose, en temps réel, que des informations concernant d’autres pays, la Russie notamment. Cependant, ces données françaises pourraient être publiées en protégeant totalement la vie privée et supprimant tous les éléments personnels, sans compromettre leur valeur statistique.

    Alexei Grinbaum, philosophe de la physique, chercheur au LARSIM/CEA.

    En savoir plus :

  • Patrimoine industriel informatique

    Ces temps difficiles donnent à certains d’entre nous le temps de lire et de réfléchir. Quelle occasion de regarder dans le rétroviseur le passé de l’informatique et du numérique, de s’interroger sur un patrimoine qu’ont construit des pionniers et qui reste encore largement à explorer ! C’est ce que propose le numéro 73 de la Revue Patrimoine Industriel du Cilac. Exceptionnellement, compte tenu du confinement de tous, le Cilac a décidé de mettre ce numéro, réalisé avec la SIF et Software Heritage, en accès ouvert dès sa parution. C’est un magnifique numéro collector inédit que je vous encourage aussi à acheter en format papier : pour 25 €. À déguster sans modération ! Serge Abiteboul
    Déclaration de conflit d’intérêt : je suis membre du Cilac et de la SIF.

    Avec ce numéro thématique de la revue que nous avons réalisé avec le soutien de Software Heritage et en collaboration avec la Société informatique de France (SIF), le CILAC s’aventure en des territoires patrimoniaux nouveaux, relativement peu explorés et cartographiés.

    Le numéro 73, ©cilac

    Depuis la Seconde Guerre mondiale, l’informatique – la science et les technologies du traitement automatique de l’information par des algorithmes – s’est développée de manière exponentielle, bouleversant tous les domaines scientifiques, financiers, industriels et commerciaux et s’embarquant dans les appareils globalisés de notre vie domestique.

    Voici rassemblés les premiers jalons d’un nécessaire regard patrimonial sur l’informatique : c’est aussi l’ouverture d’un chantier avec des suggestions de pistes à explorer. En partageant plus largement ce dossier des patrimoines de l’informatique, nous espérons qu’il fera date.

    Florence Hachez-Leroy, Présidente du CILAC

    Sites Web

    Sommaire du numéro 73

    • Paul SMITH, Éditorial, p. 5
    • Roberto DI COSMO Pierre PARADINAS, Avant-propos, p. 6
    • Paule NIVAT, Maurice, l’art et le patrimoine, p. 7
    • Serge ABITEBOUL, Florence HACHEZ-LEROY, Quel patrimoine pour l’informatique ? p. 8
    • Jean-François ABRAMATIC, Le web a été produit par une « usine » d’un type nouveau, p. 20
    • Florence HACHEZ-LEROY, Pierre PARADINAS, Musées et collections informatiques, p. 26
    • Len SHUSTEK, Que devons-nous collecter pour préserver l’histoire du logiciel ? p. 36
    • Roberto DI COSMO, Le code source des logiciels, p. 40

    LES COLLECTIONS

    • Christiane de FLEURIEU, L’informatique de Bnp Paribas, p. 46
    • Mathieu BARROIS, Le patrimoine historique du groupe Bull, p. 52
    • Michel MOUYSSINAT, IBM Europe : une collection aux racines françaises, p. 58
    • Isabelle ASTIC, Les collections informatiques du musée des Arts et métiers, p. 64
    • Antoine MATRION, La collaboration entre l’université de Lille et l’entreprise GEMPLUS, p. 70
    • Philippe DUPARCHY, En France, à Grenoble, il existe un patrimoine informatique complet, p. 72
    • Pour protéger, il faut reconnaître, et pour reconnaître, il faut dénommer, Entretien avec Jean DAVOIGNEAU, p. 74

    POINTS DE VUE

    • Gilles DOWEK, Conserver les démonstrations, conserver les programmes, p. 78
    • Valérie SCHAFER, À la recherche du web perdu, p. 80
    • Serge ABITEBOUL Claire MATHIEU, Images de la transformation numérique, p. 82
    • Protections monuments historiques 2018, p. 84
    • La vitrine du libraire, p. 88
    • Résumés, p. 90

     

  • Numérique, environnement, COVID 19

    Dans cette période difficile pour tout le monde, nous avons décidé d’intensifier la fréquence de nos publications et d’étendre le format habituel. Pour tenir cet objectif, nous avons donc (re)sollicité hier tou.te.s nos auteur.e.s depuis la création de binaire. Françoise Berthoud a été une des premières à répondre à notre invitation et nous sommes très heureux d’inaugurer avec elle une série de billets d’humeur. Pascal Guitton
    Cette photo montre le buste de Françoise Berthoud. Le fond de la photo montre un paysage de moyenne montagne.
    Francoise Berthoud

    Autres urgences, vitales

    Confinement

    Solitude

    Dérèglement climatique, ouragans, sécheresses, destruction de plantations par des criquets, pollutions,  propagation accélérée de virus, … Chaque année après l’autre, chaque mois, chaque jour après l’autre

    Des petits bouts d’effondrement

    Comment le numérique survivra-t-il ? Comment le numérique nous aidera-t-il ?

    A l’heure où il permet de se donner l’illusion que la vie continue, que des bouts d’économie pourraient survivre au confinement, que les hommes pourraient vivre ainsi, communiquant par skype et autres systèmes de visio

    Et pourtant,

    Des Hommes au Ghana, à cette même heure poursuivent leur travail de tri, de démantèlement, de brulage de nos déchets électroniques et se tuent à petit feu,

    Des hommes en République Démocratique du Congo, en Amérique du Sud continuent à lutter pour leurs ressources, parfois leur vie juste pour avoir quelque chose à se mettre sous la dent ou juste pour boire de l’eau saine, pour extraire ces précieux métaux sans quoi nos ordinateurs ne seraient pas aussi performants,

    Ils ne sont pas confinés,

    Comme les soignants, les livreurs, les caissiers, les plombiers, les chauffeurs de poids lourds, etc., ils paraissent indispensables à notre économie. Mais point d’applaudissements pour eux, pas de primes, pas de discours de président pour les féliciter. Ces hommes, ces femmes, ces adolescents, ces enfants méritent pourtant tout autant notre attention, parce que sans eux …

    Point de smartphone, point de réseaux, point de visio, ni de netflix, pas d’apéritif whatsapp …

    Apprenons au moins de cette expérience que le numérique est un outil précieux, qu’il convient de ne pas gaspiller, qu’il convient d’utiliser ces outils avec parcimonie, qu’il convient de les partager, qu’il convient de réfléchir à leur juste usage pour stopper les dégâts environnementaux qu’ils génèrent tout en les partageant avec le plus grand nombre.

    Françoise Berthoud (CNRS, Groupement De Service EcoInfo )

  • Les fleurs ne sont plus périssables

    Va-t-on interdire les fleurs à usage unique ?

    La Commission européenne a publié le 11 mars 2020 un nouveau plan d’action contre le gaspillage dans l’UE de ressources naturelles. Il s’agit d’arriver à une limitation drastique des quantités de déchets (500 kilos par européen en 2017) et d’emballages (173 kilos). Sont visés en premier lieu, les appareils électroniques dont la fabrication est la cause d’un gaspillage d’énergie et de matières premières. Il est insensé d’avoir à changer si souvent son smartphone quand on pourrait utiliser des pièces remplaçables et réparables. Selon la Commission : « A l’heure actuelle, l’économie est encore essentiellement linéaire, puisque 12% seulement des matières et des ressources secondaires y sont réintroduites ». La Commission travaille sur des dispositions qui limiteront les usages uniques, permettront de lutter contre l’obsolescence prématurée et interdiront la destruction des marchandises durables invendues ». L’association « Les Amis de la Terre » salue cette avancée en regrettant l’absence d’objectifs chiffrés.

    Fleur de tournesol éternelle, Everlasting

    Parmi ces ressources gaspillées, il faut aussi s’intéresser aux fleurs dont la présence est essentielle à la survie des abeilles dont la disparition menacerait l’ensemble de la végétation. Le conseiller allemand, Dr. Seltsam, a donc annoncé qu’il était envisagé d’interdire la vente de fleurs à usage unique. Cela a fait flamber le cours d’une startup d’Indianola, Sunflower County, qui a mis au point une fleur de tournesol qui ne flétrit jamais. Everlasting propose déjà plusieurs variétés d’Ikébana à base de ces fleurs. Si le coût de la fleur peut donner à réfléchir (9.99 dollars), elles permettent de fleurir son appartement en permanence sans avoir à passer par le fleuriste. Contredisant le Grand Jacques, on pourra bientôt amener à son ou sa chérie des fleurs plutôt que des bonbons parce qu’elles seront moins périssables.

    Je vous ai apporté des bonbons… Parce que les fleurs c’est périssable. Jacques Brel

    La technique mise au point par Everlasting consiste à bloquer le processus de vieillissement de la fleur, ou plus précisément à introduire un gène correcteur de ce vieillissement. Un effet secondaire de la modification génétique est le blocage du mécanisme de pollinisation.
    Le Dr. Seltsam a dit suivre les développements de cette technologie avec intérêt. Il envisagerait même de doter chaque citoyen d’un quota de fleurs que lui, ses parents ou ses descendants pourraient utiliser de la naissance à la mort, voire même se transmettre via les héritages.
    Les fleurs en tissus (voir le tutorial), les couronnes de fleurs séchées, les fleurs en pots de terre cuite, la quête d’ornements floraux non périssables ne datent pas d’hier. On pourrait ajouter qu’une fleur est déjà éternelle, la « Petite fleur » de Sydney Bechet, à réécouter absolument.

    Sidney Bechet : Petite Fleur CD (2006) – Intense, Oldies

    On peut s’inquiéter de possibles effets délétères de fleurs génétiquement modifiées, et souligner que cela ne règlera pas l’extrême gravité de la dégradation de la biodiversité et de la disparition massive d’espèces de fleurs. Maintenir la biodiversité en la manipulant génétiquement ? Au secours ! L’application numérique Plant@net de sciences participatives aide à identifier des plantes à partir de photos. Pourrait-elle permettre de mettre en place un plan massif de sauvegarde des espèces de fleurs menacées ?

    Poisson combattant, Aquaportail

    La manipulation génétique pour vaincre la mort est un domaine de recherche actif, y compris pour les humains. Mais voulons-nous devenir immortels ? A plus court terme, Everlasting travaille sur des poissons d’aquarium qui vivraient éternellement. Ils expérimentent sur le Combattant à la « queue-de-voile » qui arrive déjà à vivre jusqu’à deux ou trois ans en aquarium. Madame Dagotte, la pédégère d’Everlasting, a déclaré : « Une difficulté pour notre recherche est que les tests prennent très longtemps ; nous expérimentons aussi des techniques d’accélération de la vie biologique pour vérifier la résistance de nos produits. » Allez comprendre les scientifiques !

    Une biologiste d’Everlasting amène son poisson Combattant en balade. Serge A.

    Serge Abiteboul, Inria & ENS Paris

  • Informatique pour tou·te·s pendant le confinement

    L’association France-IOI et ses partenaires mettent à votre disposition un ensemble d’activités interactives réalisables à la maison, pour progresser en programmation, algorithmique, cryptanalyse, et en pensée informatique.

     

     

    Il s’agit d’activités pour tous les âges, de 6 à 18 ans, et pour tous les niveaux, du niveau débutant absolu jusqu’à l’entraînement pour les Olympiades.

    Les activités sont ouvertes à tous. Les enseignants, s’ils le souhaitent, peuvent inscrire leurs élèves et suivre leurs progrès à distance.

    Des activités pour tous, même ceux qui n’y connaissent rien à l’informatique !

    Sont inclus des parcours d’apprentissage et des archives de concours :

    • Le concours Castor, pour découvrir l’informatique,
      (700 000 partipant·e·s)
    • Le concours Algoréa, pour apprendre les bases de la programmation,
      (220 000 partipant·e·s)
    • Le concours Alkindi, pour s’initier à la cryptanalyse,
      (60 000 partipant·e·s)
    • Le site France-ioi, pour progresser en algorithmique,
      (1.5 millions de sujets résolus)
    • Les contenus SNT, développé pour les élèves de seconde,
    • Les contenus « programmation dès 6 ans », même sans savoir lire.

    Le tout en accès gratuit et illimité :

    http://www.france-ioi.org/confinement/

     

  • L’Internet pendant le confinement

    On parle beaucoup en ce moment d’une « saturation des réseaux », de « risques pour l’Internet » … entre info et intox, alors donnons la parole à Stéphane Bortzmeyer, pour nous expliquer ce qu’il en est. Cet article est repris de framablog.org et publié sous licence Creative Commons By-SA.
    Serge Abiteboul.

    On parle beaucoup en ce moment d’une « saturation des réseaux », de « risques pour l’Internet », qui justifieraient des mesures autoritaires et discriminatoires, par exemple le blocage ou le ralentissement de Netflix, pour laisser de la place au « trafic sérieux ». Que se passe-t-il exactement et qu’y a-t-il derrière les articles sensationnalistes ?

    La France, ainsi que de nombreux autres pays, est confinée chez elle depuis plusieurs jours, et sans doute encore pour plusieurs semaines. La durée exacte dépendra de l’évolution de l’épidémie de COVID-19. Certains travailleurs télétravaillent, les enfants étudient à la maison, et la dépendance de toutes ces activités à l’Internet a suscité quelques inquiétudes.

    On a vu des médias, ou des dirigeants politiques comme Thierry Breton, réclamer des mesures de limitation du trafic, par exemple pour les services vidéo comme Netflix. Les utilisateurs qui ont constaté des lenteurs d’accès à certains sites, ou des messages d’erreur du genre « temps de réponse dépassé » peuvent se dire que ces mesures seraient justifiées. Mais les choses sont plus compliquées que cela, et il va falloir expliquer un peu le fonctionnement de l’Internet pour comprendre.

    Copie d'écran du site du CNED, montrant un message d'erreur
    Le site Web du CNED, inaccessible en raison des nombreux accès (mais le réseau qui y mène marchait parfaitement à ce moment).

    Réseaux et services

    D’abord, il faut différencier l’Internet et les services qui y sont connectés. Si un élève ou un enseignant essaie de se connecter au site du CNED (Centre National d’Enseignement à Distance) et qu’il récupère un message avec une  « HTTP error 503 », cela n’a rien à voir avec l’Internet, et supprimer Netflix n’y changera rien : c’est le site Web au bout qui est surchargé d’activité, le réseau qui mène à ce site n’a pas de problème. Or, ce genre de problèmes (site Web saturé) est responsable de la plupart des frustrations ressenties par les utilisateurs et utilisatrices. Résumer ces problèmes de connexion avec un « l’Internet est surchargé » est très approximatif et ne va pas aider à trouver des solutions aux problèmes. Pour résumer, les tuyaux de l’Internet vont bien, ce sont certains sites Web qui faiblissent. Ou, dit autrement, « Dire que l’Internet est saturé, c’est comme si vous cherchez à louer un appartement à la Grande Motte au mois d’août et que tout est déjà pris, du coup vous accusez l’A7 d’être surchargée et demandez aux camions de ne pas rouler. »

    On peut se demander pourquoi certains services sur le Web plantent sous la charge (ceux de l’Éducation Nationale, par exemple) et d’autres pas (YouTube, PornHub, Wikipédia). Il y a évidemment de nombreuses raisons à cela et on ne peut pas faire un diagnostic détaillé pour chaque cas. Mais il faut noter que beaucoup de sites Web sont mal conçus. L’écroulement sous la charge n’est pas une fatalité. On sait faire des sites Web qui résistent. Je ne dis pas que c’est facile, ou bon marché, mais il ne faut pas non plus baisser les bras en considérant que ces problèmes sont inévitables, une sorte de loi de la nature contre laquelle il ne servirait à rien de se révolter. Déjà, tout dépend de la conception du service. S’il s’agit de distribuer des fichiers statiques (des fichiers qui ne changent pas, comme des ressources pédagogiques ou comme la fameuse attestation de circulation), il n’y a pas besoin de faire un site Web dynamique (où toutes les pages sont calculées à chaque requête). Servir des fichiers statiques, dont le contenu ne varie pas, est quelque chose que les serveurs savent très bien faire, et très vite. D’autant plus qu’en plus du Web, on dispose de protocoles (de techniques réseau) spécialement conçus pour la distribution efficace, en pair-à-pair, directement entre les machines des utilisateurs, de fichiers très populaires. C’est le cas par exemple de BitTorrent. S’il a permis de distribuer tous les épisodes de Game of Thrones à chaque sortie, il aurait permis de distribuer facilement l’attestation de sortie ! Même quand on a du contenu dynamique, par exemple parce que chaque page est différente selon l’utilisateur, les auteurs de sites Web compétents savent faire des sites qui tiennent la charge.

    Mais alors, si on sait faire, pourquoi est-ce que ce n’est pas fait ? Là encore, il y a évidemment de nombreuses raisons. Il faut savoir que trouver des développeurs compétents est difficile, et que beaucoup de sites Web sont « bricolés », par des gens qui ne mesurent pas les conséquences de leurs choix techniques, notamment en termes de résistance à la charge. En outre, les grosses institutions comme l’Éducation Nationale ne développent pas forcément en interne, elles sous-traitent à des ESN et toute personne qui a travaillé dans l’informatique ces trente dernières années sait qu’on trouve de tout, et pas forcément du bon, dans ces ESN. Le « développeur PHP senior » qu’on a vendu au client se révèle parfois ne pas être si senior que ça. Le développement, dans le monde réel, ressemble souvent aux aventures de Dilbert. Le problème est aggravé dans le secteur public par le recours aux marchés publics, qui sélectionnent, non pas les plus compétents, mais les entreprises spécialisées dans la réponse aux appels d’offre (une compétence assez distincte de celle du développement informatique). Une petite entreprise pointue techniquement n’a aucune chance d’être sélectionnée.

    D’autre part, les exigences de la propriété intellectuelle peuvent aller contre celles de la technique. Ainsi, si BitTorrent n’est pas utilisé pour distribuer des fichiers d’intérêt général, c’est probablement en grande partie parce que ce protocole a été diabolisé par l’industrie du divertissement. « C’est du pair-à-pair, c’est un outil de pirates qui tue la création ! » Autre exemple, la recopie des fichiers importants en plusieurs endroits, pour augmenter les chances que leur distribution résiste à une charge importante, est parfois explicitement refusée par certains organismes comme le CNED, au nom de la propriété intellectuelle.

    Compter le trafic réseau

    Bon, donc, les services sur le Web sont parfois fragiles, en raison de mauvais choix faits par leurs auteurs, et de réalisations imparfaites. Mais les tuyaux, eux, ils sont saturés ou pas ? De manière surprenante, il n’est pas facile de répondre à cette question. L’Internet n’est pas un endroit unique, c’est un ensemble de réseaux, eux-mêmes composés de nombreux liens. Certains de ces liens ont vu une augmentation du trafic, d’autres pas. La capacité réseau disponible va dépendre de plusieurs liens (tous ceux entre vous et le service auquel vous accédez). Mais ce n’est pas parce que le WiFi chez vous est saturé que tout l’Internet va mal ! Actuellement, les liens qui souffrent le plus sont sans doute les liens entre les FAI (Fournisseurs d’Accès Internet) et les services de vidéo comme Netflix. (Si vous voyez le terme d’appairage – peering, en anglais – c’est à ces liens que cela fait allusion.) Mais cela n’affecte pas la totalité du trafic, uniquement celui qui passe par les liens très utilisés. La plupart des FAI ne fournissent malheureusement pas de données publiques sur le débit dans leurs réseaux, mais certains organismes d’infrastructure de l’Internet le font. C’est le cas du France-IX, le principal point d’échange français, dont les statistiques publiques ne montrent qu’une faible augmentation du trafic. Même chose chez son équivalent allemand, le DE-CIX. (Mais rappelez-vous qu’à d’autres endroits, la situation peut être plus sérieuse.) Les discussions sur les forums d’opérateurs réseau, comme le FRnog en France, ne montrent pas d’inquiétude particulière.

    Graphique montrant le trafic du France-IX
    Le trafic total au point d’échange France-IX depuis un mois. Le début du confinement, le 17 mars, se voit à peine.
    Statistiques du FAI FDN
    Le trafic des clients ADSL du FAI (Fournisseur d’Accès Internet) FDN depuis un mois. L’effet du confinement est visible dans les derniers jours, à droite, mais pas spectaculaire.

    Mais pourquoi est-ce qu’il n’y a pas d’augmentation massive et généralisée du trafic, alors qu’il y a beaucoup plus de gens qui travaillent depuis chez eux ? C’est en partie parce que, lorsque les gens travaillaient dans les locaux de l’entreprise, ils utilisaient déjà l’Internet. Si on consulte un site Web pour le travail, qu’on le fasse à la maison ou au bureau ne change pas grand-chose. De même, les vidéo-conférences (et même audio), très consommatrices de capacité du réseau, se faisaient déjà au bureau (si vous comprenez l’anglais, je vous recommande cette hilarante vidéo sur la réalité des « conf calls  »). Il y a donc accroissement du trafic total (mais difficile à quantifier, pour les raisons exposées plus haut), mais pas forcément dans les proportions qu’on pourrait croire. Il y a les enfants qui consomment de la capacité réseau à la maison dans la journée, ce qu’ils ne faisaient pas à l’école, davantage de réunions à distance, etc., mais il n’y a pas de bouleversement complet des usages.

    Votre usage de l’Internet est-il essentiel ?

    Mais qu’est-ce qui fait que des gens importants, comme Thierry Breton, cité plus haut, tapent sur Netflix, YouTube et les autres, et exigent qu’on limite leur activité ? Cela n’a rien à voir avec la surcharge des réseaux et tout à voir avec la question de la neutralité de l’Internet. La neutralité des réseaux, c’est l’idée que l’opérateur réseau ne doit pas décider à la place des utilisateurs ce qui est bon pour eux. Quand vous prenez l’autoroute, la société d’autoroute ne vous demande pas si vous partez en week-end, ou bien s’il s’agit d’un déplacement professionnel, et n’essaie pas d’évaluer si ce déplacement est justifié. Cela doit être pareil pour l’Internet. Or, certains opérateurs de télécommunications rejettent ce principe de neutralité depuis longtemps, et font régulièrement du lobbying pour demander la possibilité de trier, d’évaluer ce qu’ils considèrent comme important et le reste. Leur cible favorite, ce sont justement les plate-formes comme Netflix, dont ils demandent qu’elles les paient pour être accessible par leur réseau. Et certaines autorités politiques sont d’accord, regrettant le bon vieux temps de la chaîne de télévision unique, et voulant un Internet qu’ils contrôlent. Le confinement est juste une occasion de relancer cette campagne.

    Mais, penserez-vous peut-être, on ne peut pas nier qu’il y a des usages plus importants que d’autres, non ? Une vidéo-conférence professionnelle est certainement plus utile que de regarder une série sur Netflix, n’est-ce pas ? D’abord, ce n’est pas toujours vrai : de nombreuses entreprises, et, au sein d’une entreprise, de nombreux employés font un travail sans utilité sociale (et parfois négatif pour la société) : ce n’est pas parce qu’une activité rapporte de l’argent qu’elle est forcément bénéfique pour la collectivité ! Vous n’êtes pas d’accord avec moi ? Je vous comprends, car, justement, la raison principale pour laquelle la neutralité de l’Internet est quelque chose de crucial est que les gens ne sont pas d’accord sur ce qui est essentiel. La neutralité du réseau est une forme de laïcité : comme on n’aura pas de consensus, au moins, il faut trouver un mécanisme qui permette de respecter les choix. Je pense que les Jeux Olympiques sont un scandaleux gaspillage, et un exemple typique des horreurs du sport-spectacle. Un autre citoyen n’est pas d’accord et il trouve que les séries que je regarde sur Netflix sont idiotes. La neutralité du réseau, c’est reconnaître qu’on ne tranchera jamais entre ces deux points de vue. Car, si on abandonnait la neutralité, on aurait un problème encore plus difficile : qui va décider ? Qui va choisir de brider ou pas les matches de foot ? Les vidéos de chatons ? La vidéo-conférence ?

    D’autant plus que l’Internet est complexe, et qu’on ne peut pas demander à un routeur de décider si tel ou tel contenu est essentiel. J’ai vu plusieurs personnes citer YouTube comme exemple de service non-essentiel. Or, contrairement à Netflix ou PornHub, YouTube ne sert pas qu’au divertissement, ce service héberge de nombreuses vidéos éducatives ou de formation, les enseignants indiquent des vidéos YouTube à leurs élèves, des salariés se forment sur YouTube. Pas question donc de brider systématiquement cette plate-forme. (Il faut aussi dire que le maintien d’un bon moral est crucial, quand on est confiné à la maison, et que les services dits « de divertissement » sont cruciaux. Si vous me dites que non, je vous propose d’être confiné dans une petite HLM avec quatre enfants de 3 à 14 ans.)

    À l’heure où j’écris, Netflix et YouTube ont annoncé une dégradation délibérée de leur service, pour répondre aux injonctions des autorités.  On a vu que les réseaux sont loin de la saturation et cette mesure ne servira donc à rien. Je pense que ces plate-formes essaient simplement de limiter les dommages en termes d’image liés à l’actuelle campagne de presse contre la neutralité.

    Conclusion

    J’ai dit que l’Internet n’était pas du tout proche d’un écroulement ou d’une saturation. Mais cela ne veut pas dire qu’on puisse gaspiller bêtement cette utile ressource. Je vais donc donner deux conseils pratiques pour limiter le débit sur le réseau :

    • Utilisez un bloqueur de publicités, afin de limiter le chargement de ressources inutiles,
    • Préférez l’audio-conférence à la vidéo-conférence, et les outils textuels (messagerie instantanée, courrier électronique, et autres outils de travail en groupe) à l’audio-conférence.

    Que va-t-il se passer dans les jours à venir ? C’est évidemment impossible à dire. Rappelons-nous simplement que, pour l’instant, rien n’indique une catastrophe à venir, et il n’y a donc aucune raison valable de prendre des mesures autoritaires pour brider tel ou tel service.

    Quelques lectures supplémentaires sur ce sujet :

    Stéphane Bortzmeyer, cet article est repris de framablog.fr et publié sous licence Creative Commons By-SA.

  • La chronique du 5ème jour … de confinement.

    Comment vivre au mieux cette période de confinement ? En en profitant pour lire binaire à l’heure du Corona, et en faisant de ce temps de confinement une occasion de prendre du recul par rapport à nos vies. Serge, éditeur de Binaire partage de petits bouts de vie et de son imagination … extraits choisis issus de son « slow blog« .
    Pascal Guitton et Thierry Viéville

    Une bière en terrasse

    L’épidémie de grippe espagnole en 1918 : peut-être 100 millions de morts
    L’épidémie de Covid 19 en 2020 : peut-être 100 mille morts
    L’épidémie de Glups 33 en 2133 : moins de 100 morts.

    Le Glups 33 était pourtant très létal et hyper contaminant. Avec l’accroissement considérable de la population et le développement du tourisme de masse, on aurait pu craindre le pire. Mais entre la Grippe Espagnole et le Covid 19, on avait amélioré les systèmes de santé et inventé les antibiotiques. Et pour Glups 33, les personnels de santé pouvaient compter sur les robots. Pendant la période de confinement, les humains ont pu vraiment rester confinés : ils n’ont pas eu à s’occuper des livraisons de nourriture, des poubelles, de la poste, etc. Surtout des robots infirmiers sous le contrôle de médecins ont soigné les humains infectés. Et puis, s’il a fallu des années pour mettre au point des vaccins contre la grippe, quelques mois ont suffi pour le Covid 19. Les chercheurs ont mis au point un vaccin pour le Glups 33 en quelques jours.

    Vous en trouverez bien quelques uns à regretter que cette période propice pour méditer et profiter de la famille la plus restreinte ait été si courte. Le plus grand nombre s’est réjoui de pouvoir se précipiter vers les terrasses de café au premier rayon de soleil après la levée du confinement.

    À l’aide les drones ! (copyleft Serge A.)

    En ce qui me concerne, je rêve d’une bière à la terrasse de la Java. Va falloir attendre…

       Pour suivre les autres billets de Serge c’est sur son blog https://abiteboul.blogspot.com (on peut s’abonner).

    Serge Abiteboul

  • Binaire au temps du Corona

    Chers lecteurs et chères lectrices

    Vous êtes sans doute comme nous en télétravail ou en chômage plus ou moins partiel.  La France se réveille avec plein de conseillers spécialistes de gestion de crise du Corona. Binaire y va aussi de ses conseils :

      • 1 – Suivez les consignes des sites officiels et des journaux responsables. N’écoutez pas les fakenews qui fleurissent (buvez du thé) ou les délires plus ou moins complotistes de soi-disant célébrités (comme Nadine).
      • 2 – Prenez des nouvelles de vos proches : le téléphone fonctionne très bien.
      • 3 – Rattrapez votre lecture des articles de binaire que vous avez ratés, comme par exemple les entretiens autour de l’informatique, parce que vous aviez tellement de choses plus importantes à faire – restos, expos, troquets, et même boulot. Vous n’avez plus d’excuses !
      • 4 – Profitez des bienfaits du monde numérique :
        • faites des vidéo-calls avec vos amis, votre famille. C’est moins sympa qu’une bière en terrasse, mais plus raisonnable de nos jours. Ils en ont besoin et vous aussi.
        • suivez des moocs, par exemple Class code.
        • lisez les journaux et des livres électroniques ; on a prouvé que cela ne propage pas le virus.
        • limitez-vous un peu sur les vidéos, jeux en réseau, et le porno, qui font flamber les réseaux télécoms pour ne pas ralentir les lecteurs de binaire.
      • 5 – Faites comme les Italiens, chantez ensemble depuis votre fenêtre, ou comme les espagnols, faites de la gym ensemble depuis votre balcon ou votre fenêtre ou reposez-vous.
      • 6 – Apprenez à mieux vivre votre télétravail si vous télétravaillez
      • 7 – Et surtout gardez le moral ! On finira bien par se débarrasser de ce putain de virus !

    L’équipe binaire

  • Sihem Amer-Yahia : quand l’informatique devient sociale

    Sihem Amer-Yahia, site du Laboratoire d’Informatique de Grenoble

    Sihem Amer-Yahia est directrice de recherche CNRS, responsable d’une équipe du Laboratoire d’Informatique de Grenoble à la frontière entre la fouille de données, la recherche d’informations, et l’informatique sociale (social computing).

    Après un diplôme d’ingénieur à l’ESI d’Alger, en 1994, elle passe sa thèse en 1999 chez Inria, sous la direction de Sophie Cluet, sur le chargement massif de données dans les bases de données orientées objet. Sihem se lance ensuite dans un grand voyage académique et industriel : un post-doctorat à AT&T Labs, puis des postes à Yahoo! Labs toujours aux États-Unis, Yahoo! Barcelone, le Computing Research Institute au Qatar, avant de rejoindre Grenoble et le CNRS en 2012.

    Entre temps, la doctorante est devenue une chercheuse de renommée internationale avec des contributions majeures notamment sur le stockage et l’interrogation des données XML et les systèmes de recommandation.

    Sihem a vite compris l’importance du caractère social des données produites par des humains. Elle a été convaincue que pour des logiciels faisant interagir des humains, comme les réseaux sociaux, le crowd sourcing, les systèmes de recommandation, les logiciels de ressources humaines, il fallait tenir compte des comportements sociaux, des facteurs humains.

    Image par Gerd Altmann de Pixabay

    Donc parlons d’informatique sociale, la passion de Sihem. Le traitement massif de données produites par des humains pose à l’informatique des défis passionnants. Prenons les systèmes de recommandations qui nous aident à choisir des produits ou des services. Pour saisir la richesse des recommandations, il faut maîtriser la langue, et tenir compte du comportement humain : Qu’est-ce qui conduit quelqu’un à s’« engager » en donnant une opinion ? Quels sont les souhaits de chacun ? Quels pourraient être les biais ?… Les données humaines s’introduisent partout, par exemple : dans la justice (comment évaluer les risques de récidive), dans la politique (comment analyser les données du Grand Débat, ou les réactions sur les élections sur Twitter), dans la médecine (le dialogue avec le patient dans le cadre du diagnostic automatique), dans la sociologie (comment détecter automatiquement des messages de haine), dans l’Éducation nationale (comment se comportent les élèves devant Parcoursup)… Cela nous conduit aux frontières de l’informatique, et les informaticiens y côtoient des linguistes, des juristes, des spécialistes de sciences politiques, des sociologues, des médecins, des psychologues… Toute la richesse des sciences humaines et sociales, et au-delà.

    Sihem est aujourd’hui internationalement reconnue par ses pair·e·s. Ses travaux sont énormément cités, et ont trouvé des applications directes au sein des entreprises qui l’ont employée.

    Sihem aime faire partager sa passion pour l’informatique et la recherche. On pourra lire ou relire ses articles récents [1] dans binaire sur les algorithmes de RH. Elle milite pour plus de place pour les femmes dans les sciences ; elle est source d’inspiration pour les jeunes chercheuses en informatique (un domaine très déséquilibré en genre).

    La prestigieuse médaille d’argent du CNRS, qui distingue chaque année un·e scientifique d’un laboratoire CNRS dans chaque discipline, lui a été attribuée en 2020.

    Serge Abiteboul, Arcep & Inria ; Pierre Senellart, ENS, Université PSL

    [1] Le testing algorithmique de la discrimination à l’embauche (1) et (2), Sihem Amer-Yahia et Philippe Mulhem (CNRS, Univ. Grenoble Alpes), 2010. www.lemonde.fr/blog/binaire/

  • Les biais biométriques et ethniques des logiciels de reconnaissance faciale

    Développée depuis longtemps, la reconnaissance faciale est aujourd’hui au centre de nombreux débats questionnant la mise en œuvre de cette technologie, notamment sur un plan éthique. Avec des décisions parfois hésitantes comme celles de la Commission européenne qui, après avoir annoncé un moratoire sur l’utilisation de cette technologie, est revenue en arrière quelques jours après. Afin de pouvoir comprendre les enjeux, il est important de bien connaître ces algorithmes et leurs biais. C’est pour contribuer à cette maîtrise que Charles Cuvelliez et Jean-Jacques Quisquater nous présentent une étude récente analysant des produits commercialisés. Pascal Guitton

    De quoi parle-t-on ?

    On a tendance à confondre – à tort – reconnaissance faciale et analyse faciale. Avec l’analyse faciale, c’est une ou plusieurs propriétés continues liées au visage (âge, fatigue, stress…) qui sont analysées.  Elle a pour but de déterminer une quantité qui permet de verser une personne dans une catégorie (son sexe, son état émotionnel…). Les algorithmes utilisés sont construits avec une connaissance présupposée des catégories en question.

    La reconnaissance faciale et les algorithmes qui la sous-tendent calculent, sur la base du visage à reconnaître, un ensemble de valeurs qui caractérisent l’identité de la personne.  Ils comparent ces valeurs soit avec celles d’une base de données lorsqu’il s‘agit d’identifier une personne (identification), soit avec une image du visage prise antérieurement (authentification), par exemple pour déverrouiller un smartphone ou une application bancaire. Un score de similitude est calculé, puis comparé à un seuil fixé par le développeur de l’algorithme. Ce seuil, atteint ou non, décide si le visage est reconnu.

    Cette photo montre un passage devant une borne à l'aéroport. On y voit son visage reflété sur l'écran
    Borne de la compagnie Delta Air Lines pour les passagers à l’aéroport d’Atlanta – Photo  Chris Rank, Rank Studios 2018) – DeltaNewsHub on Visualhunt / CC BY

    Il y a deux types d’erreur : les faux négatifs et les faux positifs. Un faux négatif correspond à une reconnaissance faciale ayant échoué, c’est-à-dire n’ayant pas reconnu un visage pourtant préalablement enregistré. La victime ne peut déverrouiller son téléphone ou passer des portiques de sécurité. C’est souvent gênant, rarement dangereux. Un faux positif est plus problématique. Une reconnaissance est établie alors qu’elle n’aurait pas dû avoir lieu, ce qui se ramène à une usurpation d’identité : une personne obtient des accès auquel elle n’a pas droit ou bien peut être accusée à tort d’un délit.

    Selon l’application, l’impact des faux positifs et faux négatifs n’est pas le même : s’il s’agit d’écarter les hooligans d’un stade, un taux élevé de faux négatifs est moins problématique puisque la probabilité d’avoir un hooligan, déjà interdit de stade, est peu élevée.

    De gros progrès

    Le NIST (National Institute of Standards & Technology), agence du département du commerce des États-Unis, a entamé une étude comparative des solutions commerciales de reconnaissance faciale depuis plusieurs années. Leurs progrès ont été spectaculaires : les taux d’erreur sont  bien inférieurs à ceux de 2010 grâce notamment à l’utilisation des réseaux de neurones profonds (appelés Deep Convolutional Neural Networks en anglais).

    La reconnaissance faciale est un problème pratiquement résolu d’un point de vue théorique mais il subsiste encore beaucoup d’algorithmes qui n’atteignent pas la perfection des meilleurs et qui restent cependant intégrés dans des solutions commercialisées. En fait, seuls quelques algorithmes excellent vraiment, notamment pour des images de basse qualité ou pour une reconnaissance faciale qui doit rester efficace sur plusieurs années (c’est-à-dire pour gérer le vieillissement, qui s’il n’est pas bien pris en compte, nécessite par exemple de refaire son passeport). Ne pas choisir un « bon » algorithme, entraîne donc une prise de risques.

    Cette photo montre le visage d'un homme sur lequel sont superposées des mesures de hauteur et de largeur (yeux, bouche, nez...).
    Photo credit: IBM Research on Visual hunt / CC BY-ND

    S’il paraît évident que la qualité des photos utilisées influe directement sur les résultats, il était difficile d’imaginer l’importance de la présence d’un opérateur qui vous guide au moment de la saisie initiale (orientation de la tête ou expressivité du visage [1]) écrit le NIST.  Idéalement, même, il faudrait disposer de plusieurs images d’une même personne dans la base de données de comparaison. L’étude souligne que certains algorithmes ne sont pas stables avec la taille de la base de données : leur taux de faux positifs et de faux négatifs augmente en fonction de cette dernière, ce qui ne permet pas de les utiliser à grande échelle.

    Le NIST rappelle que ces algorithmes ne sont pas devenus monnaie courante ; il subsiste des différences de performances importantes qui justifient le maintien d’un test continu d’évaluation.

    Cet organisme recommande de ne pas se contenter des simples critères comme le coût ou la facilité d’intégration de l’algorithme dans le système visé. Il faut aussi tenir compte de ses performances, de la possibilité d’un contrôle humain en cas de doute, de la maintenance du code, etc.

    Des biais démographiques qui posent question

    Le NIST s’est également intéressé aux biais démographiques. Ces faux positifs et/ou ces faux positifs sont-ils plus fréquents pour les femmes, les jeunes, les personnes âgées, sont-ils sensibles à l’origine ethnique ? L’étude a considéré les quatre grands ensembles de photos en usage aux États-Unis : les photos judiciaires et de signalement, les photos des candidats à l’immigration, les photos des candidats à l’obtention d’un visa et les photos aux frontières. Il s’agit en tout de 18.27 millions de photos de 8.49 millions de personnes sur lesquels 189 algorithmes commerciaux de 99 développeurs ont été testés. C’est le taux de faux positifs qui est le plus sensible aux variations démographiques, quel que soit l’algorithme : on observe une variation de ce taux évoluant entre 10 et 100. Les faux négatifs sont plus dépendants de l’algorithme avec une variation du taux en-dessous de 3.

    Pour les faux négatifs, le NIST observe un taux d’erreur  entre 0.5 % et 10 % selon l’algorithme. Pour les photos d’identité judiciaire, c’est chez les personnes de couleur noire que le taux d’erreur est le moindre. Leur visage vieillit moins vite, pense, pour l’expliquer, le NIST qui ne veut pas relier cette observation à une proportion plus grande de personnes de couleur noire dans  l’identité judiciaire.

    Avec des photos de haute qualité prises dans le cadre d’une demande d’immigration, le taux de faux négatifs est beaucoup plus bas, et ne recèle, semble-t-il, aucune sensibilité aux différences démographiques. Quant aux images prises dans des conditions plus précaires au passage des frontières, les faux négatifs sont plus élevés pour les personnes originaires d’Afrique, des Caraïbes et pour les individus plus âgés.

    Les faux positifs

    L’étude a aussi révélé que le taux de faux positifs, plus dangereux donc, était de 2 à 5 fois plus élevé chez les femmes, selon  l’algorithme, le pays d’origine ou l’âge. Quant à l’origine ethnique, le taux de faux positifs est le plus élevé pour les Africains de l’est et de l’ouest du continent. Il reste élevé pour les gens d’Amérique centrale. Le taux d’erreur est le moins élevé pour les Européens de l’Est.

    Les algorithmes développés par les entreprises chinoises sont les meilleurs, écrit le NIST : non seulement, ils ont des bas taux de faux positifs tant pour les Asiatiques (pour lesquels les autres algorithmes fonctionnent mal) que pour les Caucasiens. L’environnement géographique et culturel du développement de l’algorithme a une importance, ne fut-ce que par le choix des données d’entraînement.

    Peut-on limiter ces erreurs ? Oui, lorsqu’il s’agit d’une reconnaissance d’identité, il suffit de passer la  base de données en revue plusieurs fois avec plusieurs algorithmes ou d’appliquer des techniques d’évitement (comme présenter à un évaluateur humain tous les faux positifs). Avec un algorithme d’authentification (par exemple déverrouiller un appareil), c’est plus difficile puisqu’on a une décision tout ou rien, sans retour possible. Quelques algorithmes comme Idemia ou NEC3 ne présentent pas de biais démographique et seront d’ailleurs utilisés pour identifier les athlètes aux jeux olympiques de Tokyo, qui brasseront toutes les origines ethniques.  De façon plus globale, il faut plutôt privilégier les algorithmes qui produisent des taux de faux positifs ou faux négatifs indépendants de la taille de la base de données de comparaison (Aware, Tevian et Real Networks), ils permettent de faire  de la reconnaissance de masse (pour le meilleur ou pour le pire).

    Quelles sont les causes des faux positifs et faux négatifs dus aux biais démographiques ? Le NIST ne s’avance pas mais mentionne quelques pistes d’explication, comme les effets de la caméra, notamment l’interaction caméra-individu ou comme on s’en doute la qualité de l’image. Certains algorithmes mesurent la qualité de l’image et refusent carrément une reconnaissance si elle n’est pas suffisante, pour éviter un  faux négatif.

    Comme le montrent les algorithmes développés en Chine qui présentent moins de biais démographiques, parce que disposant de données d’entraînement plus larges et plus multi-ethniques, étendre les données d’entraînement est un premier remède. Exploiter la finesse de la texture de la peau ou la forme du visage sont d’autres moyens d’améliorer la reconnaissance : il existe un algorithme  breveté en 2004 qui a réussi, sur cette base, à distinguer des vrais jumeaux !  La reconnaissance de l’iris n’est pas, non plus, prise en compte dans les algorithmes de reconnaissance faciale. Mais ce n’est pas facile : la précision actuelle des capteurs nécessite d’être positionné très (trop) près de la caméra pour que l’iris soit correctement détecté. Enfin, dernière piste, on peut fixer des seuils différents en fonction du groupe visé, âgé, jeune, d’une certaine origine ethnique, à partir duquel on déclare avoir un faux positif ou un faux négatif variable. C’est assumer les biais démographiques.

    Quelle régulation ?

    L’Europe hésite : en quelques jours, elle a d’abord annoncé vouloir mettre un moratoire visant à interdire pendant 5 ans la reconnaissance faciale dans les lieux publics, puis elle a fait marche arrière en évoquant la mise en place d’exigences spécifiques pour encadrer cette technologie. Entre le déverrouillage de son mobile et la surveillance continue des citoyens dans la rue, la reconnaissance faciale couvre un très large spectre d’applications. Prenons le temps d’une vraie réflexion éclairée par une bonne connaissance des solutions et des enjeux avant de décider une quelconque utilisation.

    Charles Cuvelliez (Ecole Polytechnique de Bruxelles, Université de Bruxelles) & Jean-Jacques Quisquater (Ecole Polytechnique de Louvain, Université de Louvain et MIT)

    [1] les réseaux de neurones profonds sont robustes à ces critères

    Pour en savoir plus :

    NISTIR 8271, Face Recognition Vendor Test (FRVT) Part 2: Identification Patrick Grother & alii, Information Access Division, Information Technology Laboratory, https://doi.org/10.6028/NIST.IR.8271

    NISTIR 8280, Face Recognition Vendor Test (FRVT), Part 3: Demographic Effects, Patrick Grother & alii, Information Access Division, Information Technology Laboratory https://doi.org/10.6028/NIST.IR.8280

  • Le testing algorithmique de la discrimination à l’embauche (2)

    De nombreuses plateformes numériques mettent en contact employeurs et employés sur internet. Elles sont de plus en plus utilisées pour proposer des  emplois et par les chercheurs d’emploi. Sihem Amer-Yahia et Philippe Mulhem nous ont expliqué le concept du testing algorithmique dans un article précédent. Ils expliquent ici comment le testing algorithmique sert pour vérifier des discriminations possibles voire en détecter. Il s’agit de comprendre sa complémentarité avec un testing plus classique. Serge Abiteboul

    Les plateformes numériques d’emploi utilisent des algorithmes pour l’appariement entre pourvoyeurs et demandeurs d’emploi. Ces plateformes se doivent de respecter les lois sur la discrimination à l’embauche (code du travail (article L 1132-1) et le code pénal (articles 225-1 à 225-4)). Dans le cas de la recherche d’emploi « classique » (c’est-à-dire hors de ces plateformes), des propositions de testing classique existent pour mesurer les potentielles discriminations. L’étude de la discrimination dans ces plateformes doit intégrer le fait qu’elles opèrent sur de grandes quantités de données (offres d’emploi et/ou profils de chercheurs d’emploi)  ;  nous proposons pour cela le testing algorithmique (voir l’article précédent sur Binaire). Contrairement au testing classique comme celui présenté par la DARES (Direction de l’animation de la recherche, des études et des statistiques), le testing algorithmique automatise la vérification du comportement discriminatoire d’un algorithme d’appariement entre les pourvoyeurs et les demandeurs d’emploi. Le testing algorithmique permet de manipuler rapidement de grandes quantités de données décrivant les demandeurs et pourvoyeurs d’emploi, ce qui est une opportunité pour tester plusieurs critères de discrimination.

    Nous explorons ici les apports attendus du testing algorithmique au travers du traitement de deux variantes de questions-type en nous plaçant dans un contexte d’utilisation précis. Dans la première, il s’agit de vérifier une hypothèse de discrimination (ou de la quantifier), alors que la deuxième variante est davantage utilisée pour générer des hypothèses de discrimination. Comme illustration, nous considérons le travail de Jeanne Dupond chargée par une instance régulatrice européenne de tester les discriminations éventuelles pour une plateforme imaginaire d’offres d’emploi en ligne, appelée BestTaf. Jeanne utilise un outil de testing algorithmique.
    Nous rapportons des résultats préliminaires obtenus sur la plateforme d’offres d’emploi TaskRabbit. Nos tests ont porté sur 5 300 demandes d’embauche dans plus de 50 villes américaines et quelques villes anglaises, sur 113 catégories d’emplois différentes.

    Vérification d’hypothèses de discrimination

    Dans un premier temps, Jeanne étudie si certaines discriminations déjà rencontrées dans d’autres études existent aussi sur BestTaf. Par exemple, elle veut vérifier deux hypothèses : la première selon laquelle les femmes sont plus discriminées que les hommes pour les postes de cadre dans la maintenance de machine-outil dans la région de Grenoble, la seconde selon laquelle les hommes entre 55 et 62 ans sont plus discriminés que les hommes entre 20 et 30 ans pour des postes de développeur informatique dans la région de Berlin. Le système de testing doit vérifier si les groupes de personnes sont traités de la même manière en comparant les classements des chercheurs d’emploi sur la plateforme.

    Contrairement au testing classique qui repose typiquement sur quelques centaines d’utilisateurs, le testing algorithmique peut prendre en compte sans difficulté des milliers de personnes. Par exemple, la plateforme de recherche d’emploi TaskRabbit inclut plus de 140 000 demandeurs d’emploi. Le testing algorithmique peut ainsi être utilisé pour vérifier des hypothèses sur un très grand nombre de personnes. Il peut également être utilisé pour affiner les résultats suivant une dimension ou une autre. Par exemple, Jeanne pourra tester si les offres dans le quartier de Neuköln à Berlin sont moins discriminatoires que celles de Pankow à Berlin.

    L’analyse des offres d’emploi de TaskRabbit a permis de montrer que l’origine ethnique est une source de discrimination à l’embauche aux États-Unis, tous emplois confondus. Une telle observation a déjà été faite par un testing classique réalisé en France sur le groupe CASINO. Plus précisément, nous avons trouvé que les personnes d’origine asiatique étaient plus discriminées que les personnes caucasiennes.

    Génération d’hypothèses de discrimination

    Dans un second temps, Jeanne se pose des questions plus générales, pour lesquelles elle n’a pas toutes les « cartes en main ». Elle veut par exemple obtenir les groupes de personnes (femmes dans certaines tranches d’âge, hommes) par rapport auxquels un groupe de référence, par exemple les femmes entre 40 et 50 ans, sont les plus discriminées à Paris. Dans ce cas, le testing algorithmique doit explorer les groupes qu’il va comparer au groupe de référence. C’est-à-dire, qu’il peut générer des hypothèses qui n’ont pas été exprimées par Jeanne. Cela permet alors à Jeanne d’identifier rapidement des comportements non-attendus afin, dans un second temps, de les explorer plus finement par un autre testing algorithmique ou même par un testing classique.

    Par exemple, sur les données de TaskRabbit, notre testing algorithmique a trouvé que les emplois les plus discriminés sont les travaux de bricolage et les postes dans l’événementiel, et les moins discriminés sont l’aide à l’assemblage de meubles, et l’aide pour les courses. Nous avons également observé que, pour la seconde question de génération d’hypothèses portant sur des villes, pour tout travail confondu, les villes de Birmingham au Royaume Uni et d’Oklahoma City aux États-Unis sont les plus discriminatoires, alors que San Francisco et Chicago le sont le moins.

    Les testings algorithmique et testing sont complémentaires selon plusieurs dimensions :

    • Quantité. Habituellement, le testing classique étudie les offres pour quelques dizaines ou centaines de personnes. Le testing algorithmique est lui capable de traiter rapidement des milliers d’emplois, de personnes, de zones géographiques. Le testing algorithmique peut venir étayer des résultats du testing classique sur un grand nombre de données (vérification d’hypothèses). Avec la génération d’hypothèse, il peut aussi réduire le coût de déploiement du testing classique. De son côté, le testing algorithmique peut aussi être utilisé pour développer une meilleure « intuition » des discriminations et réduire le nombre de tests à vérifier par le second.
    • Dynamicité. Le testing algorithmique a la capacité de proposer l’exploration interactive de discriminations potentielles, en jouant sur la granularité des paramètres présents (âges, localisation, catégorie d’emploi, …). Il peut aussi, grâce à la vitesse de ses calculs, permettre d’explorer les évolutions des discriminations dans le temps, en se basant sur des acquisitions de données périodiques. Un tel atout permet, à la suite d’un testing classique ou algorithmique, de vérifier rapidement si une discrimination perdure.
    • Démocratisation. Les testing classiques pour les offres d’emploi sont l’œuvre d’experts, qu’ils soient réalisés à l’insu d’une entreprise ou parce que cette dernière les sollicite. Dans tous les cas, les personnes qui cherchent ou qui pourvoient un emploi n’y sont pas associées. Le testing algorithmique peut complémenter le testing classique en permettant à davantage d’individus d’être acteurs dans la mise au jour de discriminations dont ils font potentiellement l’objet, en offrant la possibilité de transmettre directement des alertes à la plateforme. Cette démocratisation, pour être réellement effective, devra passer par des algorithmes de testing algorithmique transparents. De tels algorithmes devront être capables d’expliquer leurs résultats de manière claire, tout en conservant un niveau de détail garantissant la protection des données personnelles.

    Les limites du testing algorithmique

    Les questions à résoudre pour le testing algorithmique sont nombreuses. Elles sont d‘abord philosophiques : peut-on se satisfaire de laisser un algorithme, celui de détection de discrimination, évaluer un autre algorithme, celui de la plateforme ? Quels sont les biais des données et comment les intégrer ? Peut-on accepter de « rater » des discriminations réelles et les fausses alarmes ? Comment garantir la protection des données personnelles ? Elles sont également d’ordre opérationnel : la définition de critères pour calculer les discriminations, des formules de calcul des discriminations, le développement d’une logique algorithmique permettant de détecter les angles d’analyse (groupes, régions, type de travail, période de temps), la présentation lisible des calculs et des résultats.

    Il ne nous semble pas souhaitable de favoriser une automatisation à outrance du testing. Le testing algorithmique ne doit pas avoir pour vocation de remplacer, ni le testing classique, ni l’apport indispensable de l’être humain lors de tâches d’audit qui réclament une grande expertise. Par contre, il propose à l’expert un outil pour l’aider à trouver, dans de grandes quantités d’informations relatives à l’offre et à la recherche d’emploi sur internet, les signaux qui méritent une attention particulière pour une exploration des discriminations de manière dynamique et démocratisée.

    Sihem Amer-Yahia et Philippe Mulhem (CNRS, Univ. Grenoble Alpes)