Catégorie : Entretiens autour de l’info

  • À la découverte du cerveau

    Un nouvel « Entretien autour de l’informatique ». Michel Thiebaut de Schotten est directeur de recherche au CNRS en neuropsychologie et en neuroimagerie de la connectivité cérébrale. Il travaille notamment sur l’anatomie des connexions cérébrales et leur déconnexion suite à des accidents vasculaires cérébraux ainsi que sur l’évolution du cerveau en comparant les espèces. Il a rejoint récemment l’Institut des Maladies Neurodégénératives à Bordeaux et continue à travailler avec l’Institut du cerveau et de la moelle épinière à Paris. Il est médaille de bronze du CNRS et lauréat d’un contrat prestigieux de l’European Research Council. Il fait partager à binaire sa passion pour les neurosciences. Cet article est publié en collaboration avec The Conversation.
    Michel Thiebaut de Schotten © CNRS/Délégation PMA

    B – Tu peux nous parler un peu de ton parcours ?

    MT – Je viens de la psychologie. J’ai choisi de faire un doctorat en neuroscience à la Salpêtrière (Université Pierre et Marie Curie) en 2007. Puis j’ai fait un post-doc à Londres sur la cartographie des réseaux cérébraux. Je suis depuis 2012 au CNRS. Nous utilisons beaucoup l’imagerie numérique. Nous faisons aussi un peu d’analyse postmortem pour vérifier que ce que nous avons vu dans les images correspond à une réalité.

     

    B – Il nous faudrait partir un peu de la base. Qu’est-ce que c’est l’imagerie du cerveau pour les neurosciences ?

    MT – À l’aide de l’Imagerie par résonance magnétique, on peut étudier soit la forme et le volume des organes (IRM anatomique), soit ce qui se passe dans le cerveau quand on réalise certaines activités mentales (IRM fonctionnelle). À partir des données d’IRM, on peut dessiner les réseaux du cerveau humain. Les axones des neurones sont des petits câbles de 1 à 5 micromètres, avec autour une gaine de myéline pour que l’électricité ne se perde pas, ils se regroupent en grand faisceaux de plusieurs milliers d’axones (Figure 1). C’est ce qui construit dans le cerveau des autoroutes de l’information. On peut faire une analogie avec un réseau informatique : les neurones sont les processeurs tandis que les axones des neurones forment les connexions.

    Fig. 1 Les autoroutes du cerveau. Exemple de connexions cérébrales liant les régions de l’avant du cerveau avec celles de l’arrière du cerveau. @ Michel Thiebaut de Schotten

    B – Et ces connexions sont importantes ?

    MT – Super importantes ! Un de mes premiers travaux a été de réaliser un atlas des connexions cérébrales afin de savoir quelles structures étaient reliées entre elles par ces autoroutes. En effet, pour chaque traitement cognitif, plusieurs régions doivent fonctionner en collaboration et s’échanger des informations (exactement comme différents processeurs dans nos ordinateurs). On voit aussi l’importance des connexions cérébrales quand certaines sont rompues suite à une maladie, un AVC, un accident. Cela conduit à des incapacités parfois très lourdes pour la personne.

    On estime que la vitesse de transmission de l’information dans ces réseaux est comprise entre 300 et 350 km/h ; la même que celle du TGV qui me transporte de Bordeaux à Paris mais bien loin de la vitesse de transmission de l’information dans une fibre optique. Heureusement, les distances sont petites.

    B – Ça  a l’air un peu magique. Comment est-ce qu’on met en évidence les connexions entre des régions du cerveau ?

    MT – Tout d’abord il faut préciser qu’on doit faire des mesures sur plusieurs personnes car, même si nos cerveaux possèdent des similarités, il existe des différences notables entre individus. Il faut faire une moyenne des résultats obtenus pour chaque sujet pour obtenir une cartographie en moyenne.

    L’IRM est en mesure de détecter les mouvements de particules d’eau et grâce à la myéline autour des axones qui joue le rôle de l’isolant d’un fil électrique, les mouvements de particules d’eau sont contraints dans la direction de l’axone. Ainsi en suivant cette direction on peut reconstruire les grandes connexions cérébrales. On obtient alors une carte des connexions qui ressemble à un plat de nouilles. Imaginez qu’à un millimètre de résolution, on détecte environ 1 million de connexions cérébrales qui sont repliées sur elles-mêmes dans un volume d’environ 1,5 litre ; c’est très dense !

    Il faut donc ensuite démêler ces connexions pour pouvoir les analyser finement. Au début, on partait des atlas anatomiques dessinés au 19e siècle et on essayait de reconnaître (d’apparier) les réseaux détectés avec les structures connues. Puis, on a essayé d’obtenir ces connexions en les extrayant manuellement à l’aide de requêtes comme « afficher les connexions qui relient les zones A et B sans passer par la zone C ». Aujourd’hui, on utilise des algorithmes d’extraction automatique qui détectent des composantes principales (des tendances) pour construire des faisceaux de connexion. Ces systèmes s’inscrivent dans ce qui s’appelle les neurosciences computationnelles.

    Le cerveau : neuroscience et numérique © Saint-Oma

    B – Ces réseaux ne sont pas rigides. Ils évoluent dans le temps.

    MT – Oui. Un bébé naît avec beaucoup plus de connexions que nécessaire. Puis, pendant toute l’adolescence, ça fait un peu peur, on perd des connexions en masse ; on avance le chiffre de 300 000 connexions perdues par seconde. Mais dans la même période, on spécialise et on renforce celles qui nous sont utiles ; leur utilisation augmente le diamètre et donc le débit de la connexion.

    On considère que le cerveau atteint sa maturité autour de 20 ans ; après, il est plus difficile de changer notre réseau de connexions, on se contente d’ajuster le « câblage ». Il est donc fondamental d’acquérir de nombreux apprentissages dans sa jeunesse afin d’arriver au plus haut potentiel cérébral au moment où commence le déclin cognitif.

    Il est aussi clairement démontré que l’activité cérébrale aide à mieux vieillir. Un neurone qui ne reçoit pas d’information via ses connexions avec d’autres neurones réduit sa taille et peut finir par mourir. On peut faire une analogie avec les muscles qui s’atrophient s’ils ne sont pas sollicités. En utilisant son cerveau, on développe sa plasticité.

    Enfin, si à la suite d’un traumatisme, la voie directe entre deux régions du cerveau est endommagée, le cerveau s’adaptera progressivement. L’information prendra un autre chemin, moins direct, même à l’âge adulte. Mais la transmission d’information sera souvent plus lente et plus limitée.

    B – Est-ce que nous avons tous des cerveaux différents ? De naissance ? Parce que nous les faisons évoluer différemment ?

    MT – On observe une grande variabilité entre les cerveaux. Leurs anatomies présentent de fortes différences. Leurs fonctionnements aussi. On travaille pour mieux comprendre la part de l’inné et de l’acquis dans ces différences. On a comparé les cerveaux de chefs cuisiniers et de pilotes de F1. On a aussi analysé les cerveaux d’individus avant et après avoir développé une grande expertise dans un domaine comme le jonglage ou le jeu vidéo. On avance mais on ignore encore presque tout dans ce domaine.

    B – Tu peux nous parler un peu des sciences que vous utilisez ?

    MT – Nous utilisons beaucoup de statistiques pour modéliser les propriétés de régions du cerveau. Nous utilisons aussi l’apprentissage automatique pour comprendre quelque chose aux masses de données que nous récoltons. Comme dans d’autres sciences, il s’agit de diminuer les dimensions de nos données pour pouvoir explorer la structure de la nature.

    Plus récemment, nous avons commencé à utiliser des réseaux de neurones profonds. D’un point de vue médical, cela nous pose des problèmes. Nous voulons comprendre et une proposition de diagnostic non étayé ne nous apprend pas grand-chose et pose des problèmes d’éthique fondamentaux.

    B – Est-ce que l’utilisation de ce genre de techniques affaiblit le caractère scientifique de vos travaux ?

    MT – Il y a bien sûr un risque si on fait n’importe quoi. Le cerveau, c’est un machin hyper compliqué et on ne s’en sortira pas sans l’aide de machines et d’intelligence artificielle : certains fonctionnements sont beaucoup trop complexes pour être explicitement détectés et compris par les neuroscientifiques. Mais il ne faut surtout pas se contenter de prendre un superbe algorithme et de le faire calculer sur une grande masse de données. Si les données ne sont pas bonnes, le résultat ne veut sans doute rien dire. Ce genre de comportement n’est pas scientifique.

    B – On a surtout parlé des humains. Mais les animaux ont aussi des cerveaux ? Les singes, par exemple, ont-ils des cerveaux très différents de ceux des humains ?

    MT – Je vous ai parlé de la très grande variabilité du cerveau entre les individus. On a cru pendant un temps que les cerveaux des singes ne présentaient pas une telle variabilité. Pour vérifier cela, on est parti d’un modèle de déformation. Et en réalité non, selon les régions, la variabilité est relativement comparable chez le singe et chez l’humain. Ce qui est passionnant c’est qu’on s’aperçoit que les régions qui présentent plus de variabilité chez l’humain sont des régions comme celles du langage ou de la sociabilité alors que c’est la gestion de l’espace pour les singes. Pour des régions comme celles de la vision qui sont apparues plus tôt dans l’évolution des espèces, le singe et l’humain présentent des variabilités semblables et plus faibles.

    Fig.2  L’évolution du cerveau. Comparer les connexions cérébrales entre les espèces nous permet de mieux comprendre les mécanismes sous-jacents à l’évolution des espèces. @ Michel Thiebaut de Schotten

    B – Tu vois comment faire avancer plus vite la recherche ?

    Il faudrait que les chercheurs apprennent à travailler moins en compétition et beaucoup plus en collaboration y compris au niveau international car la complexité du problème est telle qu’il serait illusoire d’imaginer qu’une équipe seule parvienne à le résoudre. Avec l’open data et l’open science, on progresse. Certains freinent des deux pieds, il faut qu’ils comprennent que c’est la condition pour réussir. Il faut par exemple transformer la plateforme de diffusion des résultats en neurosciences, lancer des revues sur BioRxiv, l’archive de dépôt de preprints dédiée aux sciences biologiques.

    B – On a quand même l’impression, vu de l’extérieur, que ton domaine a avancé sur l’observation mais peu sur l’action. Nous comprenons mieux le fonctionnement du cerveau. Mais peut-on espérer réparer un jour les cerveaux qui présentent des problèmes ?

    MT – Vous avez raison. On voit arriver des masses d’articles explicatifs mais quand on arrive aux applications, il n’y a presque plus personne. Si une connexion cérébrale est coupée, ça ne fonctionne plus ; que faire ? La solution peut sembler simple : reconstruire des connexions par exemple avec un traitement médicamenteux. Sauf qu’on ne sait pas le faire.

    Dans un tel contexte, il est indispensable de prendre des risques, ce qui pour un scientifique signifie ne pas publier d’articles présentant des résultats positifs pendant « un certain temps ». En France, nous avons, encore pour l’instant, une grande chance, celle d’offrir à des chercheurs la stabilité de leur poste, ce qui nous permet de mener des projets ambitieux et nous autorise à prendre des risques sur du plus long terme. Ce n’est pas le cas dans la plupart des autres pays.

    On répare bien le cœur pourquoi ne pas espérer un jour faire de même pour le cerveau ? C’est un énorme défi et c’est celui de ma vie scientifique !

    Serge Abiteboul (Inria, ENS Paris) et Pascal Guitton (Inria, Université de Bordeaux)

    @MichelTdS

  • Les défis scientifiques de la cybersécurité

    Un nouvel « Entretien autour de l’informatique ». Guillaume Poupard a obtenu une thèse de doctorat en cryptographie sous la direction de Jacques Stern à l’École normale supérieure de Paris, dans une des meilleures équipes au monde dans le domaine. Après avoir été responsable du pôle « sécurité des systèmes d’information » à la direction technique de la Direction générale de l’armement (DGA), il est devenu Directeur général de l’Agence nationale de la sécurité des systèmes d’information (ANSSI) en 2014. Guillaume Poupard nous parle de la cybersécurité et des défis scientifiques qu’elle soulève.
    Guillaume Poupard, © Patrick Gaillardin

    Binaire : comment devient-on spécialiste de cybersécurité, et directeur de l’ANSSI ?

    GP : je me suis intéressé très tôt à l’informatique théorique. Pendant mes études, j’ai fait un stage dans l’équipe de Jacques Stern de cryptographie autour de la programmation de carte à puce. Le sujet était à la fois très théorique et hyper pratique. J’ai réalisé que j’adorais ce mélange des genres. J’ai fait une thèse en cryptographie. Je suis ensuite passé naturellement de la cryptographie à la sécurité des logiciels, à la cybersécurité, à la confiance numérique, jusqu’à arriver à l’ANSSI. C’est comme cela que j’entends mon travail : participer à ce que les entreprises et les citoyens puissent avoir confiance dans le numérique qu’ils utilisent quotidiennement.

    Binaire : il va te falloir un peu décrypter un certain nombre de termes employés comme cryptographie ou cybersécurité.

    GP : le but de la cryptographie est de pouvoir échanger des messages sans avoir confiance dans les intermédiaires. On chiffre le message typiquement à l’aide d’une clé de chiffrement de telle façon que seul le destinataire soit en mesure d’avoir accès à son contenu. On imagine bien un gouvernement donnant des instructions à un ambassadeur ou deux conspirateurs s’échangeant des secrets. Le but est de garantir la confidentialité de la communication. C’est pareil sur Internet.

    On peut aussi tenir à garantir l’intégrité du message, pour qu’il ne puisse pas être modifié par un intermédiaire. On trouve encore d’ailleurs d’autres utilisations de la cryptographie. Par exemple, dans les « rançongiciels », ransomware en anglais. Quelqu’un de mal intentionné arrive à chiffrer des données essentielles et à détruire les données originales. Il propose le code de déchiffrement contre une rançon. C’est ce qui s’est passé avec le virus WannaCry pour le service de santé NHS en Angleterre et en Écosse en 2016, bloquant des dizaines de milliers d’ordinateurs et d’équipements médicaux. Dans ce dernier cas, on perd la propriété essentielle de disponibilité de l’information.

    Binaire : et la cybersécurité ?

    GP : nous devons nous protéger contre des attaques informatiques, notamment via Internet. La sécurité n’est pas un sujet nouveau. Depuis toujours, les gouvernements, les entreprises cherchent à protéger la confidentialité de certaines informations. Le renseignement, un des plus vieux métiers du monde, inclut les deux facettes : chercher à obtenir des informations confidentielles, et se protéger contre les ennemis qui essaieraient de faire cela. Avant on se protégeait avec des moyens physiques comme des chiens et des fils de fer barbelés. S’il y a aujourd’hui de nouveaux risques, si on dispose de moyens numériques, le problème n’a pas changé. Il n’est d’ailleurs pas possible de séparer les mondes physiques et numériques. Par exemple, si un attaquant arrive à faire introduire une clé USB dans un ordinateur supposé être protégé ou à placer des équipements d’interception d’ondes à proximité physique d’un tel ordinateur, il peut être capable de récupérer des secrets.

    Binaire : nous sommes bien dans une guerre ancienne et classique entre attaquants et défenseurs. Le numérique donne-t-il l’avantage à un des camps ?

    GP : pour ce qui est de la cryptographie, dans le passé, l’avantage était à l’attaque. On finissait toujours par trouver des façons de décrypter les messages, à « casser » les codes. Très souvent, c’était un travail rémunérateur pour les mathématiciens. Aujourd’hui, nous disposons de « chiffrements asymétriques » qui permettent des échanges chiffrés avec le secret garanti entre deux interlocuteurs sans qu’ils aient eu besoin de se rencontrer au préalable pour convenir d’un « secret » commun. Le moteur de ces techniques est l’informatique. Le chiffrement demande un peu de calcul, mais c’est surtout le décryptage qui est très gourmand, demandant un temps de calcul dont l’attaquant ne dispose pas.

    Bob chiffre le message avec la clef publique d’Alice et envoie le texte chiffré. Alice déchiffre le message grâce à sa clef privée. Wikipedia

    De tels systèmes de chiffrement sont à la base de tous les échanges sécurisés sur Internet, par exemple des achats que nous faisons, et de plus en plus systématiquement des lectures de documents sur le web (avec HTTPS).

    Binaire : comment se fait en pratique la vérification d’un circuit ou d’un logiciel ?

    GP : on s’appuie sur la certification d’un produit par un tiers. En France, ce tiers doit être homologué par l’ANSSI. Évidemment, le niveau d’exigence dépend du service fourni et du contexte. On n’aura pas les mêmes exigences pour l’application qui compte vos pas et un logiciel d’une centrale nucléaire. Le plus souvent, on examine (avec différents niveaux d’attention) le code. Pour des exigences plus élevées, par exemple pour un véhicule de transport, on essaie d’établir des preuves formelles de sécurité. C’est-à-dire qu’on essaie de prouver mathématiquement à l’aide de logiciels de preuve que le logiciel ou le circuit fait bien ce qu’on attend de lui.

    On réalise également de manière complémentaire des analyses de vulnérabilité. On demande à des attaquants d’essayer de trouver des failles dans le système. S’ils en trouvent, on colmate. Des chercheurs qui travaillent dans ce domaine s’amusent aussi à trouver de telles failles. La pratique responsable est de la signaler discrètement aux concepteurs, et de leur laisser le temps de la corriger avant de rendre ces failles publiques.

    Il ne faut pas croire que c’est simple. Très souvent, on découvre des faiblesses. Par exemple, si les cartes bancaires ont une durée de vie assez courte, de l’ordre de trois ans, c’est essentiellement pour corriger des faiblesses de sécurité potentielles.

    ANSSI/ Les différents métiers de l’ANSSI. Reportage sur les métiers de l’ANSSI. © Patrick Gaillardin.

    Binaire : la question se pose donc particulièrement pour les nouveaux protocoles. On a parlé par exemple de trous de sécurité dans la 5G.

    GP : la question se pose en particulier pour la deuxième génération de la 5G, la 5G standalone. Le protocole n’est pas encore stabilisé, l’encre n’est pas encore sèche. Le travail de R&D autour du développement de ce protocole est intense.

    On est dans un cas relativement simple. Comme la 5G standalone n’est pas encore utilisée, on peut changer le protocole pour fixer ses bugs sans avoir à modifier des masses de matériels et de logiciels. Par contre, quand un circuit ou un service est déployé, la découverte d’un trou de sécurité peut être extrêmement coûteuse.

    Binaire : on parle d’ordinateurs quantiques. Leur menace sur ces systèmes de chiffrement est-elle sérieuse ?

    GP : l’arrivée de tels ordinateurs donnerait un avantage certain aux attaquants qui pourraient casser les codes de chiffrement utilisés aujourd’hui. Mais des chercheurs sont déjà en train de travailler sur des algorithmes de chiffrement post-quantiques… alors que les ordinateurs quantiques n’existent pas encore. Ça montre bien que la menace est prise au sérieux même si je suis incapable de vous dire quand de telles machines seront disponibles.

    Binaire : quels sont les sujets de recherche actifs dans ce domaine ?

    GP : je vous ai parlé de la recherche d’algorithmes qui résisteraient aux ordinateurs quantiques. Mais il y a d’autres sujets.

    On voit pas mal de recherche autour des chiffrements qui permettraient de manipuler les données chiffrées, par exemple avec des chiffrements homomorphes. Prenons l’exemple de la recherche d’information pour trouver dans un corpus tous les documents qui contiennent un mot particulier. Si je chiffre les documents avant de les déposer dans le cloud, le service du cloud a besoin de la clé de chiffrement pour faire cette recherche pour moi. Mais pour livrer cette clé, je dois avoir toute confiance en ce service. Comment faire si je ne l’ai pas ?

    Un autre sujet où la recherche pourrait aider énormément, c’est celui de l’accès à des données chiffrées dans des circonstances exceptionnelles. Toutes les méthodes dont on dispose fragilisent le secret, comme d’avoir un tiers-parti qui soit dépositaire des secrets. La question est comment faire pour utiliser des chiffrements qui protègent parfaitement la confidentialité des données personnelles mais qui permettent d’avoir accès à ces données dans des cas exceptionnels, par exemple sur décision judiciaire. On aimerait que les juges puissent avoir accès aux données mais sans compromettre la confidentialité des données pour la grande masse des citoyens qui ne sont pas sous le coup d’une demande judiciaire.

    Binaire : la cryptographie est un maillon essentiel dans le paysage mais le plus souvent les attaques ne cassent pas la cryptographie mais le protocole de communication, une implémentation d’un algorithme.

    GP : tout à fait. Cela conduit au sujet passionnant de la vérification de protocoles, par exemple du protocole que vous utilisez quand vous payez avec une carte de crédit sur Internet. Le code du protocole est typiquement très court mais vérifier qu’il ne laisse pas un trou de sécurité est super ardu. Très souvent on trouve des failles.

    C’est peut-être le moment de faire une distinction entre sûreté et sécurité. Un logiciel ou un matériel peut tomber en panne. Il faut gérer les pannes ; on parle de sûreté informatique. Le cas de la sécurité est différent : là, un adversaire malicieux va essayer de trouver une faille. Pour s’en protéger, il faut prévoir tout ce qu’un tel adversaire, peut-être très intelligent et avec une grande puissance de calcul, pourrait imaginer. Une autre dimension consiste à se préparer à répondre à une attaque, par exemple, dans le cas des rançongiciels, être capable de relancer les systèmes très rapidement à partir de copies des données originales et saines.

    Binaire : est-ce que la sécurité des systèmes est satisfaisante ?

    GP : elle ne l’est pas. Dans le numérique, la compétition est mondiale et les premiers arrivés sur un service ont une prime énorme. Alors, les développements de logiciel se font trop vite, au détriment de la sécurité. Si nous ralentissons trop un produit français pour plus de sécurité, le marché est alors pris par des services bien moins sécurisés. Le sujet n’est pas simple. Mais la situation est inquiétante même pour des produits qui par définition devraient être bien sécurisés comme des pace makers.

    Binaire : on ne peut couper au sujet de l’apprentissage automatique, tellement à la mode. Est-ce un sujet pour la cybersécurité ?

    GP : absolument. Pour trois raisons. D’abord, du côté des attaquants. Les systèmes et leurs défenses étant de plus en plus complexes, les attaques sont de plus en plus automatisées, agiles. On commence à les voir utiliser des techniques d’intelligence artificielle.

    Ensuite, bien sûr, l’analyse de données massives et l’apprentissage automatique sont utilisés pour la défense, notamment la détection d’intrusion. Il s’agit par exemple de détecter des comportements inhabituels. Bien sûr, le système va aussi retourner de fausses alertes. Des humains vérifient.

    Enfin arrive la question des attaques pour biaiser l’apprentissage automatique de systèmes. Les techniques d’apprentissage automatique restent fragiles et relativement faciles à berner, manipulables par des attaquants qui introduisent, peut-être massivement, des données biaisées. De manière générale, le domaine de l’apprentissage automatique témoigne d’ailleurs d’une certaine naïveté, d’une croyance un peu aveugle dans la technique. En cybersécurité, nous avons appris à nous méfier de tout. Il est indispensable d’instiller un peu de notre méfiance dans le domaine de l’apprentissage automatique.

    Binaire : attaque ou défense. Chapeau noir ou blanc. Est-ce que ce sont les mêmes personnes qui font les deux ?

    GP Dans le modèle français, le gouvernement sépare clairement les services d’attaque et de défense. Dans des pays qui ont fait un autre choix, les services qui font les deux à la fois ont une tendance naturelle a délaissé une des deux facettes. Évidemment, cela ne veut pas dire qu’on ne parle pas à l’autre bord ; on a à apprendre d’eux comme ils apprennent de nous.

    ANSSI/ Les différents métiers de l’ANSSI. Reportage sur les métiers de l’ANSSI. © Patrick Gaillardin.

    Binaire : binaire s’intéresse particulièrement aux questions d’éducation. Nous imaginons bien que ce sujet se pose en cybersécurité.

    GP : d’abord, le pays a besoin d’experts dans ce domaine, bac+3, bac+5 et plus. Et, tous les experts en numérique doivent acquérir des compétences en cybersécurité. Cela passe par des cours spécialisés au niveau master mais le sujet doit aussi être un fil rouge tout au long de l’enseignement de l’informatique. Enfin, tous les élèves doivent obtenir des bases de cybersécurité, au collège, au lycée. La cybersécurité doit devenir la responsabilité de tous.

    J’aimerais ajouter que cela ne devrait pas juste être un truc barbant à étudier. C’est un sujet absolument passionnant, un challenge intellectuel qui peut aussi être ludique. Par exemple, j’ai étudié le calcul modulaire et cela me passionnait peu. Mais quand j’ai appris comment c’était utilisé dans des systèmes cryptographiques asymétriques, cela a été une révélation !

    Dans un pays comme Israël, les élèves parmi les plus brillants, détectés à partir de 14 ans, apprennent l’informatique et se spécialisent en cybersécurité. Ce sont un peu des stars dans la société. Évidemment, la situation politique de la France est différente, mais on aimerait aussi voir plus de nos meilleurs cerveaux suivre une telle filière. C’est d’ailleurs un excellent moyen d’inclusion sociale pour les milieux défavorisés.

    Serge Abiteboul, Inria et ENS Paris, Pierre Paradinas, CNAM-Paris.

    Chiffrement asymétrique.

    La cryptographie asymétrique est un domaine de la cryptographie où il existe une distinction entre des données publiques et privées, en opposition à la cryptographie symétrique où la fonctionnalité est atteinte par la possession d’une donnée secrète commune entre les différents participants. La cryptographie asymétrique peut être illustrée avec l’exemple du chiffrement à clef publique et privée, qui est une technique de chiffrement, c’est-à-dire que le but est de garantir la confidentialité d’une donnée. Le terme asymétrique s’applique dans le fait qu’il y a deux clefs de chiffrement (que l’utilisateur qui souhaite recevoir des messages fabrique lui-même), telles que si l’utilisateur utilise une première clef dans un algorithme dit « de chiffrement », la donnée devient inintelligible à tous ceux qui ne possèdent pas la deuxième clef, qui peut retrouver le message initial lorsque cette deuxième clef est donnée en entrée d’un algorithme dit « de déchiffrement ». [Wikipédia]

    Un peu de vocabulaire

    • Chiffrer un document consiste à le transformer pour le rendre incompréhensible à qui ne possède pas la clé de chiffrement.
    • Déchiffrer est l’opération inverse qui consiste à reconstruire le document à partir du document chiffré et de la clé.
    • Décrypter consiste à reconstruire le document sans avoir la clé. On dit alors qu’on a « cassé » le code de chiffrement.

    Pour aller plus loin :

    À propos de la cryptographie quantique : https://binaire.socinfo.fr/2016/11/08/la-crypto-quantique-debarque/

    À propos de l’évaluation de la sécurité d’un produit (Critères communs), voir encadré de l’article https://binaire.socinfo.fr/2017/10/27/chiffre-securite-et-liberte/

  • Le numérique, l’individu, et le défi du vivre-ensemble

    Un nouvel « Entretien autour de l’informatique ». Ancien banquier entré chez les Dominicains en 2000, Éric Salobir, prêtre, est un expert officiel de l’Église catholique en nouvelles technologies. Ce passionné d’informatique a créé Optic, un think tank consacré à l’éthique des nouvelles technologies. Il cherche à favoriser le dialogue entre les tenants de l’intelligence artificielle et l’Église. Il est aussi consulteur au Vatican.

    Le libre arbitre de l’individu

    Le père Eric Salobir, collection personnelle

    B : devant des applications qui peuvent prédire nos futures décisions et actions avec une précision croissante, que devient le libre arbitre ?

    ES : on n’a pas attendu l’IA pour que l’humain soit prévisible ! Il suffit de lire « L’art de la guerre » de Sun Tzu. L’art de prédire le comportement de l’autre, de lire l’humain, fait partie des appétences de l’être humain. Mais on y arrive mal, et si par exemple, il y avait un psychopathe à l’arrêt de bus, on ne s’en apercevrait jamais. Avec la récolte de données très détaillées et leur analyse, on dispose de nouveaux moyens très efficaces pour assouvir ce désir très ancien. Pour moi, cela ne remet pas en cause le libre arbitre dans son principe, mais nous amène à questionner ce qui relève de la liberté et ce qui relève du conditionnement.

    C’est une nouvelle étape d’un long cheminement. Freud ne remet pas en cause le fait qu’il y ait une part de liberté mais en redéfinit les contours, et ses travaux sur l’inconscient donnent des éléments qui restreignent le champ de la liberté en déterminant le comportement. Le mythe de la complète liberté a été démonté par Gide dans « Les Caves du Vatican » : Lafcadio décide de jeter quelqu’un par la porte du train pour prouver qu’il est libre, mais l’intentionnalité fait que ce n’est pas un geste complètement gratuit. La liberté totale n’existe pas, son absence totale non plus. Nous vivons entre les deux, et actuellement il est essentiel pour nous de mieux saisir les frontières.

    B : avec les nudges (incitations en français), n’assistons-nous pas à un rétrécissement du libre arbitre ?

    ES : de tels usages de l’IA permettent de court-circuiter le circuit décisionnel en s’appuyant presque sur la dimension reptilienne de notre mode de fonctionnement, et c’est inquiétant. Le nudge n’est pourtant pas non plus un phénomène nouveau. Par exemple, considérez la porte d’entrée de la basilique de la Nativité de Bethléem, qui fait 1 mètre 10 de haut. Vous êtes obligé de vous courber pour entrer, de vous incliner, puis après être entré, vous vous redressez, et vous prenez conscience que votre stature humaine naturelle est d’être debout. Ce nudge-là est ancien. Ce qui a changé, c’est qu’on est passé d’un nudge extérieur, qui s’appuie sur la corporalité et avec lequel on peut prendre de la distance, à des technologies numériques qui affranchissent partiellement de cette corporalité, avec le danger que l’on perde cette capacité à prendre de la distance par rapport à certain nudges.

    Avec la publicité, lorsque quelque chose est présenté exactement au bon moment, quand on est vulnérable ou fatigué et que de plus, il suffit pour acheter d’appuyer sur un bouton, avec un geste physique qui est quasiment imperceptible, on est alors poussé à acheter. C’est pareil avec certains mouvements à caractère sectaire, qui savent saisir le moment où une personne est la plus fragile, dans un moment d’épuisement, et faire d’elle un peu ce qu’ils veulent. Cela explique aussi en partie la radicalisation en ligne, qui passe par la détection de personnes en situation de vulnérabilité, d’échec ou d’isolement. Cela ne veut pas dire que le libre arbitre n’existe plus, mais que certains empiètent sur le libre arbitre des autres. Cela a toujours existé, par exemple avec les fresques érotiques qui attiraient le passant à Pompéi. Mais on a clairement maintenant franchi un cap assez net en termes d’intrusion. Certaines manipulations peuvent aller jusqu’à menacer le vivre-ensemble et la démocratie. C’est inquiétant !

    Lien virtuel

    Les liens entre les personnes

    B : les gens passent maintenant beaucoup de temps dans un monde virtuel, déconnecté de la vie physique. Cela a-t-il des conséquences sur leurs relations avec autrui ?

    ES : ce qui est virtuel, c’est ce qui est potentiel, comme des gains virtuels par exemple. Le numérique n’est pas si « virtuel » que ça. Peu de choses y sont virtuelles, sauf peut-être les univers de certains jeux vidéo sans lien avec le monde réel. Et encore, même là, les jeux en ligne massivement multi-joueurs impliquent de vrais compétiteurs.

    Le numérique permet un nouveau mode de communication, et les jeunes peuvent avoir une vie numérique au moins aussi riche que leur vie IRL (in real life), et qui complète leur vie IRL. La communication numérique est pour beaucoup, je pense, une communication interstitielle. Certes, les adolescents peuvent rencontrer des gens en ligne, mais ils ont surtout un fonctionnement relativement tribal. Ils hésitent à parler à qui ne fait pas partie de la bande. Les modes de communication numériques vont principalement servir à combler les lacunes des relations déjà existantes.

    Évidemment, cela change les modes et les rythmes de présence. Autrefois quand le jeune rentrait chez lui, il était chez lui, injoignable sauf en passant par le téléphone de la maison familiale. Maintenant la communication avec ses pairs continue dans sa chambre et jusque dans son lit. Un enfant harcelé en classe par exemple ne pourra plus trouver de havre de paix à domicile. Un harcèlement bien réel peut devenir omniprésent.

    La relation au temps et à l’espace rend plus proches de nous un certain nombre de gens, et cela change la cartographie. J’ai des amis un peu partout dans le monde, et les réseaux sociaux leur donnent une forme de visibilité et me permettent de garder des liens avec eux. C’est positif.

    Et l’amour ?

    B : peut-on, avec le numérique, mettre l’amour en équations ?

    ES : l’amour est un sentiment complexe, et toute réponse à cette question appelle aussitôt la controverse. Pour certains spécialistes de neurosciences, il s’agit seulement d’une suite de réactions chimiques dans notre cerveau. Le psychologue rétorque que cette réponse explique comment ça se passe, le mécanisme, mais ne dit pas pour autant ce que c’est. Ces deux points de vue sont quand même assez opposés. Pour ma part, je dirais que, même si on a l’impression que, scientifiquement, on comprend un peu la façon dont cela se passe, ça ne nous dit pas grand-chose de la nature du phénomène, ou en tout cas pas assez pour que ce phénomène soit réductible à ce fonctionnement électrique et chimique.

    Une vidéo d’un petit chat, ou même un Tamagotchi, suffit à susciter une réaction d’empathie. L’humain a cette belle capacité de s’attacher à à peu près tout et n’importe quoi, mais ça a plus de sens s’il s’attache à ses semblables, sa famille, ses amis. Ce sont des liens forts.

    Surtout, il ne faut pas tout confondre. J’ai des liens très forts avec un petit nombre de gens et cela n’a rien à voir avec tous ces liens faibles qui se multiplient avec mes contacts sur les réseaux sociaux. L’appétence pour une forme de célébrité (même relative) prend de plus en plus de poids. Je suis étonné de voir à quel point cela se confond avec l’amour dans la tête d’un grand nombre de gens. C’est l’aspect négatif d’un média bidirectionnel : chacun peut devenir connu comme un speaker du journal de 20 h.

    Je pense qu’on réduit l’amour à la partie équations quand on fait cette confusion. On floute les contours de l’amour, on le réduit tellement qu’on peut alors le mettre en équations.

    Une autre inquiétude est qu’on peut effectivement avoir l’impression qu’on va susciter de l’empathie chez la machine. Les machines peuvent nous fournir les stimuli dont nous avons envie, et elles savent imiter l’empathie. Certains disent que cette simulation vaut le réel, mais ce n’est pas la même chose, c’est seulement une simulation. Le film Her illustre cette question. Le danger, quand on simule l’empathie, c’est qu’on met l’autre dans une situation de dépendance. L’humain risque de se laisser embarquer dans une relation avec des objets dits intelligents. Et cette relation est différente de celle que l’on pourrait établir, par exemple, avec un animal de compagnie. Certes, un chien veut être nourri, mais il n’a pas une relation purement utilitariste : ses capacités cognitives et relationnelles permettent d’établir avec lui une forme de lien, certes asymétrique mais bidirectionnel. Alors qu’avec la machine, on va se trouver dans une relation bizarre, totalement unidirectionnelle, dans laquelle nous sommes seuls à projeter un sentiment.

    B : vous parlez de relation unidirectionnelle. Mais pourquoi est-ce moins bien qu’une personne ait en face d’elle un système qui simule l’empathie ? Si cela fait du bien à la personne ? On a par exemple utilisé de tels systèmes pour améliorer le quotidien d’enfants autistes.

    ES : Vous faites bien de préciser « simule ». Ce ne sont pas des systèmes empathiques. Ce sont des systèmes qui simulent l’empathie, comme un sociopathe simulerait à la perfection le sentiment qu’il a pour une personne, sans pour autant rien ressentir. Le principe de l’empathie, c’est qu’elle change notre mode de fonctionnement : on est touché par quelqu’un et cela nous transforme. Notre réaction vient du fond du cœur.

    Ce n’est certes pas une mauvaise chose que d’améliorer l’expérience de l’utilisateur, qu’il soit malade ou pas, mais cette dimension unidirectionnelle de la relation peut potentiellement être nocive pour une personne en situation de fragilité. Celui qui simule l’empathie est dans la meilleure situation possible pour manipuler l’autre. Jusqu’où faut-il manipuler les gens, surtout s’ils sont en situation de fragilité ?

    Dans le cas de la machine, l’enjeu réside donc dans le but de la simulation. Si elle est élaborée par le corps médical pour faciliter la communication avec une personne malade ou dépendante, et pour faire évoluer cette personne vers un état meilleur, elle peut être tout à fait légitime. Mais quid d’une empathie simulée pour des raisons différentes, par exemple commerciales ? Cela demande une grande vigilance du point de vue éthique.

    La post-vérité

    B : on assiste à une poussée du « relativisme ». Il n’y a plus de vérité ; les fake news prolifèrent. Est-ce que cela a un impact sur la religion ?

    ES : Effectivement je pense qu’il y a un impact sur les religions car cela remet aussi en cause tout ce qui est dogme. Prenons la Trinité : pourquoi est-ce qu’ils sont trois ? Certains pourraient dire que la Trinité pose une question de parité, et qu’on n’a qu’à rajouter la Vierge Marie, comme ça ils seront quatre !

    On peut ainsi dire à peu près l’importe quoi, et c’est là le problème. Mais en fait, avant d’être religieux, l’impact de cette remise en cause de la notion de vérité est d’abord intellectuel. L’opinion finit par l’emporter sur le fait, même démontré. D’un point de vue philosophique, cela mènerait à dire que notre relation au réel est plus importante que le réel lui-même. Or, les sciences lèvent des inconnues, répondent à des questionnements, même si elles découvrent parfois leurs limites. Mais, sans les connaissances que nous accumulons, l’océan d’à-peu-près brouille notre compréhension du réel.

    Cela risque de conduire à une remise en question de notre société parce que, pour vivre ensemble, nous avons besoin de partager des vérités, d’avoir des bases de connaissances communes. Par exemple, l’activité humaine est-elle le facteur majeur du réchauffement climatique ou pas ? Ce ne devrait pas être une question d’opinion mais de fait. À un moment donné, cela va conditionner nos choix de façon drastique.

    La spiritualité

    B : est-ce qu’il reste une place pour la spiritualité, pour la foi, dans un monde numérique ?

    ES : il est intéressant de voir à quel point le monde numérique, dans ses dimensions marchandes, économiques, est matérialiste. Et pourtant, on constate que le besoin de spiritualité n’a vraiment pas disparu. Voyez le succès, dans la Silicon valley, des spiritualités orientales, qui arrivent parées d’une aura exotique et lointaine, malgré la dimension syncrétiste de la version californienne. Si des patrons font venir à grand frais des lamas du Tibet, c’est parce que cela répond à un besoin.

    Je crains que la plupart de nos contemporains ne soient obligés d’assouvir ce besoin avec ce qu’ils ont sous la main, et le piège, c’est que ce soit la technologie elle-même qui vienne nous servir de béquille spirituelle ! Dans à peu près toutes les traditions religieuses, il existe la tentation de créer un objet, souvent le meilleur qu’on soit capable de concevoir, de le placer en face de soi, au centre du village, de le révérer, et d’attendre qu’il nous procure une forme d’aide, de protection, voire de salut. C’est le principe du totem et du veau d’or.

    Le HomePod était l’objet le plus vendu aux USA à Noël dernier. Il est connecté à tout, il est l’accès de toute la famille au savoir, à une espèce d’omniscience et d’ubiquité sous le mode de la conversation, en court-circuitant l’étape de la recherche via un moteur qui proposerait plusieurs réponses. Il devient un peu l’oracle, une Pythie qui serait la voix du monde. Les gens utilisent aussi le HomePod pour connecter tout leur quotidien. Le HomePod met le chauffage en route, envoie un SMS pour avertir que les enfants sont bien rentrés de l’école et branche l’alarme, pour veiller sur la maison en notre absence. Ainsi, le HomePod est une entité qui s’occupe de la famille, une entité physique placée sur un piédestal dans le foyer, un peu comme un Lare, une petite divinité domestique qui prend soin de chacun. Cela exprime une relation à la technologie qui peut être une relation d’ordre spirituel.

    Le petit dieu de la maison, Serge A.

    Le problème, c’est que la technologie ne fait que ce pour quoi elle a été prévue. L’être empathique, lui, va faire des choses pour lesquelles il n’a pas été programmé, il va se surpasser, se surprendre quand il est poussé à faire des choses qui sortent du cadre, alors que cette technologie ne va faire que les choses pour lesquelles elle a été programmée. Dans la tradition juive, le psalmiste disait en se moquant des faux dieux : « Ils sont faits de mains d’homme, ils ont des oreilles mais n’entendent pas… » Sauf que le HomePod entend, et si on lui dit « Commande moi une pizza ! », et bien, il vous apporte le dîner. De ce fait, l’illusion est beaucoup plus réaliste.

    B : vous parlez de « petit dieu ». Est-ce que le numérique peut aussi proposer Zeus, un « grand Dieu » ?

    ES : pour le moment, l’humain n’a pas encore été capable d’en fabriquer. La pensée magique est liée à la spiritualité. Cette pensée magique n’a jamais complètement disparu, et certains sont persuadés qu’un jour on créera une IA suffisamment puissante pour qu’on puisse la prendre pour un dieu. Il est vrai qu’une intelligence artificielle vraiment forte commencerait à ressembler à une divinité. Ce serait alors peut-être confortable pour l’humain de déléguer toutes ses responsabilités à une telle entité. Mais si on peut se complaire dans un petit dieu, je ne pense pas que nous serions prêts à accepter qu’une machine devienne comme Zeus. Est-ce que nous serions prêts à entrer dans ce type de relation ? Un dieu qu’on révérerait ? Je ne pense pas.

    La place du Créateur

    B : nous créons des logiciels de plus en plus intelligents, des machines de plus en plus incroyables. Est-ce que toutes ces créations nous font prendre un peu la place du Créateur ?

    ES : le scientifique dévoile une réalité qui lui préexiste, alors que l’inventeur, le spécialiste de technologie, fabrique quelque chose qui n’existait pas auparavant, comme un téléphone intelligent par exemple, et cela induit un rapport au réel assez différent. L’inventeur se met un peu dans la roue du Créateur : c’est quelque chose qui est de l’ordre du talent reçu. En ce sens, si on considère que Dieu est Créateur et que l’homme est à l’image de Dieu, il est naturel que l’être humain veuille également créer ; cela tient du génie humain.

    Mais, créer, techniquement, c’est créer ex nihilo. Au commencement, dit la Bible, il y avait le chaos. Une part de substrat, mais informe. Quand un humain dit qu’il a créé quelque chose, en fait, à 99%, il reprend des brevets existants, même s’il peut amener une réelle rupture. L’iPhone qu’on utilise juste avec les doigts, sans stylet, nous a ouvert de nouvelles perspectives d’accès à l’information en situation de mobilité. Sans sous-estimer l’apport des humains qui ont inventé cela, cela tient de l’invention, de la fabrication, et je n’appellerais pas cela véritablement de la « création ».

    En revanche, ces technologies nous permettent de bâtir, de construire ensemble quelque chose de nouveau. Ces technologies sont nos réalisations. Ce sont des productions de notre société, aux deux sens du génitif : elles sont produites par ladite société, et ainsi elles nous ressemblent, elles portent en elles une certaine intentionnalité issue de notre culture ; mais, en retour, leur utilisation façonne notre monde. D’ailleurs, quand un pays, consciemment ou inconsciemment, impose une technologie, il impose aussi sa culture, car en même temps, ces technologies transforment la société qui les reçoit. C’est le principe du soft power.

    Dans ce cadre, on voit bien que l’intelligence artificielle permet une plus grande personnalisation. Comment faire en sorte que cette personnalisation ne se transforme pas en individualisme ? Il y a un effet de bulle : tous ceux avec qui je serai en contact vont me ressembler, et tout sera conçu, fabriqué exactement pour moi. De plus en plus, le monde numérique, c’est mon monde, un monde qui devient un peu comme une extension de moi-même. C’est extrêmement confortable, mais le danger, c’est que mon réel n’est pas votre réel, et alors comment se fait l’interaction entre les deux ?

    La difficulté réside dans le fait que, si chacun configure de plus en plus précisément son réel autour de lui, la rencontre de ces écosystèmes risque d’être de plus en plus complexe. Les difficultés en société ne seront alors plus entre les communautés et le collectif, mais entre chaque individu et le collectif. Comment l’humain qui s’est créé sa bulle peut-il être en adéquation avec un référentiel, et comment faire évoluer ce référentiel ? Si chacun a ses lunettes pour voir le monde en rose, en bleu, en vert, et qu’on rajoute à cela l’ultralibéralisme libertaire, cela peut mettre en danger le projet de construction de la société.

    Le vrai défi est bien de garder un référentiel commun. Plutôt que de nous laisser enfermer dans une personnalisation à outrance, le vrai défi est de bâtir collectivement un vivre-ensemble.

    Serge Abiteboul, Inria & ENS Paris, Claire Mathieu, CNRS

    @frEricOP @OpticTechno

  • Ils ne savaient pas que c’était insoluble, alors ils l’ont résolu

    Un nouvel « entretien autour de l’informatique », celui de Daniel Le Berre, Médaille CNRS de l’Innovation 2018, enseignant-chercheur en informatique à l’Université d’Artois, au Centre de recherche en informatique de Lens. Daniel Le Berre est l’initiateur et le développeur principal du solveur Sat4j, un logiciel libre utilisé par des millions de personnes à travers le monde. Cet article est publié en collaboration avec The Conversation.
    Daniel Le Berre. Crédits : Frédérique PLAS / CRIL / CNRS

    Binaire : tu es chercheur en intelligence artificielle. Comment devient-on chercheur en IA ?

    Je suis un pur produit de l’Université. Je n’avais aucune idée de ce qu’était le métier d’enseignant-chercheur avant d’en rencontrer à la fac à Brest. J’ai été particulièrement impressionné par la diversité des connaissances en informatique de mes enseignants en licence et maitrise d’informatique et je me suis dit : quel métier formidable ; je veux faire ça ! Cela m’a donné envie de faire une thèse. J’ai choisi l’informatique car j’aime depuis le collège utiliser des ordinateurs (on avait un Bull Micral 30 à la maison pour faire la comptabilité de la ferme). Je suis de cette génération qui a eu la chance d’une initiation à l’informatique au lycée. Ça a disparu ensuite pour n’être réinstallé que depuis peu. Après Brest, je suis parti à Toulouse pour sa réputation en intelligence artificielle. C’est là que j’ai découvert le problème SAT autour duquel j’ai travaillé depuis. Après ma thèse, je suis parti en post-doc en Australie, c’est à cette période que j’ai découvert la conférence SAT au cours d’un atelier à Boston en 2001. Quelques semaines après mon arrivée à Lens en septembre 2001, on me proposait de co-organiser la compétition SAT. J’avais plongé dans le grand bain, le bain des grands !

    B : on ne va pas faire durer plus le suspense. Si tu nous disais ce que c’est que ce fameux problème SAT, sans doute le problème le plus étudié en informatique. 

    Le problème SAT est un problème parmi les plus simples des problèmes compliqués. 

    Crédits : Yeatesh at the English Wikipedia [CC BY-SA 3.0]
    Imaginez un immeuble avec des pièces éclairées par des ampoules. Chaque ampoule peut être éclairée par un ou plusieurs interrupteurs, dans une position donnée (ouvert ou fermé). Chaque interrupteur peut contrôler une ou plusieurs ampoules, et on connaît pour chaque ampoule les interrupteurs associés. Les interrupteurs sont au pied de l’immeuble. On cherche à éclairer toutes les pièces de l’immeuble. Ce n’est pas toujours possible (par exemple si l’on dispose de deux pièces reliées chacune seulement à une position différente de l’interrupteur, on ne pourra jamais éclairer les deux pièces en même temps). Dès que l’on associe plus de 2 interrupteurs à une ampoule, ce problème est difficile.

    Un algorithme simple permet de résoudre le problème. On met tous les interrupteurs à off et on essaie. Si ça ne marche pas, on essaie ensuite toutes les configurations possibles avec un seul interrupteur à on, puis deux… Si j’ai 3 interrupteurs, cela fait 8 configurations à tester ; avec 4, ça en fait 16… A chaque interrupteur que j’ajoute, je double le nombre de configurations à tester. On vous parle souvent de croissance exponentielle dans les journaux. Là c’est vraiment exponentiel. C’est vite effrayant : dès que le nombre d’interrupteurs est plus grand que 270, le nombre de configurations à tester est plus grand que le nombre d’atomes dans l’univers !

    SAT est une abréviation pour « boolean SATisfiability problem » ou en français « SATisfaisabilité de formules booléennes ». En résumé, on nomme problème SAT un problème de décision visant à savoir s’il existe une solution à une série d’équations logiques données. Un algorithme qui résout le problème SAT est appelé un solveur SAT. Je suis un spécialiste de ces solveurs SAT.

    B : SAT est un problème très branché en informatique. Pourquoi ? A quoi ça sert de le résoudre ?

    La raison de sa popularité est qu’il sert de problème pivot pour résoudre beaucoup d’autres problèmes : on traduit le problème original en SAT, on utilise un solveur SAT pour obtenir une réponse, et ensuite on interprète ce résultat par rapport au problème original. Cela fait des solveurs SAT des outils de résolution de problèmes combinatoires génériques.

    L’application la plus visible du problème SAT est  la vérification de processeurs. C’est cette application qui a motivé à la fin des années 90 la conception des solveurs SAT modernes, capables de résoudre des problèmes avec des millions d’interrupteurs.  Un autre problème a donné lieu à beaucoup de travaux en Intelligence Artificielle au début des années 90, celui de la planification : choisir quelles actions effectuer pour atteindre un but étant données une situation initiale et une description des actions possibles. Des chercheurs ont montré qu’ils arrivaient à résoudre super efficacement le problème de planification avec des solveurs SAT. En fait, il y a tout un paquet de problèmes différents que l’on rencontre en pratique qui demandent des techniques semblables. On se rend compte pour une liste croissante de ces problèmes qu’une approche générique par traduction à SAT est plus efficace qu’une approche dédiée. Cela s’explique notamment par les performances impressionnantes des solveurs SAT actuels.

    Le problème SAT est posé sur des variables qui valent 0 ou 1 (les positions des interrupteurs, on ou off). C’est simple un booléen et c’est facile à réaliser sur un ordinateur.  Du coup, on peut réaliser des solveurs vraiment bien optimisés. On a par exemple inventé des structures de données super intelligentes pour mémoriser ce qu’on a déjà appris ou ce qu’il nous reste à apprendre du problème posé. Et cela compense largement le fait qu’au lieu de travailler directement sur le problème original, comme la planification, on bosse sur une représentation du problème avec SAT.

    Visualisation d’un problème SAT. Crédits : Daniel Le Berre

    Le problème est finalement assez simple mais il faut se montrer très intelligent pour le résoudre rapidement. Il faut trouver des raisonnements plus intelligents que ceux consistant par exemple à vérifier l’une après l’autre les solutions possibles.

    On fait même des trucs de plus en plus compliqués, comme de faire causer un solveur SAT qui cherche à trouver une solution et un autre qui essaie de montrer qu’il n’y en a pas. 

    B : tu as reçu la médaille de l’innovation pour tes travaux sur le solveur SAT4j. Que fait ce solveur en particulier ?

    SAT4j est mon troisième solveur SAT en Java, un langage de programmation très populaire chez les développeurs, mais pas dans la communauté SAT. Java n’est pas considéré comme particulièrement rapide alors que la rapidité est le coeur du sujet pour un solveur SAT, parce qu’il y a énormément de choses à calculer à l’intérieur. Alors, ça peut sembler une drôle d’idée de développer un solveur SAT en Java. Pourtant, Java est utilisé par des gens d’horizons divers. Il n’y a pas de raisons pour que les programmeurs Java, et c’est une énorme communauté, soient exclus de la technologie des SAT solveurs, que cette techno soit réservée aux programmeurs d’autres langages ! SAT4j a été conçu pour la communauté Java, pour y diffuser les avancées de la communauté SAT, et en appliquant les principes du génie logiciel que j’enseigne à mes étudiants. Depuis juin 2008, la plate-forme ouverte Eclipse, souvent connue comme un environnement de développement de logiciel mais encore plus utilisée par de nombreuses sociétés comme base de leurs outils, s’appuie d’ailleurs sur Sat4j pour résoudre “ses dépendances logicielles”  : savoir quels composants sont nécessaires pour ajouter une fonctionnalité particulière, sachant qu’ils ne sont pas tous compatibles. Du coup, Sat4j est sans doute le solveur SAT le plus utilisé dans le monde.

    J’ai juste mis les résultats d’une communauté scientifique  à la portée d’un public très large.

    B : quand on parle d’IA aujourd’hui, on veut souvent dire apprentissage automatique ou réseaux de neurone. Ton IA à toi se situe ailleurs. Où ?

    Mon labo est spécialisé en “Intelligence artificielle symbolique” : on formalise le raisonnement, en particulier le raisonnement mathématique. Cela nous permet de faire des outils qui obtiennent automatiquement des preuves. Les solveurs SAT permettent d’obtenir des raisonnements dans une logique très pauvre. Mais nous nous intéressons aussi à des raisonnements dans des logiques plus sophistiquées, en rajoutant des ingrédients aux fils et interrupteurs de départ. Nous sommes là en plein dans l’intelligence artificielle.  

    Un avantage par rapport aux approches d’apprentissage statistique, c’est qu’avec l’IA symbolique, on peut expliquer les résultats : on dispose des étapes du raisonnement, des preuves, ce qu’on n’a pas avec les résultat d’un réseau neuronal. Évidemment, quand on n’y arrive plus avec l’IA symbolique, on peut essayer avec de l’apprentissage automatique. Dans de nombreuses applications, on combine d’ailleurs ces deux types d’approches. 

    Quand j’étais en thèse je faisais un truc qui ne servait à personne, qui n’était pas du tout sexy à l’époque, car on ne pouvait résoudre que des problèmes avec quelques centaines d’interrupteurs.  Cependant, chacun apportait sa contribution à l’enrichissement des connaissances, qu’elles soient théoriques ou pratiques.  En 2001, à partir de toutes les connaissances accumulées jusque là, des étudiants de master de Princeton ont fait progresser considérablement le domaine en construisant un solveur fondé sur un excellent compromis entre complexité et efficacité. Il y a vraiment eu un avant et un après ce solveur.  Cela a permis de résoudre certains problèmes avec des dizaines de milliers d’interrupteurs, une vraie révolution pour l’informatique. L’apprentissage automatique a apporté une autre révolution, beaucoup plus médiatisée celle-là.

    Mais l’intelligence artificielle a de nombreuses facettes. Attendez-vous à voir arriver d’autres révolutions en informatique.

    Serge Abiteboul (@sergeabiteboul) et Charlotte Truchet (@chtruchet)

    Retrouvez Daniel Le Berre sur twitter : @dleberre

  • Dialogue technologique, dialogue social

    Un nouvel « Entretien autour de l’informatique » : Thiébaut Weber, syndicaliste CFDT et ancien militant étudiant. Il a été  secrétaire confédéral de la Confédération Européenne des Syndicats entre 2015 et mai 2019. Il s’intéresse à la numérisation, aux nouvelles formes de travail et aux plateformes en ligne.
    Cet article est publié en collaboration avec The Conversation.
    Thiébaut Weber

    B : pourrais-tu nous parler de ton parcours ?
    J’ai été syndicaliste étudiant, Président de la FAGE. Je n’ai pas terminé mes études : la CFDT m’a proposé de prendre des responsabilités syndicales. Je viens de finir un mandat de quatre ans à la Confédération Européenne des Syndicats, à Bruxelles. Cette confédération regroupe les principaux syndicats européens, pour agir sur les politiques européennes sur l’emploi et le social, représenter les travailleurs et mener des réflexions avec l’Institut syndical Européen (ETUI) sur les enjeux liés à l’avenir du travail. Nous nous intéressons évidemment aux transformations du travail par l’informatique, et aux relations entre les humains et les machines. J’ai aussi fait partie d’un groupe d’experts européens sur l’IA où j’étais le seul syndicaliste. Si je n’ai pas personnellement suivi de cursus scientifique en informatique, je me suis formé sur le tas notamment au contact d’amis et d’experts. Je vais maintenant intégrer la Délégation Interministérielle sur la Prévention et Lutte contre la Pauvreté, où je compte m’investir notamment sur la pauvreté des jeunes.

    B : le monde numérique transforme la société. Quels sont les vrais enjeux ?
    L’enjeu peut-être le plus important est celui de formation citoyenne et de l’éducation populaire pour devenir citoyen et salarié dans un monde numérique. Nous sommes à un moment clé où nous pouvons encore définir quel cadre nous souhaitons pour la collaboration entre l’humain et la machine. Actuellement, les débats portent souvent sur des sujets qui tiennent de science-fiction et pas assez autour des vraies questions comme par exemple : dans quelle mesure voulons-nous utiliser les nouvelles technologies pour améliorer notre cadre de travail ou comment pouvons-nous protéger les données de chacun au-delà du RGPD. Ce sont de vrais enjeux sociétaux et il faut faire évoluer la formation syndicale pour être prêt à mener un dialogue qui n’est pas seulement social mais également technologique.

    Par exemple, les systèmes d’intelligence artificielle (IA) utilisés sur les lieux de travail doivent être irréprochables en matière de protection de la dignité humaine, de la sécurité. Pour cela, il faut établir un dialogue dès la conception de ces systèmes pour échanger sur toutes les facettes de leurs déploiements sur des lieux de travail. Prenez un bâtiment dans une usine chimique, on branche un système avec des caméras pour localiser en permanence les matières dangereuses ; cela ne doit pas servir de manière exagérée à surveiller les travailleurs. On veut une IA éthique, une IA fiable, explicable, et digne de confiance, acceptable par tous. Les syndicats doivent participer depuis la conception de tels systèmes. Les syndicalistes doivent donc être formés pour pouvoir participer aux discussions entourant les utilisations de tels systèmes.

    Pour prendre un autre exemple, les données produites par les travailleurs, qu’est-ce qui en est fait ? Une fois qu’elles ont été utilisées au profit d’un service particulier, que deviennent-elles ? L’employeur a, dans une certaine mesure, un droit d’utiliser ces données pour la supervision du travail effectué mais cette utilisation doit être proportionnée, rester dans certaines limites. Il faut que l’on puisse contrôler à quoi elles servent. C’est à ce prix que l’utilisation des données devient acceptable par les travailleurs, que la confiance s’établit.

    Abysmal / Void. Ars Electronica, Robert Bauernhansl

    B : dans ce cadre, la formation des employés est essentielle.
    Évidemment et ce n’est pas encore assez un sujet dans l’entreprise. On a besoin d’éducation à l’informatique pour nos citoyens, de formation continue dans l’entreprise. Par exemple, dans la formation professionnelle, on a besoin de formation sur l’utilisation des données, les enjeux de la collaboration humain-machine. On doit, en dialogue avec les scientifiques, proposer de nouvelles formations pour une utilisation de ces technologies qui garantisse la compétitivité de nos entreprises, bien sûr, mais aussi au service de l’amélioration des conditions de travail.

    C’est un beau sujet que les partenaires sociaux devraient s’approprier dans les années à venir. Le dialogue social en France est un peu au point mort. La formation au numérique pourrait être un sujet pour le relancer en préparant la France aux enjeux de demain. Ça paraît abstrait, mais c’est très concret : pour aller vers des entreprises performantes et où il fera bon travailler, cela passe par la formation aux nouvelles technologies dans les entreprises.

    B : quid de la disparition des métiers, et l’apparition des nouveaux métiers ?
    Nous avons déjà traversé trois révolutions industrielles. Cela continue avec l’informatique et l’intelligence artificielle. Il y a un consensus scientifique autour du chiffre de 10% des emplois qui devraient disparaître, mais pas de visibilité sur les nouveaux emplois qui pourraient être créés. Pour moi, l’enjeu premier, c’est l’évolution des métiers. D’abord, dans leur contenu : des tâches simples d’interprétation et d’aide à la prise de décision seront demain prises par des machines. Ensuite tout dépend de choix au niveau de l’entreprise. Par exemple, prenons le secteur de l’assurance, les déclarations de sinistres, actuellement traitées par des humains. Si demain elles sont traitées par OCR, l’entreprise peut en profiter pour faire un plan massif de licenciement. Elle peut aussi choisir de mettre en place un plan formation de ses employés remplacés par des logiciels pour les former au conseil en assurance. Il faut donc des acteurs conscients, éclairés des enjeux technologiques pour faire le bon choix. Un mauvais choix peut être catastrophique pour l’entreprise. Une automatisation irréfléchie en plus d’être catastrophique pour les emplois peut aussi résulter, on s’en rend compte de plus en plus, en des dégradations de la qualité des services ou des produits.

    B : les syndicats sont là pour accompagner les transformations du travail. Est-ce qu’ils sont prêts à cela ?
    Le syndicalisme a toujours été beaucoup plus à l’aise avec les grands collectifs de travail qu’avec les plus petites entités. On assiste aujourd’hui à une forme de balkanisation du travail, d’explosion des unités. Il y a de plus en plus de petites entreprises, de travailleurs indépendants, et cela ne favorise pas le travail syndical. Comment proposer l’outil syndical à des travailleurs qui sont isolés et donc plus vulnérables aux risques d’exploitation et de précarité ? Les syndicats ne sont pas organisés pour ces nouveaux défis. Dans les entreprises classiques avec des structures syndicales appropriées, les syndicalistes peuvent se former à ces nouvelles technologiques. Il leur faut investir ces nouveaux sujets dans les grandes structures, les grandes administrations, la santé et l’hôpital par exemple, commencer par là. Et de là cela pourra se généraliser à toutes les entreprises.

    A l’autre bout du spectre, prenons l’exemple des chauffeurs de VTC comme Uber. Des syndicats se sont implantés. Un chauffeur, militant syndical, a beaucoup de difficultés à entrer dans un dialogue social classique avec la plateforme. Il a besoin par exemple de savoir comment l’algorithme attribue des courses ou non. Mais il y a absence d’explicabilité, de transparence. Des chauffeurs syndiqués disent avoir observé un certain ralentissement des courses qui leur sont attribuées. Comment un chauffeur peut-il prouver qu’il a subi une discrimination syndicale par l’algorithme d’allocation de courses ? Si un juge s’y intéresse, il devra demander à des experts qui devront avoir accès au code, aux données, tester l’algorithme… Il n’y a pas de législation qui protège ces chauffeurs, ni même de moyen de vérifier ce que les plateformes font.

    B : crois-tu qu’il y ait une place pour l’Europe dans le domaine de l’IA ?
    Comment l’Europe peut-elle se placer pour revenir dans la bataille mondiale de l’IA ? En Europe, il y a une forte demande sociale pour que les pouvoirs publics soient protecteurs en ce qui concerne l’IA. Il y a beaucoup de craintes, fondées ou non autour du développement de l’IA. Comment peut-on répondre aux enjeux sociaux, aux enjeux de protection, de sécurité des citoyens, notamment en matière de données et de confiance ?

    Nous avons travaillé sur ce sujet au sein du groupe européen d’experts sur l’IA mis en place par la Commission européenne. Nous avons produit deux documents, l’un sur la notion de confiance et l’éthique, l’autre sur les politiques et les investissements. Nous avons développé une idée forte dans ces documents : l’Europe peut l’emporter à travers l’IA de confiance. Beaucoup de produits et de services européens sont reconnus aujourd’hui pour leur qualité, leur fiabilité. C’est par exemple le cas pour les voitures produites en Europe. C’est là que nous pouvons trouver un créneau. Prenez les enjeux autour de l’IA : robustesse et fiabilité technique, mais aussi confiance et fiabilité éthique. Confiance dans la manière dont les logiciels ont été conçus, dont ils traitent nos données, sont transparents pour expliquer le comportement d’une machine. C’est la vision qui a été développée par le groupe. C’est surtout dans ce domaine que l’Europe peut avoir une avance. Pour cela, il nous faut unir nos forces, renforcer les coopérations scientifiques, avoir davantage de projets de recherche européens sur ces sujets. Il nous faut développer une politique européenne de l’IA.

    Il faut aussi mettre à jour nos législations, par exemple sur les discriminations. Actuellement la législation se place sur des terrains connus comme la religion, l’âge, le genre, le couleur de peau… Quid de biais éventuellement introduits par la machine dans des terrains inconnus, que l’on ne connaît pas encore ? Le même problème se pose pour la directive européenne sur la responsabilité autour des produits. Il va falloir la revoir en tenant compte des systèmes auto-apprenants. L’Europe peut être un vecteur de progrès, comme pour la RGPD. Le RGPD, ce n’est pas parfait, on voit déjà des contournements, mais l’Europe a donné le ton, et on réalise que la protection des données ne tue pas l’innovation. Demain l’Europe peut aller plus loin dans cette direction avec l’intelligence artificielle.

    B : est-ce que l’informatique pose de nouvelles questions aux syndicalistes ?
    Dans le syndicalisme, sur le terrain, j’ai des collègues compétents pour traiter des conditions de travail, de salaire, de sécurité au travail, faire remonter des problèmes, des tensions, participer à leur résolution. Une dimension qui est moins traitée au niveau syndical est celle des politiques d’emploi des entreprises. Des logiciels sont mis en œuvre pour trier des CV et aider au recrutement, les logiciels RH. On a des expériences maintenant, comme celle d’Amazon. Ils ont entraîné la machine sur la base des CV de leur masse salariale actuelle sur les données de candidats à l’embauche. Ils ont réalisé que le logiciel retournait surtout des CV d’hommes. A partir des données qu’il avait, le logiciel avait décidé qu’il valait mieux être un homme pour bosser chez Amazon. Veut-on une politique d’emploi qui exacerbe les biais déjà présents ?

    Nous savons que nous ne sommes pas tous égaux dans la façon dont nous nous présentons, dont nous concevons nos CV. Nos capitaux culturels nous différencient et donnent des avantages à certains. Demain un traitement des embauches par logiciel est potentiellement très dangereux car la technologie peut introduire des biais très forts dans la sélection et le recrutement. Les syndicalistes doivent se former pour pouvoir discuter les conditions de recrutement, les critères, l’usage de la technologie pour les recrutements. Il leur faut discuter avec les entreprises qui conçoivent ces logiciels, et sur le terrain il faut vérifier que c’est bien utilisé.

    Cela nous ramène au dialogue nécessaire entre la technologie et la protection sociale des employés, à un dialogue technologique et social.

    Serge Abiteboul, Claire Mathieu

    Pour aller plus loin

  • Langages des maths, langages de l’informatique

    Un nouvel « entretien autour de l’informatique ». Serge Abiteboul et Gilles Dowek interviewent Thierry Coquand, informaticien et mathématicien français, professeur à l’Université de Göteborg en Suède. Thierry Coquand est l’auteur de nombreux travaux en théorie de la démonstration et sur les mathématiques constructives. Il est, en particulier, à l’origine, avec Gérard Huet, du Calcul des constructions, qui est la théorie implémentée dans le système Coq (voir encadré en fin d’article).
    Cet article est publié en collaboration avec The Conversation.
    Thierry Coquand, Wikipédia

    B : tes travaux se situent à la frontière de l’informatique et des mathématiques. Est-ce que ce sont pour toi deux domaines distincts ?

    TC : le point de départ de ma thèse était une tentative d’identifier ces deux domaines. Avec le recul, je me rends compte de la naïveté de ce projet. Cependant, il existe des analogies remarquables entre les deux domaines, qui nous apprennent énormément sur l’un et sur l’autre, et c’est cela qui m’intéresse.

    B : peux-tu nous parler d’une de ces analogies que tu as étudiée dans ta thèse ?

    TC : dans ma thèse, je me suis intéressé au raisonnement mathématique et à sa représentation sur un ordinateur. L’étude du raisonnement est ancienne, mais l’arrivée de l’informatique l’a bouleversée, car il devenait possible de confier à une machine la vérification de la correction des raisonnements.

    Equations sur un tableau noir – Photothèque Inria

    Avant la rencontre avec l’informatique, les mathématiciens, notamment Bourbaki, étaient déjà allés très loin sur le chemin de la formalisation des démonstrations, mais ils voyaient bien les limites de cette démarche. Si on donne tous les détails dans une démonstration, si on la formalise totalement, elle devient vite trop longue et illisible pour les humains. En revanche, un ordinateur a besoin de tous ces détails et ne s’effraie pas de la longueur des démonstrations. L’arrivée de l’informatique changeait donc tout.

    J’ai été influencé par les travaux du mathématicien néerlandais, Nicolaas de Bruijn, qui a eu l’idée d’utiliser des notations issues de l’informatique pour représenter les démonstrations. Ses travaux, ceux du statisticien et logicien suédois Per Martin-Löf et du logicien français Jean-Yves Girard m’ont beaucoup influencé. Ma thèse fait la synthèse des langages qu’ils ont proposés.

    On retrouve dans nos travaux, l’idée que les démonstrations mathématiques sont des programmes exprimés dans un type particulier de langage de programmation : un langage fonctionnel, comme les langages Lisp ou ML. Cette manière d’exprimer les programmes est particulièrement appropriée pour obtenir une représentation uniforme des programmes informatiques et des démonstrations mathématiques. La programmation fonctionnelle apporte comme une correspondance magique entre programmes et démonstrations. C’est ce que j’ai fait dans ma thèse. Et c’est le programme que j’ai poursuivi pendant trente ans dans un domaine qui reste toujours très riche.

    Cette correspondance entre programmes fonctionnels et démonstrations jette rétrospectivement une lumière nouvelle sur les travaux des logiciens des années 1930, par exemple ceux de Gerhard Gentzen, qui y trouve en quelque sorte les bons langages pour être exprimés.

    On peut aussi s’intéresser à la généralisation de cette correspondance à d’autres types de langages de programmation. C’est une direction de recherche active aujourd’hui.

    © Inria / Photo C. Morel

    B : le langage pour décrire des algorithmes ou des démonstrations. C’est bien le sujet ?

    TC : on connaît depuis longtemps l’importance des notations en mathématiques. J’aime bien l’exemple de Leibniz. Une de ses grandes contributions pour le calcul différentiel tient dans les notations qu’il introduit. De Bruijn aussi a passé beaucoup de temps à comprendre ce que sont les bonnes notations en logique et en mathématique.

    L’informatique ici aussi apporte un renouveau : parce que les systèmes qu’ils conçoivent sont très complexes, les informaticiens sont obligés de trouver de bonnes notations.

    B : la manière d’exprimer les démonstrations évolue avec le temps, n’est-ce pas contradictoire avec l’idée d’objectivité de la vérité mathématique ?

    La correction d’un raisonnement mathématique doit être un fait objectif. Mais le chemin vers la perfection est long et ce que nous avons découvert, depuis cinquante ans est qu’écrire des démonstrations absolument correctes est impossible sans ordinateur. Chaque étape du développement des mathématiques nous a cependant apporté de nouvelles notations qui nous ont rapproché de cet idéal. C’est pour cela qu’il y a une histoire de des langages d’expression des démonstrations.

    Il nous reste cependant encore beaucoup de progrès à faire : les démonstrations formelles que nous écrivons aujourd’hui sont difficilement lisibles par les humains. Nous devons donc comprendre comment concilier complexité, correction et lisibilité. Nous ne sommes qu’au début de cette histoire.

    B : l’informatique également est confrontée à cette complexité ?

    TC : les informaticiens sont confrontés à la complexité des programmes, de même que les mathématiciens confrontés à celle des démonstrations. Ils ont donc eux aussi besoin de vérifier que leurs programmes sont corrects, qu’ils font bien ce qu’ils sont supposés faire. Les outils pour raisonner sur les programmes, pour vérifier leur correction sont les mêmes que ceux qui permettent de vérifier la correction des démonstrations mathématiques.

    C’est une autre illustration de cette correspondance fantastique entre programmes et démonstrations.

    © Lonely – Fotolia

    B : peux-tu nous donner un exemple de cette complexité ? Où voit-on des signes d’imperfection dans la représentation formelle des raisonnements ?

    TC : Georges Gonthier et son équipe ont formalisé une démonstration du théorème de Feit-Thompson. La démonstration de ce théorème était connue depuis les années 1960 mais il leur a fallu six ans pour construire cette démonstration formelle, c’est bien le signe que tout n’était pas dit dans la démonstration originale. La démonstration de Georges nous permet d’avoir véritablement confiance dans ce résultat. Mais au delà, elle nous permet aussi de maîtriser la complexité du problème, de l’analyser, de comprendre sa structure de façon plus fondamentale.

    Walter Feit – Konrad Jacobs WikiPedia

    À mes yeux, le plus intéressant dans ce tour de force est que pour y arriver il s’est appuyé sur ses intuitions d’informaticien. C’est exactement ce que Gérard Huet et moi avions en tête quand nous avons commencé notre travail sur le Calcul des constructions : l’idée que nos intuitions de mathématiciens étaient utiles pour écrire des programmes et que nos intuitions d’informaticiens étaient symétriquement utiles pour écrire des démonstrations.

    Ces systèmes de vérification de démonstrations formelles arrivent aussi à un moment particulier de l’histoire des mathématiques. On commence depuis quelques années à voir apparaître des démonstrations de plusieurs centaines de pages. Les mathématiciens s’attaquent aujourd’hui à des démonstrations très complexes qu’il devient quasiment impossible de vérifier « à la main ».

    B : en astronomie, la lunette permet de dépasser les limites de l’œil ? Les systèmes de vérification de démonstrations sont-ils des outils analogues pour les mathématiciens ?

    TC : c’est une motivation bien sûr. On peut rêver de proposer aux mathématiciens des outils à la mesure de leurs rêves, des outils qui leurs permettent de dompter la complexité de certaines démonstrations. Mais nous n’en sommes qu’au début. Les mathématiciens ne se sont pas encore emparés de ces logiciels comme les astronomes des télescopes. Peut-être l’outil est-il encore trop récent ?

    B : l’outil, c’est la programmation fonctionnelle qui permet d’unifier la démonstration mathématique et la programmation.

    TC : un même outil mathématique, le lambda-calcul, représente remarquablement bien à la fois la structure d’une démonstration mathématique et celle d’un algorithme. C’est ce même objet qui est à l’origine de la programmation fonctionnelle.

    B : mais peut-on exprimer n’importe quel raisonnement ?

    TC : dans les années 1900-1930, il y a eu de grands débats en logique. Peut-on démontrer l’existence d’un objet sans jamais montrer cet objet. C’est ce qu’il se passe, par exemple, dans un raisonnement par l’absurde. Si on suppose qu’un tel objet n’existe pas, on arrive à une contradiction. Donc un tel objet existe parce qu’il est impossible qu’il n’existe pas. Dans un tel argument, on ne montre jamais l’objet dont on démontre l’existence. On n’a pas le début d’une idée pour imaginer à quoi il ressemble. Avec le lambda-calcul, on se focalise sur les démonstrations « constructives », celles qui montrent comment construire les objets dont elles montrent l’existence.

    B : faut-il interdire le raisonnement par l’absurde ?

    TC : non bien entendu, mais les démonstrations par l’absurde occupent une place singulière au sein des démonstrations. Cette singularité fait qu’ils trouvent mal leur place dans la correspondance entre programmes et démonstrations. Cette correspondance est surtout une correspondance entre les programmes fonctionnels et les démonstrations constructives. Peut-on aller au-delà des démonstrations constructives ? C’est une direction de recherche active aujourd’hui.

    B : tu as apporté des contributions considérables avec le Calcul des constructions, qui est la base du système Coq. Aujourd’hui sur quoi portent tes travaux ?

    TC : ma réponse va peut-être surprendre les lecteurs de Binaire. Mais depuis trente ans nous sommes bloqués par une question qui a l’air simple. Qu’est-ce que l’égalité ? Comment définir ce symbole que nous notons « = » ? Les réponses que, depuis Leibniz, nous avons apportées à cette question sont toutes insatisfaisantes. Car elles n’égalisent pas assez d’objets, nous voudrions montrer que tel objet est égal à tel autre, mais nous n’y parvenons pas car notre définition de l’égalité est trop tatillonne.

    Un grand mathématicien, Vladimir Voevodsky s’est intéressé à la question. Ses démonstrations étaient tellement complexes qu’elles n’étaient pas suffisamment vérifiées. Il s’inquiétait du fait que des erreurs pourraient rester ignorées et a donc cherché à les vérifier en utilisant le système Coq.

    Il a alors découvert des analogies surprenantes entre la topologie, c’est-à-dire la théorie de la représentation des formes et celle de l’égalité. À côté, de la correspondance entre programmes et démonstrations, apparaissait une nouvelle correspondance entre l’homotopie et l’égalité dans la théorie des types. C’est véritablement remarquable !

    B : pourrais-tu nous dévoiler un des secrets de tes succès professionnels ?

    TC : ce n’est pas un secret : le travail d’équipe. Ce que j’ai fait n’était possible qu’avec les gens qui sont venus avant comme mon directeur de thèse, Gérard Huet, et d’autres pour poursuive les travaux après comme Hugo Herbelin. On bâtit nos résultats sur ceux des autres. J’ai mentionné des travaux qui ont influencé ma recherche. Et leurs impacts ne dépendent pas que de nous. La théorie des constructions n’aurait jamais eu cet impact sans le système Coq, c’est-à-dire plus de 15 ans de travail d’une équipe brillante.

    B : pourrait-on enseigner cela aux enfants ?

    TC : j’aimerais que toute cette théorie serve pour enseigner les démonstrations aux enfants. Ce sujet passionnait déjà de Bruijn. La notion de démonstration est difficile à enseigner aux enfants. Qu’est-ce que c’est une démonstration ? Comment peut-on se convaincre qu’elle est correcte ? Est-ce que j’ai donné assez de détail pour convaincre quelqu’un d’autre ? Il me semble qu’enseigner la notion de démonstrations en s’appuyant sur la vérification d’algorithmes est la bonne direction. Il y a par exemple les travaux là-dessus de Julien Narboux à Strasbourg. Les enfants comprennent bien la notion d’algorithme et la proximité des notations entre programmes et démonstrations facilite la tâche.

    Serge Abiteboul et Gilles Dowek

    Définitions

    Programmation fonctionnelle : les langages de programmation fonctionnels forment une famille de langage, dans laquelle un programme n’est pas vu comme la prescription d’une succession d’étapes devant être exécutées l’une après l’autre, mais comme la description d’une fonction qui à chaque argument associe une valeur. La programmation fonctionnelle vient du le lambda-calcul, un langage inventé dans les années 1930, donc avant la construction des premiers ordinateurs, pour exprimer les algorithmes. Des exemples de langages fonctionnels : Lisp, ML, Haskell, OCaml, Scala.

    Curry-Howard : La correspondance de Curry-Howard, appelée également correspondance de Curry-de Bruijn-Howard, correspondance démonstration/programme ou correspondance formule / type, est une série de résultats à la frontière entre la logique mathématique, l’informatique théorique et la théorie de la calculabilité. Ils établissent des relations entre les démonstrations formelles d’un système logique et les programmes d’un modèle de calcul. Les premiers exemples de correspondance de Curry-Howard remontent à 1958, date à laquelle Haskell Curry remarqua l’analogie formelle entre les démonstrations des systèmes à la Hilbert et la logique combinatoire, puis à 1969 où William Alvin Howard remarqua que les démonstrations en déduction naturelle intuitionniste pouvaient formellement se voir comme des termes du lambda-calcul typé.

    Coq est un assistant de démonstration fondé au départ sur le Calcul des Constructions (une variété de calcul fonctionnel typé) introduit par Thierry Coquand et Gérard Huet. Il permet l’expression d’assertions mathématiques, vérifie automatiquement les démonstrations de ces affirmations, et aide à trouver des démonstrations formelles. Thierry Coquand, Gérard Huet, Christine Paulin-Mohring, Bruno Barras, Jean-Christophe Filliâtre, Hugo Herbelin, Chet Murthy, Yves Bertot, Pierre Castéran ont obtenu le prestigieux 2013 ACM Software System Award pour la réalisation de Coq.

  • La rencontre des SHS et des sciences de l’informatique

    Un nouvel « Entretien autour de l’informatique ». Françoise Thibault est à l’origine vidéaste et spécialiste de littérature et de cinéma. Devenue chercheuse en sciences de l’information et de la communication, elle a lancé les premiers Campus numériques français. Elle a imaginé et dirigé de nombreux programmes consacrés au numérique dans l’enseignement supérieur et la recherche en France et en Europe. Ses travaux scientifiques portent depuis vingt ans sur la compréhension des phénomènes liés à l’informatisation du monde universitaire. Elle est déléguée générale de l’alliance nationale des sciences humaines et sociales (Athéna). Claire Mathieu et Pierre Paradinas
    Cet article est publié en collaboration avec The Conversation.
    Françoise Thibault

    B : pouvez-vous nous parler de votre domaine de recherche ?

    FT : plus que de parler des sujets sur lesquels je travaille ou j’ai travaillé, j’aimerais évoquer les outils intellectuels avec lesquels je regarde les réalités sociales qui m’intéressent et avec lesquels j’aborde des questions qui me préoccupent. J’ai d’abord étudié la littérature et le cinéma, puis la sociologie. Cette dernière m’a conduite à m’interroger sur les transformations des organisations humaines et j’ai gardé de mes premiers intérêts le goût pour les outils et les formes de communication. Le pluriel des sciences humaines et sociales (SHS) revêt ainsi un sens profond pour moi et c’est dans le croisement des disciplines que j’ai trouvé matière à forger mes instruments pour regarder et analyser. J’ai toujours préféré, pour moi-même, les bricolages disciplinaires rigoureux aux chemins bien tracés des grandes théories scientifiques.

    D’autant qu’à ce monde des SHS se sont mêlés deux autres univers qui m’ont guidée, inspirée, et interrogée. Le premier, familier, c’est celui des artistes, surtout des artistes de l’image. Le deuxième, celui de l’informatique, m’était au départ plus lointain. Au fil de ma carrière, le dialogue avec les chercheurs en sciences de l’informatique s’est enrichi. Partant, d’un questionnement sur les usages sociaux des applications informatiques, il s’est déplacé vers des interrogations sur le temps et le sens de l’innovation technologique et scientifique dans la société. Partager avec des chercheurs en informatique à la fois le besoin d’histoire et les questionnements sur les transformations sociales passées et à venir a constitué pour moi une belle ouverture qui a battu en brèche la figure de l’informaticien centré sur la puissance de calcul et la dernière innovation technologique et qui m’a ouvert des horizons tout à fait passionnants

    Échanges entre humanités et informatique, Saint-Oma

    B : pourquoi la création artistique vous intéresse-t-elle ?

    FT : parce qu’elle interroge, parfois même provoque la pratique scientifique mais peut aussi être à l’origine de nouveaux espaces de diffusion des savoirs scientifiques. Je pense à un expérience théâtrale récente pour moi où le travail du metteur en scène, Thomas Ostermeier, sur le texte « Retour à Reims » du sociologue Didier Eribon donne littéralement à voir dans l’espace scénique les multiples niveaux de la réalité sociale et politique décrite par le sociologue.

    Ainsi, les SHS comme les sciences de l’informatique à mon sens, peut-être plus encore que d’autres sciences, sont interpellées par les artistes qui trouvent dans ces deux grands domaines de recherche de nouvelles formes d’expression et des territoires à explorer. Les échanges entre ces trois mondes me paraissent essentiels pour les uns comme pour les autres car ils favorisent les déplacements du regard et les décentrements. Ils contribuent, ce faisant, à sortir des routines stériles qui existent tout autant dans les sphères de la science que dans celles de la création.

    Un autre exemple me vient en tête que je tire du dernier ouvrage de Pierre Mounier sur les humanités numériques. La science comme les autres secteurs de l’activité humaine est traversée, plus encore aujourd’hui, par des phénomènes de modes marqués par la production de mots « fétiches » qui se trouvent brutalement dotés d’un intérêt difficilement contestable. Actuellement c’est le cas du terme de données. Il est pourtant indubitable que ce mot recouvre des réalités tellement différentes qu’il en perd son intérêt scientifique mais cette critique a bien des difficultés à se faire entendre. Johanna Drucker, femme chercheure et artiste des humanités numériques propose une alternative. Elle préfère les « capta » aux « data ». C’est une façon pour elle de rappeler que toute donnée est le résultat d’une opération de captage non indépendante de l’outil qui capte et de l’inventeur de la machine à capter. Ses installations en sont en quelque sorte une illustration. Cette posture me semble particulièrement éclairante transposée dans l’espace scientifique actuel.

    Enfin, j’évoquerai les vidéastes, et leurs goûts pour les explorations d’écrans, qui ont très tôt travaillé avec des chercheurs en informatique. Nul besoin de rappeler combien la création de mondes virtuels ou la recréation virtuelle de mondes anciens bien réels ont mobilisé et mobilisent tout autant chercheurs en informatique et artistes.

    Bien que la circulation d’idées entre les mondes de la recherche et ceux de la création se soit peu à peu imposée comme une source pour l’innovation, il nous reste des progrès à faire pour que les universités et les centres de recherche s’ouvrent plus systématiquement à ces collaborations.

    B : pouvez-vous maintenant aborder la question des différences entre les SHS et les sciences de l’informatique ?

    FT : pour pouvoir donner quelques éléments de réponse à l’épineuse question des différences, j’aimerais revenir sur une caractéristique partagée : ces deux grands domaines sont mal connus dans leur globalité. Ainsi, communément on oublie la dimension fondamentale des sciences de l’informatique pour ne conserver que la dimension applicative. On reproche souvent aux sciences humaines et sociales de produire des opinions destinées à conforter des postures critiques et non de produire des connaissances.

    Mais, au-delà des différences évidentes de leurs sujets d’études, j’aimerais souligner l’importance des liens qui existent entre les sciences de l’informatique et les SHS. Très tôt, l’informatique s’est imposée comme une ressource indispensable aux sciences sociales notamment pour le traitement des grandes enquêtes. Et c’est au lendemain de la deuxième guerre mondiale que s’est développée ce qu’on appelle aujourd’hui la lexicométrie, pour appréhender par l’informatique, l’analyse de grands corpus de textes. L’exemple le plus connu est celui du prêtre jésuite Roberto Busa, qui a travaillé sur la Somme théologique de Thomas d’Aquin. Allant aux USA à la fin des années 40, il a rencontré Thomas J. Watson, le fondateur d’IBM qui soutiendra son projet d’encodage du texte de Thomas d’Aquin. Il faudra près de trente ans pour faire aboutir ce projet scientifique qui doit tout au travail conjoint d’un ingénieur et d’un chercheur. Les années 1980 voient l’émergence des humanités numériques. Les exemples sont ainsi nombreux qui attestent de nouvelles découvertes sur les textes (et parfois sur les images) permises par la puissance de calcul des ordinateurs (William Blake Archive, la Dante Gabriel Rosetti Archive, Hyper Nietzsche… »). A partir des années 1990, aux USA puis ailleurs, se développeront des centres d’humanités numériques, véritables creusets du renouvellement des sciences humaines.

    B : est-ce que tout cela reste une interprétation humaine, ou est-ce que ça utilise des outils d’intelligence artificielle ?

    FT : la richesse des humanités, à mon avis, réside à la fois dans la perception fine de l’intervention humaine et dans la puissance créatrice de l’interprétation. Une tendance plus radicale des humanités numériques existe bien qui rêve de faire sortir l’humain des humanités grâce à l’informatique et à toutes les opérations qu’elle permet de réaliser sur un texte. Ses défenseurs pensent qu’on peut échapper à l’interprétation humaine de la littérature en la transformant en graphes, cartes de connaissances et autres modèles qui seraient plus scientifiques parce que non contaminés par le caractère polysémique et contextuel du langage. Le projet idéal consisterait à cartographier totalement les échanges, numériser l’ensemble de la littérature du monde, puis, à imaginer, avec ces « données », embrasser la culture du monde. Quel est l’horizon d’une telle approche imaginée par des Daniel Dennett, David Deutsch, Jonathan Basile et bien d’autres ?  Comme l’écrivait Paul Valéry tout projet de « bibliothèque de Babel » souffre de l’incapacité à opérer une action fondamentale qui est celle de la sélection.  N’est-on pas plus rigoureusement « scientifique » quand on est capable à tout moment de concevoir les limites et le sens de l’entreprise scientifique qui opère des choix fondés sur des hypothèses et des critères formalisés ?

    La grande force des chercheurs en humanités me semble résider dans la reconnaissance du caractère relatif et inépuisable de l’interprétation et dans la capacité à questionner la question. Cette qualité fait souvent défaut à la sphère de la technoscience qui se troue emportée par l’impératif de l’innovation technologique. Mais, même si l’époque est difficile pour les humanités, on peut supposer (et espérer) que les rappels à l’ordre écologique, sociaux et économiques vont remettre au goût du jour cette question radicale du sens de la recherche scientifique.

    B : vous vous êtes beaucoup impliquée dans Huma-Num. Vous pouvez nous en dire quelques mots ?

    FT : avant de parler d’Huma-Num proprement dit, j’aimerais prolonger les réflexions précédentes en rappelant l’importance, trop souvent méconnue, de l’alliance stratégique des sciences de l’informatique et des sciences humaines et sociales dans l’évolution de la conception des infrastructures de recherche.

    Jusqu’au milieu des années 2000, les « grandes infrastructures de recherche » recouvraient des instruments de physique tel le CERN, des instruments d’observation des océans (la flotte) ou de l’espace (les très grands télescopes). On doit à la Commission européenne d’avoir mandaté, en 2004, un groupe de scientifiques composé de nombreux chercheurs de tous horizons disciplinaires dont l’informatique, la biologie et les SHS pour former un forum de réflexion sur les infrastructures de recherche (European Strategy Forum on Research Infrastructures -ESFRI-).

    ESFRI a produit en 2006, la première « European roadmap for research infrastructures » dans laquelle figuraient notamment des infrastructures en SHS, toutes numériques. Alors que j’étais en fonction au ministère en charge de la recherche, j’ai œuvré, avec le sociologue Philippe Casella, à l’émergence d’un groupe de ce type au niveau national et nous avons proposé la création, en 2008, de deux grandes infrastructures numériques pour les SHS. Nous avons construit la première avec l’ambition de développer les humanités numériques en France. Il s’agit d’HUMA-NUM. La seconde a été pensée autour de la production et de la gestion partagées des données quantitatives (grandes enquêtes, bases de données). Il s’agit de PROGEDO. Si cette très grande infrastructure est moins connue que la première, à l’aune du rôle crucial des algorithmes dans la société, ses enjeux scientifiques sont majeurs.

    HUMA-NUM en deux mots, c’est à la fois une plateforme technologique et un ensemble de plusieurs réseaux de chercheurs (consortiums) engagés dans les humanités numériques. Isidore, outil de collectes et de signalement des données, est un des services les plus connus. Il est complété par une gamme d’outils de stockage des données et par Nakala qui permet d’accéder aux données et de les exploser. Les consortiums se rassemblent autour de thématiques et d’objets communs comme par exemple les sources médiévales, les cartes des géographes, les archives des ethnologues… HUMA-NUM est ainsi à fois un lieu d’invention technologique et de forte activité scientifique.

    B : un dernier mot ?

    FT : Déjà riche, l’histoire qui lie les sciences de l’informatique et les sciences humaines et sociales me semble loin d’être totalement écrite et c’est pour moi une très bonne nouvelle.

    Entretien réalisé par Claire Mathieu et Pierre Paradinas.

  • Les robots à l’hôpital

    Jocelyne Troccaz est Directrice de recherche CNRS au Laboratoire « Techniques de l’ingénierie médicale et de la complexité – informatique, mathématiques et applications » de l’Université de Grenoble. Ses travaux concernent principalement la robotique et l’imagerie médicale et sont appliqués à des domaines cliniques variés. Ainsi, ses recherches sur l’aide à la biopsie de la prostate permettent le guidage plus précis de la ponction, améliorant la prise en charge du cancer de la prostate, de loin le plus fréquent chez l’homme. Ses travaux sont au cœur des activités de plusieurs start-up valorisant les travaux du laboratoire. Cet article est publié en collaboration avec The Conversation.
    Le robot médical par Saint-Oma
    Jocelyne Troccaz, site du CNRS

    B : Jocelyne, pourrais-tu nous parler de ton domaine de recherche ?

    JT : je travaille en informatique et en robotique, au service des gestes médico-chirurgicaux assistés par ordinateur. Il s’agit de concevoir, développer des systèmes, inventer des dispositifs pour aider les cliniciens lors de leurs interventions, pour le diagnostic, ou la thérapie. C’est prioritairement guidé par les besoins cliniques. On a les pieds dans la clinique et on espère aider les cliniciens à résoudre de vrais problèmes qu’ils rencontrent. Les domaines de l’informatique qui sont les plus pertinents dans mon travail sont le traitement d’images, du signal la robotique vue du côté de la programmation et de la modélisation et l’IHM.  L’IA aussi.

    B : comment en es-tu arrivée là ?

    JT : j’ai suivi une licence, une maîtrise et un DEA d’informatique. J’ai étudié l’intelligence artificielle avec Jean-Claude Latombe et Christian Laugier en particulier, le raisonnement géométrique pour comprendre et reproduire le mécanisme de la préhension d’objets par des robots. Il n’y avait là rien de médical. Après avoir soutenu ma thèse en 1986, je suis entrée au CNRS en 1988.  En 1990, je me suis réorientée en rejoignant un laboratoire CNRS de Technologies pour la Santé à l’Université de Grenoble, TIMC, physiquement implanté à l’intérieur du CHU. C’est là que j’ai rencontré le domaine médical et j’ai découvert que c’était à cela que je désirais consacrer mon énergie et ma créativité. Je me suis même posé la question d’entreprendre des études de médecine. Je ne l’ai pas fait, mais j’en ai appris suffisamment pour comprendre les problèmes cliniques et essayer de trouver des solutions.

    B : qu’est ce qui est spécifique à la robotique médicale ?

    JT : les êtres humains. Pendant ma thèse, quand on mettait des robots en marche, tout le monde se tenait à distance car c’était potentiellement dangereux. À TIMC, l’une des premières interventions que j’ai vues, c’était un bras robotisé qui passait à dix centimètres de la tête d’un patient, j’étais effarée. Le robot est à côté, voire à l’intérieur du patient. Les cliniciens sont tout proches. De plus, les tâches qu’on va faire faire au robot ne sont pas stéréotypées comme dans une ligne d’assemblage. Chaque patient est un cas particulier ; parfois aussi, les organes bougent ou se déforment, et le robot doit s’adapter en permanence. Et puis, un bloc opératoire est un environnement très contraint en termes d’espace, avec des contraintes de propreté, des contraintes électromagnétiques, etc., et toute une batterie de règlements auxquels il faut obéir.

    crédits: KOELIS) : Utilisation de la fusion d’images en urologie pour les biopsies de prostate : visualisation per-opératoire d’une zone cible (en rouge) et de la forme de la prostate (maillage) issues de l’IRM préopératoire ainsi que des biopsies déjà réalisées (cylindres verts, jaunes et rouges).
    crédits: KOELIS : Utilisation de la fusion d’images en urologie pour les biopsies de prostate : visualisation per-opératoire d’une zone cible (en rouge) et de la forme de la prostate (maillage) issues de l’IRM préopératoire ainsi que des biopsies déjà réalisées (cylindres verts, jaunes et rouges)

     

    B : ce sont toutes ces contraintes qui guident les comportements des robots ?

    JT : les images du patient sont à la base des décisions. Il faut être capable d’y lier la planification des gestes. Il faut fusionner des informations provenant de plusieurs sources, modéliser des processus de déformation des organes sur lesquels on agit. On utilise des capteurs, mais on utilise aussi des modèles statistiques, biomécaniques, ou mixtes. Il faut également gérer les interactions entre l’utilisateur et le robot.

    Et d’autres problématiques peuvent intervenir. Par exemple, pour des minirobots qui vont dans le corps du patient et peuvent y demeurer, on a la question des sources d’énergie. On travaille sur un tel robot et on se propose de lui fournir de l’énergie en utilisant les ressources du corps humain (sucre, ions, etc.). On fait coexister biologie et robotique.

    C’est par exemple, le M2A, un objet autonome à peu près de la taille d’un gros antibiotique. Le patient l’avale ; dedans il y a une caméra, de la lumière, des batteries ; ce dispositif prend des images de l’intérieur du tractus digestif, et périodiquement les envoie à un boîtier qui se trouve à la ceinture du patient. C’est utile pour des examens endoscopiques, en particulier pour la zone médiane de l’intestin qu’il est difficile à atteindre par moyen classique. Ce type de système est passif et de nombreuses équipes cherchent à pouvoir en contrôler la trajectoire.

    B : quels sont les grands défis de ta discipline ?

    JT : un défi est la question de l’autonomie décisionnelle des robots. Par exemple, en radiothérapie, on délivre des rayons X sur une tumeur, et plus il y a des incidences nombreuses avec des petits faisceaux, plus vous pouvez être précis. C’est comme faire de la peinture avec un rouleau ou avec un pinceau fin.  Un robot nommé Cyberknife  existe actuellement en radiothérapie, et il porte un système d’irradiation. À ce robot, les chercheurs ont ajouté la capacité de suivre la respiration du patient. Quand on respire, la tumeur bouge. Ils ont développé un modèle qui corrèle le mouvement  facilement détectable de la cage thoracique avec celui de la tumeur, et le robot utilise cela pendant le traitement pour mieux diriger les radiations vers celle-ci.  Avec une telle autonomie de prise de décision, il faut garantir la sécurité ; le partage des prises de décision avec un opérateur humain devient un défi important. Aujourd’hui, l’homme décide, le robot réalise. Mais on assiste à un début de glissement : le robot décide certaines choses. Plus on aura des robots qui agissent de manière un peu autonome sur des tissus mous où tout n’est pas modélisable a priori, plus ces questions se poseront.

    Un autre défi, qui n’est pas spécifiquement lié à la robotique, c’est de pouvoir démontrer une valeur ajoutée clinique. Qu’on développe un dispositif, un robot, ou une méthode de traitement d’images médicales, il faut en faire une évaluation technique : cela doit être correct, répétable, et conforme à ce qu’on devrait avoir. Mais il faut aussi démontrer un bénéfice clinique : par exemple, il y a moins d’effets secondaires, ou le patient passe moins de temps à l’hôpital, ou ça coûte moins cher, etc. Ce n’est pas toujours simple. Par exemple on parle beaucoup du robot médical Da Vinci, mais il coûte très cher et en ce qui concerne son bénéfice clinique pour les patients, les études sont contradictoires. Par contre, il est certain que la formation des cliniciens à la technique de laparoscopie est beaucoup plus simple et rapide avec ce robot.

    Il y a des difficultés spécifiques au travail avec des cliniciens. Quand on travaille avec des gens d’un domaine différent du sien, il peut être difficile de se comprendre. Déjà, il y a le problème du vocabulaire : la première année, je ne comprenais rien au jargon médical.  On finit par apprendre et on découvre alors le plaisir d’interagir avec des personnes d’une culture très différente. C’est une chance et une richesse d’avoir un labo si proche des cliniciens du CHU.

    B : n’y a-t-il pas un risque, pour l’humain, d’être dessaisi du pouvoir décisionnel, de se retrouver juste là à admirer ce que fait le robot ?

    JT : de mon point de vue, l’idée n’est pas de remplacer le clinicien. Pour les choses que nous faisons bien, ce n’est pas la peine de remplacer l’humain par une machine ; il y a beaucoup de choses que l’humain fait mieux que le robot. Pour la dextérité, les gestes fins de l’humain peuvent être excellents grâce à sa perception haptique. Pour l’intelligence, l’humain est très bon en ses capacités d’analyse et de prise de décision surtout dans des conditions critiques.  Il faut voir ces dispositifs comme le moyen de faire faire aux robots des choses que nous ne faisons pas bien nous-mêmes ou avec des moyens non robotisés. Aujourd’hui, si on confie des tâches à un robot qui travaille de manière autonome, ce sont des tâches encore limitées ; par exemple, quand le robot se synchronise sur la respiration du patient pour la radiothérapie.

    Évidemment, je parle de la situation actuelle, mais avec le deep learning et les évolutions futures, il y aura sans doute de plus en plus de tâches et des tâches de plus en plus complexes qui seront déléguées à des machines. En tout cas, ce qui me semble fondamental, c’est que si un robot prend des décisions, il puisse les expliquer aux humains qui l’accompagne et que ces méthodes permettent l’interaction et la prise de décision conjointe.

    Crédits: CHU Grenoble Alpes : Utilisation d’un robot porte-endoscope contrôlé par commande vocale. Le dispositif développé au laboratoire TIMC a été industrialisé par la société Endocontrol Medical

    B : de ta formation initiale, qu’est ce qui t’a été utile pour ta recherche ?

    JT : à l’époque, en informatique, on apprenait surtout à programmer, à faire de l’algorithmique. Ça apprend à réfléchir de manière méthodique, et structurée c’est extrêmement important. On enseignait aussi les algorithmes numériques, qui ne me passionnaient pas, mais je le regrette un peu, car ça m’est utile tous les jours. Mes cours d’électronique, je ne suis pas sûre que ça m’ait servi à grand-chose. Globalement, je crois que ma formation m’a assez bien préparée. Et puis, on apprend beaucoup « sur le tas » : la robotique, je l’ai apprise en faisant ma recherche parce qu’elle n’était pas encore enseignée. Par contre, les mathématiques de base, les manipulations de matrices par exemple, c’est évidemment indispensable et ça, il vaut mieux l’avoir appris dans ses études. Peut-être une chose qui m’a manquée, c’est  d’apprendre une méthodologie expérimentale, pour concevoir une expérience, analyser ses résultats, comprendre ce qui ne marche pas. J’ai surtout appris cela « sur le tas ».

    B :  apprendre « la robotique », qu’est-ce que ça veut dire ?

    JT : dans mon premier laboratoire, on travaillait sur les aspects algorithmiques de la robotique, la modélisation géométrique, la prise de décision. En arrivant à TIMC, je m’imaginais connaitre la robotique, mais j’y ai découvert d’autres aspects indispensables : la calibration de robot, la préparation de manips, le contrôle de plus bas niveau du robot et bien évidemment l’imagerie qui nourrit la planification du robot. Ce que j’aime dans la robotique, c’est la diversité des tâches et des disciplines concernées. Nous écrivons beaucoup de programmes informatiques. Mais, il nous arrive aussi de concevoir des robots, c’est à dire d’inventer des dispositifs nouveaux d’un point de vue architectural, d’un point de vue physique, introduisant de nouvelles formes d’interactions avec les humains. On va jusqu’à la réalisation de ces dispositifs, y compris leur mise en œuvre clinique.

    B :  quelles sont des choses que tu as faites et dont tu es particulièrement fière ?

    JT : je suis fière de travaux sur la « co-manipulation » réalisés dans les années 90 que j’appelais « robotique synergique » et qui étaient très innovants. L’outil est porté par le robot mais tenu également par l’opérateur humain. Ainsi le robot peut « filtrer » les mouvements proposés par l’opérateur. Cela permet de faire cohabiter planification globale et ajustement local, assistance robotisée et sécurité car le clinicien est « dans la boucle ». Cette approche intéresse beaucoup les cliniciens.

    Les autres choses dont je suis le plus fière sont les systèmes qu’on est arrivé à amener jusqu’à une utilisation clinique.  Il n’y a rien de plus gratifiant que de voir son propre système utilisé sur des patients en routine clinique. Par exemple, je travaille avec le CHU de Grenoble et la Pitié-Salpêtrière sur le cancer de la prostate depuis longtemps, du point de vue à la fois du diagnostic et du traitement.

    Côté diagnostic, pour faire une biopsie de la prostate, il y a des carottes de tissu qui sont prélevées puis examinées au microscope. Ces biopsies sont faites sous contrôle échographique, avec une sonde mise dans le rectum du patient. Or la prostate est un peu comme une châtaigne, et quand on bouge la sonde ça bouge la prostate ; du coup ce n’est pas très facile de savoir où est faite la biopsie. En cas de cancer, la recommandation en France, c’est de faire 12 biopsies, les « mieux réparties possibles » dans la prostate.  Comment vous faites pour bien les répartir ? L’idée qui a germé a été de développer des méthodes de fusion de données ultrasonores, échographie et IRM. On travaille en 3D. On a développé des méthodes de recalage d’image pour s’orienter dans l’espace. J’ai eu la chance d’avoir deux étudiants en thèse brillants, l’un urologue et l’autre d’une école d’ingénieur sur ce thème. Les méthodes de recalage en trois dimensions se sont avérées robustes et complètement automatiques. Cela a débouché sur un dispositif industriel de la société KOELIS. Plus de 250 000 patients ont maintenant eu des biopsies avec ce dispositif, dans 20 pays, sur 4 continents.

    Au début, certains urologues disaient que ça ne servait à rien, qu’ils se débrouillaient bien sans, mais leur point de vue a évolué. La chirurgie peut avoir des effets secondaires graves d’incontinence ou d’impuissance, et les gens se posent donc beaucoup de questions sur la décision de traitement et son type, alors si on sait mieux faire les biopsies, on peut faire un traitement plus adapté. Les gens ont commencé à dire qu’au lieu d’enlever la prostate toute entière, si on localise mieux le cancer, on peut n’enlever qu’une partie de la prostate. On était dans une phase d’évolution de la pratique clinique et l’outil développé allait dans le sens de cette évolution. Il est maintenant très bien accueilli.

    L’informatique s’est rendue indispensable à la médecine. On a construit les premiers scanners il y a cinquante ans. Le scanner n’existerait pas sans l’informatique. Les dispositifs d’imagerie qui sont capables de reconstruire une image en trois dimensions à partir de radios n’auraient pas d’existence s’il n’y avait pas de tomographie.

    B :  comment vois-tu une bonne formation d’étudiants ?

    JT : pour ce qui est de l’informatique, ce serait bien si les élèves avec un master d’informatique avaient une formation un peu plus homogène. C’est génial de picorer des choses à droite à gauche, mais ça rend leur intégration plus difficile pour nous, car les étudiants peuvent avoir le diplôme et avoir des lacunes importantes sur des aspects basiques de l’informatique.

    Pour ce qui est de la formation en médecine, on voit se développer des simulateurs informatisés pour la médecine et la chirurgie. Les étudiants ne pratiquent plus une opération la première fois directement sur un corps vivant ou sur un cadavre, ils s’entrainent sur des simulateurs. L’informatique est utile pour cela aussi.

    On a développé un simulateur de biopsie, pour enseigner aux étudiants à faire des biopsies sur simulateurs avant de les leur faire réaliser sur des patients. Pour la biopsie de la prostate, il y a eu une expérimentation avec deux groupes d’étudiants en médecine, un groupe avec une formation traditionnelle sur cadavre, et un groupe formé sur le simulateur. Le groupe formé avec simulateur était vraiment meilleur.

    La recherche à l’interface entre santé et informatique est passionnante. La plupart de nos étudiants attrapent très vite la fibre. Même si parfois, les challenges posés à l’informatique sont hyper intéressants et que cela peut conduire à des résultats fondamentaux, nous sommes également très motivés par la résolution de questions posées par la santé.

    Serge Abiteboul, Inria & ENS, Paris, Claire Mathieu, CNRS & Univ. Paris VII

  • Science du qubit, science des données

    Un nouvel « Entretien autour de l’informatique ». Serge Abiteboul et Claire Mathieu interviewent Julia Kempe. Julia est une brillante mathématicienne, physicienne, et informaticienne. C’est une des meilleures spécialistes mondiales en informatique fondamentale et, en particulier, en informatique quantique. A partir de l’automne, elle dirigera le Center for Data Science de New York University. Cet article est publié en collaboration avec The Conversation.
    Julia Kempe, CDS

    Binaire : tu es une scientifique très cosmopolite. Peux-tu nous raconter un peu d’où tu viens ?

    Je suis née en Allemagne de l’Est, d’origine russe et allemande. Je suis allée dans une école spécialisée en maths en Allemagne de l’Est à l’âge de 14 ans. Nous avions déjà des cours de programmation. Quand le mur est tombé, je suis allée en Autriche et j’ai étudié les maths et la physique à Vienne, avec un semestre en Australie dans un programme d’échange. Puis je suis allée en France où j’ai fait un DEA d’Algèbre à Paris 6, en géométrie algébrique. Mais mes intérêts ont toujours été pluridisciplinaires, et j’ai enchainé avec un DEA de physique théorique à l’École Normale Supérieure. Et puis, il y a eu la découverte par Peter Shor du premier algorithme quantique. Dans les années 90, j’ai passé deux thèses en même temps, une en maths à Berkeley, et l’autre en informatique à Télécom Paris avec Gérard Cohen, toutes les deux sur des aspects des calculs quantiques. Ensuite, j’ai eu un poste au CNRS en informatique. J’ai eu la chance de travailler dans l’équipe de Miklos Santha à Orsay. À l’époque, l’informatique quantique était encore un domaine tout nouveau. En 2007, je suis partie pour 4 ans en Israël comme professeur d’informatique à l’université de Tel-Aviv. Puis je suis rentrée en France, et un peu plus tard j’ai rejoint un fonds d’investissement américain. Ma culture scientifique générale y a été très utile même si mes compétences en informatique quantique ne servaient pas. Récemment, j’ai pris un poste de professeur d’informatique à New York University ; je serai directrice du Centre de Sciences des Données.

    B : tu es mathématicienne, informaticienne, physicienne. Si on te demandait de choisir entre les trois ?

    Je n’ai pas à choisir. Ce qui m’a attiré à l’informatique, c’est la rigueur, la précision que cela exige, comme en mathématiques. En informatique, on réalise des choses concrètes, des calculs, et j’aime ça. Et puis, les méthodes que l’on développe et les problèmes que l’on traite viennent de domaines très divers. C’est une grande aide pour moi que d’avoir des connaissances dans plusieurs disciplines. D’une part ça m’aide à comprendre les domaines d’application dans lesquels je travaille, et d’autre part, j’ai plus de facilité à travailler avec des personnes de ces domaines, qui ont toutes des cultures différentes.

    Représentation d’un qubit par une sphère de Bloch.

    B : pourrais-tu expliquer simplement l’informatique quantique ?

    L’informatique classique est fondamentalement basée sur le traitement de signaux binaires. L’état d’un interrupteur ou d’un bit en mémoire est soit 0 soit 1. En mécanique quantique, les particules quantiques se trouvent dans un état qu’on appelle « superposé », c’est un peu 0 et un peu 1. On appelle qubit ces bits quantiques qui sont à la fois dans l’état 0 et dans l’état 1. Quand on cherche à observer un qubit, on va trouver soit un 0 ou un 1. L’observation a changé l’état de la particule en choisissant entre les deux.

    B : le but c’est d’arriver à réaliser beaucoup de calculs en parallèle ?

    Avec un vecteur de n qubits, on a en même temps 2n valeurs. Si on arrive à faire des calculs avec de tels vecteurs, on arrive en quelque sorte à faire tous les calculs en même temps. C’est comme si on réalisait 2n calculs « en parallèle ». Le problème c’est qu’à la fin, il se peut qu’il n’y ait qu’un seul de ces calculs qui ait réussi, et c’est son résultat qui nous intéresse . Ce résultat est quelque part et la difficulté, c’est de l’isoler. L’art des algorithmes quantiques est d’effacer de façon judicieuse tous les calculs qui n’ont pas abouti.

    B : est-ce que, avec le quantique, on pourrait arriver à réaliser rapidement des calculs comme la factorisation ?

    L’algorithme de Shor explique comment factoriser de grands nombres en facteurs premiers de manière efficace. On ne sait pas faire cela avec l’informatique classique. Les algorithmes qu’on connaît prennent un temps exponentiel. D’ailleurs, une grande partie de la cryptographie très utilisée dans nos vies quotidiennes est basée sur le fait qu’on ne sait pas factoriser rapidement un nombre premier. Ce problème de factorisation, on arrive à le résoudre dans le modèle quantique avec l’algorithme de Shor. Évidemment, pour que cela devienne réalisable en pratique, il faudrait savoir construire un ordinateur quantique qui manipule des grands nombres de qubits. On n’y est pas encore.

    P, NP, PSPACE sont des classes de problèmes de complexité classiques BQP : problèmes qui peuvent être résolus en temps polynômial par un algorithme quantique avec une erreur bornée

    B : est-ce que l’informatique quantique remet en cause la théorie de la complexité traditionnelle de l’informatique ?

    La théorie de la complexité étudie ce qu’on peut faire avec un ordinateur étant donné des ressources limitées en temps et en espace. On peut faire des études comparables à partir d’un modèle quantique. Un travail de recherche passionnant actuellement, c’est que certaines classes de complexité quantique sont équivalentes à des classes classiques. On obtient aussi des résultats de réductions passionnants comme : « si un problème peut être résolu dans modèle classique avec une complexité particulière, alors il peut aussi l’être dans le modèle quantique avec telle complexité. » Il y a tout un panorama de classes de complexité. C’est vrai que, comme en complexité classique, ce n’est pas simple de « séparer » les classes de complexité.

    B : voit-on arriver ces ordinateurs quantiques ? Y a-t-il des résultats concrets pratiques ?

    Quand j’ai commencé, à la fin des années 90, les expérimentateurs prédisaient un ordinateur quantique dans 10 ans ; les plus prudents parlaient de 20 ans. Il s’est déjà passé vingt ans et on attend toujours ! En réalité, dans le monde de la recherche, quand on vous dit dans 10 ans, il faut souvent comprendre : « je n’en sais rien ». Malheureusement il y a eu beaucoup de survente. Les ordinateurs quantiques ne savent même pas encore factoriser des chiffres autour de 10 000 à cause de l’accumulation des erreurs. Nous avons encore des problèmes à régler avant d’arriver à quelque chose d’intéressant. On est encore très loin de pouvoir utiliser l’algorithme de Shor.

    B : mais est-ce qu’on avance ?

    Oui ! Vraiment. Nous sommes dans une période de transition car nous assistons à des tentatives concrètes de Google, d’IBM… Avec des machines à 50 qubits. C’est passionnant car, à partir de grosso modo 50, nous arrivons à des phénomènes qu’on ne peut plus simuler avec des ordinateurs classiques ; 250, c’est à peu près leur limite.
    Si on ne sait pas encore faire un ordinateur quantique général, on pourrait utiliser les machines quantiques qu’on sait construire pour simuler des phénomènes physiques qu’on ne sait pas simuler autrement actuellement.

    B : qu’est-ce qui t’a fait choisir de vivre aux USA ?

    Il y avait beaucoup de paramètres. J’aime vivre en France mais je voulais faire quelque chose de nouveau, travailler dans un fonds d’investissement, et pour cela, New York, c’était le bon endroit. Je ne pensais pas y rester six ans. J’avais de jeunes enfants et avec de jeunes enfants, c’est difficile de faire une recherche qui demande de s’immerger dans des problèmes complexes de façon prolongée. Je n’exclus pas de revenir en France, mais pour l’instant l’occasion ne s’est pas présentée.

    B : ce travail dans les fonds d’investissement est–il aussi un travail scientifique ?

    Nous utilisons une approche « quantitative » des fonds d’investissement. Nous partons de téraoctets de données financières. Nous remplaçons les intuitions des traders des années 80 par de l’analyse scientifique de données. Nous développons des théories, des modèles, et nous les testons pour détecter des signaux qui nous permettent de prédire les évolutions des marchés financiers. La difficulté est que les données dont nous disposons ne sont jamais parfaites. C’est tout un art de les nettoyer pour en extraire les informations pertinentes. C’est de la science des données. Cela ressemble beaucoup à un travail universitaire mais nous ne publions pas et le critère ultime de succès pour nous, c’est si ça rapporte de l’argent. Mes collègues sont, pour beaucoup, mathématiciens ou physiciens, et c’est une grande aide pour moi que d’avoir fait des études pluri­dis­ci­plinaires.

    B : ce genre de travail existe-t-il aussi en France ?

    Oui, en France il y a en particulier CFM, un fonds d’investissement dirigé par un physicien, Jean-Philippe Bouchaud, avec de nombreux employés qui viennent du monde de la physique statistique. Ils retrouvent finalement des méthodes assez semblables à celles qu’ils utilisaient en physique, avec les expérimentations, la définition de modèles mathématiques, l’analyse de données, la simulation, la validation des résultats à la lumière de la réalité des données, etc.

    Un problème particulier assez classique que nous rencontrons est celui du « sur-apprentissage » (overfitting en anglais). Avec suffisamment de paramètres, je peux ajuster les paramètres du modèle de façon à correspondre exactement aux données disponibles. Seulement, le modèle peut être trop exactement ajusté aux exemples et ne pas s’adapter aux données futures. On est un peu comme les astrophysiciens : ils ont une seule donnée, l’univers tel qu’il existe, et nous n’avons que les données financières sur une seule réalisation du monde financier tel qu’on l’observe. Comme les astrophysiciens, il faut faire avec. Et si on a fait du sur-apprentissage, on va juste rater une évolution du marché qui ne s’est pas passée exactement comme dans le passé…

    C’est facile de se tromper. Le temps de demi-vie d’un fonds d’investissement est de 18 mois en moyenne, parce que des erreurs sont faites, souvent à cause de sur-apprentissage.

    B : que vas-tu faire à NYU ?

    Je vais faire de la recherche en science des données. Je vais essayer d’appliquer, par exemple, mes compétences sur le traitement du bruit à des données autres que financières.

    B : quelle est la présence féminine dans ces domaines ?

    Dans le fonds d’investissement, nous étions 2 femmes chercheuses sur 55. Au CDS (centre de sciences des données), nous sommes entre 1/4 et 1/3 de femmes. Il y a un nombre relativement élevé de femmes en sciences des données, plus que dans d’autres domaines de l’informatique. Je crois que l’aspect pluridisciplinaire attire les femmes. Et comme les chercheurs en data science sont habitués à une diversité de disciplines scientifiques, cela les rend peut-être plus ouverts à une diversité des genres.

    B : as-tu un conseil à donner aux étudiants ?

    Nous vivons un temps où il y a beaucoup de données numériques, de plus en plus de calculs sur ces données. Chacun doit apprendre à se servir de ces données, et en même temps à être prudent avec elles. Il faut par exemple être conscient des problèmes de biais qui peuvent exister dans des données dont on se sert dans des domaines critiques.

    Je pense que les étudiants dans toutes les disciplines devraient avoir une solide expérience de programmation et maitriser la compréhension des données numériques.

    Entretien réalisé par Serge Abiteboul et Claire Mathieu

    Références

  • Informatique, éthique et régulation

    Un nouvel « Entretien autour de l’informatique ». Serge Abiteboul et Claire Mathieu interviewent Noëlle Lenoir, juriste, magistrate et femme politique. Première femme et plus jeune membre jamais nommée au Conseil constitutionnel, ministre des Affaires Européennes entre 2002 et 2004, elle a occupé de nombreuses fonctions, et en particulier a suivi la mise en œuvre de la loi informatique et libertés française. Elle parle à Binaire des liens entre le droit et l’informatique. Cet article est publié en collaboration avec The Conversation.
    Noëlle Lenoir, Wikipédia

    Binaire : pouvez-vous nous parler de votre carrière ?

    Je suis de formation juridique. En 1982, alors que j’étais administrateur au Sénat depuis près de 10 ans, le sénateur Jacques Thyraud, alors rapporteur du budget de la justice, m’a demandé de venir diriger les services de la CNIL, dont j’ai été pratiquement la première directrice. Si le contexte était radicalement différent de celui d’aujourd’hui, la problématique de l’informatique et des libertés était finalement assez similaire. La protection des données était et est restée rattachée aux droits de l’homme, ce qui veut dire que toute collecte et tout traitement de données est vue potentiellement comme une atteinte aux libertés. C’est la marque de fabrique européenne. Toutefois, le « la » a été donné par la France dès les années 80. À la CNIL, j’ai participé à la mise en place des services et de l’institution elle-même. À mon avis, encore aujourd’hui, il n’y a pas assez de techniciens parmi les membres du collège de la CNIL ; par exemple, il devrait y avoir de droit un statisticien et un historien archiviste. Protection des données ne doit pas vouloir dire en effet destruction du patrimoine numérique national.

    J’ai ensuite intégré le Conseil d’État, qui était très impliqué dans le droit de l’informatique. J’y ai participé à un rapport sur le sujet. Appelée en 1988 à diriger le cabinet de Pierre Arpaillange, ministre de la justice, j’y suis demeurée deux ans à m’intéresser au droit pénal en pleine transformation avec la préparation du nouveau code Pénal. Puis en 1990, le Premier ministre, Michel Rocard, m’a demandé de conduire une mission sur le droit de la bioéthique dans une perspective internationale et comparative. La France n’avait pas de législation tandis que le programme de décryptage du génome humain et la procréation médicalement assistée posaient des problèmes juridiques entièrement nouveaux. Comme vous le savez, la bioéthique inclut des problématiques liant la génétique à l’informatique comme le décryptage du génome humain ou les tests génétiques prédictifs. Ma mission, qui s’est conclue par un rapport remis au Président de la République et au Premier ministre, a débouché sur le dépôt de la première loi française de bioéthique que j’avais contribué à préparer.

    Nommée en 1992 au Conseil constitutionnel, j’ai été confrontée à des lois de bioéthique. Une fois terminé mon mandat en 2001, je suis allée enseigner le droit de la bioéthique et le droit européen à la faculté de droit de Columbia, à New York, en tant que visiting professor. Ce fut pour moi une très belle expérience. J’y ai découvert des méthodes d’enseignement très différentes des nôtres, plus interactives, moins directives, moins savantes, mais plus vivantes.

    Ensuite, ce furent deux années passionnantes comme ministre des Affaires européennes (2002-2004), à l’heure de l’élargissement de l’Europe aux États de l’Europe centrale et orientale. Certains de ces pays étaient déjà en avance en matière d’informatisation de la société ; c’était et cela reste en particulier le cas de l’Estonie. J’ai visité en 2002 à Tallinn la salle du Conseil des ministres entièrement informatisée, les ministres ayant chacun leur ordinateur, et au diable les documents papier !

    Je suis aujourd’hui avocate dans un cabinet américain, Kramer Levin, dont la maison-mère est à New-York. Après m’être spécialisée en droit de la concurrence, une discipline à la frontière du droit et de l’économie, je développe actuellement mon expertise en droit de l’informatique et de la protection des données personnelles. Ma formation de publiciste me conduit à travailler aussi sur des dossiers en droit public, dont fait partie le droit de la protection des données. Enfin, je suis centrée également sur la compliance, c’est-à-dire tout ce qui peut contribuer à aider les entreprises à prévenir, détecter et lutter contre la corruption, en application de la loi dite Sapin II. Ce que permet l’utilisation des hotlines par exemple à travers lesquelles tout salarié ou tout tiers à l’entreprise peut faire remonter des informations sur des infractions commises ou en voie de l’être. De même, le contrôle des transactions financières dans le cadre de la lutte contre le blanchiment d’argent passe-t-il essentiellement par des procédures informatisées. Le droit et l’informatique ont beaucoup de points en commun, ne serait-ce que les logiques qui les sous-tendent.

    B : vous avez participé aux débuts de la CNIL. Comment voyez-vous cette institution ?

    A l’époque, les « autorités administratives indépendantes » telle que la CNIL, dotées de prérogatives règlementaires autant que répressives, étaient toutes nouvelles. Pour moi, ces autorités relèvent d’un concept libéral, venu des États-Unis, qui veut qu’entre l’État et les opérateurs économiques, des institutions étatiques, mais indépendantes, aient le pouvoir de faire évoluer la norme juridique en fonction de l’évolution des technologies et de l’économie. Depuis environ 40 ans, on assiste à l’émergence d’une nouvelle forme de droit, plus ou moins contraignant, qui est négocié ou au moins discuté avec les acteurs économiques. Mais par ailleurs, les normes (recommandations, lignes directrices, règlements etc.) produites par ces autorités sont assorties de sanctions pécuniaires extrêmement lourdes. Elles sont certes le fruit de discussions entre l’autorité et l’entreprise contrevenante qui peut exercer ses droits de la défense ; mais l’autorité dispose d’une force de frappe qui lui donne un pouvoir considérable pour faire respecter ses recommandations. Pensez que la CNIL peut infliger des amendes allant jusqu’à 4% du chiffre d’affaires mondial, ce qui peut littéralement mettre à genoux une entreprise, lorsqu’en plus, l’amende prononcée fait chuter son cours de bourse. Même quand des amendes ne sont pas prononcées à l’encontre des opérateurs défaillants, les avertissements par exemple émis par ces autorités peuvent être rendus publics, à grand renfort de communiqué de presse, avec tous les dommages en terme de réputation que cela implique. Parmi les principales autorités administratives indépendantes, en dehors de la CNIL qui a été précurseur, on peut citer l’autorité de la concurrence, l’ARCEP, le Conseil supérieur de l’audiovisuel ou encore la récente agence anti-corruption.

    La CNIL, elle, est exclusivement compétente en matière de protection des données personnelles des personnes physiques, c’est-à-dire de la vie privée. L’informatique constitue un formidable progrès dans la gestion de l’information des individus, mais peut mettre en danger leurs libertés si elle fait l’objet d’une utilisation pernicieuse. La loi Informatique et Libertés en France, et le Règlement général européen sur la protection des données (RGPD) applicable depuis mai de cette année tentent de réaliser un arbitrage entre développement technologique et économique et protection des libertés.

    Je me souviens que les principaux sujets d’intérêt pour la CNIL étaient à l’époque, avant Internet et le web, d’abord les fichiers de police et de renseignements, les fichiers de la sécurité sociale, et les fichiers fiscaux mis en place pour déceler dans les déclarations les anomalies susceptibles de déclencher des contrôles.

    René Carmille, créateur du numéro de code individuel et de l’Insee

    Le but était avant tout d’éviter l’interconnexion des fichiers administratifs. Cela était tabou et l’est encore. Le numéro de sécurité sociale (le NIR) était et reste considéré comme dangereux en soi, et il fallait éviter à tout prix qu’il ne serve aux interconnexions de fichiers. Permettez-moi en lien avec ce numéro d’évoquer l’histoire dramatique d’une personne exceptionnelle, René Carmille. Il a créé sous l’Occupation le Service National Statistique (qui deviendra l’INSEE en 1946) et le code individuel des citoyens qui deviendra le numéro de sécurité sociale. Seulement ce numéro a été détourné de sa vocation par le ministre de la Justice Raphaël Alibert pour distinguer les juifs et les tsiganes, et organiser les départs pour le STO. Carmille rentre dans la Résistance, cache des fichiers pour mettre au point un dispositif de mobilisation contre l’ennemi, fabrique de fausses cartes d’identité pour les juifs et les résistants. Arrêté à Lyon en 1944, atrocement torturé par Klaus Barbie, il meurt en 1945 au camp de Dachau. L’ENA devrait donner son nom à une de ses promotions, comme l’a fait en 2008-2009 l’EMCTA (Ecole militaire du corps technique et administratif).

    Le numéro de code individuel créé par René Carmille est demeuré une sorte d’épouvantail. Ce n’est, à mon avis, plus justifié du fait de tous les autres moyens d’interconnexions de fichiers disponibles aujourd’hui.

    Pour revenir à la CNIL, à ses débuts, lorsque j’y travaillais, elle s’intéressait à deux autres sujets qui paraissent préhistoriques aujourd’hui : le premier était celui de la vente par correspondance, car cela scandalisait qu’on puisse s’échanger des fichiers d’adresses. Le vrai sujet était le droit des personnes de ne pas être sollicitées par la publicité et de pouvoir demander à être retirées des fichiers. Ce que la CNIL a acté. Le second sujet avait trait aux travaux statistiques. Je dois dire qu’à mon grand étonnement, l’INSEE était la tête de turc de certains membres de la CNIL. Ceux-ci soulignaient que les chercheurs en général, et les statisticiens en particulier, ne protégeaient pas convenablement la masse de données en leur possession, puisqu’ils ne fermaient même pas leurs bureaux à clé et qu’ils ne rangeaient pas leurs dossiers dans des tiroirs ! Aujourd’hui encore, chercheurs et statisticiens sont en butte à une méfiance injustifiée.

    Ce qui, à mon avis, a le plus fondamentalement changé dans les législations de protection des données personnelles, c’est qu’aujourd’hui, elles ont un effet extraterritorial. Ainsi le RGPD s’applique, indépendamment du lieu où sont traitées les données (dans un cloud en Californie, par exemple) dès lors que la personne concernée est en Europe. Cela va très loin et en outre les conditions d’application de cette disposition ne sont cependant pas évidentes. Comme les Américains préparent eux-mêmes une législation semble-t-il fédérale sur la protection des données, il y aura certainement des conflits de lois ; un véritable casse-tête pour les juristes et les juges.

    B : voyez-vous une transposition de ce qui a été mis en place pour la bioéthique dans le cadre du numérique ?

    J’ai présidé deux comités de bioéthique [1], l’un auprès de la Commission européenne et l’autre à l’UNESCO. Au niveau européen, on a beaucoup travaillé sur le numérique : tests génétiques, dossier médical informatisé et accès aux données de santé, brevets sur le génome humain, etc. La bioéthique et le droit de la protection des données personnelles ont pour objectif commun d’aider à répondre à des situations concrètes inédites du fait des technologies nouvelles, et qui peuvent poser des questions de libertés individuelles, ou de vie privée. De plus, sans l’informatique, la biologie ne pourrait avancer.

    B : maintenant se posent des questions d’éthique numérique qui dépassent le cadre de la médecine et de la biologie. Y a-t-il quelque chose à apprendre de l’expérience bioéthique ?

    Le mot « éthique » est ambigu. Il recouvre à la fois une attitude, un comportement relevant de la responsabilité individuelle, et les mœurs, soit une notion sociétale renvoyant à des valeurs collectives. En 1983, François Mitterrand a créé le premier comité d’éthique au monde, non pas contre la science, mais parce que « Science sans conscience n’est que ruine de l’âme », selon l’expression de Rabelais.

    Quelle est cette conscience ? Elle ne peut plus être totalement univoque dans un monde où les mœurs, c’est-à-dire les normes morales acceptées par la société, sont de plus en plus diversifiées sur un même espace. Dans un monde ouvert, des individus vivant côte à côte peuvent avoir des systèmes de valeurs différents. Les comités d’éthique n’essaient pas seulement de faire une synthèse. Ils rappellent les valeurs de base communes, mais à l’issue d’un débat ouvert entre philosophies et religions différentes : c’est l’éthique de la délibération. Les membres des comités d’éthique ont à l’origine des opinions et des sensibilités contrastées, et puis à la fin, ils trouvent un compromis acceptable par tous. Leurs décisions sont le fruit de rapports circonstanciés et documentés pour montrer qu’ils n’ont oublié aucun aspect de la question.

    Pour autant, un comité d’éthique ne doit pas, selon moi, être relativiste. Il y a des principes intangibles sur lesquels notre société démocratique aujourd’hui grandement fragilisée par les intégristes et les fake news ne doit pas transiger : égalité entre les sexes, lutte contre le racisme, respect de la vérité, tolérance, solidarité, absence d’intention de nuire, etc.

    En tant que Présidente du comité scientifique et éthique de Parcoursup, je constate que certaines informations au mieux approximatives, au pire tendancieuses ou erronées, circulent sur les réseaux sociaux, voire dans la presse. Tout se passe comme si, pour certains, il fallait systématiquement soupçonner les responsables politiques de vouloir le mal de la population, et en l’occurrence des jeunes. Au-delà de l’éthique de la génétique et de l’informatique, je plaide pour la mise en place d’une éthique de l’information technique et scientifique. Cette éthique aurait pour but de permettre aux citoyens de juger par eux-mêmes des avantages et inconvénients de systèmes techniques complexes traduisant des choix politiques, au lieu d’être condamnés à s’en remettre à des interprétations dont ils ne sont pas en mesure de vérifier la fiabilité.

    B : pensez-vous que la transparence des algorithmes puisse améliorer nos vies ?

    Le droit à la transparence, on ne peut pas en avoir une vision absolue. Il est un principe général du droit, ancien et bien connu, suivant lequel « il n’y a pas de liberté générale et absolue ». Ce n’est pas parce qu’on est un citoyen qu’il faut pouvoir être dans le bureau du Premier Ministre pour écouter ce qu’il dit et assister aux réunions auxquelles il participe ; pour moi, ce n’est pas ça, la transparence. Elle est un outil essentiel de la démocratie directe, qui doit coexister avec les outils de la démocratie représentative et ses institutions légitimes. Elle ne peut s’y substituer; précisément pour préserver les équilibres démocratiques.

    La loi pour la République numérique du 7 octobre 2016 a introduit, dans le code des relations entre le public et l’administration, une disposition selon laquelle en cas de décision concernant un individu prise sur le fondement d’un algorithme, l’intéressé a droit, s’il le demande, d’obtenir de l’administration communication des principales caractéristiques du traitement.

    De prime abord, je me suis demandé quel pouvait être l’intérêt d’obtenir ces données dès lors que l’immense majorité de nos concitoyens n’a pas été formée pour comprendre les algorithmes. Mais finalement, il y a dans ce nouveau droit un présupposé que je trouve intéressant : pour être un citoyen maître de son destin, il faut avoir aujourd’hui de solides notions d’informatique, comme on doit savoir lire et écrire couramment (ce qui n’est hélas toujours pas le cas en France). Pour que le droit à l’algorithme soit effectif, il faut soi-même en comprendre les codes et les mécanismes informatiques.

    B : il y a donc un devoir d’enseignement des algorithmes ?

    Il est sain que les citoyens veuillent comprendre l’action administrative. Parmi les libertés publiques, il y a pour moi le droit de comprendre les décisions de l’administration qui vous concernent. Le droit de connaître l’algorithme, c’est une manière d’obliger l’administration à expliquer les raisons pour lesquelles elle vous oppose telle ou telle décision. Il est rare que des décisions s’appuient sur un seul critère (par exemple, le droit de vote repose sur un critère essentiel, il faut avoir l’âge de la majorité). La plupart du temps, les décisions individuelles sont multicritères. C’est là qu’intervient l’algorithme qui n’est autre qu’un processus informatique pour appliquer ces critères multiples en fonction des instructions données pour leur application.

    S’il est un enseignement à tirer de la récente publication de l’algorithme de Parcoursup assorti d’explicitations parfaitement claires, précises et techniques, c’est que du coup personne n’a plus mis en question cet algorithme et ce qu’il signifie en termes de choix public.

    Malgré tout, l’exigence croissante de transparence dans tous les domaines révèle une certaine méfiance vis-à-vis des détenteurs de l’autorité. Autrefois, aucun élève n’aurait eu l’idée de contester ses notes ou l’appréciation de son professeur. A présent, on veut non seulement comprendre, mais remettre en cause. Je ne porte aucun jugement sur cette évolution, qui est ce qu’elle est. D’une certaine façon, il est normal que la gestion de masse à laquelle est conduit un État de 67 millions d’habitants comme la France ait pour contrepartie un certain éloignement du citoyen. Celui-ci cherche à le compenser en ayant davantage de prise sur les décisions qui le concernent et en se prémunissant contre un éventuel arbitraire administratif, ce qui est positif. Encore faut-il que notre société ne bascule pas dans la défiance entre citoyens, et vis-à-vis des institutions républicaines qui sont le ciment de la société.

    B : que se passe-t-il dans le cas où les décisions sont prises par un logiciel ?

    Bien avant l’entrée en vigueur du RGPD en mai dernier, il est un principe qu’a de longue date dégagé la CNIL, à savoir que les décisions administratives produisant des effets juridiques ne peuvent uniquement découler d’un traitement automatisé. Il faut une intervention humaine, encore que des exceptions soient maintenant prévues par la loi du 20 juin 2018 ayant modifié la loi informatique et libertés pour tenir compte du RGPD. Par ailleurs, est toujours ménagée la possibilité d’un recours devant une autorité ou un juge pour contester les fondements d’une décision prise sur la base d’un algorithme. C’est une avancée.

    B : vous avez eu une carrière impressionnante. Auriez-vous des conseils en particulier pour les plus jeunes de nos lecteurs ?

    Je dirais d’abord et avant tout aux jeunes en particulier qu’ils doivent avoir la curiosité du monde qui les entoure, avoir la soif d’apprendre. Aller à l’école, au collège, au lycée et à l’Université sont des privilèges dont sont privés beaucoup de jeunes à travers le monde. C’est en s’intéressant au monde, en apprenant sans cesse qu’on se construit et qu’on maîtrise du mieux possible sa vie. Je conseille fortement de lire et relire « Souvenirs et Solitude » de Jean Zay, l’un des plus grands ministres de l’Éducation nationale de la France.

    Aujourd’hui, apprendre, cela veut dire acquérir des connaissances universelles, en informatique et en maths, autant qu’en relations internationales, histoire, littérature, en art.

    Par ailleurs, force est de constater que nous vivons dans un monde où les idées toutes faites pullulent, et où via les réseaux sociaux, n’importe qui peut s’ériger en expert qu’il n’est pas, peut attaquer anonymement, et donc lâchement, n’importe qui pour lui nuire, peut organiser des boycotts contre n’importe quel pays ou n’importe quel organisme en propageant de fausses accusations ou rumeurs etc. C’est dangereux !

    Là encore, pour maîtriser la quantité inépuisable d’informations que l’on reçoit de toutes parts, il faut avoir un niveau de conscience et de connaissances suffisant. L’esprit critique est un impératif catégorique dans la société actuelle. Il est l’antidote de l’intégrisme et du sectarisme, qu’il soit religieux ou politique, c’est-à-dire une condition essentielle de la liberté.

    Enfin, il faut savoir écouter et ne pas s’enfermer dans des certitudes. J’ai eu des engagements politiques que je n’ai plus. Cependant, je n’ai jamais pensé que j’avais toujours raison contre mes contradicteurs. Bien-sûr, j’ai gardé de très fortes convictions ; ma vision de la société a évolué, mais pas mes principes. Et je n’ai pas l’intention de transiger sur mes valeurs, même si, lorsque je sens que mon interlocuteur est de bonne foi et connait son sujet, je suis prête à changer d’avis !

    Entretien réalisé par Serge Abiteboul et Claire Mathieu

    [1] Noëlle Lenoir a été présidente du Comité international de bioéthique de l’UNESCO de 1992 à 1999. Elle a ainsi été conduite à élaborer le premier instrument international sur le droit de la génétique — « La Déclaration universelle sur le génome humain et des droits de l’homme » — qui sera adopté en 1998 par l’Assemblée générale des Nations. En 1991, elle est également désignée par la Commission européenne, alors présidée par Jacques Delors, comme membre du Groupe européen d’éthique des sciences et des technologies nouvelles. Puis, en 1994, elle y est élue, puis réélue pour deux fois Présidente, par ses pairs. (Wikipédia 2018)

  • La justice prédictive et l’égalité devant la loi

    Un nouvel « Entretien autour de l’informatique », celui de Louis Boré qui est président de l’ordre des avocats au Conseil d’État et à la Cour de cassation. L’informatique transforme profondément la justice. Serge Abiteboul et Claire Mathieu l’interrogent pour Binaire sur la justice prédictive. Cet article est publié en collaboration avec TheConversation.
    Louis Boré, photo personnelle

    B : Vous êtes président de l’ordre des avocats au Conseil d’état et à la Cour de cassation. Pouvez-vous nous expliquer en quoi cela consiste ?

    LB : Je suis effectivement avocat au Conseil d’État et à la Cour de cassation : le Conseil D’État est notre cour suprême administrative, et la Cour de cassation, notre cour suprême judiciaire. Ce sont des juridictions qui ont pour mission d’unifier l’interprétation des règles de droit sur toute l’étendue du territoire de la République. Elles ont pour point commun de tendre vers cet objectif avec une technique spécifique qu’on appelle la technique de cassation. On ne juge que les questions de droit, pas les questions de fait qui sont tranchées antérieurement et doivent être considérées comme des éléments définitivement acquis aux débats.

    Comme nous plaidons presque exclusivement devant ces deux juridictions et pratiquons quotidiennement cette technique particulière, nous avons une vision du droit un peu différente de celle d’un avocat à la Cour d’appel.  Lui fait corps avec son client. Nous, nous devons passer sans arrêt du particulier au général, c’est-à-dire voir si dans la situation individuelle qui nous est soumise, il est possible de déceler une erreur de droit qui a forcément une dimension plus large puisque la règle de droit est toujours générale et impersonnelle.

    Quand on trouve un moyen de cassation, on le soutient. Est-ce qu’on est chicanier ? Non, ce n’est pas de la chicane, mais la défense de l’article 6 de la Déclaration des Droits de l’Homme et du citoyen : la loi doit être la même pour tous, soit qu’elle protège, soit qu’elle punisse. Pour cela, elle doit être interprétée de la même manière partout, sinon cela signifierait que l’on en revient aux coutumes régionales de l’ancien régime. Cela signifierait qu’on abandonne le principe d’égalité devant la loi qui est un principe républicain essentiel.

    Il est certain que ce travail particulier influence ma vision de la justice prédictive.

    B : Tout ce qui va dans le sens de coder la loi de façon algorithmique, de préciser la loi, vous intéresse ?

    LB : Exactement, c’est pour cela que la justice prédictive m’intéresse. Les avocats à la Cour craignent un rouleau compresseur qui va empêcher le juge de faire du sur-mesure, en imposant du prêt-à-porter à la place. Ils se battent pour que le juge se livre à une appréciation humaine, et donc pour eux tout ce qui égalise porte atteinte à cette appréciation au cas par cas. Pour ma part, j’y suis moins hostile, car je pense qu’au-delà de chaque cas particulier, il y a une règle générale qui est en cause.

    Ainsi, en matière pénale, pour l’appréciation de la peine, la loi ne fait que fixer un maximum, et c’est le juge qui apprécie, selon les circonstances : le prévenu peut être jeune ou âgé, l’un manifeste un repentir mais pas l’autre… Le juge doit tenir compte de la situation spécifique du prévenu pour déterminer la sanction. Mais pour savoir si l’infraction est constituée ou pas, on n’est plus vraiment dans une appréciation au cas par cas, et là, la cohérence entre ce qui est jugé à Paris et à Bordeaux me semble essentielle. Si demain on est capable de mettre en place des instruments facilitant le travail des juges et des avocats pour appliquer la loi de façon plus cohérente et plus uniforme sur l’ensemble du territoire national, ce sera un progrès.

    L’imprécision des lois : une porte ouverte à l’imagination humaine

    B : Y a-t-il une tension au sujet de l’attitude du juge, avec d’un côté le désir d’avoir une justice plus humaine et plus empathique, et de l’autre côté le risque d’avoir une justice plus biaisée parce que le juge fait ce qu’il veut ?

    LB : La tension existe entre le droit et l’équité. La base du droit, ce sont des règles générales. S’il n’y a pas de généralité, il n’y a pas de droit et il suffit alors d’un juge sous un chêne qui apprécie au cas par cas, sans être contraint par des règles. Mais la règle juridique implique, dans une certaine mesure, la généralité. L’équité, au contraire, c’est le cas par cas, car aucune personne n’est absolument identique à une autre. Mais l’équité pure est extrêmement dangereuse. Il existe un vieil adage de la révolution française, « Dieu nous garde de l’équité des parlements ! », signifiant que les décisions des parlements étaient totalement imprévisibles, ce qui créait une insécurité juridique considérable. C’est contre cela que la révolution française a voulu réagir. Mais, dans la généralité de la règle, il y a aussi une dimension totalitaire. Elle peut aboutir à des décisions injustes parce que trop rigides, trop mécaniques, et donc, inhumaines.

    Alors, quel est le rôle du juge ? Il est, selon le doyen Ripert, « le législateur des cas particuliers » : il s’agit d’adapter sans la trahir la règle générale. Entre la règle générale et le cas particulier, il subsiste toujours une marge de manœuvre, une part de souplesse, qui permet au juge d’adapter la règle aux situations particulières, et c’est une très bonne chose.

    Et puis l’avocat peut faire preuve d’imagination juridique. Il peut plaider une interprétation totalement nouvelle des textes. Si un juge est convaincu, il transformera cette proposition en jurisprudence. De fait, l’imagination juridique aura déjoué la répétition mécanique de la règle et aura fait avancer le droit. Cela fait partie du travail des magistrats et des avocats.

    © Itai Benjamini

    B : La loi est bien trop imprécise. Si elle était plus formalisée, il serait plus facile de donner des réponses précises et cela simplifierait le travail des algorithmes. Est-ce que ce serait mieux que la loi soit plus précise ?

    LB : Le degré de précision de la loi est une question juridique. Constitutionnellement, la loi ne doit pas être trop précise. Ce sont ultérieurement les décrets et arrêtés pris pour son application qui vont en préciser le sens. Il y a une structure hiérarchique : la constitution, les lois, les décrets, les arrêtés. C’est une structure pyramidale. Ainsi, la loi n’a pas forcément vocation à être précise. En France, il y a pléthore de textes ; on a tendance à en avoir dans tous les sens. Mais en cherchant à être trop précis, on en devient incompréhensible.

    L’imprécision d’une loi peut avoir des avantages. Par exemple la loi disant que « tout fait quelconque de l’homme qui cause à autrui un dommage oblige celui par la faute duquel il est arrivé à le réparer » donne les trois éléments de la responsabilité civile. L’imprécision du texte a laissé une capacité créatrice et d’adaptation au juge. Le prix à payer est un certain aléa judiciaire que pourront en partie compenser les algorithmes prédictifs.

    La justice au quotidien avec les machines

    B : L’avocat se sent-il dépossédé par les machines ?

    LB : C’est vrai qu’il y a une véritable inquiétude dans la profession et la majorité voit cela comme une menace considérable. Ils se sentent menacés par le risque d’être remplacés par des machines. Une minorité voit cela, au contraire, comme une opportunité.

    Il est certain que la justice prédictive va remplacer ce qui est mécanisable dans l’exercice de la profession juridique, et il y a effectivement certaines choses répétitives dans notre travail. Par exemple, la gestion des infractions telles que les excès de vitesse est de plus en plus remplacée par des décisions automatisées.

    Il y a une très vieille tradition dans l’Ordre que je préside, c’est celle de la consultation préalable avant de saisir le Conseil d’État et la Cour de cassation. Sous l’ancien régime, il fallait deux consultations préalables. Maintenant, ce n’est plus obligatoire, mais beaucoup de justiciables nous consultent encore avant de saisir ces deux hautes juridictions. Ils nous contactent soit directement, soit par l’intermédiaire de leur avocat à la cour. Ils souhaitent mieux apprécier leurs chances de succès. Nous ne donnons pas un pourcentage précis mais une appréciation.

    Mon expérience de « justicier prédictif » me conduit à constater que certains justiciables, quand on leur dit que leurs chances de gagner sont très faibles, veulent quand même y aller. Mais il y en a aussi beaucoup d’autres, les plaideurs institutionnels en particulier, qui ne veulent y aller qu’avec des chances assez fortes. Les logiciels de justice prédictive ne feront qu’étendre cela à tous les avocats. Cela aidera mes confrères à la cour à exercer plus facilement leur devoir de conseil pour dire si cela vaut, ou non, la peine de saisir le juge. Cela ne tuera pas le métier car le devoir de conseil fait partie des devoirs des avocats. Un logiciel qui aidera à exercer cette obligation professionnelle constituera donc un progrès.

    B : Quand on met des algorithmes dans le système juridique, aujourd’hui ce sont des algorithmes relativement simples, qui n’ont pas la capacité de raisonnement d’un juge, et donc de manière presque automatique ils vont plutôt se situer du côté de la règle juridique. Cela vous semble-t-il un risque ?

    LB : Non, cela me paraît un progrès, car cet effort d’uniformisation, c’est nous qui le faisons nous-mêmes actuellement, en allant sur le site de Légifrance. Nous mettons des mots-clés pour avoir accès, grâce à un logiciel, à des cas précis, dix ou quinze décisions de la Cour de cassation ou du Conseil d’état sur des sujets similaires à notre affaire et ensuite, nous analysons nous-mêmes les décisions et nous faisons le travail d’abstraction pour déduire de ces éléments la règle générale.

    Les logiciels pourront sans doute nous aider à effectuer ce travail d’analyse, mais nous aurons toujours un pouvoir et un devoir de contrôle sur le résultat qu’ils ne feront que nous proposer. Et actuellement, ils sont encore très loin de parvenir à un résultat fiable et utile.

    B : Mais si un logiciel dit au juge : « cette personne va récidiver », comment le juge peut-il se sentir capable d’aller contre cet avis et de libérer la personne ? 

    LB : Il est vrai que cela crée une pression considérable sur le juge. Mais là, la machine ne définit pas de règle de droit. Il n’y a pas de règle de droit pour la libération conditionnelle. Il y a un minimum incompressible d’exécution de la peine, mais une fois cette date passée, la loi donne quelques critères généraux extrêmement souples et vagues, et laisse le reste à l’appréciation du juge. Ce que la machine va faire, ce sera de la prédiction, un travail sociologique plus que juridique, une sorte de version numérique du criminologue Lombroso (*).

    B : Et si l’algorithme prédictif donne une probabilité de récidive, après étude de données massives, mais sans expliquer sa prédiction ?

    LB : De toute façon tout cela n’est envisageable qu’après un contrôle de l’État. Les juges ne peuvent pas s’emparer de ces outils sans un organe de contrôle, le Ministère de la justice ou la Chancellerie, un organe central qui ira voir l’informaticien et lui demandera les critères utilisés.

    B : À quel point est-il important que le résultat du programme soit accompagné d’une explication ?

    LB : Il faut une transparence de l’algorithme. L’autorité de contrôle doit comprendre comment le programme fonctionne. Si l’algorithme utilisait des critères prohibés tels que la race, le sexe, ou la religion par exemple, ce serait illégal. De ce point de vue, les pays anglo-saxons sont essentiellement utilitaristes. Notre société n’est pas ainsi. Nous restons attachés à des principes non négociables, et on refusera des algorithmes, même très efficaces, s’ils utilisent des critères prohibés. Les principes, ce sont les racines, c’est la sève, et le résultat, c’est le fruit. Il y a des racines constitutionnelles à notre droit, et à partir de celle-ci on essaiera d’être les plus efficaces possibles. Un projet de société où il n’y aurait plus aucun crime est utopique et totalitaire.

    De plus, avant de condamner quelqu’un, le juge voudra vérifier que la machine n’a pas raconté n’importe quoi, et voudra donc regarder l’interprétation livrée par la machine. L’acte en cause, mettre ou non quelqu’un en prison, est un acte grave et un juge ne peut le déléguer à une machine.

    Je dois pouvoir regarder dans les yeux celle ou celui qui m’envoie en prison.

    B : Même si mon ordinateur-juge fait moins d’erreurs, est moins souvent contredit par les cours supérieures, et envoie moins souvent des innocents en prison, vous continuez à dire que pour des questions de principe la justice doit quand même rester sous le contrôle du juge ?

    LB : Je ne vois pas les humains confier totalement leur destin à des machines. Je ne vois pas les français confier la décision d’envoyer quelqu’un en prison à une machine. Si cela devait arriver, j’y serais profondément hostile. Pour accepter que quelqu’un m’envoie en prison, j’ai besoin de le regarder dans les yeux. C’est parce que c’est mon semblable qu’il a le droit de me sanctionner. Une machine n’a pas ce droit.  D’une manière curieuse, ce qui rend acceptable la sanction pénale, c’est que le juge peut être lui aussi puni s’il commet une infraction. Le juge et l’assassin sont tous les deux des êtres humains. Comme tu es mon frère, tu as le droit de me juger, de me dire que ce que j’ai fait est horrible et mérite la prison. La machine n’est pas mon frère et ne peut pas me juger car elle est incapable de faire ce que j’ai fait

    Propos recueillis par Serge Abiteboul et Claire Mathieu

    (*) Marco Ezechia Lombroso, dit Cesare Lombroso (1835-1909), est un professeur italien de médecine légale et l’un des fondateurs de l’École italienne de criminologie. Il est célèbre pour ses thèses sur le « criminel né » : à partir d’études phrénologiques et physiognomoniques, il tentait de repérer les criminels en considérant qu’il s’agissait d’une classe héréditaire qu’on pourrait distinguer par l’apparence physique. Wikipédia 2018. (Note des interviewers : Louis Boré est ici ironique ; le reste de son discours laisse penser qu’il voit les prédications des algorithmes plus scientifiques que les thèses de Lombroso.)

  • Les mutations du cognitif

    Un nouvel « Entretien autour de l’informatique ». Serge Abiteboul et Gilles Dowek interviewent Michel Serres, philosophe, historien des sciences et homme de lettres, membre de l’Académie française. Michel Serres revient sur un thème qui lui est cher, les mutations du cognitif, qu’il a déjà par exemple développé dans Petite Poucette, un immense succès d’édition (Le Pommier, 2012). Cet article est publié en collaboration avec TheConversation.

    Michel Serres, professeur, auteur, membre de l’Académie Française, © Manuel Cohen

    B : Vous avez écrit sur la transformation de l’individu par l’informatique. C’est un sujet qui intéresse particulièrement Binaire.

    MS : Cette transformation se situe dans un mouvement très ancien. Avec l’écriture et l’imprimerie, la mémoire s’est externalisée, objectivée. L’informatique a poursuivi ce mouvement. Chaque étape a été accompagnée de bouleversements des sciences. L’informatique ne fait pas exception. Pour la connaissance, nous avons maintenant un accès universel et immédiat à une somme considérable d’information. Mais l’information, ce n’est pas encore la connaissance. C’est un pont qui n’est pas encore bâti. La connaissance est le prochain défi pour l’informatique. À côté de la mémoire, une autre faculté se transforme : l’imagination, c’est-à-dire la capacité à former des images. Perdons-nous la faculté d’imaginer avec toutes les images auxquelles nous avons accès sur le réseau ? Ou découvrons-nous un autre rapport à l’image ? Quant au raisonnement, certains logiciels résolvent des problèmes qui nous dépassent. Mémoire, imagination, raisonnement, nous voyons bien que toute notre organisation cognitive est transformée.

    B : Au-delà de l’individu, l’informatique transforme toute la société.

    MS : Je commencerais volontiers par les métiers. L’organisation sociale précédente, était fondée sur la communication et sur la concentration. Pour la communication, pensons aux métiers d’intermédiaires, de la « demoiselle du téléphone » au commerçant. Pour la concentration, pensons aux villes – concentrations de personnes et de pouvoir –, aux bibliothèques – concentration de livres, etc. L’informatique transforme ces deux éléments fondamentaux de nos sociétés. Pour la communication, nous assistons à la disparition des intermédiaires. Quant à la concentration, elle cède la place à la distribution. Par exemple, la monnaie émise par les banques centrales, concentration, sont remplacées par les crypto-monnaies, distribution.

    Le lien social a également été profondément transformé. Par exemple, le nombre d’appel le plus important sur un téléphone portable, sont les appels des mères aux enfants. Cela bouleverse les relations familiales. Ce qui a changé également c’est que nous pouvons contacter n’importe qui, n’importe quand, la distance est donc abolie et nous sommes passés d’un espace métrique à un espace topologique. Nous interagissions avant avec les gens qui vivaient près de chez nous. Nous sommes devenus les voisins de tous ceux que nous retrouvons sur le réseau, même s’ils sont au bout du monde. Ça change toute la société qui est bâtie sur des relations.

    Des habitants de Westchester en route vers la ville de New York, 1955. Photo de Guy Gillette

    B : Est-ce que vous y voyez une intensification des liens sociaux ?

    MS : Quantitativement c’est certain. On dit que les gens sont isolés, collés à leur téléphone portable. Quand j’étais jeune et que je prenais le métro, je n’étais pas en relation avec mes voisins. Maintenant, je suis au téléphone, je suis en relation avec quelqu’un. Contrairement à ce qu’on dit, je suis moins seul… Je parlais de solitude. Il faut distinguer entre la solitude et le sentiment d’appartenance. Avant l’informatique, on se disait français, chinois, gascon, breton, chrétien, etc.  C’étaient nos appartenances, qui se sont construites dans un monde qui ne connaissait pas l’informatique. Par exemple, nous vivons encore dans des départements découpés pour que nous puissions aller du chef-lieu n’importe où en une journée de cheval. Cela n’a plus aucun sens.

    Ces groupes se sont presque tous effondrés. L’informatique nous oblige à construire de nouvelles appartenances. C’est ce qui fait le succès des réseaux sociaux. Nous cherchons aveuglément de nouveaux groupes.

    B : Le réseau social d’une personne était naguère déterminé par son voisinage. Aujourd’hui, on peut choisir des gens qui nous ressemblent. N’existe-t-il pas un risque de s’enfermer dans des appartenances ?

    MS : Oui. Mais cela augmente nos libertés. Les aristocrates qui se rencontraient disaient « Bonjour, mon frère », ou « mon cousin ». Un aristocrate s’est adressé à Napoléon en lui disant, « Bonjour, mon ami », pour insister sur le fait que Napoléon ne faisait pas partie de l’aristocratie. Napoléon lui a répondu : « On subit sa famille, on choisit ses amis. »

    Non, le risque principal des réseaux sociaux aujourd’hui, ce n’est pas l’enfermement, ce sont les bobards, les rumeurs, les fausses nouvelles. Nous avons vu les dangers énormes de rumeurs, de haine. Voilà, nous avons un problème sérieux.

    Nous ne savons pas encore mesurer les effets de ces bobards. Les bobards ont-ils déterminé l’élection de Donald Trump ? Mais la question est plus générale. Ce que nous  savons, c’est qu’il y a eu Trump, le Brexit, Poutine, Erdogan, etc. La cause de cette vague vient de la peur que les gens ont du monde qui nous arrive. Et cela est en partie la faute de l’informatique. Nous autres, héritiers des lumières du XVIIIe siècle, nous avions une confiance presque absolue, trop forte peut-être, dans le progrès. Ces événements nous rappellent que tout progrès a un coût. C’est le prix à payer pour l’accès universel à toute l’information. Tout moyen de communication est à la fois la meilleure et la pire des choses. Il faut vivre avec cela.

    Cela donne une idée de la morale nouvelle. Monsieur Bush a parlé de l’axe du mal comme s’il y avait Saint-Georges d’un côté et de l’autre le dragon. Mais, dès que l’on combat le mal, on devient le mal et Saint-Georges se transforme en dragon. Le mal est intimement mélangé au bien. Cela donne une sorte de philosophie du mélange. Leibniz a un mot là-dessus : un accord de septième, une dissonance bien placée peut donner à une composition quelque chose de bien supérieur à l’accord parfait.

    Michel Serres © Plantu (Merci Michel et Plantu)

    B : Dans cette société qui se transforme, ne faut-il pas également que la politique se transforme ?

    MS : vous avez raison. Nous avons connu une bascule de culture énorme du fait des sciences dures, de la physique, la chimie, la médecine, etc. et de l’informatique bien sûr. Ces transformations ont été conditionnées par les sciences dures, moins par les sciences humaines. Pourtant ceux qui nous gouvernent sont surtout formés aux sciences humaines. C’est une catastrophe dont on ne mesure pas l’ampleur. Le décideur, le journaliste… ceux qui ont la parole, en savent peu sur les sciences dures. C’est très dangereux du fait que la politique doit être repensée en fonction du monde contemporain. Ils ne peuvent pas continuer à décider de choses qu’ils ne comprennent plus.

    On le voit tous les jours. Dernièrement, Laurent Fabius m’a invité pour La nuit du droit, avec une très grande partie réservée à l’environnement. Il y avait des juristes, des philosophes, des sociologues, etc., pas un savant. J’ai dit à Fabius : nous allons décider de choses que nous ne comprenons pas. Oh, nous avons des informations, me répondit-il. Vous avez des informations, mais vous n’avez pas la connaissance !

    B : Et le citoyen qui vit ces crises ?

    MS : Le citoyen vit un monde tout à fait nouveau, mais il est dirigé par des gens qui viennent de mondes complètement anciens. Donc, même s’il ne comprend pas ce qu’il vit, le citoyen est déchiré. Les crises politiques que nous traversons viennent de là. Elles sont fondamentalement épistémologiques. On construit, au nord de Paris, un Campus Condorcet exclusivement consacré aux sciences humaines. L’université de Saclay, au Sud, est principalement consacrée aux sciences dures. On met des dizaines de kilomètres entre les deux. Cultivés ignorants ou savants incultes. La tradition philosophique était exactement l’inverse.

    B : Cette séparation nous désespère autant que vous. Mais il semble qu’il y ait une prise de conscience, qu’on commence à ressentir le besoin de faire sauter ces frontières ?

    En période de crise, les problèmes majeurs sont tous interdisciplinaires. Le gouvernement est partagé en spécialités. Prenez le chômage. Il touche le travail, l’éducation, l’agriculture… Un gouvernement en petits morceaux ne peut plus résoudre ces problèmes interdisciplinaires.

    Nous sommes des scientifiques qui continuons une route qui a conduit à l’informatique avec Turing. Nous avons l’idée d’une histoire, d’un progrès. Gouverner, ça veut dire tenir le gouvernail, savoir où on est, d’où on vient, où on va. Aujourd’hui, il n’y a plus de cap, uniquement de la gestion. Il n’y plus de gouvernement parce qu’il n’y a plus d’histoire. Et il n’y a plus d’histoire parce qu’il n’y a plus de connaissance des sciences. Ce sont les sciences dures qui ont fait le monde moderne, pas l’histoire dont parlent les spécialistes de sciences humaines. Il faut conjuguer les deux. L’informatique a un rôle essentiel à jouer, y compris pour transformer les sciences humaines.

    Des informaticiens doivent apprendre à devenir un peu sociologues, un peu économistes, etc. Et les chercheurs en sciences humaines doivent devenir un peu informaticiens. C’est indispensable d’avoir les deux points de vue pour plonger dans le vrai monde.

    B : Peut-être pourrions-nous conclure sur votre vision de cette société en devenir ?

    C’était mieux avant; Le Pommier

    MS : La dernière révolution industrielle a généré des gâchis considérables. Par exemple, on a construit des masses considérables de voitures qui sont utilisées moins d’une heure par jour. Je ne partage pas le point de vue de Jeremy Rifkin qui parle de l’informatique comme d’une nouvelle révolution industrielle. La révolution industrielle accélère l’entropie, quand la révolution informatique accélère l’information. C’est très différent.

    Une autre différence avec une révolution industrielle tient du travail. À chaque révolution industrielle, des métiers ont disparu, et d’autres ont été inventés. Les paysans, par exemple, sont devenus ouvriers. Il est probable que l’informatique détruira beaucoup plus d’emplois qu’elle n’en créera. Nous n’avons pas les chiffres parce que la révolution est en marche, mais il faut s’y préparer. Dans la société d’hier, un homme normal était un ouvrier, un travailleur. Ce ne sera plus le cas dans celle de demain. C’est aussi en cela que nous ne sommes pas dans une révolution industrielle.

    Le travail était une valeur essentielle. Dans la société de demain, peut-être dans cinquante ans, le travail sera une activité rare. Il nous faut imaginer une société avec d’autres valeurs. Le plus grand philosophe de notre siècle sera celui qui concevra cette nouvelle société, la société de l’otium, de l’oisiveté. Qu’allons-nous faire de tout le temps dont nous disposerons ?

    Serge Abiteboul, Inria & ENS, Paris, Gilles Dowek, Inria & ENS Paris Saclay

    Pour aller plus loin, nous ne pouvons que vous conseiller la lecture de Michel Serres, et notamment de Petite Poucette, Le Pommier. Vous pouvez aussi écouter la conférence lumineuse qu’il a donnée pour les 40 ans d’Inria.

  • Des réseaux sociaux

    Un nouvel « Entretien autour de l’informatique » par Serge Abiteboul et Claire Mathieu, celui de Jon Michael Kleinberg. Jon est un informaticien américain, professeur à l’Université de Cornell, qui a considérablement contribué à l’étude des moteurs de recherche et des réseaux sociaux. Ses travaux sur le classement des réponses de recherche d’information ont été précurseurs d’algorithmes comme celui de PageRank à l’origine de la création de Google. Serge Abiteboul et Claire Mathieu l’interrogent pour Binaire sur le présent, le passé, et le futur de son domaine. Cet article est publié en collaboration avec TheConversation.
    Jon Kleinberg à Cornell Univ. Photo pour Wide World par Michael J. Okoniewski.

    B : Quel est ton domaine de recherche actuel ?

    JK : Je travaille à l’intersection de deux domaines, d’une part l’algorithmique, et d’autre part les réseaux sociaux  et les réseaux d’information tels que le web et internet. Plus généralement je m’intéresse aux algorithmes, à leurs actions au sein de la société humaine, et à leurs applications aux problèmes de société.

    B : Y a-t-il d’autres domaine de l’informatique qui interagissent avec ce domaine ?

    JK : Ce domaine a des interactions fortes avec de nombreuses facettes de l’informatique. On peut citer l’apprentissage automatique, ou les systèmes distribués de grande taille. Ainsi, le modèle de calcul “Mapreduce” a été créé en partie pour gérer l’infrastructure de réseaux sociaux géants tels que Google ou Facebook. De plus, par leur nature même, ces systèmes dépendent de données sensibles, d’où l’importance de déterminer quelles informations sont révélées quand on se met à utiliser des données personnelles pour d’autres buts que ceux pour lesquels elles avaient été initialement obtenues. Cela soulève des questions dans le domaine de la sécurité et de la protection de la vie privée. Enfin, comme une part croissante de l’information se présente sous forme d’image ou de vidéo, nous avons de plus en plus d’interactions avec le domaine de la vision par ordinateur.

    Représentation d’un réseau social

    B : Quel est le rôle des universitaires dans cette transformation de la société par le numérique ?

    JK : D’une part, de nombreux concepts introduits sur internet ces vingt dernières années sont au moins en partie le fruit de projets universitaires conduits par des enseignants-chercheurs ou des étudiants. Dans les premiers temps du domaine, la barrière technique à l’innovation était relativement basse, d’où un rôle important des universitaires. A un stade expérimental, les coûts d’introduction de nouvelles idées sont peu élevés, et cela favorise un cadre où de nombreuses personnes, à la fois motivées et techniquement talentueuses, peuvent tester des projets très divers, dans la plus grande liberté intellectuelle pour suivre les directions qui les intéressent et focaliser leur énergie sur ce qui leur semble prometteur. Le milieu universitaire est propice à cela, et les résultats ont une influence significative sur la société. Pour passer à l’échelle d’un milliard d’utilisateurs, cela devient plus coûteux, ne fût-ce qu’en termes de serveurs et de centres de données. C’est alors le rôle des entreprises de prendre le relais pour développer les idées des universitaires et en faire de grands succès financiers en les commercialisant.

    D’autre part, un défi pour les universitaires informaticiens actuellement est de chercher des partenariats avec les disciplines qui ont déjà une tradition établie d’étude de ce type de questions, par exemple la sociologie ou l’économie. À la frontière avec l’informatique, il existe un terrain très prometteur de flux d’idées dans les deux sens.

    Dans un sens, on voit que quand on développe une plate-forme telle que Twitter, penser aux aspects techniques ne suffit pas ; il est indispensable de réfléchir aussi à ce qui se passe lorsqu’un nombre important de personnes se mettent à utiliser cette plate-forme, ainsi qu’aux conséquences économiques, qu’elles soient fortuites ou intentionnelles.

    Dans l’autre sens, j’aime à croire que les spécialistes de ces disciplines ont des choses à apprendre de nous. En sociologie en particulier, traditionnellement l’acquisition de données sur le fonctionnement des groupes de personnes est une difficulté majeure du domaine, parce que cela requiert des observations, et donc des interactions de personne à personne. Désormais, avec Facebook par exemple, on a accès à des interactions extrêmement riches, à un niveau de détail extrême, et à grande échelle. Pour étudier un problème de sociologie, l’analyse des données de Facebook à beaucoup à enseigner sur les interactions entre les individus, même si on ne comprend pas vraiment ce que chaque interaction signifie. Comment reprendre les questions sophistiquées traditionnellement posées par des sociologues à un petit nombre d’individus, et les faire passer à l’échelle des données sur internet ?

    Un exemple d’un tel travail : le phénomène de petit monde dans les graphes. Considérons  la question des degrés de séparation qui nous séparent les uns des autres. « Les six degrés de séparation » est une propriété suggérée par le Hongrois Frigyes Karithy dans une de ces nouvelles datée de 1929 qui évoque la possibilité que toute personne sur le globe puisse être reliée à n’importe quelle autre, au travers d’une chaîne de relations individuelles comprenant au plus six maillons. Il est plus facile de raisonner sur ce problème de façon qualitative que quantitative, ce qui peut expliquer pourquoi ce thème a d’abord fait surface dans la fiction. Puis, dans les années 60, Stanley Milgram, qui avait un talent pour la conception d’expériences en sciences sociales pour tester des phénomènes dont tout le monde avait une compréhension intuitive mais qu’on ne savait pas formaliser, a conçu la célèbre expérience “six degrés de séparation” étudiant le cheminement de lettres jusqu’à leurs destinataires. C’est là un bon exemple d’un travail expérimental qui était très difficile à faire avant internet. Il découvrit que la médiane du nombre d’étapes dans le chemin était de six, ce qui, grâce à l’auteur de pièce de théâtre John Guare, est devenu connu sous le nom de “six degrés de séparation”. Deuxième apparition de travail de fiction dans l’histoire de ce problème, car c’est sa pièce de théâtre, puis le film qui en a été tiré, qui ont popularisé ce phénomène.

    Plus tard, dans le domaine des mathématiques, Watts et Storgetz ont proposé un modèle de graphe aléatoire, et c’est par leur travaux que j’ai été amené à m’intéresser au problème. Je souhaitais particulièrement l’étudier du point de vue algorithmique, auquel les gens n’avaient pas prêté attention jusqu’alors. En fait, l’expérience de Milgram a montré deux propriétés distinctes : premièrement, qu’il existait des chemins très courts entre la plupart des paires de points dans un graphe aléatoire ; et deuxièmement, que les gens étaient capables de découvrir ces chemins. Notons que Milgram n’aurait jamais découvert cette deuxième propriété s’il avait simplement eu accès à des données massives et à de puissants outils de calcul : il lui aurait suffi de faire un calcul de plus courts chemins, court-circuitant la deuxième propriété. Parfois, le manque de ressources nous oblige à faire des études plus intéressantes que ce à quoi on aurait pensé sinon ! Enfin, depuis 2005 ou 2006, l’explosion soudaine des réseaux sociaux a permis d’étudier les données qui ont alors émergé et de vérifier certaines des prédictions précédentes.

    Représentation des 6 degrés par Daniel’ (User:Dannie-walker)

    B : Comment t’es-tu retrouvé à faire de l’informatique ?

    JK : Enfant, j’aimais les maths. Jeune adolescent au moment de l’arrivée de l’ordinateur personnel Apple 2, j’écrivais des programmes de jeux que je partageais avec mes amis du collège, et étais toujours à la recherche d’idées de jeux qui intéresseraient mes amis. Cette découverte de l’informatique par la programmation des ordinateurs personnels est typique de ma génération. La discipline scientifique informatique était déjà bien développée, mais nous n’en étions pas conscients. Pour les générations antérieures, les ordinateurs étaient peu accessibles ; pour les suivantes, il est devenu évident que l’informatique était une discipline. Étudiant, j’étais parti pour étudier les maths, mais j’ai suivi en première année de licence un cours d’introduction à l’informatique. Je me suis alors rendu compte qu’il était possible de marier mes deux intérêts, les maths et la programmation. C’était passionnant de découvrir le raisonnement mathématique appliqué à la programmation, et l’informatique était un sujet que je pouvais étudier sans être pour autant obligé d’abandonner les maths.

    B : Ton domaine de recherche actuel existait-il alors ?

    JK : On peut toujours mentionner des articles isolés, mais en tant que domaine de recherche identifié comme objet d’étude, cela n’est apparu que lorsque j’étais en doctorat. Le catalyseur a été l’adoption massive du web par le grand public, entre 1993 et 1997. Le web s’est transformé, d’une simple application pour partager des fichiers sur internet, en quelque chose que tout un chacun utilisait quotidiennement. Les informaticiens se sont alors rendu compte qu’il ne suffisait plus, comme auparavant, de construire des systèmes d’exploitation, des compilateurs, et des raisonnements logiques pour les analyser, mais que désormais il était indispensable de prendre en compte le comportement des millions d’utilisateurs sans lesquels le web lui-même n’existerait pas.

    B : Quels en ont été les conséquences en dehors de l’informatique ?

    JK : Bien évidemment, il y a eu des changements dans la vie quotidienne, dont sont conscients tous ceux qui ont vécu les années 90. Nous avons désormais des outils qui nous permettent, dès qu’on a une question factuelle, d’obtenir la réponse quasi immédiatement. Cela nous semble maintenant normal, mais ça n’existait pas dans les années 80. Deuxième conséquence, alors qu’autrefois seules quelques personnes avaient la responsabilité de produire et partager l’information dans des médias traditionnels, désormais ce sont des centaines de millions de personnes qui produisent et partagent l’information. Du coup, chacun doit désormais adopter une démarche similaire à celle de la recherche académique, en évaluant l’information, en comparant des sources différentes sur un même sujet, en tenant compte des objectifs probables et des biais potentiels de ceux qui ont écrit l’information. Par exemple, allez sur internet et recherchez combien de temps des restes de poulet peuvent se garder dans un réfrigérateur. La diversité des réponses est phénoménale. On peut trouver un blog avec une opinion très tranchée sur la question, mais on ne sait pas si l’auteur est crédible, une page sur le site d’une entreprise d’agro-alimentaire, mais on ne sait pas si on peut leur faire confiance, une page sur le site du ministère de la santé, mais on ne sait pas exactement d’où ça sort. Ainsi, toutes ces sources prétendent une expertise qu’on n’a pas moyen d’évaluer, ils tentent tous de répondre à la même question, et les résultats sont tous différents. Ce genre de choses, on le voit tous les jours.

    Historiquement, les choses ont commencé à changer dans les années 90, quand les gens ont commencé à mettre des informations sur le web ; ça s’est accéléré avec Wikipédia, puis, entre 2004 et 2006, le monde de l’information a changé. Les grandes plateformes que nous utilisons maintenant, Facebook, Twitter, YouTube, sont toutes apparues au cours de cette période très brève. Il y a eu une convergence de progrès technologiques qui ont facilité l’accès à internet pour y mettre des informations de façon collaborative, et les gens se sont mis à sortir de derrière l’écran de leurs pages web et à interagir plus directement les uns avec les autres. Dans les années 90, même après la démocratisation du web, il s’agissait fondamentalement encore de lecture de documents, alors que depuis 2006, il s’agit plus d’interaction avec des personnes. Cela a modifié les attentes. Maintenant, s’il se passe quelque chose quelque part dans le monde, je me connecte à un réseau social, et j’ai immédiatement accès aux réactions de dizaines de milliers de gens. Dès qu’il arrive quelque chose, un désastre naturel par exemple, on va tout naturellement sur Twitter et on voit les réactions en temps réel. Les mêmes questions se posent alors : ces informations sont-elles crédibles ? Adopter la démarche de la recherche académique traditionnelle ne suffit plus, car il s’agit maintenant de discerner la vérité à partir de centaines de milliers de minuscules fragments de réactions. C’est encore plus compliqué !

    Souvent, on compare la période présente à la constellation d’activités nouvelles aux début du 16e siècle (dont la création du Collège de France) liées à la démocratisation de l’information. L’ensemble des personnes qui avaient accès à l’information s’est élargi, et le type d’informations auxquelles ils avaient accès s’est considérablement élargi. Il y a eu une combinaison de facteurs comme la diffusion de l’imprimerie, la diminution de l’analphabétisme, ou le changement dans l’organisation du système éducatif. Tout cela a modifié les conditions de création et dissémination de l’information. Incorporer ces changements a été un défi pour la société de l’époque ! Il me semble que nous sommes maintenant confrontés à un défi analogue.

    B : Le prix MacArthur que tu as reçu a-t’il eu un impact significatif sur ta carrière ?

    JK : J’ai obtenu ce prix en 2005, juste au moment de la soudaine émergence de très grands réseaux sociaux. Auparavant, j’avais travaillé sur la conception et l’analyse d’algorithmes de recherche sur le web, et il semblait que ces grands réseaux sociaux posaient des questions importantes, mais difficiles à formaliser puisqu’il s’agissait de s’aventurer dans le monde extérieur à l’informatique. Le prix MacArthur m’a donné une impulsion pour travailler à définir une direction de recherche qui ait à voir avec ces nouveaux développements, et à penser aux conseils à donner aux étudiants débutants. Ainsi, parmi les étudiants que nous avons formés, on peut citer Haggstrom, qui a rejoint Facebook en 2009, et qui est maintenant vice-président de l’ingénierie responsable du classement des articles : d’une certaine manière, on peut tracer un chemin allant du prix MacArthur jusqu’à ces développements.

    B : As-tu des regrets ?

    JK : J’ai eu beaucoup, beaucoup de chance avec mes collaborateurs et avec nos sujets d’étude. J’ai appris de mes mentors, de mes collaborateurs, de mes étudiants, et c’est extraordinaire que de faire ainsi partie d’une communauté scientifique. Si je devais avoir un regret, ce serait celui des occasions manquées, lorsque j’ai hésité à me lancer sur un nouveau sujet, parce que je craignais que le sujet ne soit pas assez mûr, trop mal défini, pas assez sérieux. Je n’ai jamais regretté de m’être lancé trop tôt sur quelque chose.

    B : Comment imagines-tu l’avenir de ton domaine ?

    JK : Un problème important du domaine est de comprendre comment ces systèmes influencent le comportement de ces individus. Quand on regarde Facebook, on a tendance à s’imaginer qu’on contemple le comportement d’êtres humains dans leur état naturel, mais en réalité, il y a des algorithmes sous-jacents qui régulent leurs interactions. Ainsi, les résultats des recherches sur Google orientent les choix ultérieurs, et les articles qu’on consulte sur Facebook dépendent de ceux qu’on voit, et cela est déterminé par des algorithmes. Dans de telles situations, on n’a actuellement aucune notion de l’impact des décisions de conception d’algorithme sur les utilisateurs de la plate-forme. C’est un problème grand ouvert, et rendu plus compliqué encore par la boucle de rétroaction. Par exemple, en ce qui concerne les habitudes des consommateurs, l’algorithme de recommandations est entraîné à partir des décisions passées des consommateurs, mais bien évidemment les décisions ultérieures des consommateurs sont à leur tour influencées par ce que l’algorithme décide de leur montrer, et il y a ainsi une boucle infinie de rétroaction, où les décisions de l’algorithme dépendent des décisions des utilisateurs, et vice-versa. Avec ce type de boucles de rétroaction, nous ne comprenons pas vraiment ce que font nos algorithmes, et ce phénomène est présent partout dans le monde de l’internet, qui lui-même interagit avec le monde réel.

    Plus largement, ceci conduit au deuxième domaine où nous avons un besoin urgent de travaux de recherche : le rôle des algorithmes dans les décisions de nature politique, de protocole ou de règlementation. Des experts ou groupes d’experts prennent des décisions qui ont des conséquences sur la vie des personnes ordinaires, par exemple liées à l’embauche, à la justice, ou à la médecine avec des recommandations de traitements. Ces décisions ont des conséquences significatives sur la vie d’individus. Il y a probablement là une place pour des algorithmes qui pourraient aider à réduire le nombre de décisions erronées, mais c’est là un grand défi.

    B : Quelle formation envisages-tu pour les informaticiens de demain ?

    JK : À l’université de Cornell, nous tentons d’incorporer à notre enseignement dans notre formation d’ingénieur des concepts issus d’autres disciplines. Par exemple, pour concevoir notre cours sur les réseaux informatiques, nous sommes partis de la question suivante : quels sont les concepts des sciences sociales utiles à savoir pour la conception d’applications massives sur internet, et qui peuvent être enseignés en un semestre ? Cela nous a conduit à centrer notre cours sur les idées techniques et mathématiques à la frontière entre sciences sociales et systèmes technologies. Plus récemment, conscients que nos étudiants, dans leur vie professionnelle, construiront des systèmes informatiques qui auront un impact sur un segment de plus en plus large de la société, nous avons introduit un cours qui donne aux étudiants du cursus d’ingénieur des connaissances de base sur l’éthique et les grandes questions générales en matière de droit.

    Inversement, même pour les étudiants non-informaticiens, il est de plus en plus important de connaître les idées de base de l’informatique et de comprendre les principes de fonctionnement des nombreux systèmes qu’ils utilisent dans leur vie quotidienne. De plus en plus, ils seront responsables de l’évaluation d’argumentaires basés sur des données, et doivent être capables de raisonner sur les aspects fondamentaux de la science des données et de l’apprentissage statistique.

    Bien entendu, ces sujets ont vocation à être enseignés de plus en plus tôt dans le cursus éducatif. Nous connaissons l’évolution de sujets enseignés d’abord en 3e cycle, puis en licence, et enfin dès le lycée : les notions de base de l’informatique en sont un bon exemple.

    Personnellement, je pars de l’hypothèse que, dans presque tous les domaines, il y a des connaissances importantes à acquérir. Il y a de plus de plus de choses à apprendre, et elles ont toutes leur importance, mais nous ne disposons que d’un temps fini pour apprendre. Pour gérer ce paradoxe, on pourrait compresser et mélanger les disciplines, et c’est en ces termes que j’essaie de penser nos formations, plutôt que de faire le choix d’écarter un champ disciplinaire spécifique.

    B : Aurais-tu un conseil à donner à une jeune étudiante ou un jeune étudiant en informatique ?

    JK : En général, il est préférable de se laisser guider par ce qui nous intéresse plutôt que parce ce que quelqu’un d’autre juge intéressant. Il y a tant de questions qui ouvrent des directions passionnantes que parfois on ne sait trop laquelle choisir, et nous sous-estimons souvent la largeur de spectre couvert par l’informatique ainsi que la rapidité à laquelle les nouveautés se développent. Si vous êtes en fin de licence ou de mastère, il se peut tout à fait que certaines questions vous “branchent” mais que vos enseignants ne soient pas aussi conscients du sujet que vous-même. Mais ce n’est pas parce qu’une question est trop nouvelle pour faire l’objet d’un cours que ce n’est pas un bon sujet d’étude, au contraire ! Il est tout à fait possible que ce soit précisément les questions importantes à étudier maintenant. L’histoire des développements de l’informatique le démontre.

    Serge Abiteboul, Inria & ENS Paris, Claire Mathieu, CNRS, Paris, et Collège de France

  • L’apprentissage profond avant tout

    Un nouvel « Entretien autour de l’informatique ». Yann LeCun  est un informaticien, chercheur en intelligence artificielle, et plus particulièrement en « apprentissage automatique » (machine learning). Il est internationalement reconnu notamment pour ses résultats sur la reconnaissance de caractères et la vision par ordinateur en s’appuyant sur les réseaux de neurones convolutifs (son invention). Il est professeur à l’Université de New York et directeur du laboratoire d’Intelligence Artificielle de Facebook. Il a été titulaire de la Chaire « Informatique et sciences numériques » au Collège de France (2015-2016). Cet article est publié en collaboration avec TheConversation.

    Yann LeCun (@ylecun sur Twitter)

    B : Pourrais-tu nous parler de l’ « apprentissage machine » ?
    YL : On écrit un programme informatique pour réaliser une tâche particulière comme faire une recherche dans une base de données. Mais parfois la tâche est trop compliquée. On ne sait pas expliquer à l’ordinateur comment la réaliser. On utilise alors un programme d’apprentissage, un programme simple mais avec de nombreux paramètres. A partir de données qu’on lui fournit en entrée (par exemple une image), le programme calcule des valeurs de sortie (c’est un chien, un chat, etc.) et le résultat dépend fortement des paramètres qu’on ne sait pas a priori fixer. On fournit beaucoup d’images de chats et de chiens avec des annotations qui précisent de quel animal il s’agit. On va ensuite faire des tas de calculs pour déterminer les paramètres du programme, ceux qui donnent les résultats les plus proches des valeurs des annotations. Et on arrive ce cette façon à un programme qui distingue très bien les images de chats de celles de chiens.

    Le programme d’apprentissage qui les distingue est relativement simple (quelques pages de code). Il utilise des maths du 18ème siècle, et de l’informatique du siècle dernier. Ce qui a véritablement fait marcher tout cela, ce sont des puissances de calcul considérable, la disponibilité de grands corpus de données numériques, et le développement de nouveaux algorithmes dans les années 80 : les réseaux neuronaux artificiels multicouche et la rétropropagation du gradient de l’erreur.

    B : est-ce que tu peux nous expliquer un peu comment ils fonctionnent ?
    YL : ce sont des algorithmes inspirés (mais de loin) du fonctionnement des neurones biologiques. Imaginez des couches de petits calculateurs très simples commandés par des paramètres ; chaque calculateur décide de ses sorties à partir de ses entrées… et de ses paramètres. On fournit des entrées au réseau global (une image) et il propose une sortie (c’est un chat, c’est un chien). Si le système ne donne pas le résultat que nous espérons obtenir sur un exemple particulier, on calcule une « différence » entre ce qu’on obtient et ce qu’on voudrait obtenir et on propage cette différence pour modifier les paramètres de tous les petits calculateurs. La difficulté est d’arriver à régler efficacement les paramètres pour minimiser l’erreur que le réseau fait sur l’ensemble des exemples annotés.

    B : c’est en réalité bien plus compliqué que ce que tu dis. De nombreux algorithmes ont été proposés. Il a fallu pas mal de temps avant d’obtenir de bons résultats.
    YL : oui. L’idée est simple mais sa mise au point a pris du temps.

    B : et il existe d’autres types d’apprentissage…
    YL : ce que je viens de décrire c’est de l’apprentissage supervisé. Dans ce cadre, j’ai par exemple proposé des algorithmes de réseaux convolutifs qui donnent d’excellents résultats et qui sont très utilisés.

    Et puis, on peut aussi considérer l’apprentissage par renforcement. Pour battre le champion du monde de Go, DeepMind  s’est appuyé sur un grand nombre de techniques. Leur programme a, de manière classique, appris d’une énorme quantité de parties de Go jouées par des grands maîtres, c’est de l’apprentissage supervisé. Mais il a aussi joué des millions de parties contre lui même. Une des versions du programme-joueur essaie de faire varier un paramètre dans un sens ou dans un autre. Si cette version gagne plus souvent que l’autre, cela renforce la conviction que c’était une bonne idée de faire varier ainsi le paramètre. C’est ce qu’on appelle l’apprentissage par renforcement.

    Enfin, d’autres chercheurs travaillent sur l’apprentissage non supervisé. Un programme observe ce qui se passe autour de lui, et construit à partir de cette observation un modèle du monde. C’est essentiellement de cette façon que les oiseaux, les mammifères, que nous mêmes fonctionnons. Ce n’est pas si simple ; les algorithmes que nous concevons aujourd’hui attendent des prédictions du monde qui soient exactes, déterministes. Mais si vous laissez tomber un stylo (voir photo), vous ne pouvez pas prédire de quel côté il va tomber. Nos programmes d’apprentissage retiennent qu’il est tombé, par exemple, à gauche puis devant. Il faudrait apprendre qu’il peut tomber n’importe où aléatoirement. Il y a des travaux passionnants dans cette direction. Cela ouvre des portes pour de l’intelligence artificielle, au-delà de l’analyse de contenu.

    B : je t’ai entendu dire que certaines fonctions du cerveau comme le langage ou la mémoire étaient relativement simples, que la vraie difficulté résidait dans l’apprentissage.
    YL : au delà de l’inné qui est bien présent, l’apprentissage est essentiel. Une procédure d’apprentissage est présente dans le cortex d’animaux, identique dans plusieurs zones du cerveau. Si pour une raison quelconque, une de ces zones est abîmée, la fonction qu’elle abrite va se reconstruire ailleurs. Le même programme va recevoir dans une autre zone des entrées et va se spécialiser dans la tâche qui aurait dû être réalisée par la zone abîmée.

    On peut proposer la thèse que de nombreuses parties du cerveau abritent le même principe d’apprentissage. On pourrait s’inspirer de cette idée en intelligence artificielle pour utiliser le même algorithme d’apprentissage pour de nombreuses fonctions. Les évolutions récentes confortent ce point de vue. Dans des domaines de l’informatique très séparés, comme la traduction, la reconnaissance de formes, la conduite de voiture, les mêmes principes des réseaux convolutifs, de l’apprentissage supervisé, donnent de très bons résultats, et sont aujourd’hui utilisés couramment.

    B : une inquiétude avec ces méthodes est que nous risquons de construire des systèmes informatiques que nous comprenons finalement assez mal, que nous maîtrisons mal.
    YL : oui. Le programme d’apprentissage automatique est simple et la difficulté réside souvent dans le choix des données qui sont fournies pour l’entraîner. On ne sait pas où on peut arriver et cela dépend des données d’apprentissage. Par exemple, ce n’est pas simple de complètement fiabiliser le comportement d’une voiture autonome. La masse de données est considérable, les risques le sont également. C’est compliqué mais on y arrive quand même. C’est surtout possible parce que les systèmes peuvent s’autocorriger. Un accident ou même un presque-accident apportent de l’expérience au système, l’améliorent. Si on ne peut pas promettre de construire un programme parfait du premier coup, on peut surveiller ce qui se passe, entraîner le programme pour le perfectionner continuellement.

    B : comme ces systèmes prennent une importance considérable dans notre société, ne doit-on pas attendre d’eux qu’ils aient des responsabilités, qu’ils obéissent à des règles éthiques ?
    YL : évidemment. Ce sujet est de plus en plus important. Les humains présentent des biais parfois conscients, souvent inconscients. Mal entraînée, une machine peut reproduire ces même biais. Google a par exemple proposé un système de reconnaissance des visages qui classifiait parfois des visages noirs comme des visages de gorille. Le logiciel n’était pas raciste. C’est qu’il avait été mal entraîné, avec trop peu de visages noirs.

    Avec Facebook et des partenaires industriels, l’UNESCO et des ONG comme l’ACLU (Union américaine pour les libertés civiles), nous avons monté le « Partnership on AI »  pour mettre cette technologie au service des gens et de la société.

    B : saura-t-on bientôt construire des machines avec l’intelligence générale d’un humain ?
    YL : un jour. Mais ça va prendre du temps. Les chercheurs dans les tranchées savent combien le problème est difficile.

    Il est d’ailleurs passionnant de voir comment les programmes et les machines transforment la valeur des choses. Un lecteur Blue Ray super sophistiqué, bourré d’électronique et d’algorithmes coûte moins de 50 euros quand un saladier en céramique, utilisant des technologies très anciennes, peut en valoir des milliers. La valeur tient bien dans la réalisation par un humain. Les machines participent à la création de valeur, à l’augmentation de la productivité. Cela pose le problème du partage de toute cette valeur générée.

    Serge Abiteboul, Inria et École Normale Supérieure, Paris

    Du site web personnel de Yann LeCun

     

  • La géographie ubiquitaire

    Un nouvel « Entretien autour de l’informatique ». Serge Abiteboul et Claire Mathieu interviewent Denise Pumain , professeure à l’Université Paris 1 Panthéon-Sorbonne et membre de l’Institut Universitaire de France. Elle est spécialiste de l’urbanisation et de la modélisation en sciences sociales. Cet article est publié en collaboration avec TheConversation.

    Denise Pumain, par Claude Truong-Ngoc, CC BY-SA 3.0

    B : Denise, quel est ton métier ?
    DP : Je suis enseignante-chercheure en géographie à l’université Paris I (Panthéon-Sorbonne). J’ai été un temps détachée à l’Institut d’Études Démographiques, un temps à l’Université de Paris Nord à Villetaneuse, un temps recteur de l’académie de Grenoble.

    La géographie est une science sociale interdisciplinaire, avec des interactions fortes avec la sociologie et l’économie, et des liens étroits avec les sciences naturelles. Ma recherche porte sur la géographie humaine, c’est-à-dire l’étude de la manière dont les sociétés organisent leur espace, de manière différenciée selon les régions du monde. Je m’intéresse aux villes et à ce qu’elles ont de commun, notamment dans leur dynamique, la façon dont elles évoluent au cours du temps.

    La principale question des géographes depuis la fin du 18e siècle, c’est de comprendre la diversité du monde. On a d’abord expliqué cette diversité par des inégalités physiques, des différences entre les sols et les cadres naturels, le rôle des dotations initiales naturelles. Jared Diamond a récemment actualisé ce fil explicatif. Mais la géographie a ensuite beaucoup insisté sur la dimension spatiale, les effets de proximité et de réseaux dans les organisations des sociétés et leurs rencontres, selon un mécanisme de type centre-périphérie qui rend compte d’une grande partie des inégalités entre les sociétés humaines, à différentes échelles.

    B : Binaire s’intéresse à la transformation des sciences par l’informatique. En quoi ta discipline a-t-elle été transformée par la notre ?
    DP : L’informatique a introduit des progrès décisifs dans la manière de pratiquer la géographie et a également fait beaucoup pour amplifier les usages de la science géographique dans la société. Je vois trois grandes étapes dans cette évolution.

    L’informatique, automatisation de tâches
    D’abord, dans les années 60-70, nous avons pu informatiser des analyses statistiques. L’ouverture de centres de calcul accessibles aux gens des sciences sociales a changé notre travail. En ce qui concerne la géographie, l’instrument décisif a été l’analyse multivariée pour rendre compte des diversités entre des territoires ruraux, des villes, ou des États. A ces échelles, l’enquête individuelle n’est pas possible, il faut utiliser des recensements. Nous avons utilisé ce qu’on appelle aujourd’hui l’analyse exploratoire des données pour effectuer des comparaisons de manière systématique, plus raisonnée et répétable. Par exemple, j’ai rassemblé des données sur la croissance de plusieurs centaines de villes françaises depuis le recensement de 1831, sur l’évolution de leur démographie et de leur profil économique. Dès 1954, on avait des statistiques sur la composition par branche d’activité économique, la composition socioprofessionnelle, avec des nomenclatures comprenant des dizaines, puis des centaines de catégories, toute une richesse d’informations exploitables par le géographe. Pour nous la quantification a été la solution. Pour moi, l’informatique a donc d’abord été une libération, une possibilité d’objectiver, d’avoir un degré de scientificité plus important qu’auparavant.

    Cybergeo, revue européenne de géographie, en open édition

    La pensée algorithmique
    Ensuite, l’informatique a véritablement transformé notre façon de penser. Elle nous a conduits d’une formalisation essentiellement liée à l’usage des statistiques, à des formalisations bien plus riches utilisant des modèles de simulation. Avec des universitaires de Stuttgart et de l’Université libre de Bruxelles, nous avons exploré des modèles dynamiques d’analyse territoriale et régionale. Avec Thérèse Saint-Julien et Lena Sanders, nous avons pu comparer les transformations socio-économiques des agglomérations de Rouen, Bordeaux, Nantes et Strasbourg au fil du temps.

    Au début des années 80, s’est créée une communauté autour de la simulation pour la géographie, avec des modèles mathématiques d’auto-organisation urbaine, ou encore d’analyse des migrations interrégionales. Cela nous a conduits à des modélisations informatiques par systèmes d’agents. Un agent pouvait être un territoire, une personne, un élément de l’environnement. Les agents, représentés par des êtres informatiques, sont susceptibles d’acquérir des informations sur leur environnement et de communiquer avec d’autres agents pour avoir des interactions, des actions avec d’autres agents. Typiquement, les attributs d’une ville pouvaient être sa population, sa richesse, ses types de production, sa situation portuaire, son attractivité touristique ou le fait d’être une ville capitale. On a beaucoup de mal à connaître tous les échanges que les villes ont entre elles, surtout pour mesurer les échanges économiques ou financiers. On a donc imaginé un système théorique de marché d’échanges entre villes à partir de leurs fonctions économiques ; elles proposent des productions et des services à des villes dans un environnement proche, avec un marché régulant ce commerce, modélisé informatiquement. Les systèmes multi-agents offrent une grande souplesse de modélisation pour représenter une diversité de formes d’interactions dans l’espace selon les fonctions des villes, capitales régionales, ou villes industrielles ou touristiques par exemple.. Les modèles ainsi construits font partie d’une série que nous appelons « SimPop » pour « simulation de population », à partir de systèmes multi-agents.  Cette évolution est trop complexe pour être imaginée sans ordinateurs bien sûr.

    Cette deuxième étape a eu un débouché inattendu. Les modèles SimPop étaient conçus au début par des doctorants dépendant d’informaticiens, et du coup nous n’avions qu’une capacité d’intervention limitée. Puis nous avons pu construire les modèles directement, en réunissant des informaticiens de l’institut des systèmes complexes et des géographes déjà formés à l’informatique. Cela a tout changé pour nous. On pouvait commencer avec un modèle simple pour le raffiner. On pouvait voir l’amélioration produite entre deux versions. On pouvait complexifier le modèle, introduire des effets de contexte environnementaux… Cela nous a permis une meilleure mise au point par exploration de toutes les possibilités offertes par le modèle. On pouvait procéder pas à pas, en réduisant la complexité, et aussi, faire des millions de simulations avec le même modèle. On pouvait vraiment explorer  l’espace des paramètres.

    On a, par exemple, mis au point un modèle informatique d’émergence de ville post-néolithique. Un archéologue peut le nourrir de ses propres données, et vérifier si ce que raconte théoriquement le modèle a un sens sur son cas particulier en archéologie. Ça a été un progrès épistémologique car cette manière de faire des modèles permet de valider des hypothèses scientifiques. On savait par exemple que des villes produisaient des innovations qui se propageaient d’une ville à l’autre. On a pu construire un modèle qui capturait finement cette propagation. Pour la première fois, on pouvait montrer que « nos hypothèses étaient nécessaires et suffisantes ». Par exemple, on a montré que spécifier la durée de vie d’une innovation dans le modèle n’avait pas d’importance.

    Cette modélisation est essentiellement algorithmique. Nous apprenons énormément des algorithmes. Cette seconde étape, c’est donc l’entrée de la pensée algorithmique dans notre discipline.

    La géographie au quotidien
    La troisième et dernière étape que je considèrerai tient de l’arrivée des systèmes d’information géographique (GIS en anglais) et, dans notre quotidien, de données géo-localisées de manière massive. Cela me semble être un véritable bouleversement.

    La première loi de la géographie, c’est celle de la proximité : tout interagit avec tout, mais deux choses proches ont plus de chances d’interagir que deux choses lointaines. Aujourd’hui, des applications vous donnent des informations sur vos amis qui sont dans le voisinage ou sur d’autres qui sont géographiquement très loin. Le numérique permet d’élargir considérablement les interactions, et les distances jouent un moins grand rôle. Malgré cela, la géographie prend une place considérable. Il n’y a pas de chômage chez les géographes numériciens ! Ils trouvent du travail, par exemple, en géo-cartographie des prix immobiliers, ou dans le suivi des flottes de véhicules pour des entreprises de transports. Les concepts, la visualisation, les outils qu’ils utilisent, s’appuient sur des savoir-faire de la cartographie et de la géographie : la géomatique, que certains appellent gis-science !

    OpenStreetMap

    Les cartes géographiques prennent énormément d’importance. Les cartes ont été longtemps du ressort des états-majors, selon la formule : « la géographie, ça sert d’abord à faire la guerre ». L’IGN a d’ailleurs été créé par hasard en 1940 pour éviter que les Allemands ne mettent la main sur la cartographie de l’armée. Les citoyens utilisent aujourd’hui quotidiennement des cartes numériques sur leurs téléphones, Avec des systèmes comme OpenStreetMap, ils s’approprient la cartographie ; ils participent à la mise au point des cartes, à leurs mises-à-jour en temps réel.

    Les villes industrielles en Chine sont encore souvent de très grandes villes, en position littorale Source : Elfie Swerts, http://geodivercity.parisgeo.cnrs.fr/blog/tag/china/

    B : Y a-t-il eu des surprises dans l’évolution des villes ces cinquante dernières années ?
    DP : Oui, clairement, celle des villes chinoises. L’urbanisation chinoise a été très forte, rapide, contrôlée, avec des résultats indéniables (il n’y a pas de bidonville), et une capacité à prendre en compte les nécessités écologiques. Tout cela se fait sous contrôle étatique mais décentralisé, car la capacité d’urbaniser a été transférée au niveau des villes et districts. Il nous faut modifier nos modèles pour tenir compte de ces contrôles. Mais cette urbanisation est une urbanisation intelligente, s’appuyant sur l’existant, donc il y a une continuité, un suivi qui correspond aux principes que des millénaires d’évolution de l’urbanisation nous ont enseignés.

    La première loi de la géographie à l’épreuve du numérique

    B : Peut-on envisager une transformation des villes du fait de la numérisation ? La remise en question peut-être de la première loi de la géographie ?
    DP : On peut envisager un retour vers les villes petites et moyennes, qui étaient traditionnellement vues comme condamnées à une perte de substance, et qui seront peut-être sauvées par le télétravail. Il y a eu une tendance lourde à la concentration dans les grandes villes au détriment des petites, et ce processus s’est accéléré dans les années 80. Après le recensement de 1982, et surtout celui de 1990, la métropolisation, c’est-à-dire la convergence de la population vers les grandes villes, est devenue claire. Est-ce que cela va changer avec la téléprésence ? Qualitativement, l’effet est encore limité à des métiers où la coprésence et l’action collective ne sont pas absolument nécessaires tout le temps ; cela reste coûteux, car impliquant des déplacements vers de grandes villes quand les face-à-face sont nécessaires. Donc la métropolisation continue, et je ne la vois pas diminuer.

    Je crois que les gens et l’économie ont besoin de proximité. Par exemple, l’essentiel des transactions financières est assuré par juste trois grandes villes, New York, Londres et Tokyo ! Les financiers qui font des produits dérivés à outrance savent que si on veut spéculer sur la petite marge quasi-instantanée, il faut être à quelques nanosecondes par câble des centres financiers. Le virtuel n’invalidera pas, selon moi, la première loi de la géographie. Rien dans l’histoire ne me conduit à le penser. Les décentralisations historiques fortes n’ont été observées qu’en périodes de guerre.

    B : Comme géographe, tu es dans une situation privilégiée pour étudier les évolutions du monde. Qu’as-tu observé ?
    DP : Je trouve inquiétant le creusement des inégalités de revenus, ainsi qu’une certaine passivité devant les problèmes sociaux causés par l’organisation de la finance mondiale qui entame sans vergogne des processus entraînant des catastrophes. Nous vivons aussi un grand bouleversement avec l’afflux des informations vraies ou fausses, leur amplification. Il suffit de voir par exemple l’élection de Trump et le Brexit pour comprendre les conséquences catastrophiques que peuvent avoir des processus mal compris, mal contrôlés. Mais le pire n’est pas toujours certain. La géographie apprend à croire dans les capacités de réactions des sociétés humaines. Dans les années 60, il aurait été impossible d’imaginer que l’on serait capable de nourrir sept milliards d’habitants. On sait le faire et le pourcentage de la population situé sous un seuil de pauvreté s’est même réduit. Reste qu’il faut être conscient des menaces et de la nécessité de structures intermédiaires pour contrebalancer les effets du libéralisme exacerbé et du pouvoir non contrôlé.

    Serge Abiteboul, Inria, ENS, Paris, Claire Mathieu, CNRS, ENS, Paris

    (*) Jared Diamond est un géographe biologiste évolutionniste, physiologiste et géonomiste américain. Nous recommandons fortement sur le sujet qu’aborde Denise Pumain son best seller « De l’inégalité parmi les sociétés », prix Pulitzer 1998 (Guns, Germs, and Steel).

  • Dompteuse de données

    Un nouvel « Entretien autour de l’informatique ». Serge Abiteboul et Claire Mathieu interviewent Anastasia Ailamaki, professeure à École Polytechnique Fédérale de Lausanne. Elle dirige le laboratoire Data-Intensive Applications and Systems qui étudie les systèmes et les applications de gestion de masses de données. Cet article est publié en collaboration avec TheConversation.

    Anastasia Ailamaki
    © Christoph Kellenberger Kaminski

    B : Comment t’es-tu retrouvée à Lausanne, depuis la Crète ?
    NA : J’ai fait un Mastère en Crête, puis j’ai eu un premier emploi, mais cela ne me satisfaisait pas. J’avais encore envie d’apprendre. J’ai commencé une thèse à l’université de Rochester aux USA, et je l’ai finie à l’université du Wisconsin à Madison, avec David Dewitt. Puis j’ai été recrutée par Carnegie Mellon University où je suis devenue professeure. Je suis venue en sabbatique à l’Ecole Polytechnique Fédérale de Lausanne et j’ai décidé d’y rester. J’ai toujours pensé que je reviendrai en Europe. L’EPFL est un lieu formidable pour le travail et j’adore la qualité de vie en Suisse francophone.

    B : Comment est-ce la vie dans un milieu très masculin comme l’informatique ?
    NA : Ce n’est pas simple. On côtoie au quotidien la discrimination, de la part de personnes qui n’en sont, le plus souvent, même pas conscientes. Dans une lettre de recommandation pour une femme, par exemple, le style sera moins professionnel ; on utilisera le prénom plutôt que le nom ou le titre. Les femmes sont moins souvent nominées pour des prix. Les gens n’y pensent pas. Inconsciemment, ils les imaginent plus jeunes, moins compétentes que des hommes pourtant au même niveau. Les difficultés les plus importantes, je crois, se rencontrent surtout en début de la carrière.

    B : Sur quoi porte ta recherche ?
    NA : Sur les bases de données massives. J’aime construire des systèmes qui gèrent de grandes quantités de données. Je travaille principalement sur deux axes de recherche : une meilleure utilisation des matériels, et l’expérimentation de la gestion de données massives sur de grandes applications.

    Base de données et matériel
    Le logiciel qui gère les données doit utiliser au mieux le matériel disponible. Pour gérer des données massives, il faut s’appuyer sur des mémoires très rapides (les « caches* »), d’autres moins rapides, d’autres encore moins rapides mais massives, et il faut concevoir des logiciels qui utilisent tout cela au mieux. On observe que quand on exécute une requête sur une grande base de données, la plupart du temps, les processeurs sont inactifs, simplement en train d’attendre des données, et l’horloge du processeur tourne sans que rien ne se passe, pendant, disons, 60% du temps. Il faudrait construire des logiciels qui exploitent à 100% les ressources de calcul.

    Base de données et applications
    Mon deuxième axe de recherche se situe aux frontières de l’informatique. Je travaille sur des applications qui utilisent ou devraient utiliser les bases de données, mais que nos systèmes n’arrivent pas vraiment à satisfaire aujourd’hui. Ces applications se déroulent dans des domaines scientifiques traitant des masses de données considérables, qui proviennent de mesures de phénomènes naturels ou de simulations. Il faut absolument collaborer avec les scientifiques de ces domaines pour arriver à satisfaire leurs besoins. On rencontre des problèmes variés : l’organisation des données, la puissance de calcul requise, la diversité des données scientifiques, les besoins des scientifiques qui évoluent souvent rapidement, de manière très dynamique, alors que les systèmes de gestion de données traditionnels ont été conçus pour des données régulières et statiques…

    B : Tu peux nous donner un exemple de domaines scientifiques.
    NA : Je m’intéresse particulièrement à la recherche médicale. Nous travaillons avec les hôpitaux sur des données médicales qui doivent évidemment être très protégées.
    Je participe au projet « Human brain » visant notamment à identifier une maladie du cerveau par sa « signature » qui combine des informations de divers types : des mesures cliniques et biométriques, des données biologiques, radiologiques, cliniques, etc. Les systèmes doivent faciliter les calculs de telles signatures, pour arriver à un meilleur diagnostic, personnalisé pour chaque patient et plus juste statistiquement. Il nous faut des systèmes capables d’aller chercher les données dans différents services de l’hôpital et de les rassembler. Nous n’y sommes pas encore.

    Les systèmes de gestion de données de demain

    B : C’est là que se rejoignent tes axes de recherche. Améliorer les systèmes de gestion de données existants ?
    NA : Oui ! Il faut garder un œil à la fois sur les applications les plus exigeantes et sur le matériel, pour construire des logiciels plus performants qui répondent aux besoins des applications, les systèmes de demain.
    Les systèmes de gestion de données « historiques » sont basés sur des hypothèses logiques fortes, dont certaines ne sont parfois plus valides. Par exemple, le dogme dit que la construction de la base de données doit précéder l’évaluation de toute requête. On commence par « préparer » les données. Mais ça ne colle plus avec des données trop massives, quand seulement une toute petite partie des données, quelques pourcents peut-être, sera utilisée. Pourquoi perdre son temps à tout préparer ?

    Notre approche est très différente. Nous partons des données disponibles, avec toute leur diversité de formats, et des requêtes auxquelles nous voulons répondre de manière efficace. Notre système génère un programme, le code qui va faire le travail : extraire les informations dont nous avons besoin et seulement celles-là, les harmoniser quels que soient leurs formats d’origine pour lancer les calculs.

    B : Cela conduit à des logiciels extrêmement complexes. Mais d’un point de vue conceptuel, quelles sont les idées véritablement nouvelles que vous apportez ?
    NA : D’abord, la virtualisation des données. Il faut penser les données, qui sont très concrètes, de façon très virtuelle ; en d’autres termes, les abstraire de leur réalité physique. C’est cette abstraction qui permet de résoudre le problème de leur intégration dans des formats homogènes virtuels, sans véritable existence.
    Ensuite, c’est la génération de code. Nous nous appuyons sur la théorie des catégories pour une description mathématique à la fois simple et puissante, pour que le résultat soit correct. Elle nous permet de composer facilement les calculs dont nous avons besoin. C’est magnifique !
    Enfin, pour plus d’efficacité, nous avons dû inventer de nouvelles techniques de caching. Nous utilisons par exemple l’apprentissage automatique (machine learning) pour planifier les ressources dont nous risquons d’avoir besoin dans le futur pour répondre aux requêtes.

    RAW Labs, des logiciels pour interroger toutes sortes de données

    Natassa startupeuse

    B : En plus de ton équipe de recherche, tu as créé une start-up.
    NA : Oui, RAW Labs, basée en Suisse et fondée en 2015. Nous avons introduit une version commerciale du système de gestion de données dont je vous ai parlé.

    Le monde des start-ups est un monde très différent de celui des laboratoires de recherche. Dans un laboratoire de recherche, on forme des étudiants par la recherche, on produit des publications dans des conférences pour proposer de nouvelles idées, des contributions intellectuelles intemporelles, les plus générales possibles, pour faire avancer les connaissances scientifiques universelles. Dans l’entreprise, on doit résoudre un problème spécifique, et le but est de gagner de l’argent. On peut être conduit à travailler sur le même problème, mais les objectifs sont très différents.

    Dans une équipe de recherche, on cherche à trouver une solution à un problème, à obtenir une preuve convaincante que ça marche. Les logiciels doivent atteindre un point de maturité raisonnable, puis on passe à autre chose. Dans une start-up, cela ne suffit pas. Les logiciels ne doivent pas contenir de bugs et offrir de bonnes interfaces utilisateurs. Et quand ils sont au point, il ne faut pas passer à autre chose car c’est là qu’ils commencent à convaincre des clients. Il faut les maintenir, ajouter des fonctionnalités pour satisfaire les utilisateurs…

    La complexité et l’abstraction

    B : Qu’est-ce qui te motive ?
    NA : Pour moi, l’« informatique », c’est une manière de penser pour résoudre des problèmes qui semblent a priori difficiles. On peut décomposer un problème en des problèmes plus simples. On peut choisir pour un problème, le bon niveau d’abstraction. Cela n’est pas juste théorique ; on arrive à des solutions pratiques pour des familles de problèmes.
    Dans mon domaine de la gestion de données, le problème change quand la taille des données, les processeurs changent. Même si le problème reste le même formellement, mathématiquement, les solutions efficaces ne sont plus les mêmes. Le problème est différent qualitativement. La complexité en temps suivant la taille de données est une composante essentielle du problème.

    Ce jeu entre complexité et abstraction dans la résolution de problèmes est passionnant. J’essaie de comprendre comment il peut m’apporter aussi des solutions dans ma vie quotidienne, peut-être dans la gestion de mes enfants ?

    Serge Abiteboul, Inria, Claire Mathieu, École Normale Supérieure, Paris

    [*] Une mémoire cache ou antémémoire est, en informatique, une mémoire qui enregistre temporairement des copies de données provenant d’une source, afin de diminuer le temps d’un accès ultérieur (en lecture) d’un matériel informatique (en général, un processeur) à ces données. Wikipedia 2017.

  • Réinventer la biologie

    Un nouvel « Entretien autour de l’informatique  ». Serge Abiteboul  et Claire Mathieu interviewent Alessandra Carbone, professeure au département d’informatique de l’université Pierre et Marie Curie. Alessandra dirige le laboratoire de biologie computationnelle et quantitative, qui étudie le fonctionnement et l’évolution des systèmes biologiques. Elle nous parle de bioinformatique.
    Cet article est publié en collaboration avec TheConversation.

    Alessandra Carbone

    B : comment devient-on bioinformaticienne ?
    AC : j’ai suivi des études en informatique et mathématiques. Je travaillais sur des problèmes de logique mathématique et complexité d’algorithmes, avec un regard à la fois combinatoire et géométrique. Ce qui m’intéressait alors était de trouver des « langages » nouveaux pour pouvoir reformuler des questions de théorie de la complexité. C’est en partie pour cette raison que j’ai commencé à suivre des séminaires de biologie, et que j’ai été attirée par les structures moléculaires. J’ai découvert tout d’abord le monde de l’ADN. Le codage de l’ADN pose des problèmes algorithmiques passionnants.

    Protéine avec ses sites de liaison (jaune) à deux partenaires (bleu)

    B : Tes premiers travaux portaient sur la construction de ces structures complexes ?
    AC : Mes premiers travaux à l’interface avec la biologie portaient sur la construction de structures d’ADN en trois dimensions, notamment en collaboration avec Ned Seeman, le père des nanotechnologies ADN. Il s’agissait d’un travail théorique, pionnier, qui a été suivi de premières expériences en laboratoire 10 ans après ! Nous avons imaginé disposer d’une sorte de Lego qui, à partir de brins d’ADN interagissant entre eux, nous permettrait de programmer la construction de structures moléculaires tridimensionnelles complexes avec des formes et des propriétés spécifiques.

    Il faut imaginer des milliers de molécules d’ADN différentes qui se retrouvent ensemble et entrent en compétition pour s’assembler entre elles. Si on souhaite qu’elles s’assemblent pour former par exemple des « feuilles » ou pavages réguliers, éventuellement très grands et possiblement infinis, on doit éviter de leur donner la possibilité de s’assembler de manière incorrecte. « Éviter l’erreur » devient le but de la conception de ces molécules d’ADN. La pensée informatique et algorithmique rentre en jeu dans la conception de ces molécules d’ADN (dans la programmation des mots composés des lettres ATGC qu’elles décrivent) et des structures moléculaires (dans la programmation de leurs formes géométriques) que l’on souhaite obtenir après assemblage.

    Pour construire des structures 3D, l’idée est de procéder par couches successives. C’est le même principe que les imprimantes 3D d’aujourd’hui, où l’objet est construit en programmant les différentes couches du solide à produire. On commence par un pavage 2D qui peut être, de façon contrôlée, augmenté par des couches ultérieures de pavés de façon programmable. Ce qui nous plaisait, c’était d’intervenir de façon contrôlée, pour programmer et reprogrammer les pavés, et construire une structure 3D complexe qui pouvait évoluer pendant le processus de construction. Pour faire cela, nous avons utilisé des blocs de base, des briques Lego, qui peuvent avoir deux « états », c’est-à-dire se retrouver dans deux formes physiques différentes. Ces briques sont des molécules programmables par des brins d’ADN qui interagissent avec la molécule et la forcent à changer d’état. Elles ont été réalisées dans le laboratoire de Ned Seeman.

    Pavage d’ADN (microscopie à force atomique)

    B : à quoi est-ce que de telles structures ADN pourraient servir ?
    AC : on peut imaginer qu’elles puissent être utilisées pour créer des nano-objets à recouvrir avec des matériaux résistants ou ayant des propriétés chimiques particulières. Un contrôle précis sur l’assemblage ADN et donc sur les formes géométriques produites à des échelles nanoscopiques pourrait être utilisé pour rejoindre le monde de l’infiniment petit avec la même précision que l’on a dans notre monde macroscopique. Des nombreux labos, en France et à l’étranger, travaillent maintenant sur ce sujet et sur des thématiques proches. Le prix Nobel de chimie de cette année a été attribué à Jean-Pierre Sauvage, de Strasbourg, pour ses travaux sur les machines moléculaires,. On ne sait pas trop où on arrivera. Aujourd’hui, on construit des petites boîtes d’ADN contenant des médicaments dont l’ouverture peut être contrôlée.

    B : « contrôler », c’est un mot essentiel ?
    AC : ce mot rentre assez difficilement dans le vocabulaire des biologistes expérimentateurs. En biologie, on observe les phénomènes naturels, on les expliquent. Nous aimerions comprendre comment les contrôler.  L’idée de perturber les systèmes, de le modifier pour en observer le mauvais fonctionnement est très présente en génétique, mais ce que nous souhaiterions faire c’est comprendre comment aller au delà de mutations dirigées pour induire le système à réaliser une fonction voulue. Nous agissons sur le code de la molécule d’ADN pour réussir à ce que, géométriquement ou chimiquement, elle se comporte de manière spécifique, pour modifier son comportement et son assemblage.

    Prédiction du site actif (jaune) d’une enzyme (gris) impliquée dans la biosynthèse des acides gras (rouge-violet-bleu)

    B : les chimistes mélangent des produits chimiques pour avoir, par exemple, des explosifs. Ce qui est différent ici c’est que vous « programmez » ces transformations ?
    AC : les informaticiens ont construit des langages formels pour réussir à comprendre le genre d’interaction qu’on peut envisager entre des molécules différentes. Il s’agit de langages de programmation basés sur des opérations qui décrivent le comportement de molécules interagissantes. Le mouvement et les interactions des molécules qui ont lieu au même moment, en parallèle, sont pris en compte et le programme guide le processus d’assemblage.

    B : Tu travailles aujourd’hui sur tout à fait autre chose ?
    AC : oui. J’essaie de comprendre l’impact des processus évolutifs sur les séquences protéiques, sur leur structure (leur repliement dans l’espace 3D) et sur leurs fonctions (leur rôle dans la cellule). Nous partons de l’analyse des séquences d’une protéine, trouvées dans des espèces différentes, et nous essayons d’en extraire des signaux biologiques intéressants. On fait de l’« ingénierie renversée » en essayant de prédire comment la protéine (dans sa forme tridimensionnelle) fonctionne à partir des séquences.

    On essaye de détecter les points faibles/critiques d’une protéine. Leurs mutations peuvent impliquer des changements dans la structure ainsi que dans la fonction de la protéine, induisant potentiellement des conséquences irréversibles pour la vie de la cellule. Des phénomènes de développement précoce de vieillissement, ou encore de développement de maladies génétiques peuvent démarrer suite à des mutations spécifiques dans les séquences des protéines. Ces transformations arrivent de manière aléatoire. Nous développons des « mesures » et des approches computationnelles qui nous permettent de distinguer les mutations critiques des mutations neutres.

    Dans mon travail, je cherche aussi des informations sur les interactions d’une protéine avec les autres, qu’elles soient des partenaires cellulaires ou non, pour comprendre comment discriminer les partenaires protéiques des protéines qui n’interagissent pas. C’est une question fondamentale en biologie moléculaire parce que le comportement cellulaire dépend des interactions entre les protéines.

    Les biologistes expérimentent dans ce domaine, mais les expérimentations sont longues, coûteuses, et le nombre de paramètres est tel que les progrès sont lents. Avec l’informatique, il est devenu possible  de tester et simuler les interactions de milliers de protéines entre elles. Avec nos simulations, nous pouvons faire émerger des hypothèses que nous pouvons ensuite passer aux expérimentateurs pour qu’ils les testent, les vérifient. Nos calculs nous permettent d’obtenir des connaissances bien au delà de ce que peuvent atteindre aujourd’hui les expérimentateurs.

    B : comment fonctionnent de telles interactions ?
    AC : Par exemple, nous voulons chercher les interactions entre un millier de protéines pour lesquelles nous connaissons la structures 3D, obtenues par exemple par cristallographie. Prenons-en deux ; appelons-les Alice et Bob. Nous voulons comprendre les interactions entre Alice et Bob. Mettons Alice au centre d’une sphère. Nous faisons bouger Bob sur toutes les autres positions possibles de la sphère et nous testons comme Alice et Bob s’amarrent au niveau moléculaire : ça s’appelle du « docking ». Il nous faut calculer les surfaces d’interaction possibles entre deux protéines et « évaluer » l’interaction. Y-a-t-il affinité ou pas dans le contact ?

    Protéine avec trois sites d’interaction (au centre, blue/orange/jaune) et ses partenaires. Les cercles concentriques représentent les niveaux d’affinité de liaison des protéines

    B : ce sont des calculs considérables ?
    AC : tout à fait considérables. Nous testons 300 000 positions sur la sphère. Pour chaque position, nous testons si l’amarrage est prometteur ou pas en faisant tourner Bob autour d’Alice quelques centaines de fois, pour chacun position de la sphère. Nous  recommençons ces calculs pour quelques millions de couples possibles. Vous imaginez la dimension du calcul ! Nous avons pu réaliser ce calcul pour à peu près 2200 protéines humaines en 3 ans, en utilisant des raccourcis algorithmiques qui nous ont permis de prédire l’espace de recherche des solutions et de le réduire ainsi de manière considérable. Surtout, nous avons pu employer 200 000 ordinateurs de volontaires reliés à la World Community Grid, gérée par IBM-US. Mais nous ne sommes pas encore prêts à traiter les dizaines de milliers de protéines humaines ! Pour cela, nous avons besoin d’idées algorithmiques nouvelles.

    Ceci n’est qu’un exemple qui illustre l’impact énorme de l’informatique en biologie. Mais, tout cela demande des puissances de calcul inouïes, et nous conduit à résoudre des problèmes algorithmiques passionnants.

    B : cela soulève des problèmes mathématiques et algorithmiques passionnants ?
    AC : de plus en plus je m’aperçois que les mathématiques à utiliser ou à développer sont dépendantes des données sur lequel s’applique le problème à résoudre. Selon les caractéristiques des données, il faut utiliser des approches computationnelles radicalement différentes. Pour vous donner un exemple, les échelles de temps qui ont généré certaines données biologiques, comme les séquences protéiques, sont très variables, depuis des jours ou des dizaines d’années pour l’évolution à l’échelle de l’individu, jusqu’aux millions ou billions d’années pour l’évolution à l’échelle des espèces.

    Pour étudier des séquences au niveau des populations d’individus, nous allons plutôt nous appuyer sur des calculs combinatoires. On ira chercher les « régularités » dans ses séquences, c’est-à-dire des positions qui ne changent quasiment pas et estimer de combien ces positions s’ « éloignent » d’une régularité attendue. Pour explorer les espèces dans un arbre du vivant, nous allons plutôt utiliser des modèles statistiques pour lesquels une difficulté majeure est l’estimation du « bruit » de fond, nécessaire pour évaluer la distance entre le signal et  ce bruit de fond.

    B : à quoi est-ce que ressemble ton travail au quotidien ?
    AC : dans mon équipe, nous travaillons avec papier et crayon mais surtout nous écrivons des programmes, indispensables pour réfléchir sur les données biologiques. Pour nous, l’ordinateur est un instrument pour penser. Nous avançons des hypothèses, nous les testons sur de larges quantités de données, nous les modifiions, nous testons de nouveau et ainsi de suite jusqu’à révéler les principes généraux qui gouvernent le comportement moléculaire. Nos résultats amènent à prédire des comportements moléculaires concernant les interactions protéine-molécule, mais aussi les arrangements tridimensionnels des molécules dans la cellule. Nous travaillons sur les structures protéiques, sur la conformation géométrique en 3D de l’ADN et d’autres questions autour des génomes. Pour toutes ces questions, nous avons besoin de développer des algorithmes efficaces, rapides, pour ne pas avoir à attendre les résultats des mois et des mois. Notre travail consiste souvent à concevoir des algorithmes qui résolvent des problèmes de géométrie et géométrie combinatoire. Donc, pour nous, les ordinateurs ont deux utilités : pour raisonner (avec eux) et pour produire des prédictions.

    Deux protéines, une montrant la surface (bleu) et l’autre ses sous-structures (rouge). Un réseau schématise les interactions

    B : vous obtenez des théorèmes ?
    AC : pas au sens mathématique du terme. J’ai abandonné les théorèmes quand je suis passé à la biologie. Je suis dans le monde des données et des phénomènes physiques complexes, pour lesquels très souvent on approche des principes généraux (c’est ce que je cherche) du comportement moléculaire qui expliquent les données expérimentales.

    Les mathématiciens ont des règles logiques qui peuvent les aider à vérifier leurs preuves. Au contraire, nos vérificateurs sont les données biologiques, provenant des expériences. Il s’agit de données bruitées et leur utilisation, pour tester nos « théorèmes », doit être judicieusement employée. C’est important de se rendre compte que la rigueur du phénomène physique est bien plus élevée en certitude que la rigueur du raisonnement logique, et cela parce que les expériences physiques reproductibles sont bien plus fiables que l’intuition humaine. L’idée de travailler aujourd’hui dans un contexte où les phénomènes biologiques complexes définissent le cadre de l’intuition me fascine et je pense que l’on est en train d’aller vers la définition d’une nouvelle discipline, différente des mathématiques existantes, et qui nous permettra d’utiliser les données de façon rigoureuse à l’aide de calculs qui accompagneront la construction de l’intuition.

    B : travailler aux interfaces entre deux disciplines n’est pas simple ?
    AC : les mathématiciens pensent que nos méthodes ne sont pas rigoureuses et générales, et les biologistes aimeraient souvent nous cantonner à un rôle de producteurs de services. Je pense que nous sommes en train d’inventer une nouvelle biologie. Nous produisons des données « biologiques » avec nos ordinateurs ; il s’agit de données qui ne peuvent pas être produites par des expériences en laboratoire avec les techniques existantes. Ces données ont autant de valeur que les données expérimentales ! Elles peuvent servir à faire avancer nos connaissances. C’est une révolution importante pour les sciences biologiques, une révolution qui demande aux biologistes d’accepter de nouvelles frontières intellectuelles, et à nous, informaticiens et mathématiciens, de faire un gros effort intellectuel pour comprendre comment utiliser nos puissances de calcul pour étendre les frontières de la connaissance.

    Entretien recueilli par Serge Abiteboul et Claire Mathieu

    Pour aller plus loin

  • Les perles des entretiens autour de l’informatique

    Comment définir l’informatique. La question est complexe, les réponses parfois passionnelles. Le Conseil scientifique de la Société informatique de France (SIF) a réfléchi collectivement sur ce sujet et a élaboré un texte : Informatique — quèsaco ?

    Cependant une telle description « de l’intérieur » de l’informatique ne peut qu’être réductrice. C’est pourquoi, pour la complémenter, binaire s’est lancé dans une peinture  « impressionniste » du domaine, qui le décrit par petites touches, à travers les visions personnelles de chercheurs et chercheuses brillants, de domaines variés : agriculture, philosophie, archéologie… Ils nous racontent leurs passions et toutes les richesses de l’informatique, cette science et cette technique au cœur du monde numérique. L’ordinateur est general-purpose – c’est une machine à tout faire. Les rencontres des sciences et de l’informatique, que nous vous proposons, illustrent parfaitement cette réalité.

    Ne ratez pas les perles que sont ces entretiens autour de l’informatique.

    Les éditeurs de binaire

  • Faire parler les murs

    Hélène Dessales, archeo.ens.fr

    Un nouvel « Entretien autour de l’informatique  ». Serge Abiteboul  et Claire Mathieu interviewent Hélène Dessales Maître de conférences en archéologie à l’École Normale Supérieure à Paris. Hélène Dessales est notamment spécialiste de la distribution de l’eau dans l’architecture domestique de l’Occident romain.  Elle nous explique comment l’informatique est en train de révolutionner l’archéologie.

    Cet article est publié en collaboration avec TheConversation.

    B : Tu es archéologue. Ça sert à quoi l’archéologie ?

    HD : L’archéologue écrit l’histoire en interrogeant les objets, explore la matérialité pour découvrir ce que les textes ne peuvent pas apprendre.

    Dans ma thèse, j’ai travaillé sur le rapport entre l’adduction d’eau et l’évolution de l’habitat, illustrant comment les techniques ont transformé l’architecture et la manière de vivre. Maintenant je travaille sur les techniques de chantier à l’époque romaine. Comment construit-on ? Qui sont les bâtisseurs ? Quel est l’environnement, la géologie ? D’où viennent les matériaux utilisés ? J’ai élargi l’horizon de l’architecture à celui de la construction.

    Il y a une lecture dynamique du bâtiment ; nous essayons de voir comment il a été construit, d’évaluer ce qu’il a coûté, de saisir les gestes du constructeur et de l’artisan. C’est un domaine nouveau qui se développe fortement depuis une vingtaine d’années, autour du réseau international d’histoire de la construction.

    Même si les techniques de construction romaines sont relativement bien connues, elles restent encore à explorer sous ce nouvel angle de vue. La maçonnerie n’a pas énormément changé entre l’époque romaine et le XIXe siècle. C’est pourquoi je collabore notamment avec des médiévistes qui, eux, disposent de nombreuses sources écrites. Par exemple, pour le palais des papes à Avignon, ils savent comment le bâtiment a été construit, pratiquement au jour le jour. Nous croisons nos méthodes et c’est passionnant.

    B : Tu participes à un projet qui fait intervenir beaucoup l’informatique ?

    HD : Oui. L’informatique est en train de révolutionner l’archéologie.  Le cœur de l’archéologie, c’est le traitement de l’information. L’informatique est parfaite pour cela.

    Je travaille avec Jean Ponce du département d’informatique de l’ENS. Nos deux projets de recherche se sont rencontrés. D’un côté, le sien, la vision par ordinateur, appliquée à l’étude des bâtiments. De l’autre, le mien, l’archéologie de l’architecture.

    La vision par ordinateur a totalement transformé notre façon d’enregistrer et de traiter les informations, depuis le relevé sur le terrain où nous « capturons » des données, jusqu’à la restitution au laboratoire, en trois dimensions. C’est toute la chaîne opératoire qui a été  bouleversée. Désormais nous arrivons sur le terrain avec des appareils photo pour faire un relevé numérique complet. Nous le faisions auparavant avec un scanner, mais c’était lourd à utiliser et assez coûteux, alors que maintenant nous n’avons qu’à prendre des photos, cas extrême, avec notre téléphone… puis à utiliser le logiciel de Jean Ponce. Nous l’avons appliqué à un bâtiment de 3500 m (2). Pour cette superficie, il nous a fallu environ 25 000 photos. Ensuite, la reconstruction s’est faite en deux phases, un premier programme, nommé PMVS, assemble automatiquement les photos, un second, Blender, construit, à partir de cet assemblage, un modèle 3D. C’était la première fois que cette technologie était testée sur un aussi grand bâtiment, et cela a très bien fonctionné, produisant une maquette d’une précision excellente, inférieure à 1cm. Une telle précision, c’était nouveau.

    En archéologie, quand nous parlions d’informatique, nous imaginions un ordinateur et une base de données ; là nous sommes dans des algorithmes complexes qui alignent les données et reconstruisent le bâtiment en trois dimensions.

    Maintenant, pour ces nouvelles utilisations de l’informatique, il nous manque des métiers dans les laboratoires. Nous avons d’un côté des informaticiens et de l’autre côté des archéologues de la vieille école, avec des compétences techniques comme dessinateurs, infographistes, jusqu’alors habitués à travailler surtout en deux dimensions. Les processus pour former des personnes qui maîtrisent ces reconstructions en trois dimensions sont en cours.

    B : Vous gagnez du temps avec les relevés. Mais ces nouvelles techniques ouvrent-elles vraiment de nouvelles possibilités à l’archéologie ?

    HD : En archéologie, quand nous dessinons, nous faisons déjà une interprétation, en sélectionnant ce que nous représentons. Le dessin d’un bâtiment est une étape de compréhension très importante. Les modèles informatiques héritent en esprit de cette pratique du dessin. Une fois la reconstruction 3D par les programmes terminée, nous disposons d’une maquette du bâtiment qui, pour nous, est aussi un outil d’analyse et d’interrogation exceptionnel : nous l’utilisons avec des filtres de lecture permettant de voir des choses que nous ne verrions pas avec les yeux. Surtout, nous y intégrons une notion de temps, qui introduit une quatrième dimension. Ainsi, d’une part, nous incorporons par exemple des anciens dessins datant du XIXe, témoignant d’un bâtiment à un état donné, que nous « projetons » en trois dimensions dans la maquette numérique. D’autre part, nous pouvons aussi intégrer au modèle nos données archéologiques actuelles, qui retracent les différentes phases du bâtiment. Le modèle restitue ainsi toute l’évolution du bâtiment, de sa création à l’époque romaine, jusqu’aux restaurations de l’époque contemporaine.

    Opération d’étude et de relevé d’une portion de mur (stage de formation à l’archéologie de la construction romaine, Pompéi, Villa de Diomède, mai 2014). © Villa Diomedes Project. Photographie Thomas Crognier.
    Opération d’étude et de relevé d’une portion de mur (stage de formation à l’archéologie de la construction romaine, Pompéi, Villa de Diomède, mai 2014). © Villa Diomedes Project. Photographie Thomas Crognier.

    Pour cela, l’archéologue, sur place, devant le mur, établit par exemple une classification des types de maçonnerie qui caractérisent les chantiers d’un même bâtiment au fil du temps. Il prend des mesures, annote une photo à la main, en y intégrant son analyse du mur. Traitant ensuite cette photographie, sur ordinateur, il y ajoute une série de calques de couleurs, chacun correspond à une série d’informations – types de techniques observé, phases de construction.  Puis cette information est projetée en 3D et nous pouvons l’intégrer aux données d’ensemble sur le bâtiment. Ainsi, le modèle 3D nous permet de stocker toute une série d’informations disparates et de les croiser. Il sert donc à la fois de filtre et d’outil d’analyse.

    © INRIA/WILLOW-CNRS-ENS-MSR-Iconem

    En appliquant ces méthodes, j’ai la chance de coordonner un gros projet collectif sur la villa de Diomède à Pompéi (1). Nous avons pu produire une restitution virtuelle de la villa au moment de sa fouille à la fin du XVIIIe siècle, lorsqu’on enlève les cendres de l’éruption du Vésuve de 79 ap. J.-C., et ce sur la base des dessins très précis réalisés peu après la découverte. Nous travaillons actuellement à une autre restitution, celle de l’état de la villa avant l’éruption de 79 – sur lequel il faut mobiliser toutes nos observations (sachant que des survivants sont revenus sur les lieux de la catastrophe pour prélever des matériaux ; d’autres spoliations ont lieu à l’époque moderne, lorsque Pompéi, la cité alors oubliée, n’est plus qu’un grand terrain agricole).  La première image est donc historique, celle du bâtiment tel qu’il est vu à l’époque moderne. La seconde est archéologique, celle qui tente de recomposer un état que l’on ne perçoit plus que de façon fragmentaire et dégradé, et pour lequel il faut remonter presque 2000 ans…

    Modèles 3D ? Vérifier des hypothèses, restaurer sans détruire, éduquer le public, préserver la mémoire

    B : Ces modèles 3D vous apportent-ils donc de nouvelles compréhensions ?

    HD : La visualisation en 3D facilite l’analyse. En archéologie, nous travaillons parfois sur des structures très arasées. Nous essayons de restituer les structures comme elles étaient dans leur état originel, avec leurs élévations, leurs toitures. Ce n’est qu’en visualisant le bâtiment en trois dimensions que nous pouvons vérifier si nos hypothèses résistent d’un point de vue architectural, si le toit a une chance de tenir…

    Et puis, cela va changer la visite des sites archéologiques. La 3D nous permet de proposer des visites virtuelles avec des restaurations numériques, tout en conservant l’existant sur le terrain. Elle nous offre la possibilité de restaurer virtuellement sans détruire. Plutôt que des reconstructions plus ou moins hypothétiques « à la manière de… », elle permet de considérer véritablement des alternatives. Les monuments historiques sont tous en train de développer cet aspect des choses, et c’est toute la transition entre l’archéologie et la diffusion vers le public qui change.

    B : Cela change-t-il aussi votre façon de fouiller ?

    HD : Fouiller c’est souvent détruire. Quand nous fouillons, nous détruisons des strates. Maintenant, nous pouvons tout de suite avoir une maquette en 3D de l’état de la fouille, ce qui permet de sauvegarder les informations avec une maquette évolutive. Cela conserve l’historique, et donne une mémoire des fouilles. Les images, entre autres, nous permettent de garder cette mémoire.

    B : N’y a-t-il pas un risque de se perdre dans cette masse d’images ?

    HD : Oui, nous avons trop de données, tant d’images que nous ne savons plus comment les classer et les stocker efficacement. Pour le moment, nous ne disposons pas d’ordinateurs assez puissants pour les traiter toutes.

    Et puis, nous avons un vrai souci d’archivage. Auparavant, nous tenions ce que dans le métier nous appelons un « carnet de fouilles ».  Comme cela se faisait déjà au XIXe siècle, il s’agit de reporter au jour le jour ce que nous trouvons, quoi, quand, où. Ce carnet (maintenant une tablette) s’est complexifié en devenant un ensemble de fiches d’observations, de photographies, de relevés. C’est ce qui forme les sources primaires, la base des travaux de recherche. Pour la villa de Diomède, les relevés et toutes ces données sont archivés et déposés auprès de la Surintendance archéologique de Pompéi.

    Mais, pour les étapes ultérieures du traitement des données ? Nous produisons des quantités considérables d’images qui donnent des modèles photogrammétriques (2). Les images sont stockées par deux entreprises qui travaillent avec nous dans le cadre d’un projet de l’ANR (3). Elles nous seront restituées à la fin du projet. Toutes ces images font partie de notre patrimoine. Il nous faudra les archiver pour garantir qu’elles seront accessibles dans cinquante ans. Comment ? Je ne sais pas. Il va falloir choisir ce que l’on garde… Comment ? Archiviste numérique, c’est un métier dont nous avons besoin pour accompagner nos recherches.

    B : Quelles sont les avancées les plus marquantes de l’archéologie de ces dix dernières années ?

    HD : Les nouvelles technologies et pratiques de relevés et de restitution, le développement de plus en plus important de l’ « archéométrie » (ce qu’on mesure avec des instruments, pour obtenir des données quantifiées, par exemple les analyses chimiques), les techniques de datation de plus en plus poussées, tout cela modifie la pratique de l’archéologie et fait intervenir chimie, physique, biologie, géologie, informatique. Par exemple, la datation en fonction des pollens fixés dans le mortier lors de la construction des bâtiments peut permettre de reconstruire le fil des saisons et induit une nouvelle précision dans la restitution d’un bâtiment, un changement d’échelle qui change les pratiques de l’archéologie. Nous enseignons maintenant toutes ces méthodes archéométriques, ainsi que la photogrammétrie. Nous sommes en pleine mutation de l’enseignement et de la recherche.

    B : Du coup, l’archéologie ne s’est-elle pas rapprochée des sciences et éloignée des sciences humaines ?

    HD : C’est vrai, maintenant il y a plus de techniques à apprendre. Nous avons de plus en plus de disciplines à solliciter, mais en archéologie il y a toujours eu cet angle qui n’était pas purement celui des sciences humaines : nous allons sur le terrain, comme des géologues nous suivons la stratigraphie ; nous croisons les données avec d’autres sciences. L’histoire de l’Antiquité ne se découvre pas seulement à partir des textes mais aussi par les monuments, et il en a été ainsi dès le XVe siècle, lorsqu’Alberti (4) invite à considérer les édifices de la Rome antique pour mieux comprendre les auteurs de l’Antiquité. Il faut, par exemple, une formation en dessin, ce qui nous fait sortir complètement des sciences humaines. Mes étudiants apprennent toujours à dessiner. Le dessin c’est le premier travail de filtre et de sélection, ça change le regard, et c’est en dessinant que nous comprenons. Nous utilisons de plus en plus de statistiques. Nous quantifions de plus en plus nos résultats.

    Quelque chose n’a pas changé. Nous examinons les objets. Nous les interrogeons. Nous faisons parler les murs.

    Entretien recueilli par Serge Abiteboul et Claire Mathieu

    Notes :

    (1) – Le programme Villa Diomède

    (2) – Photogrammétrie : La photogrammétrie est une technique qui consiste à effectuer des mesures dans une scène, en utilisant la parallaxe obtenue entre des images acquises selon des points de vue différents. (Wikipédia).

    (3) – RECAP, Projet soutenu par l’Agence Nationale de la Recherche.

    (4) – Leon Battista Alberti, 1404-1472, constructeur, ingénieur et écrivain de la Renaissance italienne. Il est l’auteur du De re ædificatoria (en français, L’Art d’édifier).

     Villa de Diomède à Pompéi, état de 2013 : modèle photogrammétrique* du bâtiment (vue isométrique du secteur sud-est du bâtiment). © Villa Diomedes Project. Infographie 3D :  Alban-Brice Pimpaud (archeo3d.net) | Yves Ubelmann & Philippe Barthelemy (iconem).
    Villa de Diomède à Pompéi, état de 2013 : modèle photogrammétrique* du bâtiment (vue isométrique du secteur sud-est du bâtiment). © Villa Diomedes Project. Infographie 3D :  Alban-Brice Pimpaud (archeo3d.net) | Yves Ubelmann & Philippe Barthelemy (iconem).
    La Villa de Diomède à Pompéi, état du début du XIXe siècle, peu après les fouilles : modèle intégrant les relevés exécutés dans les années 1780-1810, qui reproduisent les décors sur les murs et les sols, très érodés aujourd'hui ou disparus (vue isométrique du secteur sud-est du bâtiment). © Villa Diomedes Project. Infographie 3D :  Alban-Brice Pimpaud (archeo3d.net) | Yves Ubelmann & Philippe Barthelemy (iconem).
    La Villa de Diomède à Pompéi, état du début du XIXe siècle, peu après les fouilles : modèle intégrant les relevés exécutés dans les années 1780-1810, qui reproduisent les décors sur les murs et les sols, très érodés aujourd’hui ou disparus (vue isométrique du secteur sud-est du bâtiment). © Villa Diomedes Project. Infographie 3D :  Alban-Brice Pimpaud (archeo3d.net) | Yves Ubelmann & Philippe Barthelemy (iconem).
    La Villa de Diomède à Pompéi, analyse archéologique en cours : modèle intégrant les relevés de terrain et interprétations ; chaque couleur correspond à une phase de construction du bâtiment à l’époque romaine, entre le IIe siècle av. J.-C. et 79 ap. J.-C. ; la couleur grise indique les restaurations modernes et contemporaines (vue isométrique du secteur sud-est du bâtiment). © Villa Diomedes Project. Infographie 3D :  Alban-Brice Pimpaud (archeo3dt) | Yves Ubelmann & Philippe Barthelemy (iconem).
    La Villa de Diomède à Pompéi, analyse archéologique en cours : modèle intégrant les relevés de terrain et interprétations ; chaque couleur correspond à une phase de construction du bâtiment à l’époque romaine, entre le IIe siècle av. J.-C. et 79 ap. J.-C. ; la couleur grise indique les restaurations modernes et contemporaines (vue isométrique du secteur sud-est du bâtiment). © Villa Diomedes Project. Infographie 3D :  Alban-Brice Pimpaud (archeo3dt) | Yves Ubelmann & Philippe Barthelemy (iconem).
  • Un turbo dans l’algo

    Un nouvel « Entretien autour de l’informatique  ». Serge Abiteboul  et Christine Froidevaux interviewent Claude Berrou, un informaticien et électronicien, membre de l’Académie des sciences. Claude Berrou est Professeur à IMT Atlantique. Il est notamment connu pour ses travaux sur les turbocodes, très utilisés en téléphonie mobile. Sa recherche porte aujourd’hui sur les neurosciences informationnelles.

    Cet article est publié en collaboration avec TheConversation
    English version

    Claude Berrou, Page perso
    Claude Berrou, Page perso

    Binaire : Tu étais électronicien au départ, comment es-tu arrivé à l’informatique ?
    CB : Je suis un randonneur des sciences. Après une formation initiale à l’école qui s’appelle aujourd’hui Phelma, j’ai fait un peu de tout : électronique, traitement de signal, architecture de circuits. Puis je suis arrivé à l’informatique… par hasard, avec les codes correcteurs et la théorie de l’information.

    Binaire : Une question que nous adorons poser à Binaire, c’est quoi l’informatique pour toi ?
    CB : J’ai un aphorisme : l’informatique est à la science, ce que le langage naturel est à l’intelligence. Avant l’informatique, la science, c’étaient des équations, des formules et des théorèmes. L’informatique a permis de mettre en place des séquences d’opérations, des processus, des procédures, pour pouvoir traiter des problèmes complexes. Du coup, c’est presque synonyme de langage et c’est très comparable au langage naturel qui oblige à structurer. De même qu’on a un langage commun, l’informatique propose des langages compréhensibles par tous.

    Binaire : Tu as travaillé sur les codes correcteurs. Tu peux nous dire à quoi ça sert ?
    CB : Quand on transmet de l’information, on veut récupérer le message émis parfaitement. Même si on a beaucoup d’utilisateurs, et une bande passante limitée. Si le message est binaire, à cause du bruit et des interférences qui perturbent la ligne, certains 0 émis vont devenir des 1 reçus, des 1 devenir des 0. Plus le bruit est important par rapport au signal, plus fréquentes sont de telles erreurs. Le rapport signal sur bruit peut être dégradé, par exemple, par de mauvaises conditions météo ou par des perturbations causées par d’autres communications qui s’exécutent en même temps. Avec autant d’erreurs, la qualité est déplorable. Pour éviter cela, on code l’information à l’émission en ajoutant de la redondance. Le défi, c’est d’être capable de récupérer relativement bien le message sans avoir à mettre trop de redondance, sans trop faire grossir le message. Nous avons un peu le même problème avec le stockage dans les mémoires de masse. Des bits peuvent permuter, peut-être à cause de l’usure du disque. On introduit aussi de la redondance dans ces systèmes pour pouvoir récupérer l’information.

    Binaire : Tu nous parles de ta super invention, les turbocodes.
    CB : Les turbocodes sont nés grâce au Titanic, lorsqu’il a fallu assurer la transmission sans câbles de vidéos pour visualiser cette épave (des travaux d’Alain Glavieux). Je me suis amusé à essayer de diminuer l’effet du bruit dans les transmissions, et j’ai pensé qu’on pourrait introduire dans le décodage, pour le traitement d’erreurs, le principe de contre-réaction, une notion classique en électronique.

    Pour moi, l’interdisciplinarité est fondamentale ; l’innovation est souvent à l’interface des disciplines. Vous prenez une idée qui a prouvé qu’elle marchait quelque part dans les sciences, et vous essayez de l’adapter dans un tout autre contexte. L’idée à l’origine des turbocodes, c’est d’importer une technique d’électronique en informatique.

    Quand on veut réaliser un amplificateur avec un gain élevé, on en met 2 ou 3 en série. Mais ça donne des trucs instables. Pour stabiliser le montage, on met en œuvre un principe de contre-réaction : renvoyer vers l’entrée de l’amplificateur une fraction de sa sortie, avec le signe « – » , cela atténue les variations intempestives.

    Je suis parti d’un algorithme connu : l’algorithme de Viterbi. Il permet de corriger (s’il n’y a pas trop de bruit) les erreurs survenues lors d’une transmission à travers un canal bruité et peut donc être considéré comme un amplificateur de rapport signal sur bruit. Le décodeur de Viterbi connaît la loi algébrique qui a servi à construire la redondance du message codé et l’exploite dans un treillis (l’équivalent déterministe d’une chaîne de Markov) et délivre ainsi le message d’origine le plus probable. J’ai donc mis deux algorithmes de Viterbi en série. Et j’ai ensuite essayé d’implémenter la notion de contre-réaction dans le décodage. C’est délicat et je n’étais pas un expert du codage.

    Un problème, c’est que l’algorithme de Viterbi fait des choix binaires : le bit a été permuté ou pas. Nous l’avons adapté, avec un collègue, Patrick Adde, pour qu’il fournisse des décisions probabilistes, ce qui améliore nettement la performance du décodeur qui suit.

    Turbo, Lauri Rantala, Flikr
    Turbo, Lauri Rantala, Flickr

    Binaire : comment ça fonctionne ?
    CB : Comme je l’ai expliqué, pour protéger un message, on ajoute de la redondance. Le turbocode réalise le codage sur deux dimensions. Une bonne analogie est une grille de mots croisés avec les dimensions verticale et horizontale. Si les définitions étaient parfaites, une seule dimension suffirait. On pourrait reconstruire la grille, par exemple, juste avec les définitions horizontales. Mais comme on ne sait pas toujours à quoi correspondent les définitions et qu’il peut y avoir des ambiguïtés (les analogues du bruit, des effacements de bits, etc.), on donne aussi les définitions verticales.

    Le décodage ressemble un peu à ce que peut faire un cruciverbiste. Le décodeur travaille en ligne (il exploite les définitions horizontales), puis passe à la dimension verticale. Comme le cruciverbiste, le décodeur fait plusieurs passes pour reconstruire le message.

    Avec tout ça, les turbocodes sont efficaces.

    Binaire : On te croit. Des milliards d’objets utilisent cette technologie !
    CB : Oui. Toutes les données médias sur la 3G et la 4G sont protégées par les turbocodes.

    Claude Shannon, Wikipedia

    Binaire : Cela nous conduit à un autre Claude : Claude Shannon et la théorie de l’information ?
    CB : Oui avec cet algorithme, on est en plein dans la théorie de l’information. J’ai d’ailleurs contribué récemment à l’organisation du colloque de célébration du centième anniversaire de la naissance de Shannon à l’IHP, un colloque passionnant.

    Shannon a montré que toute transmission (ou stockage) idéale devait normalement se faire avec deux opérations fondamentales. D’abord, pour diminuer la taille du message, on le compresse pour lui enlever le maximum de redondance inutile. Ensuite, pour se protéger contre les erreurs, on lui ajoute de la redondance intelligente.

    Shannon a démontré les limites des codes correcteurs en 1948 ! Les turbocodes atteignent la limite théorique de Shannon, à quelques dixièmes de décibels près !

    ccn
    © Nicolas Rougier

    Binaire : Et maintenant. Tu as glissé vers les neurosciences… 
    CB : Ma recherche actuelle porte sur les neurosciences informationnelles. Récemment, vous avez interviewé Olivier Faugeras qui vous a parlé des neurosciences computationnelles, une approche assez différente.

    Mon point de départ, c’est encore l’information, cette fois dans le cerveau. Le cortex humain est assimilable à un graphe, avec des milliards de nœuds et des milliers de milliards d’arêtes. Il y a des modules spécifiques, et entre les modules, il y a des liens de communication. Je suis persuadé que l’information mentale, portée par le cortex, est binaire.

    Les théories classiques font l’hypothèse que l’information est stockée par les poids synaptiques, des poids sur les arêtes du graphe. Je fais une autre hypothèse. Pour moi, il y a trop de bruit dans le cerveau ; c’est trop fragile, inconstant, instable ; l’information ne peut pas être portée par des poids mais par des assemblées de nœuds. Ces nœuds forment une clique au sens géométrique du terme, c’est-à-dire qu’ils sont tous reliés deux à deux. Cela devient une information numérique.

    Binaire : C’est là que nous allons retrouver le codage et la redondance ? Pour éviter que l’information ne se perde dans le cerveau, il y a aussi des redondances ?
    CB : Oui. Pour l’école classique c’est-à-dire analogique, l’information est portée par les synapses. En ce cas, la redondance ne pourrait être assurée que par des répétitions : plusieurs arêtes porteraient la même information.

    Selon notre approche, l’information est codée dans les connexions d’une assemblée de nœuds. La redondance est présente de façon naturelle dans ce type de codage. Prenez une clique de 10 nœuds dans un graphe. Vous avez 45 connexions dans la clique. Le nombre de connexions est grand par rapport au nombre de nœuds. Je m’appuie sur la règle de Hebb (1949) : lorsqu’un neurone A envoie des spikes et qu’un neurone B s’active systématiquement, la liaison entre A et B va se renforcer si elle existe, et si elle n’existe pas elle va être créée. La clique étant redondante, cela va résonner, une liaison altérée va se renforcer : grâce à la règle de Hebb on a une reconstruction en cas de dégradation. Nous avons bâti toute une théorie autour de ça.

    Binaire : tu nous as largué. Pour faire simple, une clique porte un morceau d’information. Et le fait qu’il y ait tant de redondance dans la clique garantit la pérennité de l’information ?
    CB :  Oui. Et en plus, la clique peut être l’élément de base d’une mémoire associative. Je vais pouvoir retrouver l’information complète à partir de certaines valeurs du contenu. Et ça, c’est dû à la structure fortement redondante des cliques.

    Binaire : Votre travail consiste en quoi ?
    CB : J’ai mis en place une équipe pluridisciplinaire composée de neuropsychologues, neurolinguistes, informaticiens, etc. Nous essayons de concevoir un démonstrateur, une machine inspirée par le modèle du cerveau que nous imaginons, à l’échelle informationnelle. Dans un ordinateur classique, la mémoire est d’un côté et le processeur de l’autre. Dans notre machine, comme dans le cerveau, tout est imbriqué.

    Selon la théorie que nous développons (pas encore complètement publiée), l’information mentale s’appuie sur des petits bouts de connaissance qui sont stockés dans des cliques. Les cliques sont choisies au hasard. Mais quand c’est fait, elles sont définitives. D’un individu à un autre, ce ne sont pas les mêmes cliques qui portent la même information. J’aimerais arriver à faire émerger de l’intelligence artificielle avec ce modèle de machine.

    Binaire : Quelle est ta vision de l’intelligence artificielle ? 
    CB : Il y a en fait deux intelligences artificielles. Il y a d’abord celle qui s’intéresse aux sens, à la vision, à la reconnaissance de la parole par exemple. On commence à savoir faire cela avec le deep learning. Et puis, il y a celle qui nous permet d’imaginer et de créer, de savoir répondre à des questions inédites. Ça, on ne sait pas faire pour le moment. Pour moi, la seule façon d’avancer sur cette IA forte est de s’inspirer du cortex humain.

    Ce sujet me passionne. J’aimerais le voir progresser et continuer à faire longtemps de la recherche.

    Entretien recueilli par  Serge Abiteboul et Christine Froidevaux

    Voir aussi dans Binaire, Shannon, information et Sudoku