Catégorie : Communication

Un turbo dans l’algo

Un nouvel « Entretien autour de l’informatique ». Serge Abiteboul et Christine Froidevaux interviewent Claude Berrou, un informaticien et électronicien, membre de l’Académie des sciences. Claude Berrou est Professeur à IMT Atlantique. Il est notamment connu pour ses travaux sur les turbocodes, très utilisés en téléphonie mobile. Sa recherche porte aujourd’hui sur les neurosciences informationnelles.

Cet article est publié en collaboration avec TheConversation
English version

Claude Berrou, Page perso

Binaire : Tu étais électronicien au départ, comment es-tu arrivé à l’informatique ?
CB : Je suis un randonneur des sciences. Après une formation initiale à l’école qui s’appelle aujourd’hui Phelma, j’ai fait un peu de tout : électronique, traitement de signal, architecture de circuits. Puis je suis arrivé à l’informatique… par hasard, avec les codes correcteurs et la théorie de l’information.

Binaire : Une question que nous adorons poser à Binaire, c’est quoi l’informatique pour toi ?
CB : J’ai un aphorisme : l’informatique est à la science, ce que le langage naturel est à l’intelligence. Avant l’informatique, la science, c’étaient des équations, des formules et des théorèmes. L’informatique a permis de mettre en place des séquences d’opérations, des processus, des procédures, pour pouvoir traiter des problèmes complexes. Du coup, c’est presque synonyme de langage et c’est très comparable au langage naturel qui oblige à structurer. De même qu’on a un langage commun, l’informatique propose des langages compréhensibles par tous.

Binaire : Tu as travaillé sur les codes correcteurs. Tu peux nous dire à quoi ça sert ?
CB : Quand on transmet de l’information, on veut récupérer le message émis parfaitement. Même si on a beaucoup d’utilisateurs, et une bande passante limitée. Si le message est binaire, à cause du bruit et des interférences qui perturbent la ligne, certains 0 émis vont devenir des 1 reçus, des 1 devenir des 0. Plus le bruit est important par rapport au signal, plus fréquentes sont de telles erreurs. Le rapport signal sur bruit peut être dégradé, par exemple, par de mauvaises conditions météo ou par des perturbations causées par d’autres communications qui s’exécutent en même temps. Avec autant d’erreurs, la qualité est déplorable. Pour éviter cela, on code l’information à l’émission en ajoutant de la redondance. Le défi, c’est d’être capable de récupérer relativement bien le message sans avoir à mettre trop de redondance, sans trop faire grossir le message. Nous avons un peu le même problème avec le stockage dans les mémoires de masse. Des bits peuvent permuter, peut-être à cause de l’usure du disque. On introduit aussi de la redondance dans ces systèmes pour pouvoir récupérer l’information.

Binaire : Tu nous parles de ta super invention, les turbocodes.
CB : Les turbocodes sont nés grâce au Titanic, lorsqu’il a fallu assurer la transmission sans câbles de vidéos pour visualiser cette épave (des travaux d’Alain Glavieux). Je me suis amusé à essayer de diminuer l’effet du bruit dans les transmissions, et j’ai pensé qu’on pourrait introduire dans le décodage, pour le traitement d’erreurs, le principe de contre-réaction, une notion classique en électronique.

Pour moi, l’interdisciplinarité est fondamentale ; l’innovation est souvent à l’interface des disciplines. Vous prenez une idée qui a prouvé qu’elle marchait quelque part dans les sciences, et vous essayez de l’adapter dans un tout autre contexte. L’idée à l’origine des turbocodes, c’est d’importer une technique d’électronique en informatique.

Quand on veut réaliser un amplificateur avec un gain élevé, on en met 2 ou 3 en série. Mais ça donne des trucs instables. Pour stabiliser le montage, on met en œuvre un principe de contre-réaction : renvoyer vers l’entrée de l’amplificateur une fraction de sa sortie, avec le signe « – » , cela atténue les variations intempestives.

Je suis parti d’un algorithme connu : l’algorithme de Viterbi. Il permet de corriger (s’il n’y a pas trop de bruit) les erreurs survenues lors d’une transmission à travers un canal bruité et peut donc être considéré comme un amplificateur de rapport signal sur bruit. Le décodeur de Viterbi connaît la loi algébrique qui a servi à construire la redondance du message codé et l’exploite dans un treillis (l’équivalent déterministe d’une chaîne de Markov) et délivre ainsi le message d’origine le plus probable. J’ai donc mis deux algorithmes de Viterbi en série. Et j’ai ensuite essayé d’implémenter la notion de contre-réaction dans le décodage. C’est délicat et je n’étais pas un expert du codage.

Un problème, c’est que l’algorithme de Viterbi fait des choix binaires : le bit a été permuté ou pas. Nous l’avons adapté, avec un collègue, Patrick Adde, pour qu’il fournisse des décisions probabilistes, ce qui améliore nettement la performance du décodeur qui suit.

Turbo, Lauri Rantala, Flickr

Binaire : comment ça fonctionne ?
CB : Comme je l’ai expliqué, pour protéger un message, on ajoute de la redondance. Le turbocode réalise le codage sur deux dimensions. Une bonne analogie est une grille de mots croisés avec les dimensions verticale et horizontale. Si les définitions étaient parfaites, une seule dimension suffirait. On pourrait reconstruire la grille, par exemple, juste avec les définitions horizontales. Mais comme on ne sait pas toujours à quoi correspondent les définitions et qu’il peut y avoir des ambiguïtés (les analogues du bruit, des effacements de bits, etc.), on donne aussi les définitions verticales.

Le décodage ressemble un peu à ce que peut faire un cruciverbiste. Le décodeur travaille en ligne (il exploite les définitions horizontales), puis passe à la dimension verticale. Comme le cruciverbiste, le décodeur fait plusieurs passes pour reconstruire le message.

Avec tout ça, les turbocodes sont efficaces.

Binaire : On te croit. Des milliards d’objets utilisent cette technologie !
CB : Oui. Toutes les données médias sur la 3G et la 4G sont protégées par les turbocodes.

Binaire : Cela nous conduit à un autre Claude : Claude Shannon et la théorie de l’information ?
CB : Oui avec cet algorithme, on est en plein dans la théorie de l’information. J’ai d’ailleurs contribué récemment à l’organisation du colloque de célébration du centième anniversaire de la naissance de Shannon à l’IHP, un colloque passionnant.

Shannon a montré que toute transmission (ou stockage) idéale devait normalement se faire avec deux opérations fondamentales. D’abord, pour diminuer la taille du message, on le compresse pour lui enlever le maximum de redondance inutile. Ensuite, pour se protéger contre les erreurs, on lui ajoute de la redondance intelligente.

Shannon a démontré les limites des codes correcteurs en 1948 ! Les turbocodes atteignent la limite théorique de Shannon, à quelques dixièmes de décibels près !

© Nicolas Rougier

Binaire : Et maintenant. Tu as glissé vers les neurosciences…
CB : Ma recherche actuelle porte sur les neurosciences informationnelles. Récemment, vous avez interviewé Olivier Faugeras qui vous a parlé des neurosciences computationnelles, une approche assez différente.

Mon point de départ, c’est encore l’information, cette fois dans le cerveau. Le cortex humain est assimilable à un graphe, avec des milliards de nœuds et des milliers de milliards d’arêtes. Il y a des modules spécifiques, et entre les modules, il y a des liens de communication. Je suis persuadé que l’information mentale, portée par le cortex, est binaire.

Les théories classiques font l’hypothèse que l’information est stockée par les poids synaptiques, des poids sur les arêtes du graphe. Je fais une autre hypothèse. Pour moi, il y a trop de bruit dans le cerveau ; c’est trop fragile, inconstant, instable ; l’information ne peut pas être portée par des poids mais par des assemblées de nœuds. Ces nœuds forment une clique au sens géométrique du terme, c’est-à-dire qu’ils sont tous reliés deux à deux. Cela devient une information numérique.

Binaire : C’est là que nous allons retrouver le codage et la redondance ? Pour éviter que l’information ne se perde dans le cerveau, il y a aussi des redondances ?
CB : Oui. Pour l’école classique c’est-à-dire analogique, l’information est portée par les synapses. En ce cas, la redondance ne pourrait être assurée que par des répétitions : plusieurs arêtes porteraient la même information.

Selon notre approche, l’information est codée dans les connexions d’une assemblée de nœuds. La redondance est présente de façon naturelle dans ce type de codage. Prenez une clique de 10 nœuds dans un graphe. Vous avez 45 connexions dans la clique. Le nombre de connexions est grand par rapport au nombre de nœuds. Je m’appuie sur la règle de Hebb (1949) : lorsqu’un neurone A envoie des spikes et qu’un neurone B s’active systématiquement, la liaison entre A et B va se renforcer si elle existe, et si elle n’existe pas elle va être créée. La clique étant redondante, cela va résonner, une liaison altérée va se renforcer : grâce à la règle de Hebb on a une reconstruction en cas de dégradation. Nous avons bâti toute une théorie autour de ça.

Binaire : tu nous as largué. Pour faire simple, une clique porte un morceau d’information. Et le fait qu’il y ait tant de redondance dans la clique garantit la pérennité de l’information ?
CB : Oui. Et en plus, la clique peut être l’élément de base d’une mémoire associative. Je vais pouvoir retrouver l’information complète à partir de certaines valeurs du contenu. Et ça, c’est dû à la structure fortement redondante des cliques.

Binaire : Votre travail consiste en quoi ?
CB : J’ai mis en place une équipe pluridisciplinaire composée de neuropsychologues, neurolinguistes, informaticiens, etc. Nous essayons de concevoir un démonstrateur, une machine inspirée par le modèle du cerveau que nous imaginons, à l’échelle informationnelle. Dans un ordinateur classique, la mémoire est d’un côté et le processeur de l’autre. Dans notre machine, comme dans le cerveau, tout est imbriqué.

Selon la théorie que nous développons (pas encore complètement publiée), l’information mentale s’appuie sur des petits bouts de connaissance qui sont stockés dans des cliques. Les cliques sont choisies au hasard. Mais quand c’est fait, elles sont définitives. D’un individu à un autre, ce ne sont pas les mêmes cliques qui portent la même information. J’aimerais arriver à faire émerger de l’intelligence artificielle avec ce modèle de machine.

Binaire : Quelle est ta vision de l’intelligence artificielle ?
CB : Il y a en fait deux intelligences artificielles. Il y a d’abord celle qui s’intéresse aux sens, à la vision, à la reconnaissance de la parole par exemple. On commence à savoir faire cela avec le deep learning. Et puis, il y a celle qui nous permet d’imaginer et de créer, de savoir répondre à des questions inédites. Ça, on ne sait pas faire pour le moment. Pour moi, la seule façon d’avancer sur cette IA forte est de s’inspirer du cortex humain.

Ce sujet me passionne. J’aimerais le voir progresser et continuer à faire longtemps de la recherche.

Entretien recueilli par Serge Abiteboul et Christine Froidevaux

Voir aussi dans Binaire, Shannon, information et Sudoku

23 janvier 2017
Shannon, information et Sudoku…

2016 est l’année Shannon – Claude Shannon aurait eu 100 ans cette année. Il est le génial inventeur de la théorie de l’information, qui a des impacts importants en informatique, par exemple pour la compression de données. Binaire a demandé à Vincent Gripon de nous expliquer le concept théorique « d’information » au sens de Shannon. Essayez de sentir le lien avec ce que nous appelons aujourd’hui « information » ou « données ». Serge Abiteboul.

Cet article est publié en collaboration avec TheConversation.

Graffiti représentant Claude Shannon, Demeure du Chaos de Saint-Romain-au-Mont-d’Or, d’après une photo de 1963. Wikipedia

Mesurer l’information

Signal, données, contenu, sémantique, pas facile de s’y retrouver… Il se cache pourtant une grandeur mesurable parmi ces quatre notions, étudiée depuis le milieu du XXe siècle par les mathématiciens, les physiciens et les informaticiens. Cette grandeur, c’est l’information. Mais c’est quoi, au juste, un élément d’information ?

Réfléchissez-y. Vous pouvez vous représenter ce qu’est un mètre, un litre, un gramme, mais pouvez- vous déterminer ce qu’est une unité d’information ? Par exemple, si je vous dis que la milliardième décimale de π est un 9, combien vous ai-je transmis d’unités d’information ?

Le comble de cet exemple est que je ne peux moi-même pas vous répondre. Ou plus exactement tout dépend : si vous le saviez déjà alors je ne vous ai transmis aucune information. À l’opposé, si vous n’en aviez pas la moindre idée alors je vous ai transmis suffisamment d’unités d’information pour déterminer lequel des 10 chiffres possibles est le bon.

C’est contre-intuitif, mais la notion d’information est étroitement liée à celle d’événements aléatoires. Pour mieux comprendre, prenons un exemple. Je tire à pile ou face une pièce de monnaie et je vous communique le résultat. À priori, il y a autant de chances pour que je vous dise “pile” ou “face”. Avoir deux possibilités avec la même probabilité correspond exactement à une unité binaire d’information. On l’appelle le Shannon, en hommage au père de la théorie de l’information. Si je lance maintenant deux fois de suite ma pièce et vous communique les deux résultats obtenus, je vous transmettrai donc deux Shannons. Si par contre ma pièce de monnaie est irrégulière et a plus de chances de donner “pile” que “face” (et que vous le savez), alors je ne vous transmettrai plus exactement deux Shannons d’information, mais un peu moins, car vous pouvez prédire partiellement le résultat. Dans le cas extrême où ma pièce de monnaie est truquée et ne peut que donner “face”, je ne vous transmets plus aucune information. S’il n’y a plus d’aléatoire, il n’y a plus d’information !

En général, la quantité d’unités d’information est relative à celui qui la reçoit. C’est le cas avec l’exemple de la milliardième décimale de Pi. En mathématiques, on est davantage intéressé par une notion universelle d’information, définie indépendamment de celui qui la manipule. C’est le cas avec l’exemple de la pièce de monnaie : tant que la pièce n’a pas été lancée, personne ne peut prédire le résultat.

En théorie de l’information, tout part donc du principe que la réalisation d’un événement aléatoire ayant peu de chances de se produire porte beaucoup d’unités d’information, alors que celle d’un événement aléatoire ayant beaucoup de chances de se produire n’en porte presque pas. C’est logique non ? Si je vous dis que demain le soleil va se lever, je ne vous aurais pas transmis beaucoup de Shannons. Si je vous dis que mon numéro de carte bleue se termine par 142857, je vous en aurais transmis beaucoup.

Information et données

Tous les jours nous échangeons, notamment par le biais de l’Internet, des quantités astronomiques de données, codées sous la forme de valeurs binaires (des “bits”), mais bien moins d’unités d’information.

Pour comprendre la notion d’information, il est essentiel de la différencier de celle de donnée. Prenons un exemple. J’ai une amie qui vient d’accoucher. Je lui envoie un SMS pour lui demander le sexe du nouveau-né. Dans ma vision des choses, il y a autant de chances pour qu’il s’agisse d’un garçon ou d’une fille. Sa réponse me transmettra donc exactement un Shannon. Pour me répondre, elle m’enverra probablement une phrase constituée de plusieurs caractères, chacun étant représenté par plusieurs bits. Je vais donc recevoir plusieurs dizaines de bits de données pour un seul Shannon.

Notre cerveau est coutumier du fait. On estime à cent millions de bits par seconde la quantité de données transmises depuis le cortex visuel vers les aires profondes de notre néocortex. La plupart de ces données nous sont complètement inutiles, et portent par ailleurs bien peu d’éléments d’information.

Faire en sorte qu’un bit de donnée corresponde exactement à un Shannon, c’est le rêve des spécialistes de la compression. En effet, compresser, c’est réduire la taille des données en maintenant exactement la même quantité d’information. C’est par exemple ce que vous faites quand vous compressez un fichier informatique. Un résultat fondamental de la théorie de l’information est qu’un bit de donnée ne peut pas correspondre à plus d’un Shannon. Par exemple, si je crée un fichier informatique en y inscrivant des valeurs 0 ou 1 et en tirant chaque bit à pile ou face, je ne pourrai pas le compresser : il contiendra déjà autant de bits que de Shannons.

La redondance

Une information n’est utile que si elle est manipulée. En pratique il s’agit souvent de la transmettre ou de la stocker. Et ce n’est pas si simple !

Quand on discute dans un endroit bruyant, on est coutumier du fait de manquer des bouts de conversation. Il en va de même pour les systèmes numériques. Toute transmission d’un message est sujette à altérations. La cause ? Les interférences, les atténuations, les erreurs dans les systèmes traitant l’information… Il est alors nécessaire de la protéger.

Du fait de la miniaturisation des composants et de leur multiplication, les systèmes de stockage ont perdu en fiabilité. Il ne s’agit pas uniquement de pertes de données, mais aussi de corruption de leur contenu. Ils requièrent donc des mécanismes de protection de l’information. C’est en particulier le cas des circuits électroniques que nous utilisons au quotidien.

Pour protéger l’information vis-à-vis des perturbations, on utilise de la “redondance”. C’est une forme subtile de répétition. Les théoriciens de la redondance ont imaginé plein de stratégies efficaces pour créer de la redondance. Aujourd’hui la plupart des systèmes utilisés s’appuient sur le principe du codage distribué, un principe qui vous est bien plus familier que vous ne l’imaginez…

Le meilleur exemple de codage distribué, c’est la grille de Sudoku. Le principe du Sudoku est une façon efficace de protection de l’information. En effet, le but du jeu consiste à retrouver le contenu des cases effacées à partir de celui des cases restantes : c’est exactement la robustesse que l’on recherche dans les systèmes numériques. La grille de Sudoku n’est pas définie par une seule règle très compliquée, mais plutôt en combinant 27 règles simples : 9 pour les lignes, 9 pour les colonnes, et 9 pour les petits carrés.

Chacune de ces règles prise indépendamment des autres n’est pas très robuste. Prenez par exemple une ligne d’une grille de Sudoku sur laquelle manquent deux chiffres. Vous pouvez déduire des chiffres restants quels sont les chiffres manquants, mais vous ne pouvez pas retrouver leurs emplacements. Par contre, quand vous mettez ensemble les 27 règles, vous parvenez à retrouver les chiffres manquants de la grille, même dans certaines situations où ils représentent plus de la moitié des 81 cases.

3 8 7 4 1 ? 5 9 ?

Où sont le 2 et le 6?

Si vous avez tout compris à cet article, la prochaine fois que vous résoudrez un Sudoku vous saurez que vous ne cherchez pas de l’information manquante, mais des données manquantes, et la prochaine fois que vous ferez répéter au téléphone, vous ne ferez qu’augmenter le taux de redondance !

Vincent Gripon, Institut Mines-Télécom Atlantique

19 décembre 2016
La crypto quantique débarque

La tâche est plus vieille que Le Monde : A (comme Angela) souhaite communiquer un message à B (comme Barack) tout en empêchant E (comme Edward) de l’intercepter. Nous savons faire avec des techniques sophistiquées de cryptographie comme RSA. Mais il parait que la mécanique quantique va ouvrir de nouvelles possibilités. Binaire a demandé à un ami, Alexei Grinbaum, ce qu’il en est. Serge Abiteboul, Thierry Viéville.

Cet article est publié en collaboration avec TheConversation.

Partager un secret avec une clé secrète. Le lecteur de Binaire n’aura guère de difficulté à imaginer que le message soit une suite de 0 et 1. La méthode imbattable consiste à utiliser une « clé de chiffrement jetable ». C’est une séquence de 0 et de 1, aléatoire et au moins aussi longue que le message à transmettre. Supposons qu’Angela souhaite transmettre le message « 11111 » à Barack et que la clé aléatoire, tenue secrète, soit « 10110 ». Alors Angela intervertit le premier, le troisième et le quatrième bits du message (comme l’indiquent les 1 dans la clé) et publie en clair « 01001 ». Barack, qui connaît la clé secrète, intervertit les mêmes trois bits et reconstruit le message « 11111 ». Edward n’a aucune chance de rétablir ce message en ayant accès à la seule transmission chiffrée.

Alexei Grinbaum, CEA

Mais une clé qui se renouvelle sans cesse ! Un problème est que la clé est « jetable ». Si par aventure Angela l’utilisait plusieurs fois, Edward finirait par la découvrir en faisant des analyses statistiques.

Ce que l’on aimerait, c’est un monde idéal où Angela et Barack disposeraient d’une source illimitée de clés. Imaginons qu’ils possèdent deux pièces de monnaies, A et B, qui, lorsqu’on les lance, tombent sur pile, qu’on comprendra comme « 0 », ou sur face, le « 1 », de façon aléatoire, mais, par un coup de magie, à chaque fois les deux tombent du même coté. S’ils pouvaient disposer de telles pièces, Angela et Barack pourraient jouer à pile ou face autant de fois qu’ils le souhaitent et se fabriquer sans limite des clés secrètes. Un détail : dans notre monde, à notre échelle, de telles pièces magiques n’existent pas. Alors ? Patience.

Mieux encore une clé qu’il serait inutile de voler ! Nous devons aussi garantir qu’Edward ne puisse intercepter le message en se procurant un troisième clone de la même pièce. Attaquons nous à cette dernière condition. Pour y trouver une solution, nous allons tirer profit d’une valeur que l’on ne rencontre pas souvent dans un problème de sciences : la liberté !

Supposons qu’Angela et Barack possèdent deux pièces de monnaie magiques, A1 et A2 pour la première, B1 et B2 pour le second. Pour obtenir un bit, Angela choisit librement entre A1 et A2 et lance la pièce. Barack fait de même avec B1 et B2. Ils vont recommencer autant de fois qu’ils le souhaitent. Les quatre pièces sont magiques : à chaque coup, si Angela choisit A1 et Barack B1, les deux pièces disent la même chose ; idem dans les cas (A1, B2) et (A2, B1) ; mais dans le cas (A2, B2), les pièces disent le contraire l’une de l’autre. Bref, le résultat individuel ne dépend que du choix local d’Angela ou Barack, mais la relation entre ces choix dépend de ce que font A et B conjointement.

Maintenant Angela et Barack peuvent construire une clé secrète. Pour Angela, c’est juste la séquence de bits que lui indiquent les pièces. Pour Barack, il garde le bit que lui donne sa pièce dans trois cas, et il l’intervertit dans le cas (A2,B2). Ce mécanisme garantit que le message ne sera pas intercepté par Edward. Car, même s’il est capable de cloner une pièce d’Angela, il ne connaît pas le choix de Barack. S’il lance un clone de A1 au moment où Angela choisit — toujours librement ! — de jouer A2, alors ce lancement simultané, et de A1 (cloné) et de A2 entrave le libre arbitre de Barack, puisque aucune valeur ne peut être attribuée à ses pièces (rappelons que A1=B2, mais A2≠B2, d’où la possibilité de contradiction).

Oui mais si tout cela n’existe pas ? À notre échelle, de telles pièces magiques n’existent pas. Des corrélations aussi parfaites entre elles sont en réalité inatteignables. Et puis la liberté des agents elle aussi est douteuse. Mais à l’échelle de l’infiniment petit, la cryptographie quantique pallie d’une manière spectaculaire à ces défauts.

Un exemple de dispositif qui permet d’implémenter un tel protocole de distribution quantique de clé, basé sur l’utilisation de photons transmis à travers une fibre optique. ©National Institute of Standards and Technology, via commons.wikimedia.org. Au moment où sort ce billet, un nouveau record de distance* (plus de 400km entre les points A et B) vient d’être publié.

À la place des pièces, la cryptographie quantique utilise des paires de particules quantiques intriquées, souvent des photons. Grâce à un phénomène, l’intrication quantique, on arrive à des corrélations imparfaites, certes, mais proches de plus de 80% de celles qu’ont les pièces de monnaie dans le monde idéal. En se servant alors de la propriété de non-localité quantique, c’est-à-dire d’un lien simultané entre deux phénomènes distants, séparés dans l’espace, Angela et Barack arrivent à partager des bits avec une corrélation suffisamment forte pour que la communication reste protégée contre les intrusions. En plus, Edward ne peut s’immiscer entre Angela et Barack et intercepter leurs communications à cause d’une propriété de l’intrication quantique dont le nom fort à propos est « monogamie » : à chaque particule, pas plus d’un partenaire intriqué à la fois !

Plus de 80%, ce n’est pas idéal. Pourtant on prouve que c’est suffisant pour que les protocoles quantiques de distribution des clés secrètes puissent assurer la protection parfaite de la communication entre Angela et Barack.

Un enjeu de recherche colossal. Où en sommes-nous dans la réalisation pratique de ces procédés ? Depuis peu, la sécurité absolue qu’offre la cryptographie quantique est vraiment devenue atteignable. Nous entrons dans une ère où les expériences scientifiques, mais aussi des produits technologiques et industriels, se développent de plus en plus rapidement. L’Europe se prépare à lancer un nouveau financement gigantesque de ce secteur à la hauteur de 1 milliard d’euros. Bientôt, la cryptographie quantique prendra le relai des techniques conventionnelles de cryptage.

Alexei Grinbaum, CEA.

En savoir plus:
– La mécanique des étreintes, Alexei Grinbaum, 2014.
– L’intrication quantique : https://en.wikipedia.org/wiki/Quantum_entanglement.
– Distribution quantique de clés : https://en.wikipedia.org/wiki/Quantum_key_distribution
– Le 9 novembre à 19h30, un bar des sciences sur la cryptographie quantique, http://bardessciences.net/
– Et pour les spécialistes 16-18 novembre, un colloque scientifique sur les technologiques quantiques https://iqfacolloq2016.sciencesconf.org/

(*) http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.117.190501

8 novembre 2016

L’algorithme épidémique

Je serais… épidémique

Nous continuons la rubrique « Si j’étais un algorithme » avec Anne-Marie Kermarrec qui est Directrice de Recherche Inria à Rennes, et récemment CEO and co-fondatrice de la startup « Mediego ». C’est une spécialiste, entre autres, des systèmes distribués en pair-à-pair, et des algorithmes épidémiques. Anne-Marie, une longue contributrice et amie de Binaire, a choisi de nous parler justement d’algorithmes épidémiques. Serge Abiteboul.
Cet article est publié en collaboration avec The Conversation.

Aujourd’hui, difficile de faire un faux pas quand on est une célébrité sans que le monde entier ne soit au courant… Échapper au buzz quand il se manifeste à l’échelle planétaire relève de l’impossible : qu’on le veuille ou non, chacun d’entre nous a fini par vaguement se dandiner sur le rythme de Gangnam Style, cet improbable coréen, devenu brutalement une star du Web. Et les exemples foisonnent. On parle d’ailleurs de diffusion virale, on met en garde nos adolescents « soyez vigilants au sujet des contenus que vous postez sur Facebook, ils se diffusent comme une trainée de poudre ». Comment cette information se propage exactement ? Pourquoi est-ce un modèle de communication si efficace ? Et bien, tout cela est orchestré par des algorithmes de diffusion épidémique.

Épidémique ?

Une épidémie est une maladie, comme la grippe, la peste, le choléra, qui se propage très rapidement au sein d’une population et le plus souvent par contagion de personne à personne. Tiens, c’est aussi comme ça qu’une rumeur se propage, très vite, entre des personnes qui se croisent et qui, de manière extrêmement efficace et décentralisée, diffusent cette rumeur. Épidémies et rumeurs se caractérisent par une contamination très rapide et très efficace et il s’avère que les mathématiques sous-jacentes, les mathématiques épidémiques, ont été très étudiées dans de nombreux domaines.

Le rapport avec l’informatique ?

Si nous remplaçons les gens par des ordinateurs et les commérages par des messages électroniques, nous obtenons un nouveau modèle de communication fiable, rapide, capable de passer à l’échelle. C’est le Graal pour diffuser une information rapidement sur Internet !

Justement, les algorithmes épidémiques ont été utilisés dans de nombreux contextes sur Internet : pour diffuser des messages à un très grand nombre de gens, pour améliorer la qualité et la latence du streaming vidéo, pour surveiller de grands systèmes informatiques comme par exemple s’assurer qu’aucun ordinateur n’est défaillant dans un centre de données ou encore tout simplement pour diffuser des données sur les réseaux sociaux.

Pourquoi ces algorithmes épidémiques sont-ils si séduisants pour la diffusion. Dans tous ces contextes, l’objectif est d’envoyer une information (la vidéo, un tweet, une alerte, etc.) à un grand nombre de destinataires. Quels sont les critères qui importent ? Que l’information arrive (1) vite et (2) à tout le monde. Les algorithmes candidats pour ce faire sont nombreux.

Les algorithmes centralisés

C’est la solution qui vient en premier à l’esprit : on confie la responsabilité de l’envoi de l’information à l’ensemble des destinataires à un serveur central. En théorie, le message arrive vite et bien (c’est à dire à tout le monde). Oui, mais deux problèmes se posent quand on l’applique à un système informatique de très grande taille.

Le serveur central doit faire tout le travail et le « tuyau de communication » qui sort de cette entité pour aller sur Internet a bel et bien un diamètre limité (on parle de bande passante). Donc le serveur ne peut pas envoyer simultanément les messages à des millions de destinataires, il faut qu’il les envoie l’un après l’autre… Et ça prend du temps.
Le deuxième problème, c’est que ce serveur central doit rester au top pendant tout le processus. Si pour une raison ou une autre il est défaillant (panne de courant, bug, attaque), les destinataires qui n’avaient pas encore reçu le message ne le recevront pas toute de suite, peut-être jamais. Et il n’est pas nécessaire de vous dire que les ordinateurs ne fonctionnent pas toujours comme ils le devraient. Vous avez sûrement déjà remarqué.

Les algorithmes hiérarchiques

Une alternative est d’organiser tous les destinataires en une hiérarchie, un arbre par exemple, pour se partager le boulot. L’envoyeur original envoie le message à n destinataires, qui chacun le renverront à n autres, etc. Cette solution nous force tout d’abord à organiser tous les destinataires en arbre mais elle présente l’avantage d’éviter qu’un seul serveur fasse tout le travail. Tous les nœuds intermédiaires de l’arbre participent. Le message arrive assez rapidement à chacun. En revanche, si un des ces intermédiaires tombe en panne, tous les destinataires qui en dépendent ne le recevront peut-être jamais. Avec cette technique, on a résolu le passage à l’échelle mais les défaillances posent toujours problème.

Les algorithmes épidémiques, c’est mieux !

Remarquez que les épidémies continuent à se propager si quelques personnes sont clouées au lit avant d’avoir pu transmettre le virus à quiconque et les rumeurs ne sont clairement pas étouffées parce que quelques personnes bien intentionnées résistent à la tentation de les colporter.

Diffuser de l’information avec un algorithme épidémique dans un très grand système consiste donc d’abord à demander à tous les destinataires de participer pour être certain que cela fonctionnera même avec un grand nombre de destinataires. Il faut ensuite accepter qu’un nœud reçoive plusieurs fois le même message : c’est le prix pour résister aux pannes. Enfin, il faut utiliser l’aléatoire pour éviter que le nombre de messages ne devienne abusif et avoir de bonnes propriétés de propagation.

Considérons donc une entité qui doit envoyer une information à un très grand nombre N de destinataires.

L’entité choisit au hasard n destinataires et leur envoie l’information.
À la réception de ce message, chaque destinataire
- S’il a déjà reçu l’information, ne fait rien (il est déjà infecté).
- Sinon, il devient infecté et il contribue alors à la dissémination : il choisit à son tour n destinataires au hasard et leur envoie l’information.
Et ainsi de suite, jusqu’à ce que l’information cesse d’être diffusée car l’ensemble des N destinataires a été déjà infecté.

Cet algorithme est rapide, capable de passer à l’échelle et supporte admirablement bien les défaillances des uns et des autres. Il est rapide car le nombre de personnes recevant le message se multiplie à chaque étape lors de la première phase (ensuite bien entendu, il est de moins en moins probable de toucher quelqu’un« non-infecté´´). Mais il est fiable car la probabilité que tous les destinataires reçoivent l’information est très très élevée, y compris si certains destinataires ne transmettent pas l’information, parce qu’ils sont en panne par exemple. Il passe à l’échelle car si chaque participant doit envoyer son information à un nombre n de destinataires environ égal au logarithme de N, alors toutes ses propriétés sont garanties. Logarithme ? Par exemple si chaque entité transmet son information à 6 destinataires dans un système de 1 million de participants, cela convient. De plus sa charge de travail passe à 9, donc augmente très peu quand on passe à un système de 1 milliard de participants. C’est dans tous les cas beaucoup plus faible que le nombre d’amis que chacun d’entre nous a sur Facebook !

Vous avez dit « logarithme´´ ? La définition informatique est très facile !

C’est tout simplement «combien de fois je peux diviser un grand nombre par un autre nombre, disons dix». On essaye ? Prenons N = 1000 destinataires, divisé par dix, cela fait 100, divisé encore par dix, cela fait 10, et encore divisé par dix, voilà 1, divisé par dix, ah … non, ce n’est pas possible, on a fini. Je peux donc diviser N = 1000, n = 3 fois de suite par dix avant de trouver 1. Le logarithme décimal de 1000 est donc 3. Celui de un million ? Ce sera 6, essayez.
En tout, c’est plus facile à expliquer que la définition mathématique 🙂

En fait il existe beaucoup d’autres algorithmes épidémiques qui se distinguent par exemple, par le choix des destinataires, comme les « influenceurs » qui ont de nombreux followers sur Twitter. Pour certains autres de ces algorithmes, c’est le destinataire qui demande, quand il le souhaite, le message, etc.

Des algorithmes, qui fonctionnent un peu comme les épidémies ou les rumeurs, permettent des mécanismes de diffusion puissants, efficaces et robustes aux défaillances, bien adaptés aux très grands systèmes informatiques dont la taille ne cesse d’augmenter. Et puis ces algorithmes peuvent très facilement être mis en œuvre sans aucune autorité centrale, ce qui est pratique dans le cas de nombreux systèmes, par exemple, les systèmes de l’internet des objets, très tendances !

Anne-Marie Kermarrec

10 octobre 2016

C’est clair, Net et Public
Aujourd’hui, nous sommes tous des usagers du numérique ; du plus grand au plus petit (la formule de 7 à 77 ans est devenue obsolète), nous cherchons de l’information, nous utilisons des applications les plus diverses et variées, nous publions des photos ou bien encore nous fournissons nos données à une large gamme de sites sur internet, pour les plus aguerris. Par contre, nous ne sommes pas forcément tous égaux devant cet environnement numérique, certains sont même totalement démunis devant l’usage d’internet. Parmi les 2,5 millions de résultats proposés par votre moteur de recherche sur le terme de « ressource numérique », nous vous proposons de vous arrêter sur un site : NetPublic. Pourquoi ? Tout simplement parce qu’il propose « d’accompagner et de favoriser l’accès de tous à la maîtrise des usages du numérique ».

NetPublic est un site édité par l’Agence du Numérique directement rattachée au Ministère de l’Économie et des Finances. Le site est organisé par grandes sections reflétant les grands axes de cet ambitieux programme : les espaces publics numériques (EPN), les emplois d’avenir numériques (Eavnum), le passeport internet et multimédia (PIM), les initiatives liées au numérique, les ressources classées par publics ou besoins et une rubrique spécifique pour les animateurs en chargent de la transmission et de l’accompagnement pédagogique auprès de tout type de population.

Les objectifs affichés sont de :
- faire connaître à tous les lieux d’accès public et d’accompagnement à l’Internet et les services qu’ils proposent, faciliter la recherche de ces services,
- offrir aux professionnels et aux bénévoles qui animent ces lieux et ces services un espace gratuit d’information, de ressources, de partage et de valorisation de leurs initiatives,
- favoriser la mutualisation de ressources, les échanges entre les acteurs et contribuer au développement d’une communauté de professionnels de l’accompagnement à l’Internet et au numérique.
NetPublic est donc moins destiné aux usagers qui ont besoin d’être encadrés dans leur pratique ou découverte du numérique qu’aux acteurs et professionnels de l’accompagnement aux Technologies de l’Information et de la Communication, aux responsables et animateurs d’espace public numérique (EPN), aux médiateurs numériques. Par effet de bord, le site connait une popularité grandissante auprès de tous ceux dont l’activité est liée au numérique, autant dire énormément de monde.

NetPublic regorge de contenus et de liens permettant d’enrichir sa culture numérique. On imagine sans mal la petite équipe derrière ce portail ; un ou deux rédacteurs appuyés par un social média manager ? Il m’a fallu moins de 10 minutes pour recevoir une réponse à ma demande de contact en ligne et comprendre que toutes ces compétences sont le fait d’une seule personne mais pas des moindres. Jean-Luc Raymond est consultant senior en stratégie et projets numériques et l’un des premiers français à s’être engagé sur les réseaux sociaux et à s’y investir. Il a d’ailleurs récemment été classé premier dans le top 10 des « influenceurs » français.

Jean-Luc Raymond – Copyright Nikos Aliagas

Jean-Luc Raymond anime NetPublic depuis sa création, le site a d’ailleurs fêté en toute discrétion ses 6 ans d’existence en juin dernier.

Cet expert des médias sociaux a donc mis ses compétences et ses valeurs au service de la réussite de ce portail. 40% de son activité est dédiée à NetPublic, le reste de son temps est consacré à ses autres projets professionnels et une production éditoriale très abondante sur les réseaux sociaux.
Il parle de NetPublic avec passion et fierté ; « C’est un site de ressources dont 95% est en Creative Commons. En terme d’audience, nous avons entre 100 000 et 150 000 visiteurs par mois, c’est le site qui fait le plus d’audience à l’Agence du Numérique. Nous sommes d’ailleurs très honorés d’être le seul site externe à figurer sur la page de Pole Emploi (pointant sur les lieux d’accès public à internet que référence NetPublic)».

L’anecdote rapportée par Jean-Luc Raymond sur le fait que NetPublic a d’abord débuté sur Twitter avant même que le site soit ouvert (pour des raisons de calendrier), met l’accent sur l’importance donnée à la promotion des articles via les réseaux sociaux. 25% du trafic sur le site passe par ce biais, les quelques 36 300 abonnés sur Twitter et plus de 5000 fans sur Facebook en sont la preuve.

Le rythme de 3 à 4 publications par jour soit environ 40 à 50 articles par mois se maintient grâce à un travail de veille important via les réseaux labellisés ou par les acteurs publics du numérique. La mise en lumière des initiatives locales ou internationales, dès lors que le contenu est francophone (principalement du Canada, de Suisse, de Belgique ou du Luxembourg), a fait notamment exploser l’audience. Les idées d’articles sont donc principalement liées à cette veille qui permet de cerner l’évolution des pratiques, d’être en alerte sur les sujets d’actualités ou sur les besoins exprimés par les animateurs confrontés aux usagers en quête de sens qui déplorent de ne pas trouver des ressources adaptées sur certains sujets. On déplore juste que le site soit esthétiquement désuet et qu’il ne soit pas adaptatif mais comme l’explique Jean-Luc Raymond, la priorité est donnée à la production de contenus pour répondre à la demande de celles et ceux qui accompagnent tous les publics au monde du numérique.

Ce qui participe sans aucun doute à la qualité de ce portail de ressources, ce sont les règles éditoriales qui sont fixées. La neutralité des contenus est privilégiée ainsi que la pertinence des initiatives et la qualité pédagogique des ressources. NetPublic est conscient de sa responsabilité sociale par rapport à l’éducation au numérique à destination du grand public ou des publics en difficulté : informer, éduquer, faire comprendre pour mieux appréhender le potentiel et les risques. A titre d’exemple, les derniers articles publiés reflètent bien la diversité des ressources et des publics. Vous y trouverez par exemple un lexique du numérique pour les seniors, des guides pratiques pour l’accompagnement au numérique à destination des commerçants et artisans, une liste d’applications gratuites pour flouter un visage dans une photo ou une vidéo. La grande fierté qu’évoque son animateur est que le site sert de vitrine à des initiatives locales ce qui a permis à certaines personnes de trouver des emplois grâce à la visibilité qu’avait apporté le site à leur projet.

Et, non, cet article n’est pas de la publicité. C’est juste que Binaire aime beaucoup ce que fait NetPublic. Quelque soit votre niveau de compétences en terme d’usages du numérique, il y aura toujours un article qui pourra vous intéresser sur NetPublic, il vous permettra d’explorer des ressources et des projets modestes ou ambitieux dans le seul but de parfaire votre éducation au numérique.

Binaire souhaite une longue vie à NetPublic !

Marie-Agnès Enard
22 septembre 2016
La culture numérique s’expose et se partage
L’association Fréquence écoles s’engage depuis bientôt 20 ans à favoriser « une attitude critique des jeunes face aux médias ». Composée de professionnels de la communication, de chefs de projets pédagogiques ou d’experts médias, l’association organise des événements, propose des interventions ou des formations ainsi qu’une multitude de ressources à destination des enfants et des adolescents mais aussi pour des enseignants ou des éducateurs. Parmi toutes les actions proposées par l’association pour mieux comprendre notre environnement face aux informations transmises par les médias, binaire a souhaité mettre en avant l’exposition dédiée à la culture numérique.

En mars dernier, Fréquence écoles a organisé, pour son événement Super Demain, l’exposition interactive Comment découvrir le potentiel des cultures numériques pour comprendre et mieux appréhender notre société médiatique et numérique.

Cette exposition est organisée autour de 5 thèmes :
- Jeu-vidéo
- Média
- Data
- Makers
- Enfance
Fréquence écoles

Au total 39 panneaux permettent d’explorer ces thèmes par le biais d’infographies, de chiffres, de définitions, ou encore de pistes de réflexion.

Parce que la culture numérique se partage, comme nous le rappellent nos amis de Pixees qui proposent eux aussi, des ressources autour des sciences du numérique, Fréquence écoles a mis à disposition en téléchargement l’ensemble des contenus de l’exposition (sous licence Creative Commons).
- Téléchargez l’intégralité des contenus produits pour l’exposition, au format affiche.
- Téléchargez les posters un par un.
Et pour terminer sur une petite anecdote, jetez un œil à la composition de l’équipe permanente de l’association, vous aurez un bel exemple que le numérique se conjugue aussi aux féminins.

Marie-Agnès Enard
12 septembre 2016
Twinlife : WhatsApp avec l’éthique en plus

GAFAM © Laure Cornu

Pour communiquer au siècle dernier, nous avions le téléphone et la poste. Si on peut encore envoyer une carte postale au parfum délicieusement suranné, les choses ont bien changé avec les textos, les courriels, les appels vidéo comme Skype, les chats comme WhatsApp, etc. C’est devenu difficile d’innover dans le secteur ? C’est ce que nous croyions jusqu’à notre rencontre avec Michel Gien de Twinlife, qui développe l’application Twinme.
Quel est le problème de tous ces systèmes communicants ? Vos données personnelles sont livrées au tout venant. Si tous ces systèmes ne vont pas jusqu’à lire par dessus votre épaule comme peuvent le faire certains services de courriels, ils s’approprient sans état d’âme vos listes de contacts, vos réseaux sociaux… C’est ce que refuse de faire Twinme.

L’angle de Twinme : le bête numéro de téléphone. Vous vous inscrivez quelque part, et il faut fournir ce numéro. A tout hasard ? Pas du tout. Votre numéro de téléphone n’est plus à vous. N’importe qui peut vous appeler. Et puis, c’est un excellent identifiant. Quoique vous fassiez, vous êtes maintenant repérés. Ces systèmes se repassent ce numéro, se l’approprient. Ils croisent des données à partir de ce numéro.

Avec Twinme, oubliez les numéros de téléphones, c’est ringard ! Si vous n’utilisez plus de numéro de téléphone, vous ne serez déjà plus spammé par téléphone. Vous pouvez chater ou passer un appel audio/vidéo sans numéro de téléphone. Vous êtes autant de profils que vous le souhaitez. Vous contrôlez vos chats, vos appels. C’est vous qui créez, et gérez, les connexions que vous voulez avoir avec vos amis, vos fournisseurs, vos contacts. Vous créez un lien comme vous le voulez, vous le supprimez quand vous voulez. Vous contrôlez votre vie numérique.

Twinme attaque bille en tête les WhatsApp, Skype, Messenger… Cela ne va pas être simple. Surtout que Twinme ne monétisera pas vos données. Il leur faudra trouver autre chose comme de faire payer certains échanges commerciaux. Mais Twinme a un joker : Twinme protège la confidentialité de vos données, protège votre vie privée.

Et la techno là dedans ? Twinme s’appuie sur du pair-à-pair. Il n’est pas nécessaire de passer par un serveur qui pourrait espionner vos communications. Vous communiquez directement. Le système s’appuie sur la technologie WebRTC, un logiciel libre qui offre une super qualité pour des communications audio et vidéo. La protection des données personnelles ne passe pas forcément par une mauvaise qualité.

Un premier marché : les pré-ados. Une carte SimData et le contrôle parental et ils apprennent à n’avoir des communications qu’avec des personnes approuvées par les parents, rencontrées d’abord IRL (« in real life »).

La défense des données personnelles a de nombreuses facettes. La monétisation de ces données est au cœur du business model des poids lourds du net. Chaque jour se dessinent de nouvelles lignes de tension. Cela nous ramène à des sujets que nous avons déjà abordés dans Binaire avec CozyCloud, WeTube, ou les blockchains. S’il n’y a pas de solution miracle, peut-être Twinlife a-t-elle un bout de la solution. Nous verrions bien ces jeunes pousses qui se battent pour la défense de vos données personnelles former une coalition vertueuse. Ensemble, elles apporteraient peut-être une vraie alternative au rouleau compresseur des GAFAM. Nous aimerions y croire…

Serge Abiteboul, Marie Jung

5 septembre 2016