Catégorie : Science des données

  • Prêtez Attention : quand « prêter » est « données » (épisode 2)

    A l’heure où Elon Musk fait un peu n’importe quoi au nom de la liberté d’expression, quand des grands patrons du numérique lui emboitent le pas sans doute pour pousser leurs intérêts économiques, il devient encore plus indispensable de comprendre les mécanismes qui causent des dysfonctionnements majeurs des plateformes numériques.  Ce deuxième épisode d’un article de Fabien Gandon et Franck Michel nous aide à mieux comprendre.  Serge Abiteboul & Thierry Viéville.

    Image générée par les auteurs avec Bing/DALL·E 3 à partir du prompt “photo of a street with many people with their smartphones displaying different hypnotic images” ©CC-BY

    Dans le précédent billet nous vous avons donné l’excuse parfaite pour ne pas avoir fait de sport ce week-end : ce n’est pas de votre faute, votre cerveau a été hacké ! Nous avons vu que, à coup de likes, de notifications, de flux infinis et d’interfaces compulsogènes, les grands acteurs du Web ont mis au point des techniques capables de piller très efficacement notre temps de cerveau. Nous avons aussi vu que, en s’appuyant sur des données comportementales massives, les algorithmes apprennent à exploiter notre biais de négativité et favorisent les contenus qui suscitent colère, peur, indignation, ressentiment, frustration, dégoût, etc. Nous avons constaté que, en nous enfermant dans un espace informationnel où rien ne contredit nos croyances, les algorithmes de recommandation ont tendance à créer des visions du monde différentes pour chaque utilisateur. Nous avons enfin conclu que cette combinaison d’émotions, de biais cognitifs et de recommandations automatisées peut conduire à une escalade émotionnelle, à la polarisation et la radicalisation des opinions.

    En manque… d’attention et en over-dose d’inattention

    Finalement, ce premier billet nous amène à nous interroger sur le caractère addictogène de certains médias sociaux. Une addiction peut survenir dans toute activité pour laquelle une personne développe un appétit excessif. Il peut s’agir d’une dépendance à une substance (ex. une drogue) ou d’une dépendance comportementale, cette dernière se caractérisant par l’impossibilité de contrôler la pratique d’une activité comme les jeux d’argent, ou dans notre cas, l’utilisation d’un média social. On sait qu’une dépendance se développe lorsqu’un comportement particulier est incité et encouragé, qu’il est récompensé d’une manière ou d’une autre, et que rien n’incite à l’arrêter. Or les algorithmes de captation de l’attention sont des héritiers directs de la captologie et suivent à la lettre la formule de développement d’un comportement addictif : les utilisateurs font l’objets de notifications régulières pour initialiser et enclencher l’habitude ; la récompense de l’utilisation repose sur de multiples mécanismes (ex. nombre de likes, émotions, etc.) ; et l’absence de moyens de « décrocher » est au cœur des interfaces (ex. fil infini, auto-play, opt-out par défaut, etc.). On dit souvent qu’un algorithme est une recette, ici on pourrait même parler de la recette d’une drogue de synthèse numérique.

    Voilà… Maintenant que le doute est là, vous voyez votre téléphone non seulement comme un espion qui vend vos données, mais aussi comme un traître, un manipulateur et même un dealer numérique ! Et vous vous interrogez sur les dégâts que font ces hackers du cerveau. Mais le problème va plus loin car le Web et Internet forment de vastes toiles qui couplent toutes leurs ressources, et les impacts de ces manipulateurs automatiques se propagent et se combinent par l’effet de mise en réseau.

    Fausses informations pour vraie attention

    Partant des constats déjà sombres du précédent billet, il faut noter que les choses s’aggravent encore lorsque les contenus dont nous parlons sont des fake news, des fausses informations. En effet, celles-ci s’appuient souvent sur la colère, la frustration ou le dégoût pour hameçonner notre attention. Elles trouvent ainsi sur les réseaux sociaux un terrain particulièrement fertile. Par leurs affirmations choquantes, elles sont vécues par beaucoup comme une injonction à prendre parti en les re-partageant plutôt que de faire appel à l’esprit critique et vérifier leur véracité. Ainsi des études ont montré que les algorithmes de recommandation tendent à favoriser les fausses informations véhiculant des idées clivantes ou des événements choquants. Et comme ces informations sont souvent relayées par des connaissances, le biais de la preuve sociale nous incite à les juger crédibles et dignes de confiance. Répétées encore et encore, associées à des représentations du monde convoquant les théories du complot, renforcées sous la pression des bulles de filtres, et propulsées par l’effet de réseau, les fausses informations instaurent une économie du doute où la vérité est remplacée par la vraisemblance. Avec une éditorialisation qui ne fait pas la différence entre un article écrit par des journalistes professionnels d’un côté, et des fausses informations relayées par un bot malveillant de l’autre, « la presse n’est plus perçue comme celle qui publie, mais comme celle qui cache« . Progressivement et insidieusement, le doute sape notre confiance dans les experts (savants, journalistes…), entraînant des risques pour la santé publique et favorisant l’émergence d’idées extrêmes et de populismes qui mettent en danger les démocraties. Ce que Giuliano Da Empoli résume par la phrase : « le populisme naît de l’union de la colère et la frustration avec les algorithmes« .

    Attentions troubles et troubles d’attention

    Qui plus est, des études ont montré que la personnalité, les valeurs, les émotions et la vulnérabilité des utilisateurs influencent leur propension à propager de la désinformation. Chacun de nous aura donc des réactions différentes face aux mécanismes que nous avons vus. Mais au-delà de ce fait, nous avons jusqu’ici considéré des utilisateurs lambda sans problème de santé particulier. Il convient cependant d’envisager ce qui se passe pour les utilisateurs souffrant de handicaps ou de troubles mentaux comme la dépression, l’anxiété, le trouble d’achat compulsif, la paranoïa, le FOMO, le FOBO, etc.

    On peut penser en particulier au trouble de déficit de l’attention (TDA). Des études attestent que les symptômes du TDA peuvent être aggravés par l’utilisation des médias numériques et de leurs applications conçues pour capter l’attention. Plus inquiétant encore, ces applications pourraient provoquer des TDA chez des personnes n’ayant aucun antécédent de ce trouble. Si ces études sont préliminaires elles nous encouragent à davantage de recherches sur le sujet ainsi qu’à nous poser la question du principe de précaution.

    A l’attention des créatifs

    Nous, les auteurs de ce billet, sommes des scientifiques. Comme d’autres collègues nous nous sommes reconnus dans l’article de David R. Smith : « Attention, attention : vos atouts scientifiques les plus précieux sont attaqués ». Dans cet article, Smith appelle à se pencher sur ce que les plateformes du Web font à la recherche et au domaine académique. En effet, même les scientifiques et ingénieurs les mieux informés sur ces sujets ne sont pas immunisés contre ces problèmes. Tout comme lire le “Petit traité de manipulation à l’usage des honnêtes gens” et “La soumission librement consentie” n’immunise pas contre la manipulation, connaître les méthodes de captation de l’attention n’est pas suffisant pour leur échapper. 

    Les « gadgets numériques », comme les appelle Smith, contribuent à ce qu’il appelle « un trouble de déficit de l’attention académique ». On sait que la concentration, mais aussi les moments d’ennui, de flânerie intellectuelle et de rêverie, sont essentiels à la pensée créative. Beaucoup d’entre nous ont déjà expérimenté l’éclair d’une idée soudaine au milieu d’un moment de détente. En volant ces moments, les systèmes de captation de l’attention entravent le processus créatif.

    Bien sûr, ces remarques peuvent être généralisées à de nombreuses autres activités et professions nécessitant concentration, créativité et imagination. On peut en effet se demander ce que les systèmes de captation de l’attention font à des domaines comme la politique, la santé, l’éducation ou la création artistique, par exemple. En d’autres termes : attention penseurs et créateurs ! Nous devons repenser ces systèmes pour qu’ils répondent à nos besoins, et non l’inverse car la véritable monnaie d’échange de nos métiers est celle des idées.

    Attention Fragile ! Vers des principes de préservation de l’attention

    Après ces constats anxiogènes, essayons maintenant d’être constructifs. Puisque, dans un monde de plus en plus numérique, notre attention sur-sollicitée s’avère fragile, nous proposons d’aller vers une gouvernance responsable de l’attention sur le Web en posant plusieurs principes.

    Un premier groupe de principes concerne les utilisateurs. Pour renforcer leur autonomie, le principe de la réflexivité continue propose que les plateformes leur fournissent régulièrement des retours d’information leur permettant d’être conscients de leurs usages (temps passé, exposition à des contenus négatifs, diversité, etc.), et permettant ainsi de garantir leur consentement éclairé à chaque instant. En outre, le principe de transparence préconise de leur expliquer clairement les motivations et les raisons derrière chaque recommandation, et le principe de soutien à la diligence raisonnable insiste sur l’importance de leur fournir les moyens et les informations nécessaires pour échapper aux boucles et processus imposés par les systèmes. Enfin, le principe d’opt-in par défaut suggère que les notifications et la personnalisation des recommandations soient désactivées par défaut, et activées uniquement après un consentement éclairé et un paramétrage volontaire.

    Attention by design

    Un deuxième groupe de principes vise à s’assurer que les plateformes intègrent dès leur conception (by design) le respect des utilisateurs. Le principe d’incitation orientée recommande d’utiliser des moyens légaux (interdire certaines pratiques) et économiques (taxes) pour encourager les plateformes à adopter des comportements ayant un impact sociétal positif (éducation, soutien à la collaboration et au débat constructif, élaboration collective de solutions sur les grands problèmes de société…). Et inversement, sanctionner les comportements nuisibles, une sorte de politique de la carotte et du bâton. 

    De plus, le principe de conception d’interactions bienveillantes appelle à placer le bien-être des utilisateurs au cœur de la conception des interfaces et de leurs objectifs algorithmiques, en s’alignant sur les bonnes pratiques des bright patterns plutôt que celles des dark patterns. D’autres médias sociaux sont en effet possibles, comme Wikipédia qui fait émerger du contenu de qualité sans jamais rechercher la viralité des contenus ni la popularité des contributeurs qui restent pour l’essentiel des citoyens anonymes.

    Le principe des recommandations équilibrées vise à éviter la spécialisation excessive des contenus recommandés et à prévenir la formation de bulles de filtres. Notons aussi que lorsqu’une fausse information est corrigée ou démentie, il est fréquent que le message portant la correction ou le démenti soit quasiment invisible en comparaison de la viralité avec laquelle la fausse information a circulé. Aussi, pour aller vers plus de transparence, le principe de la visibilité équilibrée propose que les mesures préventives et correctives d’un problème soient rendues aussi visibles que le problème qu’elles traitent.

    Enfin, pour que ces principes soient appliqués, le principe d’observabilité stipule que les plateformes doivent fournir aux institutions, à la société civile et aux chercheurs les instruments juridiques et techniques leur permettant d’effectuer un contrôle et une vérification actifs de l’application et de l’efficacité des réglementations.

    L’attention comme bien commun

    Dans une perspective plus large, si nous considérons l’attention comme un bien commun au sens économique, le principe de la préservation des communs numériques stipule aussi que les services ayant un impact mondial sur nos sociétés doivent être considérés comme des communs numériques, et à ce titre, protégés et soumis à des règles spécifiques de « préservation ». Cela pourrait par exemple passer par le fait de doter ces services (ou au moins les nouveaux entrants) d’une mission de soutien à un débat public constructif. 

    Enfin, le principe de transfert des meilleures pratiques invite à s’inspirer des approches éprouvées dans d’autres domaines, comme le droit encadrant la publicité, les casinos ou le traitement de certaines addictions, pour réguler efficacement les pratiques sur le Web. Prenons l’exemple de l’industrie du jeu vidéo : il a été montré qu’un lien existe entre les « loot boxes » (sortes de pochettes surprises des jeux vidéos) et l’addiction aux jeux d’argent. Celles-ci seraient comparables aux jeux de hasard, pouvant entraîner des comportements addictifs et mettre les joueurs en danger. Ce constat a donné lieu à plusieurs régulations. La manière d’étudier et de traiter cette exploitation indésirable de nos comportements et la transposition de connaissances issues d’autres domaines sont des sources d’inspiration pour d’autres pratiques problématiques sur le Web, telles que celles dont nous venons de parler.

    Faisons attention… à nous

    Résumons-nous. Avec l’objectif initial, somme toute banal, de rendre la publicité plus efficace, la généralisation des techniques de captation de l’attention et l’utilisation qu’elles font des biais cognitifs et des émotions ont des effets délétères très préoccupants sur nos sociétés : polarisation des opinions, diffusion de fausses informations, menace pour la santé publique, les économies et les démocraties. Et oui ! Ce sont donc des (ro)bots qui hackent notre attention car ils sont conçus pour cela ou, plus précisément, pour la capter de façon optimale en vue de la monétiser. De fait, ils utilisent le Web dans un but économique qui va à l’encontre du bien commun. Mais en adoptant les principes proposés ci-dessus, nous pensons qu’il est possible de construire un Web qui continue de soutenir l’activité économique sans pour autant entraîner la captation systématique de l’attention.

    Dans ses essais, Montaigne nous disait “quand on me contrarie, on éveille mon attention, non pas ma colère : je m’avance vers celui qui me contredit, qui m’instruit.”. Or les plateformes nous poussent à faire le contraire : éveiller l’émotion négative et s’éloigner d’autrui. Mais il n’est pas raisonnable de laisser de multiples moyens technologiques hacker nos cerveaux et créer un déficit mondial d’attention, nous empêchant ainsi de la porter sur des sujets qui devraient actuellement nous « contrarier ». A une époque où nous devons modifier nos comportements (par exemple, la surconsommation de biens et d’énergie) et porter notre attention sur des questions cruciales comme le changement climatique, nous devrions nous demander si les algorithmes de recommandation font les bonnes recommandations, et pour qui. Compte tenu des quatre milliards d’utilisateurs pris chaque jour dans leurs boucles de recommandation, il est important de surveiller en permanence comment et dans quel but ces systèmes captent notre attention. Car lorsque notre attention est consacrée à un contenu choisi par ces plateformes, elle est perdue pour tout le reste.

    Merci… pour votre attention 🙂

    Fabien Gandon, Directeur de Recherche Inria et Franck Michel, ingénieur de recherche, Université Côte d’Azur, CNRS, Inria. 

  • Prêtez Attention : quand « prêter » est « données » (épisode 1)

    A l’heure où Elon Musk fait un peu n’importe quoi au nom de la liberté d’expression, quand des grands patrons du numérique lui emboîtent le pas sans doute pour pousser leurs intérêts économiques, il devient encore plus indispensable de comprendre les mécanismes qui causent des dysfonctionnements majeurs des plateformes numériques.  Ce premier épisode d’un article de Fabien Gandon et Franck Michel nous aide à mieux comprendre.  Serge Abiteboul & Thierry Viéville.

    Image générée par les auteurs avec Bing/DALL·E 3 à partir du prompt “photo of a street with many people with their smartphones displaying different hypnotic images” ©CC-BY

    Nous sommes un dimanche après-midi. Vous avez un petit moment pour vous. Vous pourriez lire, vous balader, aller courir ou écouter de la musique mais machinalement votre main saisit votre téléphone. Le « sombre miroir » s’éclaire et vous passez de l’autre côté. Vous ouvrez l’application de votre réseau social préféré qui vient de vous notifier qu’elle a du nouveau pour vous. Et c’est vrai ! Jean a posté un message à propos de la tragicomédie « Qui a hacké Garoutzia ? » qu’il a vue au théâtre hier soir. Vous approuvez ce poste d’un pouce virtuel et déjà votre vrai pouce pousse vers le poste suivant. Entre une publicité pour un abonnement au théâtre, une photo postée d’Avignon par un ami que vous avez du mal à remettre, l’annonce pour un jeu où tester vôtre culture générale… votre pouce se lance dans un jogging numérique effréné. Imperceptiblement le flux d’information qui vous est proposé dévie, une vidéo de chats acrobates, un « clash » entre stars de la télévision, une manifestation qui tourne à l’affrontement… Et avant que vous ne le réalisiez une petite heure s’est écoulée et il est maintenant trop tard pour un vrai jogging. Vous ressentez une certaine résistance à reposer votre téléphone : après tout, il y avait peut-être encore tant de contenus intéressants, inédits, surprenants ou croustillants dans ce fil de recommandations. Mais vous devez vous rendre à l’évidence, ce fil est sans fin. Vous ne pouvez croire à quelle vitesse la dernière heure est passée. Vous avez l’impression qu’on vous l’a volée, que vous avez traversé un « tunnel temporel ». Sans même vous rappeler de ce que vous avez vu défiler, vous reposez ce téléphone un peu agacé en vous demandant… mais qui a hacké mon attention ?

    A l’attention de tous…

    Sir Tim Berner-Lee, récipiendaire du prix Turing pour avoir inventé le Web, a toujours considéré que les Web devait « être pour tout le monde », mais il a aussi partagé début 2024 un dialogue intérieur en deux articles à propos du Web : « Le dysfonctionnement des réseaux sociaux » et « Les bonnes choses ». Et oui… même le père du Web s’interroge gravement sur celui-ci et met face à face ce qu’il y a de meilleur et de pire sur le Web. Loin d’avoir réalisé l’idéal d’une communauté mondiale unie, Tim constate que des applications du Web comme les réseaux sociaux amplifient les fractures, la polarisation, la manipulation et la désinformation, menaçant démocraties et bien-être. Tout en reconnaissant les nombreuses vertus du Web (outils éducatifs, systèmes open source ou support à la souveraineté numérique), il nous propose de mettre l’accent sur la transparence, la régulation, et une conception éthique d’un Web et d’un Internet plus sûrs et responsables. Autrement dit, l’enjeu actuel est de préserver les richesses du Web tout en se protégeant de ses dérives.

    Parmi ces dérives, on trouve le problème de la captation de notre attention, un sujet sur lequel nous voulons revenir dans ce billet ainsi que le suivant. C’est l’objet d’un de nos articles publié cette année à la conférence sur l’IA, l’éthique et à la société (AIES) de l’Association pour l’Avancement de l’Intelligence Artificielle (AAAI), que nous résumons ici. Le titre pourrait se traduire par « Prêtez attention : un appel à réglementer le marché de l’attention et à prévenir la gouvernance émotionnelle algorithmique ». Nous y appelons à des actions contre ces pratiques qui rivalisent pour capter notre attention sur le Web, car nous sommes convaincus qu’il est insoutenable pour une civilisation de permettre que l’attention soit ainsi gaspillée en toute impunité à l’échelle mondiale.

    Attention à la march…andisation (de l’attention)

    Si vous lisez cette phrase, nous avons déjà gagné une grande bataille, celle d’obtenir votre attention envers et contre toutes les autres sollicitations dont nous sommes tous l’objet : les publicités qui nous entourent, les « apps » dont les notifications nous assaillent jour et nuit, et tous les autres « crieurs numériques » que l’on subit au quotidien. 

    Depuis l’avènement de la consommation de masse dans les années 50, les médias et les publicitaires n’ont eu de cesse d’inventer des méthodes toujours plus efficaces pour capter notre attention et la transformer en revenus par le biais de la publicité. Mais ce n’était qu’un début… Au cours des deux dernières décennies, en s’appuyant sur la recherche en psychologie, en sociologie, en neurosciences et d’autres domaines, et soutenues par les avancées en intelligence artificielle (IA), les grandes plateformes du Web ont porté le processus de captation de l’attention à une échelle sans précédent. Basé presque exclusivement sur les recettes publicitaires, leur modèle économique consiste à nous fournir des services gratuits qui, en retour, collectent les traces numériques de nos comportements. C’est le célèbre “si c’est gratuit, c’est nous le produit” et plus exactement, ici, le produit c’est notre attention. Ces données sont en effet utilisées pour maximiser l’impact que les publicités ont sur nous, en s’assurant que le message publicitaire correspond à nos goûts, nos inclinations et notre humeur (on parle de “publicité ciblée”), mais aussi en mettant tout en place pour que nous soyons pleinement attentifs au moment où la publicité nous est présentée.

    Recrutant des « armées » de psychologues, sociologues et neuroscientifiques, les plateformes du Web comme les médias sociaux et les jeux en ligne ont mis au point des techniques capables de piller très efficacement notre « temps de cerveau disponible ». Résultat, nous, les humains, avons créé un marché économique où notre attention est captée, transformée, échangée et monétisée comme n’importe quelle matière première sur les marchés.

    Faire, littéralement, attention

    A l’échelle individuelle, lorsque l’on capte notre attention à notre insu, on peut déjà s’inquiéter du fait que l’on nous vole effectivement du temps de vie, soit l’un de nos biens les plus précieux. Mais si l’attention est un mécanisme naturel au niveau individuel, l’attention collective, elle, est le fruit de l’action de dispositifs spécifiques. Il peut s’agir de lieux favorisant l’attention partagée (ex. un théâtre, un cinéma, un bar un soir de match, une exposition), de l’agrégation d’attention individuelle pour effectuer des mesures (ex. audimat, nombre de vues, nombre de partages, nombre de ventes, nombre d’écoutes, etc.) ou autres. Pour ce qui est de l’attention collective, nous faisons donc, littéralement, l’attention. En particulier, les plateformes créent l’attention collective et dans le même temps captent ce commun afin de le commercialiser sans aucune limite a priori.

    Parmi les techniques utilisées pour capter notre attention, nous pouvons distinguer deux grandes catégories. Tout d’abord, certaines techniques sont explicitement conçues pour utiliser nos biais cognitifs. Par exemple, les likes que nous recevons après la publication d’un contenu activent les voies dopaminergiques du cerveau (impliquées dans le système de récompense) et exploitent notre besoin d’approbation sociale ; les notifications des apps de nos smartphones alimentent notre appétit pour la nouveauté et la surprise, de sorte qu’il est difficile d’y résister ; le « pull-to-refresh », à l’instar des machines à sous, exploite le modèle de récompense aléatoire selon lequel, chaque fois que nous abaissons l’écran, nous pouvons obtenir une nouveauté, ou rien du tout ; le défilement infini (d’actualités, de posts ou de vidéos…) titille notre peur de manquer une information importante (FOMO), au point que nous pouvons difficilement interrompre le flux ; l’enchaînement automatique de vidéos remplace le choix délibéré de continuer à regarder par une action nécessaire pour arrêter de regarder, et provoque un sentiment frustrant d’incomplétude lorsqu’on l’arrête ; etc. De même, certaines techniques exploitent des « dark patterns » qui font partie de ce qu’on nomme design compulsogène ou persuasif, pour nous amener, malgré nous, à faire des actions ou des choix que nous n’aurions pas faits autrement. C’est typiquement le cas lorsque l’on accepte toutes les notifications d’une application sans vraiment s’en rendre compte, alors que la désactivation des notifications nécessiterait une série d’actions fastidieuses et moins intuitives.

    Les petites attentions font les grandes émotions… oui mais lesquelles?

    Une deuxième catégorie de techniques utilisées pour capter notre attention repose sur les progrès récents en matière d’apprentissage automatique permettant d’entraîner des algorithmes de recommandation de contenu sur des données comportementales massives que Shoshana Zuboff appelle le « surplus comportemental« . Ces algorithmes apprennent à recommander des contenus qui non seulement captent notre attention, mais également augmentent et prolongent notre « engagement » (le fait de liker, commenter ou reposter des contenus, et donc d’interagir avec d’autres utilisateurs). Ils découvrent les caractéristiques qui font qu’un contenu attirera plus notre attention qu’un autre, et finissent notamment par sélectionner des contenus liés à ce que Gérald Bronner appelle nos invariants mentaux : la conflictualité, la peur et la sexualité. En particulier, les émotions négatives (colère, indignation, ressentiment, frustration, dégoût, peur) sont parmi celles qui attirent le plus efficacement notre attention, c’est ce que l’on appelle le biais de négativité. Les algorithmes apprennent ainsi à exploiter ce biais car les contenus qui suscitent ces émotions négatives sont plus susceptibles d’être lus et partagés que ceux véhiculant d’autres émotions ou aucune émotion particulière. Une véritable machine à créer des “réseaux soucieux” en quelque sorte.

    Bulles d’attention et bulles de filtres

    En nous promettant de trouver pour nous ce qui nous intéresse sur le Web, les algorithmes de recommandation ont tendance à nous enfermer dans un espace informationnel conforme à nos goûts et nos croyances, une confortable bulle de filtre qui active notre biais de confirmation puisque nous ne sommes plus confrontés à la contradiction, au débat ou à des faits ou idées dérangeants.

    En apparence bénignes, ces bulles de filtres ont des conséquences préoccupantes. Tout d’abord, au niveau individuel, parce que, s’il est important de se ménager des bulles d’attention pour mieux se concentrer et résister à l’éparpillement, il est aussi important de ne pas laisser d’autres acteurs décider quand, comment et pourquoi se forment ces bulles. Or c’est précisément ce que font les algorithmes de recommandation et leurs bulles de filtres, en décidant pour nous à quoi nous devons penser.

    Ensuite, au niveau collectif, Dominique Cardon pointe le fait que les bulles de filtres séparent les publics et fragmentent nos sociétés. Ceux qui s’intéressent aux informations sont isolés de ceux qui ne s’y intéressent pas, ce qui renforce notamment le désintérêt pour la vie publique.

    Et en créant une vision du monde différente pour chacun d’entre nous, ces techniques nous enferment dans des réalités alternatives biaisées. Or vous et moi pouvons débattre si, alors que nous observons la même réalité, nous portons des diagnostiques et jugements différents sur les façons de résoudre les problèmes. Mais que se passe-t-il si chacun de nous perçoit une réalité différente ? Si nous ne partons pas des mêmes constats et des mêmes faits ? Le débat devient impossible et mène vite à un affrontement stérile de croyances, au sein de ce que Bruno Patino appelle une « émocratie, un régime qui fait que nos émotions deviennent performatives et envahissent l’espace public« . Dit autrement, il n’est plus possible d’avoir un libre débat contradictoire au sein de l’espace public, ce qui est pourtant essentiel au fonctionnement des démocraties.

    La tension des émotions

    Puisque les algorithmes de recommandation sélectionnent en priorité ce qui produit une réaction émotionnelle, ils invibilisent mécaniquement ce qui induit une faible réponse émotionnelle. Pour être visible, il devient donc impératif d’avoir une opinion, de préférence tranchée et clivante, de sorte que la réflexion, la nuance, le doute ou l’agnosticisme deviennent invisibles. L’équation complexe entre émotions, biais cognitifs et algorithmes de recommandation conduit à une escalade émotionnelle qui se manifeste aujourd’hui sur les médias sociaux par une culture du « clash », une hypersensibilité aux opinions divergentes interprétées comme des agressions, la polarisation des opinions voire la radicalisation de certains utilisateurs ou certaines communautés. Ce qui fait dire à Bruno Patino que « les biais cognitifs et les effets de réseau dessinent un espace conversationnel et de partage où la croyance l’emporte sur la vérité, l’émotion sur le recul, l’instinct sur la raison, la passion sur le savoir, l’outrance sur la pondération ». Recommandation après recommandation, amplifiée par la désinhibition numérique (le sentiment d’impunité induit par le pseudo-anonymat), cette escalade émotionnelle peut conduire à des déferlements de violence et de haine dont l’issue est parfois tragique, comme en témoignent les tentatives de suicide d’adolescents victimes de cyber-harcèlement. Notons que cette escalade est souvent encore aggravée par les interfaces des plateformes, qui tendent à rendre les échanges de plus en plus brefs, instinctifs et simplistes.

    Le constat que nous dressons ici peut déjà sembler assez noir, mais il y a pire… Et à ce stade, pour garder votre attention avant que vous ne zappiez, quoi de mieux que de créer un cliffhanger, une fin laissée en suspens comme dans les séries télévisées à succès, et d’utiliser l’émotion qui naît de ce suspens pour vous hameçonner dans l’attente du prochain épisode, du prochain billet à votre attention

    Fabien Gandon, Directeur de Recherche Inria, et Franck Michel, ingénieur de recherche, Université Côte d’Azur, CNRS, Inria. 
  • De Cambridge Analytica à ChatGPT, comprendre comment l’IA donne un sens aux mots

    Dans cet article. Frédéric Alexandre (Directeur de chercheur Inria) aborde ChatGPT en nous éclairant sur son fonctionnement à travers le prisme de la cognition et ce que nos données disent de nous à cet outil dit intelligent.  Ikram Chraibi Kaadoud et Pascal Guitton

    Cet article est repris du site The Conversation (lire l’article original), un média généraliste en ligne qui fédère les établissements d’enseignement supérieur et de recherche francophones. Issu d’une étroite collaboration entre journalistes, universitaires et chercheurs, il propose d’éclairer le débat public grâce à des analyses indépendantes sur des sujets d’actualité. 

    Un des problèmes que l’IA n’a toujours pas résolu aujourd’hui est d’associer des symboles – des mots par exemple – à leur signification, ancrée dans le monde réel – un problème appelé l’« ancrage du symbole ».

    Par exemple, si je dis : « le chat dort sur son coussin car il est fatigué », la plupart des êtres humains comprendra sans effort que « il » renvoie à « chat » et pas à « coussin ». C’est ce qu’on appelle un raisonnement de bon sens.

    En revanche, comment faire faire cette analyse à une IA ? La technique dite de « plongement lexical », si elle ne résout pas tout le problème, propose cependant une solution d’une redoutable efficacité. Il est important de connaître les principes de cette technique, car c’est celle qui est utilisée dans la plupart des modèles d’IA récents, dont ChatGPT… et elle est similaire aux techniques utilisées par Cambridge Analytica par exemple.

    Le plongement lexical, ou comment les systèmes d’intelligence artificielle associent des mots proches

    Cette technique consiste à remplacer un mot (qui peut être vu comme un symbole abstrait, impossible à relier directement à sa signification) par un vecteur numérique (une liste de nombres). Notons que ce passage au numérique fait que cette représentation peut être directement utilisée par des réseaux de neurones et bénéficier de leurs capacités d’apprentissage.

    Plus spécifiquement, ces réseaux de neurones vont, à partir de très grands corpus de textes, apprendre à plonger un mot dans un espace numérique de grande dimension (typiquement 300) où chaque dimension calcule la probabilité d’occurrence de ce mot dans certains contextes. En simplifiant, on remplace par exemple la représentation symbolique du mot « chat » par 300 nombres représentant la probabilité de trouver ce mot dans 300 types de contextes différents (texte historique, texte animalier, texte technologique, etc.) ou de co-occurrence avec d’autres mots (oreilles, moustache ou avion).

    pieds d’un plongeur
    Plonger dans un océan de mots et repérer ceux qui sont utilisés conjointement, voilà une des phases de l’apprentissage pour ChatGPT. Amy Lister/Unsplash, CC BY

    Même si cette approche peut sembler très pauvre, elle a pourtant un intérêt majeur en grande dimension : elle code des mots dont le sens est proche avec des valeurs numériques proches. Ceci permet de définir des notions de proximité et de distance pour comparer le sens de symboles, ce qui est un premier pas vers leur compréhension.

    Pour donner une intuition de la puissance de telles techniques (en fait, de la puissance des statistiques en grande dimension), prenons un exemple dont on a beaucoup entendu parler.

    Relier les traits psychologiques des internautes à leurs « likes » grâce aux statistiques en grande dimension

    C’est en effet avec une approche similaire que des sociétés comme Cambridge Analytica ont pu agir sur le déroulement d’élections en apprenant à associer des préférences électorales (représentations symboliques) à différents contextes d’usages numériques (statistiques obtenues à partir de pages Facebook d’usagers).

    Leurs méthodes reposent sur une publication scientifique parue en 2014 dans la revue PNAS, qui comparait des jugements humains et des jugements issus de statistiques sur des profils Facebook.

    L’expérimentation reportée dans cette publication demandait à des participants de définir certains de leurs traits psychologiques (sont-ils consciencieux, extravertis, etc.), leur donnant ainsi des étiquettes symboliques. On pouvait également les représenter par des étiquettes numériques comptant les « likes » qu’ils avaient mis sur Facebook sur différents thèmes (sports, loisirs, cinéma, cuisine, etc.). On pouvait alors, par des statistiques dans cet espace numérique de grande dimension, apprendre à associer certains endroits de cet espace à certains traits psychologiques.

    Ensuite, pour un nouveau sujet, uniquement en regardant son profil Facebook, on pouvait voir dans quelle partie de cet espace il se trouvait et donc de quels types de traits psychologiques il est le plus proche. On pouvait également comparer cette prédiction à ce que ses proches connaissent de ce sujet.

    Le résultat principal de cette publication est que, si on s’en donne les moyens (dans un espace d’assez grande dimension, avec assez de « likes » à récolter, et avec assez d’exemples, ici plus de 70000 sujets), le jugement statistique peut être plus précis que le jugement humain. Avec 10 « likes », on en sait plus sur vous que votre collègue de bureau ; 70 « likes » que vos amis ; 275 « likes » que votre conjoint.

    Être conscients de ce que nos « likes » disent sur nous

    Cette publication nous alerte sur le fait que, quand on recoupe différents indicateurs en grand nombre, nous sommes très prévisibles et qu’il faut donc faire attention quand on laisse des traces sur les réseaux sociaux, car ils peuvent nous faire des recommandations ou des publicités ciblées avec une très grande efficacité. L’exploitation de telles techniques est d’ailleurs la principale source de revenus de nombreux acteurs sur Internet.

    likes peints sur un mur argenté
    Nos likes et autres réaction sur les réseaux sociaux en disent beaucoup sur nous, et ces informations peuvent être exploitées à des fins publicitaires ou pour des campagnes d’influence. George Pagan III/Unsplash, CC BY

    Cambridge Analytica est allée un cran plus loin en subtilisant les profils Facebook de millions d’Américains et en apprenant à associer leurs « likes » avec leurs préférences électorales, afin de mieux cibler des campagnes électorales américaines. De telles techniques ont également été utilisées lors du vote sur le Brexit, ce qui a confirmé leur efficacité.

    Notons que c’est uniquement l’aspiration illégale des profils Facebook qui a été reprochée par la justice, ce qui doit continuer à nous rendre méfiants quant aux traces qu’on laisse sur Internet.

    Calculer avec des mots en prenant en compte leur signification

    En exploitant ce même pouvoir des statistiques en grande dimension, les techniques de plongement lexical utilisent de grands corpus de textes disponibles sur Internet (Wikipédia, livres numérisés, réseaux sociaux) pour associer des mots avec leur probabilité d’occurrence dans différents contextes, c’est-à-dire dans différents types de textes. Comme on l’a vu plus haut, ceci permet de considérer une proximité dans cet espace de grande dimension comme une similarité sémantique et donc de calculer avec des mots en prenant en compte leur signification.

    Un exemple classique qui est rapporté est de prendre un vecteur numérique représentant le mot roi, de lui soustraire le vecteur (de même taille car reportant les probabilités d’occurrence sur les mêmes critères) représentant le mot homme, de lui ajouter le vecteur représentant le mot femme, pour obtenir un vecteur très proche de celui représentant le mot reine. Autrement dit, on a bien réussi à apprendre une relation sémantique de type « A est à B ce que C est à D ».

    [Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

    Le principe retenu ici pour définir une sémantique est que deux mots proches sont utilisés dans de mêmes contextes : on parle de « sémantique distributionnelle ». C’est ce principe de codage des mots qu’utilise ChatGPT, auquel il ajoute d’autres techniques.

    Ce codage lui permet souvent d’utiliser des mots de façon pertinente ; il l’entraîne aussi parfois vers des erreurs grossières qu’on appelle hallucinations, où il semble inventer des nouveaux faits. C’est le cas par exemple quand on l’interroge sur la manière de différencier des œufs de poule des œufs de vache et qu’il répond que ces derniers sont plus gros. Mais est-ce vraiment surprenant quand on sait comment il code le sens des symboles qu’il manipule ?

    Sous cet angle, il répond bien à la question qu’on lui pose, tout comme il pourra nous dire, si on lui demande, que les vaches sont des mammifères et ne pondent pas d’œuf. Le seul problème est que, bluffés par la qualité de ses conversations, nous pensons qu’il a un raisonnement de bon sens similaire au nôtre : qu’il « comprend » comme nous, alors que ce qu’il comprend est juste issu de ces statistiques en grande dimension.The Conversation

    Frédéric Alexandre (Directeur de recherche Inria en neurosciences computationnelles)

    Cet article est republié à partir de The Conversation sous licence Creative Commons.

  • Data et IA : un escape game numérique

    Donner envie aux employés d’une entreprise de s’intéresser aux sujets data et à l’Intelligence Artificielle, c’est un vrai défi !  Pour faire cela, le club datacraft a développé  un escape game numérique, un jeu d’évasion en bon français.   C’est ce que nous raconte Isabelle Hilali. Elle nous parle de Science des données, apprentissage automatique,  et d’autres sujets passionnants. SergeAbiteboul et Marie-Agnès Enard.

    Illustration de l’escape game

    Qui trouvez-vous dans une entreprise ? Des experts en science des données, peu nombreux, qui ont du mal à communiquer sur leur métier. Quelques enthousiastes qui attendent de l’Intelligence Artificielle une solution magique. D’autres collaborateurs pour qui l’IA est une véritable source d’angoisse, une boîte noire qui contribuera à déshumaniser notre société. Surtout, une grande majorité de personnes qui ne s’intéressent pas du tout à ces sujets car ils n’y voient pas de lien direct avec leurs problématiques au quotidien.

    Et pourtant s’il est un sujet auquel chacun devrait s’intéresser, quel que soit son rôle dans l’entreprise, c’est bien l’Intelligence Artificielle. C’est d’abord parce que les experts ne peuvent pas développer de solutions d’IA sans comprendre les enjeux qui y sont associés, sans explications sur les données qui vont alimenter leurs modèles. C’est aussi parce que, par essence, un projet data et IA est collaboratif. C’est avant tout parce que cela sera un élément de plus en plus important des prises de décision et qu’il serait dommage que seuls quelques experts aient leur mot à dire.

    Alors comment donner envie aux collaborateurs de l’entreprise de s’intéresser à ces sujets et d’y participer ?

    Deux membres de datacraft(*), Air Liquide et Danone, nous ont demandé de réfléchir avec eux à une solution qui soit ludique et qui fédère les équipes. Un vrai défi ! Laurent Oudre, Professeur à l’ENS Paris-Saclay en apprentissage et chercheur en résidence du Club datacraft, et Xavier Lioneton, Directeur des opérations de datacraft ont d’abord imaginé faire un escape game physique, mais en pleine période Covid, être enfermés à plusieurs dans une pièce n’était pas le plus adapté ! Et l’idée d’un escape game numérique s’est rapidement imposée. Une très belle aventure réalisée avec Emeraude escape pour la partie développement technique et en coconstruction avec les équipes des deux entreprises.

    Alors à quoi sert ce jeu ? L’objectif est d’abord de jouer, en équipe de six avec la possibilité de se voir et se parler grâce à la visio intégrée dans le jeu, s’entraider pour résoudre les énigmes – et il y en a au moins une qui est vraiment coriace – et passer un bon moment en équipe sur un sujet qui en temps normal ne susciterait pas nécessairement autant d’excitation ! Mais c’est aussi sensibiliser aux enjeux d’un projet data et IA :

    • le besoin d’expliquer ses problématiques business aux équipes data et IA,
    • collecter des données, et ça prend du temps, beaucoup de temps même,
    • garantir la sécurité et la confidentialité des données utilisées,
    • prendre en compte les enjeux sociétaux, et finalement,
    • prendre conscience à travers le jeu que l’IA est loin d’être une baguette magique mais que cela peut apporter des solutions pour chacun.

    L’escape game permet de comprendre que chacun a un rôle à jouer dans un projet data et IA : l’équipe métier pour expliquer ses besoins et ses enjeux et valider les solutions développées, l’équipe IT pour fournir l’environnement informatique nécessaire et l’équipe data science pour construire les solutions d’IA.

    Un intérêt du projet a été de le coconstruire avec les entreprises partenaires. Il fallait trouver comment donner envie aux équipes de participer et de s’impliquer sur des projets data. Il fallait également intégrer le jeu dans des politiques globales d’acculturation et de formation car bien entendu un jeu tout seul ne peut suffire dans la durée.

    Les prochaines étapes : créer un Club dans le Club, en invitant l’ensemble des participants à échanger régulièrement sur leurs enjeux d’engagement des équipes, sur l’impact du jeu, les bonnes pratiques de son utilisation, l’animation de leur communauté data, etc.  Sur ce sujet, le Club datacraft a organisé une soirée Animer sa communauté data le 22 mars, à l’intention des directeurs des données (CDO) et chef.fes d’équipe data, des DRH et des responsables impliqués sur ces sujets https://datacraft.paris/event/soirees-cdo-hr-comment-animer-sa-communaute-data/

    Isabelle Hilali, datacraft

    (*)  datacraft permet un échange de bonnes pratiques entre experts de la data. Récemment, binaire en parlait dans un article.

    Illustrations du jeu :

  • Science ouverte, une vision européenne

    Jean-François Abramatic est Directeur de Recherche Emérite chez Inria. Il a partagé son parcours professionnel entre l’industrie et la recherche. Sur le plan recherche, il est spécialiste du traitement d’image. Sur le plan industriel, il a été Chief Product Officer chez Ilog et directeur du développement de l’innovation chez IBM. Mais il est surtout connu pour avoir été un acteur clé du web en tant que président du W3C (World Wide Web Consortium), l’organisme de standardisation du Web. Plus récemment, il a travaillé auprès de la Commission Européenne sur les sujets de science ouverte. C’est à ce titre qu’il répond à nos questions. 


    Photo de Tim Douglas provenant de Pexels

    Binaire : Comment es-tu arrivé à travailler sur la science ouverte ? Cela peut paraître assez loin de tes travaux sur les logiciels.

    Jean-François Abramatic : Quand je suis devenu Directeur de Recherche Emérite chez Inria, j’ai eu à définir mon programme d’activité au sein de l’institut. J’ai choisi trois axes : l’aide aux startups, l’organisation de W3C et Software Heritage (*). Je me suis progressivement focalisé sur le troisième.

    En 2017, Roberto Di Cosmo et moi-même avons rencontré des responsables de la Commission Européenne pour leur présenter Software Heritage. A la fin de cette réunion, un des responsables de la commission m’a sollicité pour intervenir sur le sujet de la science ouverte. J’ai initialement été choisi comme rapporteur de projets sur la science ouverte pour la commission. En 2018, la Commission a rassemblé les acteurs du domaine pour voir ce qu’on pouvait faire et cette initiative s’est transformée en un programme, l’EOSC (The European Open Science Cloud) un environnement pour héberger, traiter et partager les programmes et les données de la recherche pour soutenir la science. Deux organes ont été mis en place pour deux ans (2019-2020) : un Governing Board (un représentant par État) et un  Executive Board de 13 personnes où j’ai été nommé.  Fin 2020, l’Executive Board a produit un ensemble de recommandations pour la mise en place du programme Horizon Europe (2021-2027). J’ai animé la rédaction collective du document. J’ai, en particulier, écrit la première partie qui explique en quoi le numérique va changer la façon de faire de la recherche.

    B : Quelle est ta définition de la science ouverte ?

    JFA : Pour moi, c’est d’abord une nouvelle manière de faire de la recherche, en prenant en compte la disponibilité du numérique. Pour comprendre, il faut commencer par un peu d’histoire. Avant l’apparition de l’imprimerie, les résultats scientifiques étaient secrets, chiffrés parfois pour s’assurer qu’ils restaient la propriété exclusive de celui qui les avait découverts. Avec l’arrivée de l’imprimerie et la création des académies, un nouveau système a conduit à rendre disponibles les résultats de recherche grâce aux publications scientifiques.

    Le numérique propose une nouvelle façon de faire de la science. Si on veut partager un résultat de recherche aujourd’hui et qu’on partage les publications, on fait une partie du chemin, mais une partie seulement. Il manque des éléments essentiels au lecteur de la publication pour comprendre et utiliser les résultats. Il faut lui donner accès à d’autres informations comme les cahiers d’expérience ou les descriptions d’algorithmes, les données et le code source. Un scientifique qui veut exploiter les résultats d’une recherche, peut le faire de manière précise et efficace.

    B : Tu inclus l’open source comme élément essentiel de la science ouverte. Est-ce vraiment un aspect important de la science ouverte ?

    JFA : Absolument. De nos jours, plus d’un papier sur deux dans Nature and Science fait appel à du numérique et du code. Le code permet d’expliquer les recherches et sa transmission est bien un composant essentiel de la science ouverte.

    B : Tu définis la science ouverte comme une nouvelle façon plus coopérative de faire de la recherche. D’autres acteurs, Opscidia par exemple, nous l’ont défini comme une plus grande démocratisation de la recherche et le fait de faire sortir la science des laboratoires. Doit-on voir une contradiction entre vos points de vue?

    JFA : Il faut d’abord que la science ouverte existe dans les laboratoires. On peut ensuite passer à sa démocratisation. On commence par les chercheurs, on passe après aux citoyens. En rendant les revues accessibles à tous, on les ouvre bien sûr à tous les chercheurs mais également à tous les citoyens. Cela soulève aussi la responsabilité des chercheurs d’expliquer ce qu’ils font pour que le plus grand nombre puisse le comprendre. On voit bien avec les controverses actuelles sur l’environnement ou les vaccins, l’importance de rendre la science accessible aux citoyens.

    Il faut mentionner un danger à prendre en compte, et qui s’est manifesté clairement pendant la crise du Covid, c’est que certains papiers de recherches sont faux ou contiennent des erreurs. Vérifier les résultats, reproduire les expériences, sont donc des aspects essentiels de la recherche. La science ouverte en associant publications, données, et logiciels, ouvre la voie à la vérification et la reproductibilité.

    Nous avons beaucoup à apprendre sur la science ouverte, c’est un sujet nouveau, en création, et pas encore mûr. C’est un sujet de recherche. Et puis, il faut être réaliste sur l’état de l’art de la science ouverte et son état du déploiement. Par exemple, tant que les chercheurs sont évalués sur la base de leur liste de publications, et par des indices comme le h-index, le processus d’évaluation reste un obstacle au développement de la science ouverte.

    B : Tu soulèves un aspect essentiel. Est-ce que le mode de fonctionnement de la recherche scientifique est mal adapté à la science ouverte ?

    JFA : La situation est très différente suivant les disciplines. Certaines disciplines comme l’astronomie ou la physique ont toujours ressenti un besoin naturel de communiquer et de partager les données. Elles ont rapidement adopté le numérique pour améliorer ce partage. Ce n’est pas un hasard si le Web est né au CERN dans un laboratoire de physique des hautes énergies. Mais dans de nombreuses disciplines, la science ouverte n’est pas encore assez prise en compte.

    Par exemple, archiver du code ou des données, pour un informaticien, c’est naturel. Pourtant, le fait de partager son code ne fait pas suffisamment partie des critères d’évaluation des chercheurs en informatique.

    L’ouverture des données est moins évidente pour un chercheur en sciences sociales. Les choses évoluent et se mettent lentement en place. Par exemple, Inrae a créé une direction pour la science ouverte.

    B : Ce rapport est donc la vision européenne de l’Open Science ?

    JFA : À ce jour, c’est le rapport de la Commission. Il représente sa vision aujourd’hui, une vision en construction parce que le sujet est complexe et difficile, pas tout à fait mûr, avec de vraies controverses.

    B : Quel est l’avenir de ce rapport ?

    JFA : La première version a été rendue publique. Le document a vocation à évoluer au fil du temps. L’étape suivante est la création d’une association (de droit belge) qui regroupe des acteurs de la recherche tels que les instituts de recherche, les universités, les organisations de financement, etc. Les statuts prévoient que chaque pays peut choisir un membre pour les représenter. Par exemple, Inria a été invité à représenter la France. Inria a choisi Laurent Romary pour tenir ce rôle. Par ailleurs, le conseil d’administration de l’association a été élu. Suzanne Dumouchel du CNRS fait partie du conseil. Cette association sera consultée pour chaque appel à projets dans le domaine des infrastructures pendant les sept ans à venir. Le message global de la commission et de l’organisation qu’elle met en place est que la science ouverte est devenue un citoyen de première classe, un sujet horizontal qui doit couvrir tous les aspects de la recherche scientifique.

    Serge Abiteboul & François Bancilhon

    https://binaire.socinfo.fr/page-les-communs-numeriques/

  • Notre cerveau au service de causes utiles ?

     

    Lou Welgryn, Présidente de Data for Good, Twitter

    Nous avons rencontré pour Binaire, Lou Welgryn, la présidente de l’association Data for Good. Elle est aussi Carbon Data Analyst chez Carbone4 Finance, un cabinet de conseil qui aide les entreprises à réduire leurs émissions de gaz à effet de serre.

    Data for Good est une association fondée en 2015, une communauté de data scientists principalement. Chaque membre a une autre activité qui lui apporte un salaire mais, pour Data for Good, il passe bénévolement quelques heures chaque semaine sur des projets sociaux ou environnementaux.  On entend dire : « The best mind of our times are thinking about how to make people click on ads » (Les meilleurs esprits de notre temps réfléchissent à la manière de faire cliquer les internautes sur des pubs) et ce n’est pas faux. Lou Welgryn nous explique que l’esprit de l’asso, c’est au contraire de : « Mettre notre temps de cerveau disponible au service de causes utiles. » L’entraide est au cœur du dispositif. Par exemple, tout le code développé doit être en open source pour pouvoir aussi servir à d’autres.

    Le martin-pêcheur de Data For Good

    L’association Data for Good apporte principalement des ressources humaines à des structures qu’elle choisit d’aider. À qui apporte-t-elle son soutien ? À des associations, des startups, des organisations plutôt artisanales qui n’ont pas les moyens d’embaucher les data scientists dont elles auraient besoin mais aussi des entreprises plus établies voulant mettre en place un projet à impact positif. L’association fonctionne avec chaque année deux « saisons d’accélération » de 3 mois. Pour une saison, une dizaine de projets est sélectionnée. Les membres de l’association choisissent alors le projet qui les intéresse. Ensuite, chaque semaine pendant 3 mois, ils travaillent sur le projet. Ils s’engagent à donner entre 4 à 12 h de leur temps par semaine. Le Covid a fait basculer le travail en distanciel mais ne l’a pas interrompu. Avec Data for Good, on ne produit pas des idées ou du papier. La règle est celle du minimum viable product, pas forcément un truc grandiose mais du code, une solution testable.

    Chacun des 10 projets sélectionnés doit progresser. Il a un responsable qui l’accompagne pendant les trois mois pour s’assurer qu’il fonctionne bien, recadrer et réorganiser l’équipe si besoin. Suivant l’importance du projet, l’équipe est plus ou moins importante, une dizaine de membres de l’association en moyenne.

    Le financement de l’asso ? Pas grand-chose. L’immobilier ? Des copains, Le Wagon et Liberté Living-Lab, prêtent des espaces. Alors, Data for Good, un petit truc dans un coin ? Non ! L’asso apporte la vraie richesse de ses 2 000 membres. Et ça dépote. La preuve : nous avons eu du mal à ne choisir que 2 projets parmi les 51 listés sur leur site en avril 2021. Nous aurions aimé parler de beaucoup d’autres.

    1)   OpenFoodFacts C’est le Wikipédia de la nourriture. Pour lutter contre la malbouffe, pour aider les citoyens à mieux manger, l’association OpenFoodFacts propose une base de données de produits alimentaires avec leur composition.  Data for Good les a aidés à développer un éco-score, un indicateur de l’impact environnemental des produits. Pour reprendre une phrase sur le site d’OpenFoodFacts « On est ce que l’on mange. », ce travail est donc vraiment important.

    Yuka

    Yuka, la célèbre application pour iOS et Android, permet de scanner les produits alimentaires et cosmétiques en vue d’obtenir des informations détaillées sur l’impact d’un produit sur la santé. Yuka a longtemps utilisé la base de données d’OpenFoodFacts et elle y contribue maintenant.

    2)   Pyroneer est un projet qui n’a pas encore atteint cette ampleur. Il développe un logiciel gratuit et open source de détection précoce des feux de forêt. Le logiciel de détection fonctionne avec des caméras économiques. Un algorithme de traitement d’images basé sur l’apprentissage profond détecte les indices visuels de départ de feu. Plus besoin d’avoir des pompiers en permanence dans une tour de guet, des caméras prennent leur place. Pyroneer est en phase de test dans l’Ardèche.

    Feu de forêt dans le Montana, Wikipédia

    Il y a sûrement beaucoup d’organisations qui font des trucs bien et qui ont des besoins en tech et pas mal de data scientists qui aimeraient donner du sens à leur travail. Data for good a de l’espace pour grandir.

    Serge Abiteboul, Inria & ENS Paris, et Jill-Jênn Vie, Inria