Catégorie : Commun numérique

Biais selon la langue dans Wikipédia, Google, ChatGPT et YouTube

Cet article est paru le 8 octobre 2024 sur le site ami de Laurent Bloch sous licence Creative Commons. Laurent y commente l’article « A Perspective Mirror of the Elephant » de Communications of the Association for Computing Machinary, la principale revue mensuelle de la première des associations internationales dédiées à l’informatique. Serge Abiteboul.

Une révolution cognitive, des divergences culturelles

Nul doute que les chercheurs qui étudieront l’histoire de la pensée au tournant du XXI^e siècle accorderont un chapitre substantiel à l’apparition des moteurs de recherche et des encyclopédies en ligne, qui apportent dans les lieux les plus reculés et aux populations les plus démunies des connaissances et des informations naguère réservées aux habitants de villes universitaires dotées de bibliothèques et de librairies, et seulement au prix de temps de recherche bien plus importants. Il n’est pas excessif de parler ici de révolution cognitive.

Il faudrait d’ailleurs parler plutôt du moteur de recherche et de l’encyclopédie en ligne, parce que le Google Search et Wikipédia sont en position de monopole (temporaire), conformément aux lois des rendements croissants et de la concurrence monopolistique [1]. Mais là n’est pas le sujet pour l’instant.

L’utilisateur régulier de ces outils si commodes aura pu faire une remarque empirique : pour Wikipédia par exemple et si l’on s’en tient aux articles des domaines techniques, des sciences de la nature ou de l’informatique, selon la langue d’interrogation la qualité des articles peut varier, mais leur teneur informationnelle ne sera pas trop hétérogène, essentiellement parce que les termes scientifiques et techniques sont généralement dotés de définitions relativement claires et univoques, peu sujettes à controverses idéologiques. Si par contre on va sur le terrain des sciences humaines et sociales, on peut tomber sur de vraies divergences de vue. Et ne parlons pas des sujets politiques, historiques ou culturels…

Une démarche systématique sur deux domaines bien délimités

Queenie Luo, Michael J. Puett et Michael D. Smith, auteurs de l’article dont il est question ici [2], se sont donné pour tâche un examen systématique de ce biais selon la langue, qui est en fait un biais culturel et politique, entre plusieurs versions de Wikipédia, Google, ChatGPT et YouTube. Ils ont choisi deux sujets, le bouddhisme et le libéralisme, et douze langues, anglais, français, allemand, chinois, thaï, vietnamien, italien, espagnol, russe, coréen, népalais et japonais, avec l’aide de connaisseurs de ces langues et des cultures qui les utilisent.

L’introduction de l’article repose sur une fable du folklore indien : six aveugles croisent un éléphant, chacun peut toucher une partie de l’animal, et chacun arrive à des conclusions complètement différentes sur la nature de ce qu’ils ont rencontré [3].

De même, lorsque l’on soumet une question à Google, plutôt que de donner une réponse synthétique globale, le moteur de recherche se base sur la langue d’interrogation pour donner une réponse qui corresponde à l’univers culturel du questionneur, voire à ses biais ethnocentrés. Ainsi, une recherche d’images sur Google par la locution anglaise wedding clothes donnera des images de costumes de mariage de style occidental, en omettant les kimonos japonais ou les saris indiens.

C’est pire avec ChatGPT, dont le corpus d’apprentissage (à la date de rédaction de l’article tout du moins) est presque exclusivement en anglais.

Lors de la soumission de chaque interrogation, nos auteurs ont retenu à fin d’analyse les 50 premiers sites mentionnés par Google, les 35 premières vidéos retenues par YouTube, le texte intégral de l’article de Wikipédia, et cinq réponses de ChatGPT dans cinq fenêtres d’interrogation (de prompt comme il faut dire maintenant) distinctes. Le but des auteurs n’était pas de quantifier la disjonction entre les réponses des systèmes et le corpus global, mais d’identifier les occurrences de ces disjonctions et de commencer à identifier les types de biais qu’elles induisent.

Les observations

Bouddhisme

En 2 500 ans le bouddhisme s’est répandu dans la plupart des pays d’Asie, et connaît depuis quelques décennies un grand succès en Occident, sans oublier les migrations de populations asiatiques vers ces mêmes pays occidentaux. Mais, sans surprise, chacun de ces univers culturels a sa propre acception du bouddhisme, qui est plus un courant de pensée ou une vision du monde, au demeurant peu dogmatique [4], qu’une religion au sens où l’entendent les fidèles des religions du Livre, juifs, chrétiens et musulmans.

Les interrogations en français et en allemand donnent des liens vers des sites encyclopédiques ou historiques, en anglais on reçoit plutôt des adresses de centres de retraites spirituelles. Le chinois donne la ligne du parti sur l’organisation des monastères bouddhistes, les sites indiqués en réponse à une question en vietnamien évoquent des pratiques rituelles et de mendicité, cependant que le thaï orientera vers une explication de la différence entre le bouddhisme et le culte des fantômes, répandu sur les rives de la Chao Phraya.

Chaque langue d’interrogation fournit des réponses qui exhibent une forte conformité aux représentations culturelles dominantes de la communauté de ses locuteurs. L’article approfondit la question en examinant les réponses à des questions plus discriminantes, voire sujettes à controverses, en comparant les réponses de Google et celles de ChatGPT, etc. À la différence de Google, ChatGPT, bien que très anglo-centrique, permet qu’on lui demande d’utiliser un corpus linguistique spécifique, par exemple en chinois, mais cela exige un peu de tâtonnement par essais-erreurs. YouTube est très orienté vers les musiques de méditation et les tutoriels, ses biais liés à la langue sont plus prononcés.

Les articles consacrés au bouddhisme sont très consultés par les adeptes de Wikipédia, dans toutes les langues, mais avec là aussi des sensibilités différentes. L’article attribue une grande influence de Foucault, Derrida et Lacan sur le wikipédien français, cependant que son collègue allemand serait sans surprise plutôt un disciple de Schopenhauer, Heidegger et Nietzsche.

Libéralisme

Le libéralisme a une histoire et une géographie complexe : pour les Américains les libéraux seraient assez proches de Bernie Sanders, alors que les Français penseraient plutôt à Bruno Retailleau. Les sites signalés par Google si on l’interroge en anglais donnent une image favorable du libéralisme, au contraire des sites mentionnés en réponse à des interrogations en français, allemand, italien ou espagnol, ainsi que pratiquement tous les sites asiatiques. Dans de nombreux pays asiatiques l’insistance du libéralisme sur la liberté est perçue comme une menace envers l’ordre social, notamment le rôle de la famille et l’importance de l’unité nationale.

YouTube interrogé en russe diffuse des vidéos qui associent libéralisme et démocratie, et les soupçonnent d’avoir contribué à la chute de l’Union soviétique.

Bref, selon les histoires et les cultures de chaque domaine linguistique, le terme « libéralisme » a des acceptions différentes, suscite des réactions différentes, et nos outils de recherche et de documentation informatisés nous donnent les réponses que, en moyenne, nous attendons.

Plus de clivages, ou une synthèse ?

Nos auteurs reprennent le fil de la métaphore des aveugles et de l’éléphant : les ressortissants de chaque domaine linguistique vont-ils rester attachés à leurs visions unilatérales ? Ou bien, un observateur extérieur capable de faire la synthèse de ces visions diverses va-t-il les éclairer sur le caractère vrai mais incomplet de chacune de ces visions, et les guider vers une vue d’ensemble plus large et plus ouverte aux autres cultures ?

L’article attire l’attention du lecteur sur le danger de voir ces plates-formes cognitives imposer à chaque population de locuteurs d’une langue donnée le conformisme de la vision majoritaire, d’où résulterait une tyrannie d’opinion. Observons quand même que ce n’est pas nouveau : s’il est facile de comparer les articles de Wikipédia en anglais et en français, il était peut-être plus difficile de comparer ceux du Grand Larousse illustré et de l’Encyclopedia Britannica [5], mais on y aurait sans doute trouvé des biais culturels et politiques similaires.

Mais justement, l’informatisation des plates-formes cognitives et leur disponibilité planétaire devrait faciliter la présentation au lecteur de points de vue divers et même antagoniques, afin de faire progresser la démocratie et l’ouverture aux cultures autres que la sienne propre.

Laurent Bloch

NOTES

[1] https://laurentbloch.net/MySpip3/Trump-et-Xi-Jinping-les-apprentis-sorciers#Concurrence-monopolistique

[2] https://cacm.acm.org/practice/a-perspectival-mirror-of-the-elephant/

[3] Les spectateurs du film de Rithy Panh Rendez-vous avec Pol Pot ont pu voir une interprétation cinématographique de cette fable.
https://fr.wikipedia.org/wiki/Rendez-vous_avec_Pol_Pot

[4] Le lecteur curieux d’en savoir un peu plus sur le bouddhisme pourra lire le délicieux opuscule que lui ont consacré Jorge Luis Borges et Alicia Jurado sous le titre Qu’est-ce que le bouddhisme ? Il y apprendra les différences entre les bouddhismes mahāyāna, vajrayāna, son, zen ou hīnayāna.

[5] Déjà des amis élitistes m’avaient expliqué que le niveau de l’Encyclopedia Britannica avait chuté lorsqu’elle avait été rachetée par un éditeur américain…

24 janvier 2025
Le grand moissonnage des données personnelles

Solove et Hartzog viennent de publier un excellent article sur le moissonnage massif des données sur le web (« web scraping » en anglais) pour l’entraînement des systèmes d’Intelligence Artificielle et les tensions que cela génère avec les principes de la protection des données personnelles¹. Cet article nous permet de revisiter la problématique du moissonnage massif des données et de rappeler les travaux et consultations menés par la CNIL sur ce sujet depuis plusieurs mois². Serge Abiteboul, Antoine Rousseau et Ikram Chraibi-Kaadoud

L’IA, en particulier l’IA générative, nécessite de vastes quantités de données pour son entraînement. Certaines de ces données sont collectées directement auprès des individus, tandis que d’autres sont obtenues via une interface de programmation d’application (API) conçue pour une extraction et un partage consensuel des données. Toutefois, la majorité des données sont obtenues par moissonnage. Le moissonnage des données sur Internet consiste à utiliser des logiciels automatisés pour extraire des informations à partir de sites web ou de réseaux sociaux.

1 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
2 https://www.cnil.fr/fr/technologies/intelligence-artificielle-ia

Moissonnage et Intelligence Artificielle

Le moissonnage de données est un outil essentiel pour les chercheurs et les journalistes qui leur permet d’accéder à des informations cruciales pour leurs projets. En collectant rapidement des données issues de multiples sources, il facilite des recherches et des études qui seraient autrement impossibles. Cette collecte massive des données semble également être essentielle pour le développement et l’amélioration des modèles d’IA, car elle fournit les vastes quantités de données nécessaires à l’entraînement des algorithmes. Par ailleurs, en diversifiant les sources de données à travers différentes régions et cultures, le moissonnage peut aussi aider à éviter les biais dans les modèles d’IA.

Il est par ailleurs souvent avancé que ce moissonnage permet aux petites entreprises de rivaliser avec les grandes plateformes en facilitant l’accès à des informations, ce qui stimule la concurrence, l’innovation et la diversité technologique. Comme le souligne l’autorité de la concurrence dans son rapport sur l’IA générative³, les données, qu’elles soient textuelles, visuelles ou vidéo, sont essentielles pour les modèles de langage et proviennent principalement de sources publiques comme les pages web ou les archives web telles que Common Crawl⁴.

3 https://www.autoritedelaconcurrence.fr/fr/communiques-de-presse/intelligence-artificielle-generative-lautorite-rend-son-avis-sur-le
4 https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

Moissonnage et vie privée

Bien que le moissonnage offre des avantages importants, il pose de nombreuses questions : protection du secret des affaires, secret industriel, propriété intellectuelle, rétribution des ayants droits et vie privée.

En ce qui concerne la protection de la vie privée, qui nous intéresse ici, le vaste moissonnage des données personnelles soulève des questions inédites. Comme le rappelle la CNIL, “La généralisation des pratiques de moissonnage a ainsi opéré un changement de nature quant à l’utilisation d’internet, dans la mesure où toutes les données publiées en ligne par une personne sont désormais susceptibles d’être lues, collectées et réutilisées par des tiers, ce qui constitue un risque important et inédit pour les personnes⁵.”

En effet, l’ampleur de ce moissonnage est sans précédent – la quantité de données, notamment de données personnelles, collectées par chaque moissonneur est stupéfiante.
Par exemple, OpenAI a certainement moissonné une partie non négligeable du Web et utilisé ces données pour entraîner les modèles GPT qui sous-tendent notamment ChatGPT. Des entreprises comme ClearviewAI et PimEyes ont moissonné des milliards de photos pour alimenter des outils de reconnaissance faciale. De nouvelles entreprises d’IA apparaissent à un rythme effarant, chacune ayant un appétit vorace pour les données.

Il est important de rappeler que, dans la plupart des juridictions et notamment en Europe, les données personnelles « publiquement disponibles » sur internet sont soumises aux lois sur la protection des données et la vie privée, notamment le RGPD (règlement général sur la protection des données). Les individus et les entreprises qui moissonnent ces informations personnelles ont donc la responsabilité de s’assurer qu’ils respectent les réglementations applicables. Par ailleurs, les entreprises de médias sociaux et les opérateurs d’autres sites web qui hébergent des données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage par des tiers sur leurs sites.

5 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage

La consultation de la CNIL

La CNIL a régulièrement souligné la nécessité de vigilance concernant les pratiques de moissonnage et a formulé des recommandations pour leur mise en œuvre⁶. Elle a également demandé à plusieurs reprises un cadre législatif spécifique pour ces pratiques qui permettrait de sécuriser les organismes utilisant ces pratiques, de les encadrer, et de protéger les données personnelles accessibles en ligne⁷. La CNIL a parfois jugé ces pratiques illégales en l’absence d’un cadre juridique, par exemple lorsque utilisées par des autorités pour détecter des infractions ou lorsque des données sensibles sont collectées⁸. Cependant, elles ont été acceptées dans certains cas, comme la recherche de fuites d’informations sur Internet, à condition de mettre en place des garanties solides⁹. En attendant un cadre juridique spécifique, la CNIL rappelle les obligations des responsables de traitement et les conditions à respecter pour le développement de systèmes d’IA.

6 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage
7 https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000047624863
8 https://www.cnil.fr/fr/reconnaissance-faciale-sanction-de-20-millions-deuros-lencontre-de-clearview-ai
9 https://www.cnil.fr/fr/la-recherche-sur-internet-de-fuites-dinformations-rifi

Alors que certains chercheurs, comme Solove et Hartzog, proposent de limiter le moissonnage uniquement aux projets d’intérêt public, le RGPD autorise, sous certaines
conditions, le moissonnage en cas d’intérêt légitime du moissonneur¹⁰. Le recours à cette base légale suppose que les intérêts (commerciaux, de sécurité des biens, etc.)
poursuivis par l’organisme traitant les données ne créent pas de déséquilibre au détriment des droits et intérêts des personnes dont les données sont traitées¹¹. Le responsable du traitement doit notamment mettre en place des garanties supplémentaires pour protéger les droits et libertés des individus. La CNIL, dans sa fiche sur l’utilisation de l’intérêt légitime pour développer des systèmes d’IA, souligne que les mesures appropriées varient selon l’usage de l’IA et son impact sur les personnes concernées¹². Elle recommande d’exclure la collecte de données à partir de sites sensibles ou s’opposant au moissonnage, et de créer une « liste repoussoir » permettant aux individus de s’opposer à la collecte de leurs données. La collecte doit se limiter aux données librement accessibles et rendues publiques intentionnellement.
De plus, il est conseillé d’anonymiser ou de pseudonymiser les données immédiatement après leur collecte, de diffuser largement les informations relatives à la collecte et aux droits des personnes, et de prévenir le recoupement des données en utilisant des pseudonymes aléatoires propres à chaque contenu.

10 D’autres bases légales, comme le consentement ou la mission d’intérêt public, sont aussi envisageables.
11 https://www.cnil.fr/fr/les-bases-legales/interet-legitime
12 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage

Rendre le moissonnage techniquement plus difficile

Comme mentionné précédemment, les hébergeurs de données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage. Par exemple, plusieurs autorités de protection des données (APD) du monde entier ont soutenu, dans une déclaration conjointe sur le moissonnage, que les entreprises devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques associés à cette pratique¹³. Ces APD indiquent que les sites web devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques. Une combinaison de ces contrôles devrait être utilisée en fonction de la sensibilité des informations. Certaines de ces mesures de protection seraient la limitation du nombre de visites par heure ou par jour pour un seul compte, la surveillance des activités inhabituelles pouvant indiquer un moissonnage frauduleux et la limitation de l’accès en cas de détection, la prise de mesures affirmatives pour détecter et limiter les bots, comme l’implémentation de CAPTCHAs et le blocage des adresses IP, ainsi que la menace ou la prise de mesures légales appropriées et la notification des individus concernés. Des recommandations similaires ont récemment été faites par la CNIL Italienne¹⁴. Bien entendu, les grandes plateformes telles que Facebook, X (anciennement Twitter), Reddit, LinkedIn, n’ont pas attendu ces recommandations pour mettre en place des mesures pour limiter le moissonnage. Par exemple, récemment X a constaté des « niveaux extrêmes de moissonnage de données » et a pris des mesures pour le limiter aux moissonneurs connectés¹⁵.

13 https://ico.org.uk/media/about-the-ico/documents/4026232/joint-statement-data-scraping-202308.pdf
14 https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10019984#english
15 https://www.socialmediatoday.com/news/twitter-implements-usage-limits-combat-data-scrapers/

Pour Conclure…

Le moissonnage de données est un sujet complexe qui suscite de nombreuses questions et débats. Dans ce contexte, la consultation de la CNIL est cruciale, et il est essentiel que chacun puisse s’exprimer sur ce sujet sensible. Comme le souligne cet article, il est difficile de tout interdire ou de tout autoriser sans discernement.

La clé réside dans un compromis basé sur la transparence et le respect des droits des individus. Il est indispensable que les utilisateurs soient clairement informés des campagnes de moissonnage, de leurs objectifs et de leur droit de s’y opposer. A cette fin, la CNIL propose, dans sa dernière consultation, l’idée de créer un registre sur son site où les organisations utilisant des données collectées par moissonnage pour le développement de systèmes d’IA pourraient s’inscrire. Par ailleurs, chacun a un rôle à jouer en contrôlant les informations qu’il publie en ligne, ce qui souligne le besoin d’une éducation et d’une sensibilisation accrues sur la gestion des données personnelles.

Pour reprendre les mots de Solove et Hartzog, le moissonnage de données devrait être perçu comme un « privilège » qui impose des responsabilités aux moissonneurs. Cela signifie qu’une attention particulière doit être portée au principe de la minimisation des données si cher au RGPD¹⁶, à la sécurité des données collectées et au respect des droits des utilisateurs. Une telle approche permettra de trouver un équilibre juste et équitable, garantissant à la fois la protection de la vie privée et le développement responsable de l’Intelligence Artificielle. Finalement, le développement de « l’IA frugale¹⁷ » qui consiste à développer des plus petits modèles, utilisant notamment moins de données d’entrainement mais de meilleure qualité, apporte des perspectives intéressantes en termes de protection de nos données.

Claude Castelluccia, Directeur de recherche chez Inria, au sein de l’équipe Privatics de Grenoble, et commissaire à la CNIL en charge de l’Intelligence Artificielle.

16 https://www.cnil.fr/fr/reglement-europeen-protection-donnees/chapitre2#Article5
17 https://www.univ-grenoble-alpes.fr/actualites/the-conversation/sciences/the-conversation-l-ia-peut-elle-vraiment-etre-frugale–1428627.kjsp

La Fenaison, Julien Dupré, ©domaine public, dont de Justina G. Catlin en mémoire de son mari, Daniel Catlinau St. Louis Art Museum, partagé par sur https://www.slam.org/collection/objects/10758 Contrairement au moissonnage des céréales qui est un bien rival, nos données personnelles peuvent être moissonnées indéfiniment. Il est donc légitime de garder un contrôle sur leur usage, y compris quand ces données sont disponibles en ligne.

20 septembre 2024
Exit l’intelligence, vive l’éducabilité !

Max Dauchet nous parle d’une nouvelle théorie de la singularité humaine, d’après Leslie Valiant ⁱ. Il offre aux lecteurs de binaire l’occasion d’approcher une idée fondamentale : l’apprentissage Probablement Approximativement Correct (PAC). Le livre de Leslie Vaillant dont il nous parle est intéressant, pas si difficile à lire. Mais il n’est pas simple à résumer. Max y arrive. Serge Abiteboul et Thierry Viéville.

L’éducabilité, notre avantage darwinien

De la sélection darwinienne à l’émergence des civilisations, des proto-organismes aux humains, l’évolution de la vie n’est selon le récent ouvrage de Leslie Valiant qu’un immense apprentissage « Probablement Approximativement Correct´´ PAC (cf. infra) – notion due à l’auteur et couronnée en 2010 du prestigieux prix Turingⁱⁱ.

Dans les interactions entre individus, entre espèces, avec l’environnement, ce qui « apprend » le mieux prend le dessus. L’auteur explique comment l’évolution « PAC-darwinienne » a fait émerger notre aptitude à construire des Educable Learning Systems (Systèmes d’apprentissage éducable). Le maître mot est là, nous sommes la seule espèce devenue éducable. Dès lors nous n’avons guère le choix, nous devons tout miser sur une éducation à l’épreuve de la scienceⁱⁱⁱ, c’est notre meilleure chance de donner les bons coups de pagaie pour orienter notre destin dans le flot de l’évolution qui nous emporte. Et comme l’éducabilité tient en PAC une base solide, ce doit être là le pilote des recherches en éducation, qui sont encore trop empiriques, morcelées, voire idéologiques.

Si Charles Darwin avait été informaticien, il aurait pu écrire ce livre^iv, qui en donnant une base calculatoire à l’évolution, en étend les règles du vivant aux idées. Valiant a l’habilité de nous amener progressivement à cette thèse au fil des pages. Je suggère néanmoins comme mise en appétit de commencer la lecture par le dernier chapitre, A Species Adrift^v, que je viens de résumer.

L’intelligence, une mauvaise notion

Valiant règle en quelques lignes son sort à l’intelligence : c’est un mauvais concept, impossible à définir^vi. Il argumente que notre aptitude à traiter de l’information fait sens au niveau de l’espèce et de son histoire plutôt qu’au niveau individuel. Peut-être que la notoriété de Leslie Vaillant et la consistance de ses propos aideront à réviser notre approche de l’intelligence, source de regrettables confusions quand elle touche à l’IA, et parfois de ravages sur les bancs de l’école.

Un texte ambitieux mais facile à aborder

Si le lecteur est informaticien, il a forcément entendu parler de l’apprentissage PAC^vii, a eu du mal à s’imprégner de la définition, a trouvé le formalisme lourd et les exemples laborieux. Les autres peuvent être rebutés par l’évocation de PAC à chaque page – une coquetterie d’auteur que l’on pardonnera. Dans les deux cas, que l’on se rassure. La lecture est aisée, elle ne demande aucune connaissance particulière. Le style est sobre et l’argumentation solide, digne du grand scientifique qu’est Valiant – qui fustige au passage les vendeurs de peur d’un « grand remplacement » de l’humain par la machine, comme hélas nous en connaissons tous.

PAC : Une vision computationnelle^viii de l’évolution, des molécules aux civilisations

Plus en détail, il n’y a aucun formalisme mathématique dans cet ouvrage, PAC est présenté par sa « substantifique moelle ». L’idée est que l’évolution est un apprentissage, et qu’il ne peut y avoir d’apprentissage que Probablement Approximativement Correct (PAC). Approximativement, parce que retenir exactement est retenir par cœur, et cela ne dit rien d’une situation proche si l’on n’englobe pas les deux dans une même approximation ^ix. Probablement car il existera toujours de rares situations qui n’auront pas été échantillonnées lors de l’apprentissage et ne seront donc même pas approximées ^x. Enfin, dans un contexte darwinien de compétition, cet apprentissage ne doit pas prendre trop de temps^xi. Le deep learning (l’apprentissage profond, en français) qui fait l’actualité est un exemple d’apprentissage PAC.

L’apprentissage PAC est d’abord un apprentissage par des exemples ; il lie par l’expérience des comportements à des stimuli dans les espèces rudimentaires – Valiant cite les escargots de mer. Au fil de l’évolution, de tels apprentissages peuvent se chaîner en comportements plus complexes, mais ce processus évolutif trouve vite ses limites car si une chaîne se rallonge, les incertitudes se cumulent. La plupart des espèces en sont là, limitées au chaînage de quelques règles élémentaires, qui s’inscrivent par sélection dans leur patrimoine biologique. Pour les espèces plus évoluées, cet inné peut se compléter par l’expérience individuelle, comme pour le chien de Pavlov. Mais seuls les humains ont une capacité corticale suffisante pour transmettre par l’éducation, condition nécessaire à la constitution des civilisations et des cultures. Pour éduquer, il faut nommer les choses ce qui permet d’apprendre sur des mots (plus exactement des tokens – des occurrences) et non seulement sur des stimuli. Valiant nomme de tels corpus de règles sur des tokens des Integrative Learning Systems, qui, combinés à nos capacités individuelles d’apprentissage par l’expérience et de communication, constituent des Educable Learning Systems. L’apport de Valiant est de décrire comment ces capacités sont apparues lors de l’évolution du vivant, par une conjonction fortuite de contingences, et surtout de montrer qu’elles devaient apparaître, d’une façon ou d’une autre, tôt ou tard, tant elles procurent un avantage considérable^xii.

Un monde redevenu intelligible

Au fil des pages, on comprend que le monde vivant est structuré, et qu’il ne pouvait pas en être autrement. Il était en effet fort peu probable de passer d’un seul coup des amibes aux humains ! Les mutations et le hasard créent au fil du temps une diversité d’entités apprenantes, les plus adaptées survivent, puis rentrent à nouveau en compétition d’apprentissage. Le neurone est à cet égard une formidable trouvaille. La vie aurait pu évoluer tout autrement, mais forcément en se structurant par assemblage avantageux du plus simple au plus complexe. On peut ainsi relire la boutade des spécialistes du deep learning étonnés par les succès de leurs techniques : « Soit Dieu existe, soit le monde est structuré »^xiii. La réponse de Valiant est que le monde est structuré parce qu’il est né du PAC learning, ce qui est une façon de dire que le monde est intelligible, comme le rêvaient les encyclopédistes et les Lumières.

L’apprentissage PAC, conçu il y a un demi-siècle, est au cœur des développements récents des sciences du calcul et des données,au carrefour des statistiques, de l’informatique et des mathématiques, jalonné par le triangle Régularité-Approximation-Parcimonie^xiv. On peut regretter l’absence dans l’ouvrage de considérations sur le troisième sommet de ce triangle, le principe de parcimonie ^xv, alors qu’y faire référence renforcerait les arguments du livre. On peut aussi regretter qu’il ne soit fait aucune allusion aux progrès considérables dans le traitement du signal^xvi réalisés ces dernières décennies, et qui sont une des clés du succès de l’apprentissage profond.

Au-delà, le premier mérite de l’ouvrage est de faire réfléchir, de mettre en débats des idées en bonne partie nouvelles. Fussent-elles encore fragiles, celles-ci sont les bienvenues à une époque en manque de perspectives intellectuelles.

Max Dauchet, Université de Lille.

Pour aller un peu plus loin, Max nous propose un complément plus technique pour nous faire partager l’évolution scientifique d’une approche purement statistique à une vision scientifique de l’apprentissage : ici.

i The Importance of Being Educable. A new theory of human uniqueness. Leslie Valiant, Princeton University Press, 2024.

ii Équivalent du prix Nobel pour les sciences informatiques, créé en 1966. Deux Français en ont été lauréats, Joseph Sifakis en 2007 et Yann Le Cun en 2018.

iii Pour Valiant, la science est une croyance qui se distingue des autres par la robustesse de sa méthode : la communauté scientifique internationale la teste, la conteste, la réfute ou la conforte à l’épreuve des expérimentations, alors que les complotismes ne font que se renforcer dans des bulles.

iv Comme chez Darwin, il n’y a aucun finalisme chez Valiant, aucune « main invisible » ne guide l’émergence d’une vie de plus en plus complexe, nous sommes dans le cadre strict de la science.

v Une espèce à la dérive, au sens de soumise aux flots de l’évolution.

vi Cette attitude pourrait paraître désinvolte au regard de la démarche d’un cogniticien comme Daniel Andler, auteur du récent et épais ouvrage Intelligence artificielle, intelligence humaine : la double énigme (collection NRF Essais, Gallimard, 2023). C’est que les buts différents. Valiant s’intéresse aux principes et D. Andler décortique les détails d’une comparaison. S’il s’agissait du vol, le premier étudierait l’aérodynamique et le second comparerait la texture des plumes d’oiseaux à la courbure des ailes d’avions.

vii A Theory of the Learnable CACM, 1984, volume 27, numéro 11, pages 1134-1142. C’est dans cet article fondateur que l’on trouve l’exposé le plus clair des motivations, qui sont déjà dans la perspective du présent ouvrage.

Entre temps, L. Vaillant avait publié en 2013 Probably Approximately Correct: Nature’s Algorithms for Learning and Prospering in a Complex World, traduit en français en 2018 avec une préface de Cédric Villani (Editions Vuibert Cassini). Dans cet ouvrage comme dans son exposé de remise du prix Turing (https://amturing.acm.org/ ), Valiant met l’accent sur l’apprentissage computationnel du vivant, notamment au niveau génétique.

viii Valiant précise que pour lui, l’évolution n’est pas comme un calcul informatique, c’est un calcul.

ix Ainsi apprendre par cœur des mots de passe ne dit rien sur les autres mots de passe ni sur la cryptographie.

x PAC capte précisément cette notion en termes d’outillage statistique.

xi Le cadre théorique est l’apprentissage en temps polynomial, ce qui représente une classe d’algorithmes excluant les explosions combinatoires.

xii L’auteur introduit finalement le Mind’s Eye comme intégrateur des fonctions précédentes. Cet « œil de l’esprit » s’apparente à la capacité cognitive d’un individu de lier les acquis de l’histoire – la condition humaine – à sa propre expérience. Cette notion reste vague, elle est décrite en termes de métaphores informatiques, ce que l’on peut admettre sachant que l’auteur ne considère que des fonctionnalités et non la façon de les réaliser.

xiii Anecdote rapportée par Yann Le Cun.

xiv Cours de Stéphane Mallat, Chaire de Science des Données, Collège de France.

xv Principe qui privilégie les causes simples.

xvi Le traitement du signal permet d’éliminer le bruit d’un signal, et là aussi le principe de parcimonie est un guide.

12 juillet 2024
La souveraineté numérique avec le logiciel libre, grande absente de la campagne pour les Européennes en France

L’apport du logiciel libre pour la souveraineté numérique notamment en Europe commence à être compris. Pourtant, on peut s’inquiéter de l’absence de ce sujet dans la campagne pour les Européennes en France. Stéphane Fermigier, coprésident de l’Union des entreprises du logiciel libre et du numérique ouvert (CNLL, Conseil national du logiciel libre) aborde le sujet. Pierre Paradinas et Serge Abiteboul

La souveraineté numérique, que nous définirons comme une autonomie stratégique pour les États, les entreprises et les citoyens dans le domaine du numérique (logiciels, données, matériels, infrastructures…), apparaît sous-représentée dans le débat politique actuel, en particulier en France où la campagne pour les élections européennes ne met pas suffisamment en lumière cet enjeu crucial. Ce manque d’attention est préoccupant compte tenu de l’importance croissante des technologies numériques dans notre société et de notre dépendance envers des acteurs principalement américains et asiatiques.

Un peu de contexte

Le logiciel libre, ou open source, représente un pilier fondamental pour atteindre la souveraineté numérique. Ce type de logiciel, dont le code source est public et que chacun peut modifier, améliorer et redistribuer, accélère l’innovation ouverte, évite l’enfermement technologique (lock-in) au sein de plateformes propriétaires et renforce l’autodétermination numérique des utilisateurs. Selon la Commission européenne, l’open source « accroît notre capacité à agir de manière indépendante pour préserver nos intérêts, défendre les valeurs et le mode de vie européens et contribuer à façonner notre avenir.”

En dépit d’une contribution économique significative — représentant 10 % du marché des logiciels et services informatiques en France, soit plus de 6 milliards d’euros de chiffre d’affaires annuel — le logiciel libre ne reçoit pas l’attention politique proportionnelle à son impact. La législation française, notamment la Loi pour une République Numérique de 2016, a bien tenté de promouvoir son usage dans l’administration publique en “encourageant” son adoption, mais les initiatives restent insuffisantes.

À l’échelle de l’Union européenne, des efforts ont été entrepris, comme en témoignent les Stratégies Open Source de la Commission européenne pour les périodes 2014-2017 et 2020-2023, qui visent à augmenter la transparence, à améliorer la sécurité des systèmes informatiques et à stimuler l’innovation au sein des services publics. Toutefois, pour que l’Europe progresse réellement vers une autonomie numérique, il est essentiel que ces engagements soient non seulement renouvelés pour la mandature à venir du Parlement et de la Commission, mais aussi significativement élargis pour impacter plus que les services informatiques de la Commission, si importants soient-ils.

Les grands partis français aux abonnés absents

Le CNLL, qui représente la filière française des entreprises du logiciel libre, a élaboré et diffusé un questionnaire auprès des principaux partis candidats aux Européennes de juin. Aucun des grands partis sollicités à de multiples reprises et par différents canaux n’a donné suite.

Cette absence de réponse des grands partis est la marque soit d’un désintérêt, soit d’une absence d’expertise sur ces sujets cruciaux, et dans tous les cas nous apparaît comme une faute majeure face aux enjeux.

À ce jour, seuls deux petits partis, Volt France et le Parti Pirate, ont répondu à ce questionnaire (réponse de Volt, réponse du Paris Pirate), en reconnaissant pleinement l’importance de la souveraineté numérique et en proposant des stratégies claires pour intégrer davantage le logiciel libre dans la politique numérique européenne.

Le Parti Pirate, fidèle à son engagement historique envers l’idéologie du logiciel libre, adopte le slogan “argent public, code public”, qui affirme que tous les logiciels financés par des ressources publiques doivent être libres et ouverts. Cette position s’inscrit dans une vision plus large visant à transformer l’administration publique en intégrant le logiciel libre pour renforcer l’indépendance, la transparence et réduire les coûts.

Volt France, de son côté, reconnaît également le rôle stratégique du logiciel libre dans la quête de souveraineté numérique, mais adopte une approche qui inclut la création d’une infrastructure numérique européenne autonome. Ils envisagent des mesures législatives et des financements spécifiques pour soutenir le logiciel libre, y compris un Small Business Act européen qui garantirait un soutien aux PME, notamment celles offrant des solutions de cloud et de logiciels libres. Cette initiative vise à favoriser la compétitivité et à réduire la dépendance vis-à-vis des géants technologiques non européens.

En comparaison, le Parti Pirate se concentre davantage sur les aspects éthiques et communautaires de la technologie, cherchant à démocratiser l’accès au logiciel libre et à en faire une norme dans toute l’administration publique, alors que Volt aligne ses initiatives sur les objectifs stratégiques plus larges de l’Union européenne, visant à positionner le continent comme un acteur compétitif et indépendant sur la scène numérique mondiale. Les deux partis promeuvent par ailleurs une intégration approfondie du logiciel libre dans les systèmes éducatifs pour sensibiliser et éduquer la prochaine génération sur les avantages de l’open source.

Que faire?

Les réponses de Volt France et du Parti Pirate, ainsi que celle des principaux partis allemands à un questionnaire similaire à celui du CNLL, nous donnent la matière à relancer le débat public sur la souveraineté numérique et le soutien à l’écosystème du logiciel libre en France et en Europe, en alignant de nombreuses propositions concrètes, au niveau national comme européen, autour d’une stratégie cohérente et volontariste, visant entre autres à soutenir un écosystème européen robuste de développeurs et d’entreprises spécialisées dans l’open source.

En premier lieu, il faut donner la priorité aux solutions open source dans les marchés publics, sauf lorsque des alternatives propriétaires sont absolument nécessaires. L’adoption d’une politique « Open Source First » au niveau de l’UE garantira que tous les nouveaux projets numériques financés par l’UE examinent d’abord les options open source. De plus, la stratégie numérique de l’UE devra être renouvelée pour inclure un soutien spécifique aux projets open source, en proposant des directives claires pour leur adoption et leur maintenance.

Pour financer efficacement cette transition vers l’open source, il faudra allouer au moins 10 % du budget numérique de l’UE au soutien direct de ces projets. Cela inclut des subventions pour la recherche et le développement, la création d’un fonds permanent pour l’open source visant à assurer l’amélioration continue et la sécurité des systèmes, ainsi que l’implémentation de métriques pour suivre et rapporter les progrès.

Le soutien aux petites et moyennes entreprises (PME) européennes spécialisées dans l’open source est également crucial, en leur garantissant une part significative de la commande publique (“Small Business Act”), par des allégements fiscaux ciblés et des subventions spécifiques, et par la facilitation de l’accès aux programmes de recherche financés par l’UE. Un réseau de clusters ou de hubs d’innovation open source à travers l’Europe fournira un soutien technique et commercial essentiel, ainsi que des fonds de démarrage pour les start-up du secteur.

En outre, pour combattre la pénurie de compétences et améliorer la compréhension des technologies ouvertes, il est vital d’intégrer l’éducation au logiciel libre (en tant qu’outil aussi bien qu’objet d’étude) dans les curriculums à tous les niveaux de l’éducation et par un soutien à des formations professionnelles, initiale et continue. L’UE pourra également financer une large campagne de sensibilisation aux avantages des technologies et des solutions open source.

Pour finir ce survol rapide, l’implication des communautés open source dans les processus législatifs et réglementaires est indispensable. La création d’un conseil consultatif européen sur l’open source, représentatif de la diversité de l’écosystème, permettra une interaction continue et productive entre les décideurs et la communauté open source, enrichissant ainsi la formulation des politiques numériques avec des recommandations éclairées et pragmatiques.

Observons qu’aucune de ces propositions ne tranche par sa radicalité. Pour ne donner qu’un exemple, la préférence pour le logiciel libre dans la commande publique est déjà inscrite dans la loi en Italie depuis 2012 et en France, pour le secteur plus restreint de l’enseignement supérieur, depuis 2013. La France se distingue par ailleurs par la notion d’ “encouragement” à l’utilisation du logiciel libre par l’administration, ainsi que l’obligation de “préserver la maîtrise, la pérennité et l’indépendance de [ses] systèmes d’information”, inscrites dans la loi République Numérique de 2016. D’autres propositions sont directement inspirées de rapports parlementaires, comme celui du député Philippe Latombe sur la souveraineté numérique.

Conclusion

La souveraineté numérique, bien que cruciale pour l’autonomie stratégique de l’Europe, est négligée dans la campagne actuelle pour les élections européennes en France. Seuls Volt France et le Parti Pirate ont réellement abordé ce sujet, et ont mis en avant l’importance des logiciels libres et de l’open source comme pilier de cette souveraineté. Leurs propositions convergent vers un renforcement de l’utilisation du logiciel libre dans les administrations publiques, l’éducation et le secteur privé pour garantir une Europe plus autonome et moins dépendante des géants technologiques extra-européens.

Il est essentiel que d’autres partis prennent également position sur ces enjeux pour enrichir le débat et proposer une politique numérique européenne cohérente et dynamique. Les mesures proposées, telles que l’adoption généralisée de solutions et technologies ouvertes, le soutien financier accru aux PME du secteur de l’open source, et la formation axée sur les technologies libres, sont fondamentales pour construire un écosystème numérique robuste et ouvert. Cela implique aussi et avant tout une volonté politique affirmée doublée d’une vision systématique, et notamment une collaboration étroite entre tous les acteurs de l’écosystème numérique européen ouvert. La prochaine législature européenne a ainsi une opportunité, mais également une responsabilité, de repenser profondément notre approche du numérique afin de construire un avenir numérique plus résilient et autonome pour l’Union européenne.

Stéfane Fermigier, co-président du CNLL et fondateur d’Abilian

7 juin 2024
Vive les communs numériques !

Un des éditeurs de Binaire, Pierre Paradinas a lu le livre de Serge Abiteboul & François Bancilhon, Vive les communs numérique ! Il nous en dit quelques mots gentils. Binaire.

Le livre de Serge et François, Vive les communs numériques ! est un excellent livre -oui, je suis en conflit d’intérêts car les auteurs sont de bons copains.

C’est un livre facile et agréable à lire, mais sérieux et extrêmement bien documenté sur la question des communs numériques. En effet, nos deux collègues universitaires, scientifiques et entrepreneurs expliquent, explicitent et démontent les rouages des communs numériques.

Partant de l’exemple d’un champ partagé par les habitants d’un village, ils définissent les communs numériques et nous expliquent ce qu’ils sont, et pourquoi certains objets numériques (gratuits ou pas) ne peuvent pas être considérés comme des communs numériques. L’ensemble des communs numériques sont décrits, allant des données, au réseau en passant par l’information, les logiciels et la connaissance.

Une partie est consacré au « comment ça marche », qui nous donne des éléments sur les communautés au cœur du réacteur des communs numériques, sans oublier les licences qui doivent accompagner systématiquement un élément mis à disposition sous forme de commun numérique. Enfin, comme le diable est dans le détail, les auteurs nous expliquent la gouvernance des communs numériques et les vraies questions de gestion des communs numériques.

Le livre explore aussi les liens avec les entreprises des technologies informatiques -parfois très largement contributrices au logiciel libre-, comme Linux, les suites bureautiques ou les bases de données dont nos deux auteurs sont des spécialistes reconnus.

Le livre est enclin à un certain optimisme qui reposes sur les nombreuses opportunités offertes par les communs numériques. De même, on apprécie le point évoqué par les auteurs de la souveraineté numérique où les communs numériques sont analysés pour l’établir, la développer et la maintenir. Par de nombreux exemples, les communs numériques permettent une plus grande prise en compte des utilisateurs, ce qui devrait conduire à des solutions technologiques mieux adaptées.

Si vous voulez comprendre les communs numériques, courez vite l’acheter ! Si vous voulez compléter vos cours sur les données ouvertes et/ou le logiciel libre, c’est l’ouvrage de référence.

Le livre est très riche, il compte de nombreux encadrés, consacrés à des communs numériques ou à des personnalités ; il contient aussi un lexique, une bibliographie et une chronologie qui complètent l’ouvrage. Écrit avec passion, c’est un plaidoyer richement documenté. Vive les communs numériques !

Pierre Paradinas

PS : Le livre sera en accès ouvert à partir de décembre 2024 😀

5 avril 2024
L’universalité de la vérification des démonstrations mathématiques

Un nouvel « Entretien autour de l’informatique ». Gilles Dowek est chercheur en informatique chez Inria et enseignant à l’ENS de Paris-Saclay. Il est lauréat du Grand prix de philosophie 2007 de l’Académie française pour son ouvrage Les métamorphoses du calcul, une étonnante histoire de mathématiques (éditions Le Pommier) et du Grand prix Inria – Académie des sciences 2023 pour ses travaux sur les systèmes de vérification automatique de démonstrations mathématiques. Il a brièvement travaillé sur le système Coq au début de sa carrière. Il est à l’origine de Dedukti, un cadre logique permettant d’exprimer les théories utilisées dans différents systèmes de vérification de démonstrations. C’est l’une des personnes qui a le plus contribué à l’introduction en France de l’enseignement de l’informatique au collège et au lycée.

Gilles Dowek, © Inria / Photo B. Fourrier

Binaire : Comment doit-on te présenter ? Mathématicien, logicien, informaticien ou philosophe ?

GD : Le seul métier que j’aie jamais exercé, c’est informaticien. La séparation des connaissances en disciplines est bien sûr toujours un peu arbitraire. Il y a des frontières qu’on passe facilement. Mes travaux empiètent donc sur les mathématiques, la logique et la philosophie. Mais je suis informaticien.

Binaire : Peux-tu nous raconter brièvement ta vie professionnelle ?

GD : Enfant, je voulais déjà être chercheur, mais je ne savais pas dans quelle discipline. Les chercheurs que je connaissais étaient surtout des physiciens : Einstein, Marie Curie… Je voyais dans la recherche une construction collective qui durait toute l’histoire de l’humanité. J’étais attiré par l’idée d’apporter une contribution, peut-être modeste, à cette grande aventure. Mes fréquentes visites au Palais de la Découverte m’ont encouragé dans cette voie.

J’ai commencé ma carrière de chercheur assez jeune grâce à l’entreprise Philips, qui organisait, à l’époque, chaque année un concours pour les chercheurs de moins de 21 ans, des amateurs donc. J’ai proposé un programme pour jouer au Master Mind et j’ai obtenu le 3ème prix. Jacques-Louis Lions qui participait au jury a fait lire mon mémoire à Gérard Huet, qui l’a fait lire à François Fages. J’avais chez moi en 1982 un ordinateur avec 1 k-octet de mémoire et mon algorithme avait besoin de plus. Je ne pouvais l’utiliser qu’en fin de partie et je devais utiliser un autre algorithme, moins bon, pour le début et le milieu de la partie.

Gérard et François m’ont invité à faire un stage pendant les vacances de Noël 1982. Ils ont tenté de m’intéresser à leurs recherches sur la réécriture, mais sans succès. La seule chose que je voulais était utiliser leurs ordinateurs pour implémenter mon algorithme pour jouer au Master Mind. Et ils m’ont laissé faire. Cela m’a permis d’avoir de bien meilleurs résultats et de finir avec le 3ème prix, cette fois au niveau européen.

Durant ce stage, Gérard m’avait quand même expliqué qu’il n’y avait pas d’algorithme pour décider si un programme terminait ou non ; il m’a juste dit que c’était un théorème, sans m’en donner la démonstration. Mais cela me semblait incroyable. À l’époque, pour moi, l’informatique se résumait à écrire des programmes ; je voyais cela comme une forme d’artisanat. Ce théorème m’ouvrait de nouveaux horizons : l’informatique devenait une vraie science, avec des résultats, et même des résultats négatifs. C’est ce qui m’a fait changer de projet professionnel.

Gérard m’avait aussi dit que, pour si je voulais vraiment être chercheur et avoir un poste, je devais faire des études. Alors j’ai fait des études, prépa puis école d’ingénieur. Je suis retourné chez Gérard Huet, pour mon stage de recherche de fin d’étude, puis pour ma thèse. Ensuite, je suis devenu professionnel de la recherche ; j’ai eu un poste et j’ai obtenu le grand plaisir de gagner ma vie en faisant ce qui m’intéressait et qui, le plus souvent, qui me procure toujours une très grande joie.

Binaire : Peux-tu nous parler de ta recherche ?

GD : En thèse, je cherchais des algorithmes de démonstration automatique pour produire des démonstrations dans un système qui est devenu aujourd’hui le système Coq. Mais dans les conférences, je découvrais que d’autres gens développaient d’autres systèmes de vérification de démonstrations, un peu différents. Cela me semblait une organisation curieuse du travail. Chacun de son côté développait son propre système, alors que les mathématiques sont, par nature, universelles.

Qu’est-ce qu’un système de vérification de démonstrations mathématiques ? Prouver un théorème n’est pas facile. En fait, comme l’ont montré Church et Turing, il n’existe pas d’algorithme qui puisse nous dire, quand on lui donne un énoncé, si cet énoncé a une démonstration ou non. En revanche, si, en plus de l’énoncé du théorème, on donne une démonstration potentielle de cet énoncé, il est possible de vérifier avec un algorithme que la démonstration est correcte. Trouver des méthodes pour vérifier automatiquement les démonstrations mathématiques était le programme de recherche de Robin Milner (Prix Turing) et également de Nicolaas De Bruijn. Mais en faisant cela, ils se sont rendu compte que si on voulait faire vérifier des démonstrations par des machines, il fallait les écrire très différemment, et beaucoup plus rigoureusement, que la manière dont on les écrit habituellement pour les communiquer à d’autres mathématiciens.

Les travaux de Milner et de De Bruijn ouvraient donc une nouvelle étape dans l’histoire de la rigueur mathématique, comme avant eux, ceux d’Euclide, de Russell et Whitehead et de Bourbaki. Le langage dans lequel on exprime les démonstrations devient plus précis, plus rigoureux. L’utilisation de logiciels change la nature même des mathématiques en créant, par exemple, la possibilité de construire des démonstrations qui font des millions de pages.

Notre travail était passionnant mais je restais insatisfait par le côté tour de Babel : chaque groupe arrivait avec son langage et son système de vérification. Est-ce que cela impliquait à un relativisme de la notion de vérité ? Il me semblait que cela conduisait à une crise de l’universalité de la vérité mathématique. Ce n’était certes pas la première de l’histoire, mais les crises précédentes avaient été résolues. J’ai donc cherché à construire des outils pour résoudre cette crise-là.

Binaire : Est-ce qu’on ne rencontre pas un problème assez semblable avec les langages de programmation ? On a de nombreuses propositions de langages.

GD : Tout à fait. Cela tient à la nature même des langages formels. Il faut faire des choix dans la manière de s’exprimer. Pour implémenter l’algorithme de l’addition dans un langage de programmation (ajouter les unités avec les unités, puis les dizaines avec les dizaines, etc. en propageant la retenue), on doit décider comment représenter les nombres, si le symbole « etc. » traduit une boucle, une définition par récurrence, une définition récursive, etc. Mais pour les langages de programmation, il y a des traducteurs (les compilateurs) pour passer d’un langage à un autre. Et on a un avantage énorme : tous les langages de programmation permettent d’exprimer les mêmes fonctions : les fonctions calculables.

Avec les démonstrations mathématiques, c’est plus compliqué. Tous les langages ne sont pas équivalents. Une démonstration particulière peut être exprimable dans un langage mais pas dans un autre. Pire, il n’y a pas de langage qui permette d’exprimer toutes les démonstrations : c’est une conséquence assez simple du théorème de Gödel. Peut-on traduire des démonstrations d’un langage vers un autre ? Oui, mais seulement partiellement.

Pour résoudre une précédente crise de l’universalité de la vérité mathématique, la crise des géométries non euclidiennes (*), Hilbert et Ackermann avaient introduit une méthode : ils avaient mis en évidence que Euclide, Lobatchevski et Riemann n’utilisaient pas les mêmes axiomes, mais surtout ils avaient proposé un langage universel, la logique des prédicats, dans lequel ces différents axiomes pouvaient s’exprimer. Cette logique des prédicats a été un grand succès des mathématiques des années 1920 et 1930 puisque, non seulement les différentes géométries, mais aussi l’arithmétique et la théorie des ensembles s’exprimaient dans ce cadre. Mais, rétrospectivement, on voit bien qu’il y avait un problème avec la logique des prédicats, puisque personne n’avait exprimé, dans ce cadre logique, la théorie des types de Russell, une autre théorie importante à cette époque. Et pour le faire, il aurait fallu étendre la logique des prédicats. Par la suite, de nombreuses autres théories ont été proposées, en particulier le Calcul des Constructions, qui est le langage du système Coq, et n’ont pas été exprimée dans ce cadre.

Au début de ma carrière, je pensais qu’il suffisait d’exprimer le Calcul des Constructions dans la logique des prédicats pour sortir de la tour de Babel et retrouver l’universalité de la vérité mathématique. C’était long, pénible, frustrant, et en fait, cette piste m’a conduit à une impasse. Mais cela m’a surtout permis de comprendre que nous avions besoin d’autres cadres que la logique des prédicats. Et, depuis les années 1980, plusieurs nouveaux cadres logiques étaient apparus dans les travaux de Dale Miller, Larry Paulson, Tobias Nipkow, Bob Harper, Furio Honsel, Gordon Plotkin, et d’autres. Nous avons emprunté de nombreuses idées à ces travaux pour aboutir à un nouveau cadre logique que nous avons appelé Dedukti (“déduire” en espéranto). C’est un cadre général, c’est-à-dire un langage pour définir des langages pour exprimer des démonstrations. En Dedukti, on peut définir par exemple la théorie des types de Russell ou le Calcul des Constructions et on peut mettre en évidence les axiomes utilisés dans chaque théorie, et surtout dans chaque démonstration.

Binaire : Pourquoi l’appeler Dedukti ? Ce n’est pas anodin ?

GD : Qu’est-ce qui guidait ces travaux ? L’idée que certaines choses, comme la vérité mathématique, sont communes à toute l’humanité, par-delà les différences culturelles. Nous étions attachés à cette universalité des démonstrations mathématiques, les voir comme des “communs”. Dans l’esprit, les liens avec des communs numériques comme les logiciels libres sont d’ailleurs étroits. On retrouve les valeurs d’universalité et de partage. Il se trouve d’ailleurs que la plupart des systèmes de vérification de démonstrations sont des logiciels libres. Coq et Dedukti le sont. Vérifier une démonstration avec un système qu’on ne peut pas lui-même vérifier, parce que son code n’est pas ouvert, ce serait bizarre.

Revenons sur cette universalité. Si quelqu’un arrivait avec une théorie et qu’on n’arrivait pas à exprimer cette théorie dans Dedukti, il faudrait changer Dedukti, le faire évoluer. Il n’est pas question d’imposer un seul système, ce serait brider la créativité. Ce qu’on vise, c’est un cadre général qui englobe tous les systèmes de vérification de démonstrations utilisés.

Longtemps, nous étions des gourous sans disciples : nous avions un langage universel, mais les seuls utilisateurs de Dedukti étaient l’équipe de ses concepteurs. Mais depuis peu, Dedukti commence à avoir des utilisateurs extérieurs à notre équipe, un peu partout dans le monde. C’est bien entendu une expansion modeste, mais cela montre que nos idées commencent à être comprises et partagées.

Binaire : Tu es très intéressé par les langages formels. Tu as même écrit un livre sur ce sujet. Pourrais-tu nous en parler ?

GD : Les débutants en informatique découvrent d’abord les langages de programmation. L’apprentissage d’un langage de programmation n’est pas facile. Mais la principale difficulté de cet apprentissage vient du fait que les langages de programmation sont des langages. Quand on s’exprime dans un langage, il faut tout dire, mais avec un vocabulaire et une syntaxe très pauvre. Les langages de démonstrations sont proches des langages de programmation. Mais de nombreux autres langages formels sont utilisés en informatique, par exemple des langages de requêtes comme SQL, des langages de description de pages web comme HTML, et d’autres. Le concept de langage formel est un concept central de l’informatique.

Mais ce concept a une histoire bien plus ancienne que l’informatique elle-même. Les humains ont depuis longtemps inventé des langages dans des domaines particuliers, comme les ophtalmologistes pour prescrire des lunettes. On peut multiplier les exemples : en mathématiques, les langages des nombres, de l’arithmétique, de l’algèbre, où apparaît pour la première fois la notion de variable, les cylindres à picots des automates, le langage des réactions chimiques, inventé au XIXe siècle, la notation musicale.

C’est le sujet de mon livre, Ce dont on ne peut parler, il faut l’écrire (Le Pommier, 2019). La création de langage est un énorme champ de notre culture. Les langages sont créés de toute pièce dans des buts spécifiques. Ils sont bien plus simples que les langues naturelles utilisées à l’oral. Ils expriment moins de choses mais ils sont souvent au centre des progrès scientifiques. L’écriture a probablement été inventée d’abord pour fixer des textes exprimés dans des langages formels et non dans des langues.

Binaire : Tu fais une très belle recherche, plutôt fondamentale. Est-ce que faire de la recherche fondamentale sert à quelque chose ?

GD : Je ne sais pas si je fais de la recherche fondamentale. En un certain sens, toute l’informatique est appliquée.

Maintenant, est-ce que la recherche fondamentale sert à quelque chose ? Cela me rappelle une anecdote. À l’École polytechnique, le poly d’informatique disait que la moitié de l’industrie mondiale était due aux découvertes de l’informatique et celui de physique que deux tiers de l’industrie mondiale étaient dus aux découvertes de la physique quantique. Les élèves nous faisaient remarquer que 1/2 + 2/3, cela faisait plus que 1. Bien entendu, les physiciens avaient compté toute l’informatique dans la partie de l’industrie que nous devions à la physique quantique, car sans physique quantique, pas de transistors, et sans transistors, pas d’informatique. Mais le message commun que nous voulions faire passer était que des pans entiers de l’économie existent du fait de découvertes scientifiques au départ perçues comme fondamentales. L’existence d’un algorithme pour décider de la correction d’une démonstration mathématique, question qui semble très détachée de l’économie, nous a conduit à concevoir des logiciels plus sûrs. La recherche la plus désintéressée, éloignée a priori de toute application, peut conduire à des transformations majeures de l’économie.

Cependant, ce n’est pas parce que la recherche a une forte influence sur le développement économique que nous pouvons en conclure que c’est sa seule motivation. La recherche nous sert aussi à mieux comprendre le monde, à développer notre agilité intellectuelle, notre esprit critique, notre curiosité. Cette quête participe de notre humanité. Et si cela conduit à des progrès industriels, tant mieux.

Serge Abiteboul, Inria, & Claire Mathieu, CNRS

(*) Des géomètres comme Euclide ont démontré que la somme des angles d’un triangle est toujours égale à 180 degrés. Mais des mathématiciens comme Lobatchevski ont démontré que cette somme était inférieure à 180 degrés. Crise ! Cette crise a été résolue au début du XXe siècle par l’observation, finalement banale, que Euclide et Lobatchevski n’utilisaient pas les mêmes axiomes, les mêmes présupposés sur l’espace géométrique.

https://binaire.socinfo.fr/les-entretiens-de-la-sif/

26 janvier 2024
Communs numériques : explorer l’hypothèse des organisations frontières
Louise Frion est doctorante en droit du numérique. Ses travaux portent sur les communs et la blockchain. Elle a récemment publié un papier de recherche sous la direction de Florence G’Sell intitulé Les communs numériques comme systèmes alternatifs de valeur. Ce papier a fait l’objet d’une discussion publique le à Sciences Po. Elle revient ici sur quelques points saillants de sa recherche.

Ce texte est co-publié par le Conseil National du Numérique et par binaire, dans le cadre de notre rubrique sur les communs numériques.

Louise Frion

Dans votre papier de recherche, vous vous inscrivez dans la poursuite du travail réalisé par le groupe de travail sur les communs numériques conduit à l’initiative de la France au cours de la présidence française (rapport), notamment pour considérer les communs numériques comme un vecteur de renforcement stratégique pour l’Europe. Quels sont les arguments qui sous-tendent cette idée selon vous ?

Les communs numériques sont des outils utiles pour renforcer l’indépendance industrielle de l’Europe dans les secteurs les plus stratégiques.

D’abord parce qu’ils renforcent la résilience de nos infrastructures numériques vitales grâce à des effets de réseau lié à leur nature même, en tant que biens non-rivaux. Dans le cadre de projets comme Python SciPy[1] ou Govstack[2], l’ouverture du code des briques logiciel incite les utilisateurs à corriger les bugs au fil de l’eau, voire à contribuer à l’écriture du code source pour le rendre plus efficace. Cela permet également de garantir la sécurité des infrastructures à moindre coût et de développer et de maintenir des composantes numériques réutilisables et interopérables entre elles. Cela renforce aussi l’indépendance des administrations publiques qui peuvent ainsi choisir les logiciels dont elles ont besoin pour un service public sans être dépendantes du logiciel d’une entreprise privée pour une application donnée.

Ensuite, les communs numériques sont vecteurs d’innovation et de créativité car ils sont ouverts à tous et structurés de telle sorte que toute contribution malveillante ou inutile n’est pas valorisée. Il est de fait inintéressant pour un individu ou un groupe d’individu de dégrader un commun ou de tenter de l’orienter vers d’autres objectifs car sa valeur dépend de critères socio-économiques et non financiers. Leur contribution positive à l’économie européenne pourrait atteindre 65-95Mds€ de création de valeur pour 1Md€ d’investissement[3].

Enfin, la transparence et l’auditabilité des communs numériques renforce la légitimité de nos institutions et a fortiori leur caractère démocratique, car ils offrent des outils permettant de construire des services publics et des algorithmes plus représentatifs de la diversité de nos sociétés. Ces outils réduisent les barrières artificielles qui existent entre producteurs et consommateurs de contenu, ce qui augmente mécaniquement l’offre de contenus numérique et a fortiori sa représentativité de la diversité de la société. À l’échelle locale, la plateforme open source Decidim réunit des municipalités, des organisations de quartier, des associations, des universités ou des syndicats pour configurer des espaces numériques dédiés à la participation citoyenne et les enrichir de fonctionnalités plus accessibles de type sondage, propositions de vote, suivi de résultats, etc.

Pour autant, la diffusion de la culture et de la pratique des communs n’est pas évidente. À quels grands défis sont-ils confrontés aujourd’hui ?

Les communs numériques sont confrontés aujourd’hui à trois grands défis.

D’abord, ils souffrent d’une absence de cadre juridique dédié permettant de favoriser l’engagement durable et réciproque des commoners dans un commun numérique. Les politiques publiques sont davantage dans une logique d’exploitation de la production des commoners que de support actif et financier à la construction d’infrastructures qui pourraient décharger les commoners de certaines tâches et leur permettre de se concentrer sur les évolutions du code source et les algorithmes sous-jacents.

Ensuite, les communs numériques font face à un risque de capture par des entreprises privées. Les incitations économiques et sociales à préserver l’indépendance des commoners, dans un contexte où 96% de nos entreprises utilisent des composantes open source, sont insuffisantes à l’heure actuelle. Dans les nombreux « arrangements » entre commoners et entreprises pour développer et maintenir des projets open source, le pouvoir de négociation des commoners est trop souvent réduit. Cela se traduit par une augmentation du nombre de semi-communs, soient des espaces où commoners et salariés développent des solutions ensemble. Mais, par exemple avec le semi-commun Chromium qui coexiste avec Chrome, les contributeurs sont toutefois essentiellement des salariés de Google et ce sont des membres du management de Google qui choisissent in fine de mettre en place les modules développés dans Chromium dans Chrome, ce qui limite de facto le pouvoir de négociation des commoners.

L’enjeu pour les communs numériques ici semble être de développer des incitations pour les commoners et pour les entreprises à réconcilier les deux visions qui s’opposent entre l’open source (Linus Torvalds) qui utilise les communs pour produire des solutions plus efficaces à moindre coût et le libre (Richard Stallman) où les utilisateurs ont le droit d’exécuter, de copier, de distribuer, d’étudier, de modifier ou d’améliorer tout logiciel.

Enfin, dans un contexte de fracture numérique grandissante au niveau national (1 personne sur 6 en difficulté face au numérique en France d’après l’INSEE), les communs numériques sont encore trop éloignés de la plupart des citoyens sur le territoire national. Pour déployer leur plein potentiel, le principe digital commons first[4] n’est pas suffisant, il faut aussi que les communs numériques soient considérés comme des infrastructures essentielles par les pouvoirs publics. Cela permettrait d’impliquer davantage les citoyens dans leur construction, leur développement et leur entretien. Compter uniquement sur l’engagement bénévole des commoners pour atteindre des ambitions aussi fortes n’est pas viable à long-terme.

Pour répondre aux défis auxquels font face les communs, vous défendez aussi l’hypothèse de créer des organisations frontières ? En quoi consistent de telles organisations ?

Les « organisations frontières » sont des fondations à but non lucratifs qui ont pour objectif de régir les relations entre les communs numériques et les organisations avec lesquelles ces communs interagissent, comme par exemple les fondations Linux, Wikimedia, Apache.

Elles permettent aux commoners de maintenir leur pouvoir de négociation pour éviter de se transformer indirectement en main d’œuvre des entreprises qui s’appuient sur leur travail. Ce faisant, elles maintiennent des frontières avec les grandes entreprises pour préserver l’indépendance des communs tout en attirant les meilleurs développeurs pour contribuer. Ces organisations ont trois fonctions : préserver des modalités de contrôle plurielles sur l’évolution du code, donner une voix aux entreprises sur l’évolution du projet et représenter les communautés qui gèrent les projets.

Dans cette logique, les organisations frontières permettent de dissocier les intérêts convergents entre commoners et entreprises et de mettre en place des systèmes de collaboration qui ne menacent pas leurs intérêts divergents.

La collaboration entre commoners et entreprise est mutuellement bénéfique car :
- – L’intérêt des commoners est d’étendre le champ d’application des logiciels libres en s’appuyant sur les ressources des entreprises ; les problématiques commerciales entrainent des problèmes techniques intéressants à résoudre.
- – Les entreprises ont intérêt à exploiter ce marché émergent à mesure qu’il gagne en popularité auprès des utilisateurs car cela leur donne accès à de l’expertise technique pour ensuite recruter, résoudre des problèmes complexes avec des experts, et augmenter leurs marges avec des frais de licences moins élevés.
Mais leurs intérêts peuvent aussi diverger : les commoners veulent maintenir leur autonomie, une manière de collaborer informelle et non hiérarchique, et la transparence du code-source alors que les entreprises ont intérêt à influencer le projet dans le sens de leur stratégie, à ne pas divulguer trop d’information à leurs concurrents, en particulier sur leurs stratégies de lancement sur le marché et à mettre en place des processus de gouvernance plus formels pour garder la main sur l’évolution des projets dans le temps et mitiger les risques associés.

Dans ce contexte, les organisations frontières fournissent des cadres de gouvernance qui atténuent les divergences entre commoners et entreprises et permettent de préserver les aspects les plus critiques des deux parties[5].

Elles permettent aussi d’inciter les commoners à investir davantage de leur temps dans la maintenance du commun pour détecter plus rapidement des vulnérabilités cyber dans des infrastructures à grande échelle.

O’Mahony et Bechky, deux chercheurs de l’Université de Californie, ont identifié quelques bonnes pratiques pour qu’une « organisation frontière » soit pleinement efficaces :
- – Ses prérogatives doivent être cantonnées aux aspects légaux et administratifs et laisser les aspects plus techniques aux commoners et aux entreprises.
- – Elles ne doivent avoir aucun rôle sur les décisions prises au niveau du code, le droit d’accepter ou de refuser une modification étant purement individuel (en fonction du mérite technique du code) en préservant l’autonomie des
- – Leur capacité décisionnelle doit être limitée sur la temporalité de la sortie des nouvelles versions du logiciel, cette décision devant plutôt revenir à des développeurs sponsorisés par les entreprises, qui en retour leur donnent la visibilité nécessaire sur le développement du projet en cours[6].
Louise Frion, doctorante en droit du numérique

Propos recueillis par Serge Abiteboul et Jean Cattan

[1] Bibliothèque open source dédiée aux calculs de mathématique complexes et à la résolution de problèmes scientifiques.

[2] Partenariat public-privé-communs pour généraliser l’utilisation de communs numériques accessibles, fiables et durables pour les administrations publiques ; commun numérique pour développer et maintenir des composantes numériques réutilisables et interopérables pour les administrations.

[3] Source : groupe de travail sur les communs numériques réunissant 19 États membres à l’initiative de la France pendant la présidence française.

[4] Le fait de considérer d’abord des solutions open source avant d’implémenter tout nouveau service public.

[5] Les auteurs utilisent les exemples de projets tels que Webserver, GUI Desktop pour rendre Linux plus accessible à des utilisateurs non techniciens, Compatibilité project et Linux distribution project pour illustrer ce point sur les organisations frontières.

[6] Dans les projets décrits par O’Mahony et Bechky, les entreprises ne pouvaient pas contribuer en tant qu’utilisateurs mais ne pouvaient pas non plus intégrer des codes-sources sans garder la main sur leur développement. Pour résoudre ce conflit, elles ont embauché des commoners sur des projets spécifiques en ligne avec leurs intérêts qu’elles ont sponsorisés financièrement. L’adhésion des commoners devait toutefois être individuelle pour préserver l’indépendance du commun. Les fondations leur ont donc donné des droits spécifiques sur la propriété intellectuelle qu’ils ont contribué à créer.
8 septembre 2023
Le CNNum et le blog Binaire explorent ensemble les communs numériques

Partageant l’ambition de questionner et d’éclairer la réflexion autour des enjeux du numérique, le Conseil national du numérique et le blog Binaire du Monde s’associent pour construire une collection d’entretiens sur les communs numériques.

Le Conseil national du numérique étudie depuis plusieurs mois les enjeux liés aux communs numériques, de la philosophie aux modèles économiques, en passant par l’engagement des acteurs et les relais du secteur public. Fidèle à sa méthode ouverte et collective, il réalise dans ce cadre des entretiens avec des experts, disponibles sur ce lien.

Depuis janvier 2021, le blog de vulgarisation sur l’informatique Binaire du Monde consacre de nombreux entretiens aux communs numériques. Académiciens, acteurs publics, militants partagent leur expérience dans des articles aussi instructifs que variés et donnent plusieurs clés pour appréhender au mieux tout le potentiel des communs numériques.

Dans le cadre de cette collaboration, nous publions pour la première fois de manière conjointe un entretien réalisé avec Vincent Bachelet, doctorant en droit privé à l’université Paris-Saclay. Le chercheur nous y livre plusieurs pistes de réflexion sur la façon dont l’économie solidaire et sociale peut participer à la structuration et la valorisation des projets de communs numérique. Profitez de cette lecture sur Binaire ou sur le site du Conseil.

N’hésitez pas à parcourir les différents entretiens publiés :
– dans la rubrique Communs numériques du blog Binaire en cliquant ici !
– sur le site du Conseil national du numérique en cliquant ici !

Vous connaissez des experts et souhaiteriez voir leur parole relayée ? Vous pouvez envoyer des suggestions à info@cnnumerique.fr ou binaire-editeurs@inria.fr.

À propos du Conseil national du numérique : Créé en 2011, le Conseil national du numérique est une instance consultative indépendante chargée de conduire une réflexion ouverte sur la relation complexe des humains au numérique. Son collège interdisciplinaire est composé de membres bénévoles nommés pour deux ans par le Premier ministre aux domaines de compétences variés (sociologue, économiste, philosophe, psychologue, anthropologue, informaticien, avocat, journaliste…) et de parlementaires désignés par les présidents de l’Assemblée nationale et du Sénat.

À propos de Binaire : binaire est un blog de vulgarisation sur l’informatique, indépendant, tenu par des académiques, qui parle aussi bien de la technologie que de la science, d’enseignement, de questions industrielles, d’algorithmes rigolos, d’algorithmes pas rigolos, de gentilles data, de méchants bugs, bref, de tous les sujets en lien avec le monde numérique qui nous entoure.

2 juin 2023
L’echostétoscopie en commun

Dans le cadre de la rubrique sur les Communs numériques, binaire a rencontré Mehdi Benchoufi, médecin de santé publique à l’hôpital Hôtel-Dieu, ancien chef de clinique en épidémiologie clinique et agrégé et docteur en mathématiques. Il s’est principalement investi aux interfaces entre médecine connectée et technologies ouvertes : imagerie par ultra-sons, méthodologie de développement des solutions d’intelligence artificielle. Il a été pionnier dans les applications de la blockchain pour la qualité des essais cliniques. Il a été membre du Conseil Scientifique de la Fondation pour la Recherche Médicale de l’AP-HP (l’Assistance publique – Hôpitaux de Paris). Il est l’un des cofondateurs et le président de echOpen Factory, une startup de la santé qui développe et commercialise un échographe ultra portable, à bas coût.

Mehdi Benchoufi

Binaire : Qu’est-ce que le mot commun évoque pour toi ?

Mehdi Benchoufi : Une des grandes passions de ma vie est les mathématiques. La première chose que m’évoque les communs c’est le commun des mathématiques. Les mathématiques appartiennent à tous et sont développées par tous. Que serait le monde aujourd’hui si le théorème de Pythagore était propriétaire ? Ce commun a un impact invraisemblable sur le monde. C’est mon goût personnel pour les mathématiques qui m’a donné le goût de la culture du partage telle qu’on la voit dans l’ouverture des données ou du logiciel. On s’inscrit dans une tradition historique de mise en commun, on croise les apports des uns et des autres, et on consolide une connaissance commune.

Peux-tu nous parler du commun sur lequel tu travailles aujourd’hui ?

Je travaille depuis longtemps sur un outil pour mettre l’échographie à la portée de tout le monde. Quand j’étais interne, j’ai réalisé l’intérêt de pouvoir faire des échographies sur le lieu de prise en charge des malades. Notamment, j’ai été marqué par le cas de patients victimes de ruptures d’anévrismes de l’aorte et dont on aurait augmenté les chances de survie si les équipes mobiles de prise en charge avaient disposé d’un matériel échographique de tri, pas cher, miniaturisé et connecté.

C’est ce qui m’a donné l’idée du projet ouvert et collaboratif echOpen au côté de mes collègues Olivier de Fresnoye, Pierre Bourrier et Luc Jonveaux, le premier avec une longue expérience humanitaire, le second radiologue expert de l’échographie, le troisième ingénieur et maker versé dans les technologies acoustiques. L’objectif est de produire une sonde ultrason ouverte, connectée à un smartphone afin de transformer de manière radicale le processus de diagnostic dans les hôpitaux, les cabinets de médecine générale et les déserts médicaux. On tient à ce qu’elle soit abordable, bien moins chère que les produits actuellement sur le marché.

Nous avons créé une association en 2015 pour organiser les développements de la communauté. Dans une première phase qui a duré 3-4 ans, nous avons mis en place tous les outils utilisés dans la fabrication d’un échographe ; c’est en accès libre sur github et des équipes l’utilisent dans le monde entier. Dans un second temps, pour passer du démonstrateur au produit, nous nous sommes structurés en entreprise, tout en tâchant de continuer à associer la communauté.

Commençons par la première phase, peux-tu nous parler de votre communauté ?

Il y avait un noyau d’une trentaine de contributeurs. Et puis d’autres personnes ont soutenu le projet de diverses manières, par exemple, en participant à son financement ou en nous encourageant. Je dirais peut-être un millier de personnes réparties sur 5 continents, des informaticiens, des physiciens, des médecins, des spécialistes en acoustique en électronique, etc.

Pour prendre un exemple, parmi tous ces soutiens, nous avions ce Canadien, un super développeur qui avait fait la une de Hacker News. Il est passé à Paris et a demandé à nous rencontrer. Il est resté 10 jours chez nous et nous a fait gagner un facteur 10 dans les performances de l’application. C’est le genre d’agilité et de créativité que nous apportait la communauté au sens large.

Un autre exemple. Les membres de notre communauté du Pérou nous ont fait connaître une pathologie atypique, un cancer du foie que même nos collègues médecins français ignoraient. Ce sont des formes très rares dans le monde mais fréquentes dans ce pays qui touchent des gens entre 15 et 25 ans en milieu rural. Le malade arrive pour le diagnostic avec une espèce de pastèque dans le ventre et c’est déjà trop tard. Il faudrait dépister cette maladie à temps. Nous nous disions que notre petit échographe serait capable de faire cette détection à distance.

Pour revenir à la contribution d’echOpen aux communs de façon plus générale, dans le logiciel Open Source, la difficulté majeure à laquelle nous avons été confrontées est le caractère inapplicable, dans le domaine de la santé, du principe « give to get » qui peu ou prou régit le développement libre ou open source, c’est-à-dire je donne quand je sais que je vais recevoir. Si je contribue au logiciel libre d’édition de texte emacs, j’apporte une brique qui complète un ensemble dont je vais être l’utilisateur. Mais cette règle-là n’est pas évidente dans notre cas. Dans le domaine de la santé, les membres de la communauté ne sont pas nécessairement les consommateurs de la technologie.

Est-ce que la communauté a défini ses propres règles de fonctionnement ?

Il y a des règles, mais honnêtement ces règles n’ont jamais été vraiment formalisées. On travaille sur Github. Mais c’est aussi important pour la communauté de se retrouver physiquement pour travailler ensemble dans les mêmes locaux. C’est ce que nous avons pu faire dans les locaux de l’hôpital Hôtel Dieu à Paris.

Donc en 2018, vous basculez vers une organisation différente : une entreprise privée. Qu’est-ce qui motive ce choix ?

Au bout de trois ans de développement, s’est reposée notre motivation initiale : avoir de l’impact sur le travail des praticiens et servir les patients. Nous avons compris que notre prototype n’était pas industrialisable. Il fallait un travail d’une tout autre nature, d’une tout autre ampleur, pour satisfaire notamment les exigences en termes de certification et de sécurité. Nous avions réalisé notre mission en tant que Fablab et nous nous sommes lancés dans l’aventure entrepreneuriale, et sommes repartis “from scratch » pour viser la qualité d’un dispositif médical. Pour cela, il fallait des financements et des efforts conséquents. Il s’agissait de financements importants,et les fonds comme ceux que nous avions obtenus auprès des fondations qui nous avaient soutenus depuis le début, la fondation Pierre Fabre, la fondation Sanofi Espoir et la Fondation Altran pour l’Innovation, ne pouvaient suffire. Nous nous sommes transformés en startup.

Le monde est ce qu’il est ; nous sommes dans une économie capitalistique dont le modèle est assis sur la propriété. Personne n’investit un euro dans une société qui n’est pas propriétaire de sa technologie. Je trouve cette logique contestable mais c’est la réalité.

La mise en place de notre première recherche de fonds a été difficile. Les capitaux-risqueurs que nous avons rencontrés ne trouvaient pas leur intérêt dans une solution bas coût, lorsque les compétiteurs vendent substantiellement plus chers. Mais nous avons tenu bon et avons pu trouver les moyens de nous financer jusqu’à aujourd’hui !

Comment s’est passée le passage du commun à l’entreprise ?

Très bien. Toute la communauté contributrice a participé aux discussions quant à l’évolution de notre organisation, à la répartition des titres de l’entreprise à due concurrence des contributions effectuées. L ‘association est toujours en place et elle a une part substantielle de l’entreprise privée, elle a ainsi co-fondé le véhicule industriel echOpen factory. Elle a concentré et intensifié ses activités pour adresser un enjeu de santé publique majeure au niveau mondiale, la santé maternelle dans les pays à faible revenu. Aujourd’hui l’aventure continue. Nous continuons à travailler main dans la main avec nos communautés technique et médicale en les impliquant dans l’expérimentation de nouveaux usages du dispositif. Avec toujours le même objectif en ligne de mire : rendre l’imagerie médicale accessible partout dans le monde.

Les membres de votre communauté, les 30 et les 1000, ont tous accepté ?

Nous avons mobilisé l’ensemble des contributeurs actifs d’echOpen, soit une trentaine de personnes. Tous ceux auxquels nous avons proposé des parts ont accepté, sauf le développeur Canadien dont je vous ai parlé.

On a bien eu deux départs mais c’était avant la transformation en entreprise. Deux personnes ont quitté le projet pour des différences de points de vue techniques et opérationnels. L’une d’entre elles, Luc Jonveaux, a proposé un fork sur Github et a continué à développer son projet de matériel de recherche, ce qui montre là une façon intéressante de gérer le dissensus au sein d’une communauté. Nous sommes toujours en très bons termes avec ces deux personnes.

Vous construisez un appareil. Qu’est ce qui est ouvert ? Le design général ? Le matériel ? Le logiciel ?

Dans la première phase Fablab, tout ce qui était réalisé l’était en open source ! Si on est parvenu à diminuer le coût du dispositif, c’est parce qu’on a pris cette approche. On n’est pas parti de l’existant comme l’aurait fait un industriel, ni d’un processus de transfert technologique comme dans un laboratoire. On est parti de la page blanche en nous appuyant sur des briques logicielles en open source. C’était un chemin possible pour arriver à un design raisonnable en termes de qualité, et industrialisable dans des conditions de coût qui étaient les nôtres.

Notre modèle était assez original avec notamment à la fin une phase FabLab qui était constitutive de la communauté et relativement productive puisqu’on a aujourd’hui des universités qui utilisent les cartes électroniques ou des petits logiciels qu’on a développés. En revanche, à l’issue de cette phase, on ne pouvait pas viser une sonde de qualité médicale. Nous sommes repartis de zéro.

Je pense que toute start-up qui reprendrait le travail de la communauté serait capable de refaire ce que nous avons réalisé. En tout cas, nous lui avons donné les bases pour le faire.

Plusieurs brevets d’invention ont été déposés. Notre volonté est d’ouvrir la technologie dès lors qu’une nouvelle version s’y substitue. Donc, à chaque fois que nous remplaçons une version, nous ouvrons le code de la précédente. Nous nous protégeons. Nous voulons éviter qu’un concurrent modifie le produit à la marge, brevette, et ensuite nous empêche d’exploiter le fruit de nos travaux. Enfin, c’est ce qui est prévu parce que, pour l’instant, nous n’avons pas encore sorti la deuxième version qui nous permettra d’ouvrir la première.

Deuxième élément en gestation et en discussion : la possibilité de permettre à des tiers de développer les algorithmes, par exemple des algorithmes d’intelligence artificielle sur la base de notre sonde. Nous sommes contactés par différentes entreprises et d’autres structures qui veulent s’appuyer sur un appareil qui n’est pas cher.

Et ce à quoi nous réfléchissons, c’est à open-sourcer des outils d’interfaçage à notre solution pour des tiers développant des services complémentaires aux nôtres. C’est en discussion et je ne sais pas quand ça va atterrir, mais ça fait partie de nos réflexions.

Où en êtes-vous aujourd’hui ?

Notre startup fonctionne bien. Nous sommes même la première startup à avoir l’AP-HP dans notre capital. Nous avons aujourd’hui un produit opérationnel qui a déjà passé l’essai clinique. Il est en cours de finalisation.

Serge Abiteboul, Inria et ENS, François Bancilhon, serial entrepreneur

Les communs numériques

10 février 2023
Les communs dans la justice

Fondateur et Président du cabinet inno³ (prononcer inno « cube »), Benjamin Jean accompagne depuis plus de quinze années les acteurs publics et privés au sein de leurs démarches d’ouverture et de collaboration. Juriste de formation, chercheur et enseignant dans des grandes écoles, il a cofondé différentes initiatives communautaires telles que « Open Law, le droit ouvert », « European Opensource & free software Law Event » ou encore « Veni, Vidi, Libri ».

Benjamin Jean, @ openlaw.fr

Binaire : Pourrais-tu nous parler de ton travail actuel ?

Benjamin Jean : Je suis juriste de formation et spécialisé en propriété intellectuelle. Depuis 2007, je suis impliqué dans des réflexions autour de l’Open Source, l’Open Data, l’open science, l’open access, l’innovation ouverte et les communs numériques. Je m’intéresse en particulier aux mécanismes qui permettent à des écosystèmes de se constituer pour travailler collectivement à la production et au maintien de ressources ouvertes.

Après une expérience en cabinet d’avocat en 2011, j’ai ouvert le cabinet de conseil inno³ en 2011. L’idée fondatrice était qu’il était nécessaire d’un accompagnement global, qui aille au-delà d’une seule expertise juridique afin de répondre vraiment aux problématiques de nos clients. De ce fait, notre équipe réunit aujourd’hui différentes compétences tirées des sciences humaines et sociales, du design, de l’informatique. Nous travaillons pour moitié pour le secteur public et pour moitié pour le secteur privé, avec des approches qui convergent de plus en plus autour de la notion de de communs numériques.

La notion de commun renvoie à l’idée de communauté réunie autour de ressources, afin d’en faire usage et de les gérer c’est-à-dire les maintenir dans le temps. Dans ce cadre, nous travaillons notamment étroitement avec l’ANCT (l’Agence nationale de la cohésion des territoires) que nous accompagnons dans la mise en capacité des collectivités cherchant à concevoir des communs numériques.

B : Il existe des tensions entre propriété intellectuelle et ouverture. Comment arrive-t-on à les gérer ?

BJ : Le terme « propriété » cristallise effectivement souvent toutes les tensions, car on voit dans ce terme une capacité d’exclure. Néanmoins, rien n’empêche de penser autrement cette « propriété intellectuelle », de la penser plus collective, plus partagée. C’est en particulier pour cela qu’on se tourne vers des logiques de communs. C’est aussi pour cette raison que nous essayons souvent de partager nos expériences et réflexions, permettant notamment de témoigner d’une autre culture, plus inclusive, de la « propriété intellectuelle ».

La propriété dans le monde numérique ne doit pas se voir comme dans le monde physique. Le rattachement entre les auteurs et leurs créations reste particulièrement fort, ce que les logiciels libres défendent aussi dans un cadre collectif collaboratif. Néanmoins, la capacité d’exclure doit être relativisée : d’une part à l’aune de ce que l’auteur a réellement apporté à la société et ce qu’il en tire, et d’autre part au regard de notre société numérique qui favorise la cocréation et le partage.

Notre monde dominé par la propriété physique est celui de la propriété physique exclusive. La propriété, telle que définie par le Code civil, est dite absolue. Cela n’est pas, pour moi, la bonne approche dans le cadre du numérique, car cela limite le partage de connaissances, complique le collaboratif que permet le numérique. Dans le monde numérique, c’est le fait de ne pas partager qui devrait être justifié, la Loi intervenant pour encadrer un tel équilibre.

La propriété immatérielle, pour ne pas dire intellectuelle, ne doit pas nécessairement suivre le même chemin. On peut trouver un tel enjeu autour des brevets qui ont été déposés en période de crise sanitaire sur les tests et vaccins. Afin de protéger la propriété intellectuelle des entreprises, un cadre très strict a été maintenu au détriment des États eux-mêmes, plaçant le bien commun au second plan, derrière un droit de propriété exclusif. Dans de telles situations, on devrait plutôt aménager la propriété intellectuelle ou, a minima, ne pas craindre de rappeler aux entreprises les limites légales de leurs monopoles économiques. Cette période, à mes yeux, a donc été un échec pour la propriété intellectuelle, démontrant une incapacité du système, de notre société, à mettre en application les règles qu’elle avait pourtant définies.

B : Où en est-on de l’ouverture de la jurisprudence ? Est-ce que cela progresse ?

BJ : La loi pour une République numérique en 2016 a inscrit l’ouverture des décisions de justice dans la loi. Il s’agit d’un régime spécial qui résulte du statut particulier du Service public de la justice et qui permet de rapprocher ces données du régime général applicable de la Loi de 2016. En 2019, la Loi de programmation 2018-2022 et de réforme pour la justice est venue entériner cette ouverture, renvoyant à un décret d’application paru en 2020 pour organiser cette ouverture des décisions des décisions administratives et judiciaires. Ce chantier est porté par les différentes cours suprêmes, c’est-à-dire la Cour de cassation pour les décisions judiciaires et le Conseil d’État pour les décisions administratives, qui définisse les modalités et le calendrier d’ouverture. Compte-tenu des enjeux sous-jacents, l’ouverture est progressive et la Cour de cassation a ainsi prévu un calendrier qui court jusqu’à 2025. Lorsque j’étais encore impliqué au sein de l’association Open Law, nous avions constaté la difficulté et la nécessité à mener un tel chantier sur la durée. L’enjeu est à mon avis à la fois d’un point de vue technique, sachant qu’il y a une dimension « vie privée » particulièrement sensible dans les décisions de justice, et d’un point de vue culturel pour que cette ouverture soit aussi le vecteur d’une plus grande collaboration avec les organisations privées réutilisatrices.

L’association Open Law continue, me semble-t-il, son action avec le Ministère et les Cours Suprême. L’open data des décisions de justice est bien en train de se réaliser.

B : Plus généralement, quelle est la place des communs numériques à l’intérieur du droit ?

BJ : C’est pour répondre à cette question que j’ai lancé, avec tout un groupe de passionné, Open Law en 2013. Les juristes pouvaient avoir des compétences sur le numérique mais le milieu hésitait encore à faire entrer sérieusement le numérique dans son propre domaine. Je dirai que c’était par méconnaissance ou par peur des facteurs techniques et économiques sous-jacents.

L’idée d’Open Law était, pour produire des ressources partagées, ouvertes et durables, de réunir une communauté dans le secteur du droit : les juristes spécialistes du sujet, les acteurs économiques impliqués, les services de l’État concernés. On trouvait dans tout ce beau monde une vraie volonté d’ouvrir la discussion, et de permettre des échanges francs et constructifs. Cela n’était possible que parce que tout ce qui était produit l’était de manière totalement ouverte et que la méthodologie elle-même était discutée et partagée. Il y avait une charte avec des principes assez forts d’ouverture, de collaboration, de constitution de communs. Elle-même était portée par la constitution d’une association dès 2014, et un fonds de dotation un peu plus tard, par laquelle les acteurs concernés se donnaient les moyens de leurs ambitions de partage et de collaboration.

Sans vraiment de surprise, l’essai a été transformé car les professionnels du droit ont tous intérêt à ce que les outils qu’ils utilisent soient le plus ouverts possible, que la justice soit la plus transparente possible. Il fallait seulement s’assurer qu’une telle action puisse se faire en intégrant des Legaltechs proposant des solutions technologiques innovantes, plus rapides, plus efficaces et moins chères. Elles concurrençaient à la fois les acteurs traditionnels et les professionnels du droit, tout en questionnant la dimension éthique particulièrement importantes dans le secteur de l’accès au droit et à la justice. Tout le monde avait besoin de bouger. Et Open Law a permis cela.

Ainsi, l’outil d’anonymisation des décisions de justice, qui permettait d’automatiser le chantier d’Open Data des décisions de justice évoqué précédemment, est le fruit d’une collaboration entre les acteurs privés et publics. Il s’appuie sur des logiciels open source développés dans d’autres secteurs (e-commerce notamment), modifiés et optimisés par des acteurs privés, et repris en main par les utilisateurs publics. Il faut une révolution culturelle pour que tout le monde en arrive à partager du code source dans un domaine où les gens ne se parlaient quasiment pas avant.

B : Faisons une petite digression sur l’anonymisation de la jurisprudence. A notre connaissance, quand on va chercher une décision de justice dans le greffe d’un tribunal, les informations qu’on y trouve ne sont pas anonymes. L’ouverture conduit à occulter des données. N’est-ce pas paradoxal ?

BJ : Ce n’est pas lié au droit. On a les mêmes enjeux dans le domaine médical par exemple. Les données ne peuvent pas toutes être ouvertes à cause des risques que la diffusion de certaines informations pourrait causer. On parle de données individuelles sensibles. Dans le cas particulier du droit, il a fallu des arbitrages. La Cour de cassation a décidé quelles informations seraient anonymisées avant d’être ouvertes. C’est une décision politique par exemple de décider de maintenir les noms des magistrats, mais de retirer les noms des justiciables. Bien sûr, retirer des informations qui risqueraient de permettre de réidentifier une personne conduit à une véritable perte de valeur d’un point de vue de la qualité de l’information. Il faut cependant relativiser une telle protection puisqu’il n’y a, in fine, pas de perte : les décisions complètes sont toujours dans les greffes des tribunaux, et accessibles à celles et ceux qui en auraient besoin.

Cela reste un cadre français et tous les pays n’ont pas fait les mêmes choix, ces questions n’étant pas harmonisées au niveau européen.

B : Nous avons rencontré des acteurs de la science ou de l’éducation ouvertes, de l’innovation ouverte. Ils ne nous donnent pas tous la même vision des communs. Quelle est la tienne ?

BJ : Je pense qu’il faut différencier les enjeux et les réflexions en matière d’innovation ouverte, les alternatives en matière de communs, et les enjeux en matière de communs numériques. L’idée principale, en matière d’innovation voire de science ouverte, est de réfléchir et d’agir en tant qu’acteur d’un écosystème plus large. Ainsi, il s’agira pour une organisation de reconnaître qu’elle a intérêt à s’ouvrir aux ressources technologiques et humaines tierces dans les différentes phases de son processus d’innovation, de la recherche à la commercialisation. Une telle acceptation et systématisation de la collaboration s’est souvent faite en rupture de tradition élitiste, telle la société IBM qui considéra longtemps et fit le pari de pouvoir continuer à être leader en protégeant son patrimoine et en se fermant complètement à son environnement. Ce changement culturel a été progressif, mais est aujourd’hui relativement consensuel. Pour fonctionner, il repose sur la définition d’un encadrement, notamment juridique, très fin des contributions respectives.

Le numérique est venu complètement changer la donne, rendre beaucoup plus automatique et systématisable les processus de partage, de cocréation et de maintien collectif. C’est cette opportunité qui explique notamment le récent succès des mouvements de communs. Plutôt que de faire tout seul, les multiples organisations qui ont besoin des mêmes ressources numériques vont plus facilement se trouver et s’organiser afin de s’appuyer sur leurs forces respectives afin de faire émerger et de maintenir lesdites ressources. Compte-tenu des forces du numérique, un tel partage permet de renforcer d’autres acteurs qui, plus tard, viendront possiblement eux-mêmes contribuer aux communs.

B : Tu es fondateur et président du cabinet inno³. Vous travaillez beaucoup sur les communs. Quels sont les enjeux des communs que vous rencontrez ?

BJ : La démarche communautaire est certainement la plus complexe à initier dans un premier temps. Lorsque l’on souhaite lancer une dynamique de commun, la première question que l’on pose est généralement celle de son objectif, son objet. Il s’agit notamment de comprendre ce qui est de l’ordre du besoin spécifique et ce qui peut être l’objet d’un besoin collectif. Cela permet ensuite de répondre en parallèles aux deux questions : quelles sont les communautés et quelles sont les ressources mobilisables ou à créer ? Les deux questions sont indissociables et vont déterminer tous les choix que la communauté sera amenée à réaliser.

Il faut ensuite répondre à un certain nombre de questions plus techniques. Comment va-t-on ouvrir les ressources, sous quelles licences ? Quels sont les statuts juridiques dédiés ? Quelles seront les stratégies de mises en commun, de construction des communautés ? Comment va-t-on développer la technique, réaliser le marketing ? Et puis on arrive au modèle économique, aux questions de pérennité.

Pour que le projet soit viable, il faut que chaque entreprise participante, chaque service de l’État impliqué, chacun des membres y trouve son intérêt particulier. Cela ne suffit pas, on ne dira jamais assez l’importance de la motivation des individus qui vont vivre au quotidien le commun, qu’ils soient bénévoles ou employés.

Et puis, la communauté doit vivre dans le temps. Cela veut dire faire évoluer en permanence la ressource, peut-être parfois la reconcevoir complètement, transformer totalement la communauté. On peut être amenés à redévelopper le cœur du projet parce que les besoins, les gens, ont changé.

B : Tu connais le phénomène du « coucou », des participants qui exploitent les ressources des communs mais ne contribuent pas vraiment. As-tu rencontré cela dans le domaine de la justice ?

BJ : Un cas emblématique de coucou est le moteur de recherche Google utilisant massivement Wikipédia dans ses réponses mais ne contribuant pas quasiment pas à l’encyclopédie.

On essaie de convaincre qu’il est possible de concilier les logiques de collaboration des communs et les logiques capitalistes et financières du privé. Néanmoins, la frontière entre les deux mondes est quand même complexe. Certains acteurs, des entreprises, notamment les plus gigantesques, vont essayer de s’approprier les résultats des communs. Le risque, c’est d’être naïf, de penser que le cadre des communs protège. Si ces entreprises trouvent une faiblesse dans le dispositif, un espace pour abuser des communs, elles s’y engageront. Ainsi, Amazon a été récemment critiqué par plusieurs éditeurs de logiciel Open Source, notamment MongoDB et Elastic Search, qui lui reprochaient de capter une grande partie de la valeur du projet. Amazon facturait des services « à la demande » sur la base de ces logiciels, sans y contribuer humainement ou financièrement. De tels débordements ont néanmoins pour bénéfice de faire apparaître les abus possibles du système et permettre aux communautés d’y répondre.

Dans le secteur du droit, nous avons l’avantage de pouvoir reposer sur un acteur très fort, l’État qui peut imposer ses conditions pour garantir que l’intérêt général est préservé. Une telle régulation est d’autant plus naturelle que les données émanent pour grande partie de l’État et que la question de leur exploitation est relativement sensible.

B : Des entreprises pillent les communs, certains proposent qu’elles soient légalement tenues d’y contribuer.

BJ : Dans le projet de loi pour une République numérique qui a été soumis à consultation, il y avait cette idée d’un domaine public informationnel qui visait vraiment à protéger une appropriation abusive des communs. Cette idée a fait l’objet d’un fort lobbying de l’industrie culturelle et a été écarté avant que la loi ne soit votée, ce qui est vraiment dommage.

Dans sa thèse, Mélanie Clément-Fontaine, une des premières chercheuses en droit à s’être intéressé aux logiciels libres, militait pour un domaine public consenti qui imposait aussi une évolution du droit positif. De mémoire, Bernard Lang avait tenu une position convergente dans l’annexe du rapport du CSPLA consacré aux œuvres orphelines.

Quoi qu’il en soit, une telle solution ne pourrait effectivement passer que par une loi nouvelle.

B : Tu nous as parlé de l’importance de la dimension humaine pour les communs. Pourrions-nous revenir sur ce sujet pour conclure ?

BJ : Un rôle est particulièrement important pour un commun, celui de mainteneur. C’est une personne qui maintient l’infrastructure, qui fait vivre le commun, même si elle est parfois invisible. On s’aperçoit que cette personne est indispensable le jour où elle veut arrêter. Dans les communs, on compte souvent trop sur le bénévolat. Quand un mainteneur ne vit pas de son travail, qu’il s’épuise, on court vers les problèmes.

Prenons l’exemple de Python. Il y avait un seul bénévole qui faisait les mises-à-jour pour toutes les métadonnées associées aux dépendances entre tous les logiciels. Cet individu effectuait un travail de fourmi pour pouvoir s’assurer que des millions d’utilisateurs aient accès aux bonnes informations pour intégrer des logiciels disponibles. Ce bénévole après de longues années de bons et loyaux services voulait passer la main et mais personne ne voulait faire son boulot, trop ingrat. Dans ce genre de situations, il faut remplacer ce poste de bénévole par un logiciel, ou au moins trouver un logiciel qui facilite la tâche. On peut aussi s’éloigner du bénévolat pur et installer un système de récompenses. Il y a beaucoup de situations plus critiques encore, qui commencent aujourd’hui à être mieux perçues. Nous avons ainsi récemment réalisé une étude pour la commission sur le sujet des Open Source critiques, par le type ou le nombre d’usages : Public services should sustain Critical open source software.

La valeur d’un commun numérique tient en grande partie de ses ressources humaines. C’est particulièrement vrai du fait des difficultés aujourd’hui de recruter des compétences numériques. Je pense et j’espère que, quand ils ont le choix, et dans l’informatique ils ont le choix, les spécialistes préfèrent faire quelque chose qui a du sens, et choisissent des cadres de travail plus humains, plus collaboratifs. Les entreprises privées sont obligées d’en tenir compte, de choisir des approches basées sur les communs parce que cela leur facilite l’identification et le recrutement de talents. Les services publics commencent aussi à réaliser cet enjeu. Cet effet est accéléré par le fait qu’il sera plus facile dans un futur emploi d’utiliser ses connaissances dans un logiciel libre ou des données ouvertes que sur des produits analogues propriétaires.

Serge Abiteboul, Inria et ENS Paris, & François Bancilhon, serial entrepreneur

https://binaire.socinfo.fr/page-les-communs-numeriques/

11 octobre 2022
Etalab : de l’ouverture des données à leur partage collaboratif

Dans le cadre de la rubrique autour des “communs du numérique”, un entretien avec Laure Lucchesi, directrice d’Etalab au sein de la Direction interministérielle du numérique (DINUM). Après une vingtaine d’années dans le numérique dans les secteurs public et privé dans plusieurs pays, elle devient directrice d’Etalab en 2016. Elle a une longue expérience du logiciel libre et de l’open data. A Etalab, elle encourage le développement des communs numériques.

Laure Lucchesi (Etalab)

Pourriez-vous raconter un peu ce que fait Etalab aux lecteurs de binaire ?

Etalab est un département de la direction interministérielle du numérique (DINUM) sous l’autorité de la ministre de la Transformation et de la Fonction publiques. Notre mission c’est de faire en sorte que l’État et le service public rendu aux usagers s’améliorent en exploitant tout le potentiel des données. L’un des leviers, c’est l’ouverture des données publiques, que l’on appelle parfois « open data », qui consiste à mettre en ligne sur une plateforme, data.gouv.fr, les données produites par les systèmes d’information de l’État et non couvertes par des secrets, afin qu’elles puissent être réutilisées par d’autres. En 2020, la crise sanitaire a par exemple bien mis en évidence l’utilité de la mise à disposition de tous des données publiques, sans lesquelles des services comme covidtracker ou vitemadose n’auraient pas pu exister.

Cette donnée publique, c’est la matière première d’une action publique transparente, véritablement au service de la démocratie. Elle ouvre aussi la voie à davantage de participation des citoyens, à de nouvelles façons de produire et d’améliorer le service public : des services innovants, crées par des tiers à partir des données en open data, viennent ainsi compléter et « augmenter » le service public, en démultiplier la portée en quelque sorte.

Plus largement, notre mission consiste à ouvrir – au sens de rendre accessibles et réutilisables par tous – un maximum de ressources numériques de l’État : les données, mais aussi les APIs (sur api.gouv.fr), les codes sources logiciels (code.gouv.fr), et même les communs numériques que l’administration utilise, produit et/ou auxquels elle contribue (https://communs.numerique.gouv.fr/communs/).

Nous avons d’ailleurs lancé fin 2021 un nouveau programme : l’Accélérateur d’initiatives citoyennes (citoyens.transformation.gouv.fr), pour faciliter la réutilisation de ces ressources numériques et les coopérations entre l’administration et la société civile qui porte des projets d’intérêt général.

Nous avons également mis en place le programme “Entrepreneurs d’intérêt général” qui s’apprête à lancer sa 6^e promotion : nous sélectionnons des spécialistes de la technologie, du design et du droit du numérique pour tester et expérimenter de nouveaux possibles avec des agents de l’État. L’idée est de s’attaquer à des défis publics et d’ouvrir l’administration à des talents venus de l’extérieur. On s’appuie sur l’agilité du numérique, sur des modes d’action différents de ceux qui prévalent dans l’administration, pour résoudre des problèmes concrets.

Etalab a démarré il y a un peu plus de dix ans comme un lab innovant, pionnier, faiseur et un peu bidouilleur. L’enjeu est désormais de passer de l’innovation à la transformation, et d‘accompagner toute l’administration dans la « mise à jour » de son logiciel d’action publique ! D’institutionnaliser notre action, sans perdre pour autant nos valeurs d’ouverture et d’innovation radicale.

Le rapport Bothorel [1] et la circulaire du Premier ministre du 27 avril 2021 ont permis de renforcer cette politique et sa gouvernance : On a désormais une véritable politique publique de la donnée, déclinée également dans chaque ministère. Chaque administration doit avoir son administrateur ou administratrice des données, algorithmes et codes sources (l’équivalent d’un « chief data officer ») et définir sa feuille de route en la matière.

https://communs.numerique.gouv.fr/communs/

Y a t-il des freins à ces actions ?

Comme dans tout changement, il y a naturellement des interrogations légitimes, et des résistances dues à une perte de contrôle : mes données ne sont pas assez bonnes ; eur qualité va-t-elle être critiquée ? Quels sont les risques que je prends ? Qu’est-ce qui va etre fait avec mes données ?…

Ensuite, l’ouverture des données exige du temps et des moyens. Il faut bien comprendre que l’ouverture de ses données n’est pas le cœur de la mission d’une administration ; elle doit être accompagnée pour cela et on a peut-être trop longtemps sous-estimé ces besoins.

Enfin, ouvrir la donnée ne suffit pas. Pour que cela soit un succès, il faut aussi stimuler la réutilisation de ces données, faire vivre au quotidien l’engagement d’un écosystème d’innovation.

Le mouvement de l’ouverture des données publiques est-il bien engagé en France ? Dans tous les ministères ?

Oui, tous les ministères, ainsi que bon nombre de leurs établissements sont engagés dans cette ouverture. Les feuilles de route des ministères en témoignent, et la France est pour la première fois cette année au tout premier rang des pays européens en matière d’open data !

La crise sanitaire a permis de démontrer très concrètement, jusqu’au grand public, l’intérêt de l’ouverture des données pour l’information des citoyens. On a vu comment des tierces parties pouvaient s’emparer de ces données pour en proposer des usages, on a bien réalisé comment des données publiques ouvertes pouvaient devenir le socle de services publics ou privés avec de grandes utilités économiques et sociales. Mais il ne s’agit pas seulement d’ouvrir. A partir du moment où ces données sont utilisées, il faut aussi qu’elles restent à jour et de qualité, et il faut garantir leur pérennité.

Nous considérons ainsi certaines donnée – dites « de référence » parce qu’elles sont centrales et servent à identifier ou nommer des entités, par exemple la base nationale des adresses géolocalisées (BAN) – comme une véritable infrastructure, dans laquelle il faut investir et dont il faut assurer l’entretien collectif. C’est en cela que les mécanismes contributifs et la notion de « communs contributifs », auquel une communauté d’usage participe, prend tout son sens.

Usage et enrichissement de la Base Adresse par les services de secours : Ici le SDIS 64

Est-ce que cela va assez vite ? Partout ?

Cela avance partout, même si pour certains ministères, cela va peut-être moins vite. Cela tient souvent à des niveaux de maturité numérique différents, de culture de la donnée plus ou moins forte. Dans certains domaines, il y a déjà une grande habitude de la donnée métier.

Pour nous, l’objectif est que chacun s’autonomise. Certains services étaient pionniers, certaines collectivités parfois aussi, dès 2009, avant même les services de l’État.

Au fur et à mesure que les administrations gagnent en maturité, notre rôle change, il est moins centralisateur, plus fédérateur : la mise en œuvre s’est naturellement distribuée et nous sommes plus dans l’accompagnement, tout en continuant à fixer le cadre d’action, à donner de grandes orientations, et à faciliter aussi les expérimentations.

Où trouve-t-on les données ouvertes publiques ?

En France, le point d’entrée est data.gouv.fr. Il ne se substitue pas aux différents sites et portails, mais il a vocation à recenser un maximum de données pour fournir un point d’entrée unique.

Qu’est-ce que les communs numériques représentent pour vous ?

L’open data n’est pas toujours le point de départ d’un commun, au sens d’une ressource numérique produite et gérée par une communauté. Dans de nombreux cas, l’administration – qui est la seule productrice – met à disposition des données telles qu’elle les a collectées et créées pour sa mission initiale, avec peu ou pas de « voie de retour » de la part des réutilisateurs.

Par exemple, l’INSEE affecte à chaque entreprise un identifiant unique, le numéro SIREN, et les données des entreprises sont stockées dans une base de 13 millions d’établissements – le fichier Sirène – parmi les plus riches du monde. Ce répertoire est depuis 2017 en open data, mais il n’est pas pour autant un commun, l’INSEE en assure seul la production et la gestion. Cette mise à disposition est déjà très précieuse pour l’économie et la société, mais la notion de commun numérique emporte avec elle la notion de production et d’entretien collectifs.

La base adresse nationale (BAN) commence à s’en rapprocher, avec des contributions des collectivités territoriales, de l’IGN, de la DGFIP, de l’Insee et d’une communauté d’acteurs qu’il faut parvenir à faire collaborer, autour de règles de gestion et d’usage partagées. La Base « Accès Libre », qui collecte et rend disponibles les données d’accessibilité des établissements recevant du public pour les personnes en situation de handicap (https://acceslibre.beta.gouv.fr/) en est un autre exemple.

Les communs sont pleins de promesses et participent à la souveraineté. Mais il y a encore besoin de mieux tester et comprendre comment s’y prendre pour orchestrer au mieux leur fonctionnement quand il implique l’acteur public.

Quelle gouvernance ? Par l’État ? Par qui ?

Que l’État assure seul la gouvernance, ce n’est pas l’objectif. Il faut trouver d’autres formes de gouvernance, plus ouvertes, mêlant acteurs publics et la société civile, pour garantir l’intérêt collectif. Les modalités de ces associations sont encore souvent au stade de l’expérimentation.

Est-ce qu’il y a un risque que le soufflé des communs publics retombe ?

Ouvrir, c’est une première étape qui demande déjà beaucoup de travail. Ensuite pour passer à de l’enrichissement collaboratif et de la validation, c’en est une autre. Pour la première étape, la dynamique est lancée, l’utilité est démontrée. Pour la seconde étape, la complexité organisationnelle est claire. Mais je reste optimiste. C’est le bon moment parce que la question de la souveraineté pousse dans ce sens, et vient redynamiser le mécanisme d’ouverture.

Et parmi les services autour de la donnée, vous considérez aussi des approches à partir de l’IA ?

On aide les administrations à expérimenter dans le cadre de projets autour de l’IA. Cela ouvre le sujet de la transparence des algorithmes publics et de l’explicabilité des résultats. Cela vise à éviter des comportements de type boîte noire.

On travaille aussi à ouvrir des bases de données d’apprentissage annotées, et à les partager avec des acteurs publics et privés, ainsi que des modèles d’apprentissage.

Alors que de plus en plus d’algorithmes sont susceptibles d’être utilisés comme aide à la décision, pour attribuer des aides par exemple ou des places dans l’enseignement supérieur, il y a désormais des obligations légales de savoir expliquer comment ces modèles fonctionnent. Nous travaillons à accompagner les agents publics dans la mise en œuvre de ces obligations, dès la conception des systèmes jusqu’à leur documentation et aux réponses fournies aux usagers qui souhaiteraient comprendre.

Serge Abiteboul, François Bancilhon

[1] Rapport de la Mission Bothorel « Pour une politique publique de la donnée », 2020.

https://binaire.socinfo.fr/page-les-communs-numeriques/

3 juin 2022
Le fonctionnement d’un projet de logiciel libre : Scikit-learn

Scikit-learn est une bibliothèque libre Python destinée à l’apprentissage automatique. Elle offre des bibliothèques d’algorithmes en particulier pour les data scientists. Elle fait partie de tout un écosystème libre avec d’autres bibliothèques libres Python comme NumPy et SciPy. Pour les spécialistes, elle comprend notamment des fonctions de classification, régression et clustering. Elle fait un tabac dans le monde de l’apprentissage automatique. Nous avons rencontré Gaël Varoquaux, directeur de recherche à Inria dans l’équipe Soda, cofondateur du projet Scikit-learn, ancien élève de l’École normale supérieure et titulaire d’un doctorat en physique quantique pour comprendre comment fonctionne un projet de logiciel libre plutôt emblématique.

Gaël Varoquaux, © Inria / Photo G. Scagnelli

Binaire : Quelle est la taille de l’équipe Inria de Scikit-learn ?

Gaël Varoquaux : Si on compte les personnes à temps plein sur le projet à Inria, il y a 5 personnes. Mais il y a beaucoup plus de personnes qui participent et qui aident, entre autres des chercheurs qui s’investissent sur des questions dans leur domaine spécifique d’expertise. Scikit-learn est plus large qu’un projet Inria standard et a de nombreux participants et contributeurs en dehors d’Inria.

B : Comment peut-on mesurer la popularité du système et son utilisation ?

GV : Une des façons de le faire est de regarder les statistiques d’accès à la documentation : elles montrent un million d’accès par mois. C’est une bonne mesure des participations des développeurs, mais certainement pas une mesure des participation des utilisateurs qui se servent de produits générée à partir de scikit-learn et qui sont certainement beaucoup plus nombreux. Les statistiques Kaggle (*) par exemple montrent que plus de 80% des projets Kaggle utilisent régulièrement scikit-learn. Le deuxième plus utilisé étant Tensor Flow avec un taux de plus de 50%.

Les développeurs Scikit-learn sont répartis un peu partout dans le monde. Le nombre d’utilisateurs aux États-Unis, en Amérique du Sud ou en Chine est proportionnel au nombre de développeurs dans ces pays.

B : Est-ce qu’il y a des thèmes particuliers ?

GV : C’est difficile à dire parce qu’on n’a pas toujours l’information. Parmi les thèmes, on voit clairement la science des données, des analyses socio-économiques, et tout ce qui touche aux questions médicales. Un domaine où on a eu un fort impact, c’est la banque. Par exemple sur des sujets type détection de fraude. Vous comprendrez que, vu la sensibilité des sujets, c’est difficile de rentrer dans les détails.

B : Le projet est-il en croissance, en stabilité ou en régression ?

GV : En nombre d’utilisateurs, il est clairement en croissance. Une des raisons est que le nombre de data scientists croit ; on est tiré par cette croissance. Est-ce qu’on croit plus que cette croissance naturelle, je ne sais pas. En moyens internes et taille du projet, on est aussi clairement en croissance.

B : D’où vient le financement ? Quel est le budget de Scikit-learn ?

GV : Principalement de gros contributeurs. Nous nous sommes focalisés sur eux jusqu’à présent . En particulier, nous avons une dotation d’Inria qui doit être de l’ordre de 300 000 € par an. Ensuite, nous avons beaucoup d’organisations qui contribuent financièrement, soit par des dotations financières, soit en prenant en charge tel ou tel contributeur. Donc si on voulait évaluer le montant global, il est très certainement bien en millions d’euros par an.

B : Quelle licence avez-vous choisie et pourquoi ?

GV : On a choisi la licence BSD (+), pour deux raisons. D’abord, c’est une licence avec laquelle les gros utilisateurs sont relativement confortable (en tout cas plus confortable qu’avec la GPL). Par ailleurs, c’est une licence du monde Python, qui est notre monde.

B : Quelle place le projet a-t-il dans Inria ? Y a t-il d’autres projets similaires dans l’institut ?

GV : Le projet est hébergé par la Fondation Inria. Nous avons une convention de mécénat qui réunit les partenaires du projet et qui définit comment nous travaillons ensemble. Le projet est vu à l’intérieur d’Inria comme un succès et il est souvent mis en avant.

Il y a d’autres projets un peu comme nous, par exemple OCaml. OCaml a une organisation différente de la nôtre, beaucoup plus verticale, et fonctionne sur un ADN différent. Mais les deux approches ont du sens.

B : Comment êtes-vous organisés ? Et comment vous avez choisi votre gouvernance ?

GV : A l’origine, les premières idées pour la gouvernance nous sont venues de la communauté Apache et c’est sa gouvernance qui a servi d’inspiration. La gouvernance a d’abord été surtout informelle et puis on a commencé à la formaliser. La description de la gouvernance est ici. Cette formalisation a été développée notamment à la demande d’un de nos sponsors qui voulait mieux comprendre comment on fonctionnait. Il y a deux éléments dans nos règles de fonctionnement : il y a une gouvernance écrite et puis il y a quelque chose qu’on considère comme les us et coutumes, la culture de notre communauté. La gouvernance continue à changer notamment probablement la prochaine étape sera de mettre en place la notion de sous-groupe, qui permettra de fonctionner sur une plus petite échelle.

De manière générale, on veut être très transparent, en particulier, sur les décisions prises. En revanche, de temps en temps on considère qu’il doit y avoir des discussions privées et ces discussions ont lieu.

B : Tu crois à l’idée du dictateur bienveillant ?

GV : Pas du tout ! On refuse ça complètement. Notre mode de décision est par consensus : on fonctionne en réseau et pas du tout de façon hiérarchique. Ça marche, mais le problème du consensus c’est que ça induit une certaine lenteur, lenteur qui peut aussi causer une certaine frustration auprès des contributeurs. Donc on essaie d’améliorer le processus de gestion des conflits.

B : Quel type de conflits ?

GV : Il y a 2 types soit des conflits : les complètement triviaux, par exemple quelle est la couleur qui faut donner à tel ou tel objet. Et puis on a des conflits de fond, des choix essentiels qu’il faut régler en prenant son temps.

B : Tu contribues au code ?

GV : Je code encore, mais pas énormément. L’essentiel de mon activité est l’animation du projet et de la communauté.

B : Est-ce qu’il y a des spin-off de Scikit-learn aujourd’hui ?

GV : Il n’y en a pas aujourd’hui, mais ça pourrait se produire. On est sorti des années difficiles, celles pendant lesquelles on se battait pour avoir des moyens, pendant lesquelles les profils de l’équipe étaient essentiellement scientifiques. Maintenant on est un peu plus confortable donc la communauté s’est diversifiée, il y a des profils différents, et éventuellement certains pourraient être intéressés par la création de start-up.

B : Des forces d’un tel projet tiennent de sa documentation et de ses tutoriels. Les vôtres sont excellents. Vous avez un secret ?

GV : C’est parce que nous sommes pour la plupart chercheurs ou enseignants-chercheurs. Nous avons l’habitude d’enseigner ces sujets, et nous le faisons avec Scikit-learn. Et puis, nous aimons expliquer. Nous avons établi assez tôt des normes et nous nous y tenons : par exemple, une méthode ne peut être ajoutée au projet sans venir avec des exemples et une documentation qui explique son utilité.

B : Quel est l’intérêt commun qui réunit la communauté ?

GV : On peut dire que notre objectif, c’est de rendre la science des données plus facile pour tous. Ça, c’est l’objectif global. Les motivations individuelles des contributeurs peuvent être différentes. Certains, par exemple, sont là parce qu’ils veulent participer à rendre le monde meilleur.

B : C’est bon pour la carrière d’un chercheur de travailler à Scikit-learn ?

GV : Le projet offre clairement un boost de carrière pour les chercheurs Inria.

Serge Abiteboul, François Bancilhon

Choisir le bon estimateur avec scikit-learn : le site propose un guide pour s’orienter parmi tous les algorithmes ©scikit-learn

Références :

(*) Kaggle est une plateforme web organisant des compétitions en science des données appartenant à Google. Sur cette plateforme, les entreprises proposent des problèmes en science des données et offrent un prix aux datalogistes obtenant les meilleures performances. Wikipédia 2022. (Note des éditeurs : c’est une plateforme très populaire.)

(+) La licence BSD (Berkeley Software Distribution License) est une licence libre utilisée pour la distribution de logiciels. Elle permet de réutiliser tout ou une partie du logiciel sans restriction, qu’il soit intégré dans un logiciel libre ou propriétaire.

Et pour en savoir plus :

– Le site avec le logiciel téléchargeable https://scikit-learn.org/stable.

– Un MOOC gratuit et accessible pour se former à utiliser Scikit-learn https://www.fun-mooc.fr/en/courses/machine-learning-python-scikit-learn.

https://binaire.socinfo.fr/page-les-communs-numeriques/

15 avril 2022
Alexandra Elbakyan : une grande dame pour un grand projet
Dans le cadre de la rubrique autour des “communs du numérique”. Alexandra Elbakyan a réalisé SciHub, une archive de tous les articles scientifiques. Dans la tension entre le droit d’auteur et le droit d’accès aux résultats scientifiques, elle a choisi son camp. Elle répond pour binaire à nos questions. Serge Abiteboul et François Bancilhon.
Ce qui suit est notre traduction. Le texte original.
Alexandra Elbakyan, SciHub.ru, 2020

Pouvez-vous décrire brièvement Sci-Hub, son histoire et son statut actuel ?

Sci-Hub est un site web dont l’objectif est de fournir un accès gratuit à toutes les connaissances académiques. Aujourd’hui, la plupart des revues scientifiques deviennent inaccessibles en raison de leur prix élevé(*). Sci-Hub contribue à supprimer la barrière du prix, ou paywall. Des millions d’étudiants, de chercheurs, de professionnels de la santé et d’autres personnes utilisent Sci-Hub aujourd’hui pour contourner les paywalls et avoir accès à la science.

J’ai créé Sci-Hub en 2011 au Kazakhstan. Le projet est immédiatement devenu très populaire parmi les chercheurs de Russie et de l’ex-URSS. Au fil des années, il n’a cessé de croître et est devenu populaire dans le monde entier.

Mais l’existence de Sci-Hub est aussi un combat permanent : le projet est régulièrement attaqué en justice qualifié d’illégal ou d’illicite, et bloqué physiquement. Les poursuites judiciaires proviennent de grandes entreprises, les éditeurs scientifiques : Elsevier et d’autres. Ces sociétés sont aujourd’hui les propriétaires de la science. Elles fixent un prix élevé pour accéder aux journaux de recherche. Des millions de personnes ne peuvent pas se permettre cette dépenses et sont privées de l’accès à la science et l’information. Sci-Hub lutte contre cet état de fait.

Sci-Hub fait actuellement l’objet d’un procès en Inde. Les éditeurs académiques demandent au gouvernement indien de bloquer complètement l’accès au site web.

Nombre d’articles téléchargés depuis Sci-Hub au cours des 30 derniers jours (12 février 2022)

Est-ce que les articles de Wikipedia sur vous et Sci-Hub sont corrects ?

Cela dépend, car les articles diffèrent selon les langues. J’ai lu les articles anglais et russes de Wikipedia, et je ne les aime vraiment pas ! Des points essentiels sur Sci-Hub sont omis, comme le fait que le site est largement utilisé par les professionnels de la santé et que Sci-Hub contribue à sauver des vies humaines. Les articles semblent se concentrer sur la description des procès intentés contre le site et son statut illégal, alors que le large soutien et l’utilisation de Sci-Hub par les scientifiques du monde entier sont à peine mentionnés.

L’article russe, par exemple, donne l’impression que le principal argument d’Elsevier dans son procès contre Sci-Hub est que ce dernier utilise des comptes d’utilisateurs « volés » ! C’est évidemment faux, la raison principale et le principal argument d’Elsevier dans son procès contre Sci-Hub est la violation du droit d’auteur, le fait que Sci-Hub donne un accès gratuit aux revues qu’Elsevier vend au prix fort ! Aujourd’hui, les responsables des relations publiques d’Elsevier essaient de promouvoir ce message, comme si le principal point de conflit était que Sci-Hub utilise des références « volées » !

On trouve de nombreux points incorrects de ce genre dans les articles sur Sci-Hub.

Un article me concernant mentionnait que j’étais soupçonné d’être un espion russe. Un journal m’a demandé un commentaire à ce sujet, et j’ai répondu : il peut y avoir une aide indirecte du gouvernement russe dont je ne suis pas au courant, mais je peux seulement ajouter que je fais toute la programmation et la gestion du serveur moi-même.

Quelqu’un a coupé la citation, et a inséré dans Wikipedia seulement la première partie : « il peut y avoir une aide indirecte du gouvernement russe dont je ne suis pas au courant » en omettant que : « Je fais toute la programmation et la gestion du serveur moi-même ». Il y avait beaucoup d’insinuations de ce genre. Certaines ont été corrigées mais très lentement, d’autres subsistent. Par exemple, l’article russe affirme que j’ai « bloqué l’accès au site web ». C’est ainsi qu’ils décrivent le moment où Sci-Hub a cessé de travailler en Russie pour protester contre le traitement réservé au projet.

Au tout début, lorsque l’article de Wikipédia sur Sci-Hub a été créé, le projet était décrit comme un… moteur de recherche ! Ce qui était complètement faux. J’ai essayé de corriger cela mais ma mise à jour a été rejetée. Les modifications ont finalement été apportées lorsque j’ai publié sur mon blog un article sur les erreurs de l’article Wikipedia.

Pouvez-vous nous donner quelques chiffres sur l’activité de Sci-Hub ?

En dix ans, Sci-Hub a connu une croissance constante. En 2020, il a atteint 680 000 utilisateurs par jour ! Puis après le confinement, il est revenu à nouveau à environ 500 000 utilisateurs par jour.

Il existe également des miroirs-tiers de Sci-Hub qui sont apparus récemment, comme scihub.wikicn.top et bien d’autres. Lorsque vous recherchez Sci-Hub sur Google, le premier résultat est souvent un miroir-tiers de ce type. Je constate que de nombreuses personnes utilisent aujourd’hui ces miroirs-tiers, mais je n’ai pas accès à leurs statistiques. Je n’ai accès qu’aux statistiques des serveurs Sci-Hub originaux que je gère : sci-hub.se, sci-hub.st et sci-hub.ru.

Aujourd’hui, Sci-Hub a téléchargé plus de 99 % du contenu des grands éditeurs universitaires (Elsevier, Springer, Wiley, etc.), mais il reste encore de nombreux articles d’éditeurs moins connus. Il y a donc encore beaucoup de travail. L’objectif de Sci-Hub est d’avoir tous les articles scientifiques jamais publiés depuis 1665 ou même avant. Actuellement, Sci-Hub a temporairement interrompu le téléchargement de nouveaux articles en raison du procès en cours en Inde, mais cela reprendra bientôt.

Comment voyez-vous l’évolution du site ? Quel avenir voyez-vous ? Vous semblez jouer au chat et à la souris pour pouvoir donner accès au site. Combien de temps cela peut-il durer ?

Cela durera jusqu’à ce que Sci-Hub gagne et soit reconnu comme légal dans tous les pays du monde.

Voyez-vous un espoir que le site devienne légitime ?

C’est mon objectif depuis 2011. En fait, je m’attendais à ce que cela se produise rapidement, car le cas est tellement évident : les scientifiques utilisent le site Sci-Hub et ils ne sont clairement pas des criminels, donc Sci-Hub est légitime. Mais la reconnaissance de ce fait semble prendre plus de temps que je ne l’avais initialement prévu.

Nous supposons que votre popularité dépend du pays ? Pouvez-vous nous en dire plus sur la Chine, l’Afrique et la France ?

Je peux vous donner quelques statistiques provenant du compteur Yandex. Les statistiques internes de Sci-Hub ne sont que légèrement différentes. En Chine, il y a environ 1 million d’utilisateurs par mois (en 2017, c’était un demi-million mensuel). Il y a environ 250 000 utilisateurs par mois en provenance d’Afrique et environ 1 million en provenance d’Europe.

Pour la France, c’était pendant un moment au-dessus de 100 000 utilisateurs par mois. Ce chiffre a beaucoup diminué, je crois, parce que les chercheurs accèdent à des sites miroirs.

La qualité de votre interface utilisateur est mentionnée par beaucoup de vos utilisateurs. Pensez-vous qu’elle soit une raison essentielle du succès de Sci-Hub ?

Je ne le pense pas. La principale raison de l’utilisation de Sci-Hub, dans la plupart des cas, est le manque d’accès aux articles scientifiques par d’autres moyens. Les pays qui utilisent le plus Sci-Hub sont l’Inde et la Chine, et dans ces pays, l’utilisation de Sci-Hub n’est clairement pas une question de commodité. Sci-Hub ne dispose de cette interface « pratique » que depuis 2014 ou 2015. La première version de Sci-Hub obligeait les utilisateurs à saisir l’URL, à changer de proxy et à télécharger les articles manuellement, mais le site est rapidement devenu très populaire. Avant Sci-Hub, les chercheurs avaient l’habitude de demander des articles par courrier électronique ; c’était nettement plus long et moins pratique que Sci-Hub. Il fallait souvent plusieurs jours pour obtenir une réponse et parfois, on ne recevait pas de réponse du tout.

Quelle est la taille de l’équipe qui gère le site ?

Sci-Hub n’a pas d’équipe ! Depuis le début, il s’agit simplement d’un petit script PHP que j’ai codé moi-même, basé sur un code d’anonymisation open-source. Je gère les serveurs de Sci-Hub et je fais toute la programmation moi-même. Cependant, certaines personnes fournissent des comptes que Sci-Hub peut utiliser pour télécharger de nouveaux articles. D’autres gèrent les miroirs de Sci-Hub. Mais on ne peut pas appeler cela une équipe ; ce ne sont que des collaborations.

Avez-vous des contributeurs réguliers qui apportent directement des articles en libre accès ?

Non. Je m’explique : Sci-Hub est initialement apparu comme un outil permettant de télécharger automatiquement des articles. C’était une idée centrale au cœur de Sci-Hub ! Sci-Hub n’a jamais fonctionné avec des utilisateurs contribuant aux articles. Il serait impossible d’avoir des dizaines de millions d’articles fournis par les utilisateurs, car une telle base de données devrait être modérée : sinon, elle pourrait être facilement attaquée par quelqu’un qui fournirait de faux articles.

Une telle option pourrait exister à l’avenir, car il reste beaucoup moins d’articles, et Sci-Hub en a téléchargé la majeure partie.

Quel est votre défi le plus grand : obtenir l’accès aux publications ou fournir l’accès aux publications ?

La majeure partie de mon temps et de mon travail est consacrée à l’obtention de nouveaux articles. Cela nécessite la mise en œuvre de divers scripts pour télécharger les articles de différents éditeurs, et la mise à jour de ces scripts lorsque les éditeurs effectuent des mises à jour sur leurs sites Web, rendant le téléchargement automatique de Sci-Hub plus difficile. Par exemple, Elsevier a récemment mis en place des étapes supplémentaires qui rendent le téléchargement automatique plus difficile. L’ancien moteur de Sci-Hub a cessé de fonctionner et j’ai dû mettre en œuvre une approche différente.

Fournir l’accès aux bases de données est relativement plus facile, si l’on ne tient pas compte des défis juridiques bien sûr.

Qu’est-ce qui vous a poussé à créer Sci-Hub ? Le considérez-vous comme faisant partie du mouvement des biens communs, comme un commun au sens d’Elinor Ostrom ?

J’étais membre d’un forum en ligne sur la biologie moléculaire. Il y avait une section « Full Text » où les gens demandaient de l’aide pour accéder aux articles. Cette section était assez active et de nombreuses personnes l’utilisaient. Ils postaient des demandes, et si un membre du forum avait accès à l’article, il l’envoyait par courriel.

J’ai eu l’idée de créer un site Web qui rendrait ce processus automatique, en évitant les demandes manuelles et les envois par courrier électronique : les utilisateurs pouvaient simplement se rendre sur le site Web et télécharger eux-mêmes ce dont ils avaient besoin.

Pour moi, il y a des liens entre cette idée de communisme et l’idée de gestion collective des ressources dans l’esprit d’Elenor Ostrom.

Dans la première version de Sci-Hub, il y avait un petit marteau et une faucille, et si vous pointiez un curseur de souris dessus, il était écrit « le communisme est la propriété commune des moyens de production avec un libre accès aux articles de consommation ». Donc, libre accès aux articles ! Pour moi, Sci-Hub et plus généralement le mouvement du libre accès ont toujours été liés au communisme, car les articles scientifiques devraient être communs et libres d’accès pour tous, et non payants. Aujourd’hui, les connaissances scientifiques sont devenues la propriété privée de quelques grandes entreprises. C’est dangereux pour la science.

En 2016, j’ai découvert les travaux du sociologue Robert Merton. Il propose différents idéaux pour les scientifiques. L’un d’eux qu’il appelle le communisme est la propriété commune des découvertes scientifiques, selon laquelle les scientifiques abandonnent la propriété intellectuelle en échange de la reconnaissance et de l’estime. C’est l’objectif de Sci-Hub.

Comment les gens peuvent-ils vous aider ?

Parlez de Sci-Hub, discutez-en plus souvent. Lancez une pétition pour soutenir la légalisation de Sci-Hub, et discutez-en avec les responsables gouvernementaux et les politiciens. Cela aidera à résoudre la situation.

Alexandra Elbakyan, SciHub

SciHub.ru, 2018

Pour aller plus loin

Des informations générales sur la façon dont Sci-Hub a été lancé sont disponibles ici :
- https://engineuring.wordpress.com/2019/03/31/sci-hub-and-alexandra-basic-information/
- https://sci-hub.se/alexandra
et une lettre de 2015 au juge, lorsque Sci-Hub a été poursuivi en justice aux États-Unis :
- https://torrentfreak.com/images/sci-hub-reply.pdf
(*) Note des éditeurs : un scientifique peut avoir à payer des dizaines d’euros pour lire un article si son laboratoire n’a pas souscrit à ce journal, peut-être parce que le laboratoire n’en avait pas les moyens.
https://binaire.socinfo.fr/page-les-communs-numeriques/
29 mars 2022

Les ressources éducatives libres

Dans le cadre de la rubrique autour des “communs du numérique”, un entretien avec Colin de la Higuera, professeur d’informatique à l’Université de Nantes, titulaire de la chaire Unesco en ressources éducatives libres et intelligence artificielle, ancien président de la Société Informatique de France. Il nous parle des ressources éducatives libres, des éléments essentiels des communs du numérique. C’est l’occasion pour Binaire de retrouver Colin, qui a été un temps éditeur du blog.

Colin de la Higuerra, Page perso à l’Université de Nantes

Tu es titulaire d’une chaire Unesco en ressources éducatives libres et intelligence artificielle ? En quoi est-ce que cela consiste ?

Dans ce projet, nous travaillons en partenariat avec l’Unesco afin de faire progresser les connaissances et la pratique dans ce domaine prioritaire à la fois pour Nantes Université et l’Unesco. Les ressources éducatives libres (REL) sont au cœur des préoccupations de l’Unesco qui voit en elles un moteur essentiel pour l’objectif de développement durable #4 : l’éducation pour tous. Donner un accès plus ouvert à la connaissance change la donne dans les pays en voie de développement, par exemple en Afrique ou en Inde. Il y a aujourd’hui une dizaine de chaires Unesco dont une en France ; on les trouve très répartie, par exemple au Nigéria, en Afrique du Sud ou au Mexique. Une chaire Unesco, ce n’est pas du financement, c’est de la visibilité et la possibilité de porter des idées. Aujourd’hui, le sujet des ressources éducatives libres représente le cœur de mon activité. Notamment, nous organisons une conférence internationale sur l’éducation globale à Nantes cette année.

Les ressources éducatives libres (REL) sont des matériaux d’enseignement, d’apprentissage ou de recherche appartenant au domaine public ou publiés avec une licence de propriété intellectuelle permettant leur utilisation, adaptation et distribution à titre gratuit. Unesco.

Pourrais-tu nous expliquer ce que sont ces Ressources Éducatives Libres ?

Les Ressources Éducatives Libres, REL pour faire court, sont des biens communs. L’idée est tout simplement que les ressources éducatives préparées par un enseignant ou un groupe d’enseignants puissent resservir à d’autres sans obstacle. Au delà d’un principe qui inclut la gratuité, pour qu’une ressource soit libre, on demande qu’elle respecte la règle des 5 “R” :

Retain : le droit de prendre la ressource, de la stocker, de la dupliquer,
Reuse : le droit d’utiliser ces ressources en particulier dans ses cours, mais aussi sur un site web, à l’intérieur d’une vidéo,
Revise : le droit d’adapter la ressource ou le contenu (en particulier le droit de traduction)
Remix : le droit de créer une nouvelle ressource en mélangeant des morceaux de ressources existantes
Redistribute : le droit de distribuer des copies du matériel original, le matériel modifié, le matériel remixé.

Qu’est-ce qui a été le catalyseur sur ce sujet ?

C’est quand même le numérique qui a rendu techniquement possible le partage et la mise en commun. Le numérique a changé a permis le décollage de cette idée. Mais le numérique peut aussi créer des obstacles, faire peur. Aujourd’hui, il s’agit d’utiliser le numérique encore plus efficacement pour permettre un meilleur partage de ces communs.

Quand a commencé le mouvement pour les REL ?

Le mouvement a débuté aux États-Unis il y a une vingtaine d’années. Au MIT plus précisément, des enseignants progressistes se sont souvenus qu’ils avaient choisi ce métier pour partager la connaissance et non la confisquer. Ils ont cherché à partager leurs cours. Les grandes universités américaines y ont rapidement vu leur intérêt et y ont adhéré. Ça a bien marché, parce que les plus prestigieuses comme Harvard et MIT s’y sont mises en premier. Aujourd’hui les Américains sont en avance sur nous sur le sujet.

Y a-t-il une communauté des ressources éducatives libres ?

Il existe bien sûr de nombreux activistes, mais le mouvement vient le plus souvent d’en haut. Ce sont des pays qui choisissent cette voie, des universités, des institutions. Par exemple l’Unesco, les États qui soutiennent financièrement les actions (comme pour d’autres communs, il y a des coûts) et en France certains acteurs comme le ministère de l’Éducation nationale. Il existe quand même des lieux pour que les acteurs et activistes se rencontrent, discutent des bonnes pratiques, échangent sur les outils créés.

Assiste-t-on à un conflit avec les grands éditeurs de manuels scolaires au sujet des ressources éducatives libres. Pourrais-tu nous expliquer la situation ?

La question est difficile ! Il convient d’abord de rappeler que les éditeurs ont accompagné l’Éducation nationale, en France, depuis très longtemps. Des partenariats forts existent et bien des disciplines sont nées ou se sont développées grâce à la création des manuels bien plus que par la publication de programmes. Il est compréhensible que nombreux voudraient voir perdurer cette coopération.

Mais aujourd’hui on assiste en France à la concentration du monde de l’édition au sein d’un unique groupe. Comme pour toutes les situations de monopole, c’est un souci. Et dans le cas qui nous intéresse c’est un souci majeur, surtout si en plus des questions très politiques viennent ici effrayer. Imaginons un instant que vous soyez aux Etats-Unis et que toute l’édition scolaire vienne à tomber entre les mains d’un seul groupe dirigé par une personne qui soutiendrait des idées encore plus à droite que celles de l’ancien président Donald Trump. Est-ce que vous ne seriez pas inquiet sur le devenir des textes qui seraient distribués en classe, sur le devenir de l’éducation ? Et ne nous leurrons pas sur une supposée capacité de contrôle par l’État : même si on avait envie de voir plus de contrôle de sa part, il en serait bien incapable. Il suffit de regarder du côté de l’audiovisuel pour s’en rendre compte. Cette concentration de l’édition entre trop peu d’acteurs entraîne également une moindre variété des points de vue vis-à-vis des communs.

Un autre argument à prendre en compte est que les montants financiers en question ne sont pas négligeables. On ne le voit pas au niveau des familles parce que tout est apparemment gratuit mais en réalité les enjeux économiques sont considérables. En France, le chiffre d’affaires net de l’édition scolaire représente 388 millions d’euros par an. On peut contraster ce chiffre avec celui de l’édition liée à la recherche scientifique. Cela conduit à se demander pourquoi les instances publiques exercent un vrai soutien pour l’accès libre aux publications scientifiques et pas de soutien du même ordre pour les REL.

Mais qu’y a-t-il de particulier en France ?

D’abord, la gratuité des ressources éducatives. Dans l’esprit du public, notamment des parents et des élèves, le matériel éducatif est “gratuit”. En fait, à l’école primaire, il est pris en charge par la municipalité, au collège par le département, et au lycée par la région. A l’Université, nos bibliothèques sont très bien dotées. Dans beaucoup de pays, les Etats-Unis en premier lieu, le matériel éducatif est payant. Et souvent cher. Ces coûts sont de vrais obstacles aux études. Acheter les différents textbooks en début d’année est un souci pour les familles modestes. Les familles et les étudiants eux-mêmes sont donc, assez logiquement, des avocats des REL et vont faire pression sur les établissements ou les gouvernants pour créer et utiliser des REL. Et ça fonctionne : ainsi, en avril dernier, l’état de Californie a investi en juillet dernier 115 millions de dollars pour soutenir les REL. En France, quand on parle de ressources gratuites, la première réaction est souvent : mais ça l’est déjà !

Et puis il y a une originalité française sur le “droit d’auteur” sur les cours. En France, les enseignants ne sont pas “propriétaires” du cours qu’ils font, notamment dans le primaire et dans le secondaire. Un professeur de lycée n’a pas le droit de produire un livre à partir de son cours, parce que le cours ne lui appartient pas. C’est plus complexe que ça mais il y a assez de zones d’ombre pour que les enseignants ne se sentent pas en sécurité à l’heure de partager.

Pourquoi le Ministère ne le déclare-t-il pas tout simplement ?

A vrai dire, je n’en sais rien. Il y a sans doute du lobbying pour maintenir une situation de statu quo, mais c’est bien dommage. Les enjeux sont importants.. Il suffirait pourtant de peu : d’une déclaration politique soutenant la création de REL par tous les acteurs de l’éducation.

Existe-t-il un annuaire qui permet de trouver les ressources éducatives libres ?

Non, il n’existe pas d’annuaire, ou plutôt il en existe beaucoup et ils sont peu utilisables. Là encore, les approches top-down ont prévalu. Dans le primaire et le secondaire, le ministère a mis en place un annuaire qui s’appelle Edubase. Cet annuaire est complexe à utiliser, les licences ne sont que rarement mentionnées, donc on ne sait pas si et comment on peut utiliser telle ou telle ressource. Pour l’université, il y a les UNT (Université Numérique Thématique). Les universités elles-mêmes ont constitué leurs propres catalogues, mais ces catalogues débouchent sur des ressources éparpillées. Et se pose alors le problème de la curation : les cours peuvent avoir disparu, changé d’adresse. Enfin et surtout, l’usage des licences est très approximatif. Il nous est arrivé de trouver un même cours ayant de multiples licences, contradictoires, posées par les auteurs, l’Université et l’annuaire lui-même. Ce qui en pratique rend impossible son utilisation autrement qu’en simple document à consulter : on est alors très loin des REL.

Au niveau international, c’est un peu le même désordre général. J’ai participé au projet européen X5-GON (Global Open Education Network) qui collecte les informations sur les ressources éducatives libres et qui marche bien avec un gros apport d’intelligence artificielle pour analyser en profondeur les documents. La grande difficulté étant toujours le problème des licences. On essaie de résoudre le problème dans le cadre de la Francophonie et en mettant en place du crowdsourcing.

Donc on aura besoin de l’aide de tous ?

Oui, nous espérons organiser au printemps des RELathons, c’est -à -dire des événements où chacun pourra nous aider à identifier les REL francophones. La logistique est presque prête… Nous attendons surtout de meilleures conditions sanitaires pour nous lancer.

Le mouvement des REL est-il bien accepté chez les enseignants ?

Si beaucoup d’enseignants sont ouverts à partager leurs ressources éducatives, ce n’est pas nécessairement le cas pour tous . Il n’y a pas adhésion de masse à l’idée de la mise en commun et du partage de la connaissance. Par exemple, à ce jour, il est impossible pour un étudiant qui suit un cours dans une université d’avoir des informations et de se renseigner sur le cours équivalent qui est donné dans une autre université.

Une anecdote : en Suède, le ministère à essayé de pousser les ressources éducatives libres ; ils ont eu un retour de bâton de la part des syndicats qui ne voyaient pas pourquoi le ministère voulait imposer à un enseignant de partager ses ressources avec d’autres enseignants. Le débat reste très intéressant chez eux.

Mais je pense que c’est quand même un problème culturel : poser une licence fait peur, s’exposer aussi. Mais si on rappelle aux enseignants qu’au fond, s’ils ont choisi ce métier, c’est bien pour partager la connaissance, on crée des adeptes.

Existe-t-il des groupes de militants qui représentent l’amorce d’une communauté ?

Il y a une petite communauté assez active. La Société informatique de France en fait partie par exemple. Mais c’est une communauté de convertis. Il faut arriver à convaincre les gens, en masse, au-delà de petits groupes des précurseurs.

Les REL sont un exemple de commun numérique, comment se comparent-ils d’autres communs, par exemple à la science ouverte ?

Une différence avec la science ouverte est que pour les ressources éducatives libres, il y a un droit de remix, c’est-à-dire de prendre un morceau d’un cours, le modifier, l’intégrer un autre, etc. Dans la science ouverte, une publication reste un tout que l’on ne modifie pas. Donc, les REL se rapprochent plutôt de la logique de l’Open Source.

Le ministère de l’enseignement supérieur et de la recherche a un responsable pour la science ouverte, Marin Dacos, est-ce qu’on a aussi un responsable pour les REL ?

Récemment, Alexis Kauffmann, le fondateur de Framasoft, a été nommé “chef de projet logiciels et ressources éducatives libres et mixité dans les filières du numérique” à la Direction du numérique de l’Education nationale. C’est une excellente nouvelle.

Quel type d’actions est prévu dans le cadre de ta chaire Unesco ?

Des actions à trois niveaux sont prévues. Au niveau international, on organise la conférence Open Education Global Nantes 2022. Sur le plan national, on essaie en association avec le ministère de l’éducation de mobiliser l’ensemble de la filière : cela passe par des ateliers lors de journées organisées par les rectorats, par la publication de ressources pour aider les enseignants à devenir des éducateurs ouverts… Nous publions ces informations et ressources sur notre blog. Enfin pour ce qui est du local, Nantes Université est totalement impliquée dans la démarche et ce sujet est porté par la Présidente. J’espère qu’à court terme nous pourrons servir d’exemple et de moteur pour faire progresser des ressources éducatives libres dans le contexte universitaire.

Serge Abiteboul, Inria et ENS, Paris, François Bancilhon, serial entrepreneur

https://binaire.socinfo.fr/page-les-communs-numeriques/

18 mars 2022

La Chine et les communs numériques

Stéphane Grumbach est directeur de recherche à Inria et enseignant à Sciences Po. Il a été directeur de l’IXXI, l’institut des systèmes complexes de la Région Auvergne Rhône Alpes. Il a été directeur du Liama, le laboratoire sino-européen en informatique, automatique et mathématiques appliquées de Beijing. L’essentiel de sa recherche concerne les questions globales, et notamment comment le numérique modifie les rapports entre les nations et oriente les sociétés dans l’adaptation aux changements écosystémiques. Nous l’avons interviewé notamment pour mieux comprendre ce qui se passe en Chine autour du numérique et des communs numériques.

Peux-tu nous parler de ton activité professionnelle actuelle ?

Depuis quelques temps, je fais moins de technique et plus de géopolitique. Je m’intéresse au numérique et pour moi le numérique est un système de pouvoir qui implique de nouveaux rapports de force entre les personnes et les pays. Je reste fasciné par le regard que les Européens portent sur la Chine. Ils ne voient dans la stratégie chinoise que l’aspect surveillance de sa population alors que cette stratégie est fondée sur la souveraineté numérique. Les États-Unis ont aussi un système de surveillance du même type et les Américains ont bien saisi la question de souveraineté numérique.

A l’École Normale Supérieure de Lyon, je travaille avec des gens qui étudient les systèmes complexes, sur la prise de conscience de changements de société causés par la transition numérique, ses imbrications avec la transition écologique. Il y a des anthropologues et des juristes ce qui me permet d’élargir mon horizon.

Où est-ce qu’on publie dans ce domaine ?

Ce n’est pas facile. Sur cet aspect, je regrette le temps où ma recherche était plus technique ; je savais alors précisément où publier. Par exemple, sur les aspects plus politiques du développement durable, il n’est pas facile de trouver le bon support.

Emblème national de la République populaire de Chine

Parle nous d’un de tes sujets de prédilections, la Chine.

Je voudrais en préambule proposer une analyse globale de la situation. Contrairement à la vision qui mettrait la Chine d’un côté et le monde occidental de l’autre, le monde numérique se sépare entre Chine et États-Unis d’un côté et de l’autre l’Europe.

Entre la Chine et les États-Unis, une différence est la liberté d’expression. Aux États-Unis, cette liberté fait l’objet du premier amendement de la constitution, c’est dire son importance. En Chine, le sujet n’existe pas. Il y a une forme de possibilité de critiquer, mais la critique doit se faire de biais, jamais directement. L’expression critique reste typiquement métaphorique, mais les Chinois la comprennent bien. Depuis l’ère Trump, les Américains ont essayé de bloquer le développement numérique chinois. Deux idées sont importantes : la souveraineté et l’extension extraterritoriale. Ce sont les bases du conflit États-Unis et Chine.

Actuellement la tension monte de manière inquiétante. Des deux côtés, un processus de désimbrication intellectuelle et technologique est enclenché. C’est une mauvaise nouvelle globalement car c’est le chemin vers des conflits.

La pensée numérique s’est beaucoup développée en Chine, qui est devenue depuis un certain temps précurseur au niveau mondial. Aux États-Unis, les liens entre l’industrie numérique et l’État sont importants, mais se cantonnent principalement à la sécurité. En Chine en revanche, cela va plus loin : le rôle stratégique des plateformes numériques est mieux reconnu et plus large, dans l’économie, le social, au-delà de la simple surveillance. C’est ce qui donne au pays une avance sur le reste du monde.

La Chine est aujourd’hui dans une phase de définition des rapports de force entre les plateformes et l’État. Les États-Unis feront la même chose, mais probablement plus tard. Le dogme dominant aujourd’hui est que la régulation nuirait à l’innovation et à la sécurité nationale. En Chine, la définition de ces rapports est dictée par l’État : c’est une décision politique de l’État.

Par ailleurs, on assiste actuellement à un durcissement politique en Chine, une baisse de la liberté de critique et une moins grande ouverture. L’instabilité sociale potentielle pousse à une politique de redistribution des richesses. Une forte régulation des plateformes a été lancée depuis l’arrêt brutal de l’IPO d’Ant Financial l’année dernière. Ces régulations touchent aussi les plateformes de la EdTech, avec des arguments de justice sociale également.

Comment arrives-tu à t’informer sur la Chine ?

C’est devenu plus difficile parce que malheureusement on ne peut plus y aller à cause de la politique de protection face au Covid. Mais il se publie beaucoup de choses en Chine qui sont accessibles.

Est-ce qu’il y a des sites de données ouvertes en Chine ?

Oui il y a par exemple des équivalents de data.gouv en Chine, beaucoup au niveau des provinces et des villes. En matière de données ouvertes, la politique chinoise est différente de celle que nous connaissons en Europe. Plutôt que d’ouvrir les données et d’attendre que des acteurs s’en saisissent, on procède en ciblant des acteurs précis pour réaliser des services innovants à partir potentiellement d’un cahier des charges, sous contrôle de l’administration publique. L’ouverture se fait dans le cadre d’appels d’offres comme c’est le cas, par exemple, à Shanghai. Bien sûr, comme ailleurs, on assiste à des résistances, des villes qui hésitent à ouvrir leurs données.

Il faut aussi parler des expérimentations mettant en œuvre le social scoring, une notation sociale. Il s’agit de mesurer la “responsabilité citoyenne” de chacun ou de chacune, suivant les bonnes ou les mauvaises actions qu’il ou elle commet. C’est aujourd’hui très expérimental, mais différentes villes l’ont déjà implémenté.

Il faut bien réaliser que la frontière entre espace public et privé est plus floue en Chine que chez nous. Par exemple, la circulation des voitures est monitorée et les PV sont mis automatiquement, ils sont visibles sur un site en ligne. Il faut avoir une vignette qui atteste de sa capacité à conduire et avoir bien payé ses PV. Cette approche est similaire à ce qui se pratique aux États-Unis avec le financial scoring qui est largement utilisé. Les Chinois sont globalement bienveillants face aux développements numériques et ils font preuve d’un “pragmatisme décontracté” à son égard. Les données personnelles ne sont pas accessibles à tous, et une nouvelle législation est entrée en vigueur au mois de novembre 2021, inspirée du RGPD.

Le quartier général de Baidu, Wikipédia

Est-ce qu’il y a des plateformes basées sur les communs numériques comme Wikipedia ou OpenStreetMap ?

Oui des analogues existent. Il y a un équivalent de Wikipédia réalisé par Baidu, et des équivalents locaux d’OpenStreetMap. Sur les pages Wikipédia en chinois les points de vue ne sont pas toujours ceux des autorités. C’est parfois censuré mais les gens savent souvent contourner la censure.

Et pour ce qui est des logiciels libres ?

L’open source est relativement présent. La tech peut parfois avoir des accents libertaires qui la mettent en opposition avec les autorités. Mais l’État chinois sait se servir de l’open source en particulier comme outil de souveraineté numérique. Le système d’exploitation Harmony de Huawei (basé sur Android) est bien un enjeu de la lutte entre la Chine et les États-Unis pour la dominance technologique et le découplage des économies numériques.

Plus généralement, que peut-on dire sur les communs numériques en Chine ?

Il n’y aurait aucun sens à ne pas profiter de tels communs en Chine comme en France. D’ailleurs, ces communs sont fortement développés en Chine, plus que dans d’autres pays. Les données accumulées par les plateformes en Occident ne sont utilisées que par celles-ci pour un intérêt mercantile, au-delà de la sécurité. Mais ces données peuvent être vues comme des communs, dont l’usage doit être encadré bien sûr par exemple par l’anonymisation.

Si on regarde bien, Google dispose de données stratégiques pour un grand nombre de sujets au-delà de la sécurité comme la santé, l’économie ou l’éducation. Pourtant aux États-Unis et en Europe, les relations entre l’État et les plateformes sont focalisées sur la sécurité. Cela fait passer à côté de nombreuses opportunités. En Chine, tous les sujets sont abordés en s’appuyant sur les services numériques, y compris par exemple la grogne sociale. Avec ces services, on peut détecter un problème régional et procéder au remplacement d’un responsable.

La Chine construit une société numérique nouvelle, et exploite les données pour la gouvernance. En ce sens, elle est en avance sur le reste du monde.

Et quelle est la place de l’Europe dans tout ça ?

Pour l’Europe, la situation est différente. Contrairement à la Chine ou aux États-Unis, elle n’a ni technologie ni plateforme. Elle est donc dépendante sur ces deux dimensions et essaie de compenser par la régulation. Mais sa régulation est focalisée sur la protection de l’individu, pas du tout sur les communs ou l’intérêt global de la société. L’Europe n’a aucune souveraineté numérique et ses outils et services n’ont pas de portée extraterritoriale, parce qu’elle n’a pas d’outils de taille mondiale.

Pour les Chinois, l’Europe n’existe plus : les cadres chinois voient l’Europe comme nous voyons la Grèce, une région qui a compté dans l’histoire mais qui ne pèse plus au niveau politique et stratégique, sympa pour les vacances. Je ne suis pas sûr que la vision des américains soit très différente de celle des Chinois d’ailleurs.

La stratégie chinoise des routes de la soie, une infrastructure absolument géniale du gouvernement Chinois, contribuera d’ailleurs à augmenter la dépendance de l’Europe vis à vis de la Chine, à long terme peut-être dans un équilibre avec les États-Unis, voire dans une séparation de l’Europe dans deux zones d’influence comme c’était le cas pendant la guerre froide.

Serge Abiteboul, Inria et ENS, Paris, & François Bancilhon, serial entrepreneur

https://binaire.socinfo.fr/page-les-communs-numeriques/

10 décembre 2021
Odyssée urbaine autour de la transition numérique

Nous vous invitons à partager les réflexions déambulatoires de Sylvain Petitjean et Samuel Nowakowski à l’occasion de la parution du livre « Demain est-il ailleurs ? Odyssée urbaine autour de la transition numérique ». La qualité de leurs échanges et de leurs questionnements sur l’impact du numérique dans notre société nous ont donné envie de les partager sur binaire. Avec l’aimable autorisation des auteurs et du site Pixees, nous republions l’intégralité de l’article. Marie-Agnès Enard et Thierry Vieville.

Ce texte est un échange épistolaire qui s’est installé suite à la parution du livre «Demain est-il ailleurs ? Odyssée urbaine autour de la transition numérique» co-écrit par Bruno Cohen, scénographe, réalisateur et metteur en scène, et Samuel Nowakowski, maître de conférences à l’université de Lorraine et chercheur au LORIA.

Paru en octobre 2020 chez FYP Editions, ce livre rassemble les rencontres avec celles et ceux qui vivent aujourd’hui cette transformation radicale. Au cours d’une déambulation de 24 heures dans la ville, les personnes rencontrées abordent les notions de temps, parlent du déséquilibre, de leurs incertitudes et du mal-être, mais aussi de leurs émerveillements et de leurs rêves. Elles questionnent des thèmes centraux de notre société que sont la surveillance, le contrôle, le développement d’un capitalisme numérique prédateur. Elles parlent aussi de cet ailleurs des pionniers qui s’est matérialisé dans nos sociétés en réseau, traversées par les nécessaires réflexions à mener sur l’éthique, l’écologie, l’apprentissage, la transmission et le rapport au savoir. Arpentant l’univers de la ville à la recherche de la transition, nous découvrons petit à petit qu’elle s’incarne sous différentes formes chez les uns ou les autres, dans l’espace public et privé, et dans tous les milieux au sein desquels nous évoluons — naturels, sociaux, politiques, éducatifs, technologiques…

Sylvain Petitjean est l’une de ces personnes rencontrées. Sylvain est chercheur au centre Inria à Nancy. Il est également président du Comité opérationnel d’évaluation des risques légaux et éthiques (Coerle) chez Inria.

Sylvain et Samuel ont souhaité poursuivre la conversation entamée dans le livre, ouvrant ainsi d’autres champs de réflexion. Cet échange s’est étalé sur plusieurs semaines, sous forme épistolaire, dans des conditions temporelles à rebours de l’urgence et de l’immédiateté ambiante. En voici le contenu.

Samuel : L’éthique kantienne sur laquelle notre société moderne s’est construite, s’énonce ainsi : « Agis de telle sorte que tu puisses également vouloir que ta maxime devienne loi universelle ». Or aujourd’hui, au vu des enjeux, des transitions multiples auxquelles nous faisons face, ne sommes-nous pas devant un besoin de disposer d’une éthique basée sur le principe de responsabilité à l’égard des générations futures et de notre environnement. Hans Jonas énonce le Principe responsabilité : « Agis de telle façon que les effets de ton action soient compatibles avec la permanence d’une vie authentiquement humaine sur Terre ». Ce qui implique que le nouveau type de l’agir humain consiste à prendre en considération davantage que le seul intérêt « de l’homme » et que notre devoir s’étend plus loin et que la limitation anthropocentrique de toute éthique du passé ne vaut plus ?

Dans le cadre du numérique, et de tout ce qui se présente à nous aujourd’hui en termes d’avancées scientifiques, dans le domaine qui est le nôtre, ne devons-nous pas repenser ce rapport au vivant et nos pratiques ?

Sylvain : Il est vrai qu’il n’est plus possible de considérer que les interventions techniques de l’humain sur son environnement sont superficielles et sans danger, et que la nature trouvera toujours comment rétablir elle-même ses équilibres fondamentaux. La crise écologique et les menaces pesant sur l’humanité et la planète impliquent quasi naturellement, pour Jonas et d’autres, d’orienter l’agir vers le bien commun en accord avec notre sentiment de responsabilité. D’où la proposition de refonder l’éthique comme une éthique de la responsabilité et du commun capable d’affronter l’ampleur des problèmes auxquels fait face la civilisation technologique, pour le bien-être et la survie des générations futures.

Les technologies du numérique présentent par ailleurs un autre défi de taille, probablement inédit, du point de vue de l’éthique. Cela a notamment trait à la logique grégaire associée à l’usage des services Internet : plus un service est utilisé par d’autres usagers, plus chacun trouve intéressant de l’utiliser parce qu’il peut en obtenir davantage d’informations et de contacts, créant un effet boule de neige. Cet «effet de multitude», comme l’ont baptisé les économistes, transforme en effet l’étendue et la nature des enjeux éthiques. Alors que l’éthique est usuellement un sujet qui arrive a posteriori du progrès, dès lors que des dérives sont constatées, il sera de plus en plus difficile, avec la démultiplication des possibilités et le changement d’échelle, d’être avec le numérique dans la réaction face à un problème éthique. En d’autres termes, les problématiques éthiques et juridiques vont devenir insolubles si on ne les traite pas en amont de la conception des technologies numériques (ethics by design). Cela dessine les contours d’une éthique plus proactive, en mesure d’accompagner de façon positive le développement et l’innovation.

Malheureusement, nous n’en sommes vraisemblablement qu’aux balbutiements de l’étude et de la maîtrise de ces questions dans le domaine du numérique. Il suffit de faire un pas de côté en direction de la biomédecine et des biotechnologies et de mesurer le chemin parcouru autour des lois de bioéthique pour s’en convaincre. Or le temps presse…

Samuel : Imprégnés de l’actualité qui est la nôtre, et en paraphrasant Tocqueville, « on ne saurait douter [qu’aujourd’hui] l’instruction du peuple serve puissamment [à la compréhension des enjeux de notre temps qu’ils soient politiques, technologiques, écologiques]. [N’en sera-t-il pas] ainsi partout où l’on ne séparera point l’instruction qui éclaire l’esprit de l’éducation qui règle les mœurs ? » La maîtrise de toutes ces questions ne doit-elle pas passer par cette nécessaire instruction du plus grand nombre ? Comment nous préserver du fossé qui risque de se creuser entre ceux qui sont instruits de ces enjeux et ceux qui n’y ont pas accès parce qu’ils font face à un horizon scolaire et social bouché ? Or, la méthode la plus efficace que les humains ont trouvée pour comprendre le monde (la science) et la meilleure façon qu’ils ont trouvée afin d’organiser le processus de décision collective (les modes démocratiques) ont de nombreux points communs : la tolérance, le débat, la rationalité, la recherche d’idées communes, l’apprentissage, l’écoute du point de vue opposé, la conscience de la relativité de sa place dans le monde. La règle centrale est d’avoir conscience que nous pouvons nous tromper, de conserver la possibilité de changer d’avis lorsque nous sommes convaincus par un argument, et de reconnaître que des vues opposées aux nôtres pourraient l’emporter.

Malheureusement, à l’école, les sciences sont souvent enseignées comme une liste de « faits établis » et de « lois », ou comme un entraînement à la résolution de problèmes. Cette façon d’enseigner s’oppose à la nature même de la pensée scientifique. Alors qu’enseigner, c’est enseigner l’esprit critique, et non le respect des manuels ; c’est inviter les étudiants à mettre en doute les idées reçues et les professeurs, et non à les croire aveuglément.

Aujourd’hui, et encore plus en ces temps troublés, le niveau des inégalités et des injustices s’est intensifié comme jamais. Les certitudes religieuses, les théories du complot, la remise en cause de la science et de la démocratie s’amplifient et séparent encore plus les humains. Or, l’instruction, la science et la pensée doivent nous pousser à reconnaître notre ignorance, que chez « l’autre » il y a plus à apprendre qu’à redouter et que la vérité est à rechercher dans un processus d’échange, et non dans les certitudes ou dans la conviction si commune que « nous sommes les meilleurs ».

L’enseignement pour permettre [la compréhension des enjeux de notre temps qu’ils soient politiques, technologiques, écologiques] doit donc être l’enseignement du doute et de l’émerveillement, de la subversion, du questionnement, de l’ouverture à la différence, du rejet des certitudes, de l’ouverture à l’autre, de la complexité, et par là de l’élaboration de la pensée qui invente et qui s’invente perpétuellement. L’école se caractérise ainsi à la fois par la permanence et l’impermanence. La permanence dans le renouvellement des générations, le « devenir humain », l’approche du monde et de sa complexité par l’étudiant sur son parcours personnel et professionnel. L’impermanence, dans les multiples manières de « faire humain »… et donc dans les multiples manières d’enseigner et d’apprendre. Entre permanence et impermanence, la transition ?

Sylvain : En matière d’acculturation au numérique et plus globalement d’autonomisation (empowerment) face à une société qui se technologise à grande vitesse, il faut jouer à la fois sur le temps court et le temps long. Le temps court pour agir, pour prendre en main, pour ne pas rester à l’écart ; le temps long pour réfléchir et comprendre, pour prendre du recul, pour faire des choix plus éclairés.

Daniel Blake, ce menuisier du film éponyme de Ken Loach victime d’un accident cardiaque, se retrouve désemparé, humilié face à un simple ordinateur, point de passage obligé pour faire valoir ses droits à une allocation de chômage. Où cliquer ? Comment déplacer la souris ? Comment apprivoiser le clavier ? Ces questions qui semblent évidentes à beaucoup le sont beaucoup moins pour d’autres. La dématérialisation de la société est loin d’être une aubaine pour tous. Prenons garde à ce qu’elle ne se transforme pas en machine à exclure. L’administration — dans le film — fait peu de cas de ceux qui sont démunis face à la machine ; on peut même se demander si ça ne l’arrange pas, s’il n’y a pas une volonté plus ou moins consciente d’enfoncer ceux qui ont déjà un genou à terre tout en se parant d’équité via l’outil numérique. Daniel Blake, lui, veut juste pouvoir exercer ses droits de citoyen et entend ne pas se voir nier sa dignité d’être humain. De la fable contemporaine à la réalité de nos sociétés il n’y a qu’un pas. Réduire la fameuse fracture numérique, qui porte aujourd’hui encore beaucoup sur les usages, doit continuer d’être une priorité qui nécessite de faire feu de tout bois et à tous les niveaux. Et il faut absolument s’attacher à y remettre de l’humain.

Mais ce n’est pas suffisant. Les politiques d’e-inclusion doivent aussi travailler en profondeur et dans le temps long. De même que l’on associe au vivant une science qui s’appelle la biologie (qui donne un fil conducteur permettant d’en comprendre les enjeux et les questions de société liées, et de structurer un enseignement), on associe au numérique une science qui est l’informatique. Pour être un citoyen éclairé à l’ère du numérique et être maître de son destin numérique, il faut pouvoir s’approprier les fondements de l’informatique, pas uniquement ses usages. « Il faut piger pourquoi on clique » disait Gérard Berry. Car si les technologies du numérique évoluent très vite, ces fondements et les concepts sur lesquels ils s’appuient ont eux une durée de vie beaucoup plus grande. Les maîtriser aujourd’hui, c’est s’assurer d’appréhender non seulement le monde numérique actuel mais aussi celui de demain. Y parvenir massivement et collectivement prendra du temps. Le décalage entre la culture informatique commune de nos contemporains et ce que nécessiteraient les enjeux actuels est profond et, franchement, assez inquiétant, mais sans surprise : la révolution numérique a été abrupte, l’informatique est une science jeune, il faut former les formateurs, etc.

Conquérir le cyberespace passe aussi par le fait de remettre à l’honneur l’enseignement des sciences et des techniques, à l’image du renouveau dans les années cinquante impulsé par les pays occidentaux confrontés à la « crise du Spoutnik » et à la peur d’être distancés par les Soviétiques dans la conquête spatiale, comme le rappelle Gilles Dowek. Or la révolution scientifique et technologique que nous vivons est bien plus profonde que celle d’alors. Et il importe de commencer à se construire une culture scientifique dès le plus jeune âge, à apprendre à séparer le fait de l’opinion, à se former au doute et à la remise en cause permanente. « C’est dès la plus tendre enfance que se préparent les chercheurs de demain. Au lieu de boucher l’horizon des enfants par un enseignement dogmatique où la curiosité naturelle ne trouve plus sa nourriture, il nous faut familiariser nos élèves avec la recherche et l’expérimentation. Il nous faut leur donner le besoin et le sens scientifiques. […] La formation scientifique est — comme toute formation d’ailleurs, mais plus exclusivement peut-être — à base d’expériences personnelles effectives avec leur part d’inconnues et donc leurs risques d’échecs et d’erreurs ; elle est une attitude de l’esprit fondée sur ce sentiment devenu règle de vie de la perméabilité à l’expérience, élément déterminant de l’intelligence, et moteur de la recherche indéfinie au service du progrès. » Ces mots datent de 1957, au moment de la crise du Spoutnik ; ils sont du pédagogue Célestin Freinet qui concevait l’éducation comme un moyen d’autonomisation et d’émancipation politique et civique. Ils n’ont pas pris une ride. Continuité des idées, des besoins, des enjeux ; renouvellement des moyens, des approches, des savoirs à acquérir. Permanence et impermanence…

Samuel : Tant d’années ! Tant de nouveaux territoires du savoir dévoilés ! Et toujours les mêmes questions, toujours le même rocher à hisser au sommet de la même montagne !

Qu’avons-nous foiré ou que n’avons-nous pas su faire ? Ou plutôt, quelles questions n’avons-nous pas ou mal posées ?

« S’il y a une chose qui rend les jeunes êtres humains allergiques à l’imagination, c’est manifestement l’école » ont écrit Eric Liu et Scott Noppe-Brando dans Imagination first. Alors que se passerait-il si l’école devenait pour les jeunes êtres humains une expérience vivante et valorisante ? Et si nous étions là pour les accompagner vers l’idée qu’il n’existe pas qu’une seule réponse, une seule manière d’être dans le monde, une seule voie à suivre ? Que faut-il faire pour que les jeunes êtres humains aient la conviction que tout est possible et qu’ils peuvent réaliser tout ce dont ils se sentent capables ?

A quoi ressemblerait la société ?

Alors, à rebours de l’imaginaire populaire dans lequel on imagine l’immuabilité des lieux et des choix effectués, comment agir pour favoriser l’émergence d’« agencements » comme chez Deleuze, ou encore d’« assemblages » suivant la notion empruntée à Bruno Latour ? Non pas une matrice dans laquelle nous viendrions tous nous insérer, mais en tant qu’acteurs ne cessant de se réinventer dans une création continue d’associations et de liens dans un « lieu où tout deviendrait rythme, paysage mélodique, motifs et contrepoints, matière à expression ». Chaque fois que nous re-dessinons le monde, nous changeons la grammaire même de nos pensées, le cadre de notre représentation de la réalité. En fait, avec Rutger Bregmann, « l’incapacité d’imaginer un monde où les choses seraient différentes n’indique qu’un défaut d’imagination, pas l’impossibilité du changement ». Nos avenirs nous appartiennent, il nous faut juste les imaginer et les rendre contagieux. Nos transitions ne seraient-elles pas prendre déjà conscience que « si nous attendons le bon vouloir des gouvernements, il sera trop tard. Si nous agissons en qualité d’individu, ça sera trop peu. Mais si nous agissons en tant que communautés, il se pourrait que ce soit juste assez, juste à temps ».

Pour cela, il nous faudra explorer la manière dont les acteurs créent ces liens, et définissent ce que doit être la société. Et la société est d’autant plus inventive que les agencements qu’elle fait émerger sont inventifs dans l’invention d’eux-mêmes.

Des avenirs s’ouvrent peut-être, par une voie difficile et complexe nécessitant de traverser la zone, les ruines, les turbulences et les rêves. Nous pourrions imaginer essaimer l’essence vitale de cette planète, en proie à des destructions physiques et métaphysiques, pour faire renaître l’humanité, la vie, la flore et la faune dans les étoiles. Nous pourrions, avec d’autres, former le projet de partir à bord d’un vaisseau emportant dans ses flancs, outre des embryons humains et animaux, un chargement de graines, spécimens, outils, matériel scientifique, et de fichiers informatiques contenant toute la mémoire du monde et, plus lourd encore, le « poids considérable des rêves et des espoirs ».

Ou alors nous pourrions tout simplement former un projet non pas de « revenir à l’âge de pierre [un projet] pas réactionnaire ni même conservateur, mais simplement subversif parce qu’il semble que l’imagination utopique soit piégée […] dans un futur unique où il n’est question que de croissance ». Ce projet que nous pourrions essayer de mener à bien « c’est d’essayer de faire dérailler la machine ». Ces quelques mots d’Ursula Le Guin nous rappellent que nos avenirs nous appartiennent et que nous avons le pouvoir d’imaginer, d’expérimenter de construire à notre guise et de jouer avec nos avenirs communs et individuels afin de commencer à désincarcérer le futur.

Sylvain : Comment panser l’avant et penser l’après, alors que toutes les menaces semblent s’accélérer, alors que tous les risques semblent se confirmer ? Comment essayer de réinventer un futur véritablement soutenable ?

Certains ingrédients sont connus : décroitre, renforcer la justice sociale, déglobaliser, réduire la pression sur les ressources naturelles, développer l’économie circulaire, etc. Je voudrais ici en évoquer deux autres, sous la forme d’un devoir et d’un écueil.

Le devoir consiste à se dépouiller de cet « humanisme dévergondé » (C. Lévi-Strauss) issu de la tradition judéo-chrétienne et, plus près de nous, de la Renaissance et du cartésianisme, « qui fait de l’homme un maître, un seigneur absolu de la création », agissant envers plantes ou animaux « avec une irresponsabilité, une désinvolture totales » qui ont conduit à mettre la nature en coupe réglée et, en particulier, à la barbarie de l’élevage industriel. Quelque chose d’absolument irremplaçable a disparu nous dit Lévi-Strauss, ce profond respect pour la vie animale et végétale qu’ont les peuples dits « primitifs » qui permet de maintenir un équilibre naturel entre l’homme et le milieu qu’il exploite. Or « se préoccuper de l’homme sans se préoccuper en même temps, de façon solidaire, de toutes les autres manifestations de la vie, c’est, qu’on le veuille ou non, conduire l’humanité à s’opprimer elle-même, lui ouvrir le chemin de l’auto-oppression et de l’auto-exploitation. » L’ethnologue pose le principe d’une éthique qui ne prend pas sa source dans la nature humaine ethnocentrée mais dans ce qu’il appelle « l’humilité principielle » : « l’homme, commençant par respecter toutes les formes de vie en dehors de la sienne, se mettrait à l’abri du risque de ne pas respecter toutes les formes de vie au sein de l’humanité même ». Cette vision des droits dus à la personne humaine comme cas particulier des droits qu’il nous faut reconnaître aux entités vivantes, cet humanisme moral inclusif nous ramène immanquablement à notre point de départ, et à Jonas.

L’écueil consiste à systématiquement réduire chaque problème humain (politique, social, environnemental) à une question technique à laquelle la technologie numérique apporte une solution, en traitant les effets des problèmes sans jamais s’intéresser à leurs causes et en négligeant les possibles déterminismes et biais qui la composent. « Si nous nous y prenons bien, je pense que nous pouvons réparer tous les problèmes du monde » fanfaronnait Eric Schmidt, président exécutif de Google, en 2012. Diminuer le CO2 ? Il y a une application pour ça ! E. Morozov montre bien les limites et effets pervers de cette idéologie qu’il appelle le « solutionnisme technologique », qui s’accompagne d’un affaiblissement du jeu démocratique et aboutit au triomphe de l’individualisme et de la marchandisation. « Révolutionnaires en théorie, [les technologies intelligentes] sont souvent réactionnaires en pratique. » Et elles s’attaquent bien souvent à des problèmes artificiels à force de simplification. « Ce qui est irréaliste, dit Naomi Klein, est de penser que nous allons pouvoir faire face à ces crises mondiales avec quelques minuscules ajustements de la loi du marché. C’est ça qui est utopique. Croire qu’il va y avoir une baguette magique technologique est ridicule. Cela relève de la pensée magique, portée par ceux qui ont un intérêt économique à maintenir le statu quo. » Il ne s’agit bien sûr pas d’éliminer la technologie de la boîte à outils de la résolution de problème. Il importe en revanche de dépasser l’optimisme béat et la quasi-piété en ses pouvoirs et de comprendre qu’elle n’est qu’un levier qui n’a du sens qu’en conjonction d’autres (Ethan Zuckerman). Il est urgent, au fond, de réhabiliter la nuance, la pluralité et la complexité dans le débat et de trouver une voie pour traiter les problèmes difficiles avec des solutions nouvelles selon une approche systémique.

Demain est peut-être ailleurs, mais si l’humanité veut tenter un nouveau départ, les premiers pas vers le renouveau doivent être effectués ici et maintenant.

Aller plus loin

16 novembre 2021
Science ouverte, une vision européenne

Jean-François Abramatic est Directeur de Recherche Emérite chez Inria. Il a partagé son parcours professionnel entre l’industrie et la recherche. Sur le plan recherche, il est spécialiste du traitement d’image. Sur le plan industriel, il a été Chief Product Officer chez Ilog et directeur du développement de l’innovation chez IBM. Mais il est surtout connu pour avoir été un acteur clé du web en tant que président du W3C (World Wide Web Consortium), l’organisme de standardisation du Web. Plus récemment, il a travaillé auprès de la Commission Européenne sur les sujets de science ouverte. C’est à ce titre qu’il répond à nos questions.

Photo de Tim Douglas provenant de Pexels

Binaire : Comment es-tu arrivé à travailler sur la science ouverte ? Cela peut paraître assez loin de tes travaux sur les logiciels.

Jean-François Abramatic : Quand je suis devenu Directeur de Recherche Emérite chez Inria, j’ai eu à définir mon programme d’activité au sein de l’institut. J’ai choisi trois axes : l’aide aux startups, l’organisation de W3C et Software Heritage (*). Je me suis progressivement focalisé sur le troisième.

En 2017, Roberto Di Cosmo et moi-même avons rencontré des responsables de la Commission Européenne pour leur présenter Software Heritage. A la fin de cette réunion, un des responsables de la commission m’a sollicité pour intervenir sur le sujet de la science ouverte. J’ai initialement été choisi comme rapporteur de projets sur la science ouverte pour la commission. En 2018, la Commission a rassemblé les acteurs du domaine pour voir ce qu’on pouvait faire et cette initiative s’est transformée en un programme, l’EOSC (The European Open Science Cloud) un environnement pour héberger, traiter et partager les programmes et les données de la recherche pour soutenir la science. Deux organes ont été mis en place pour deux ans (2019-2020) : un Governing Board (un représentant par État) et un Executive Board de 13 personnes où j’ai été nommé. Fin 2020, l’Executive Board a produit un ensemble de recommandations pour la mise en place du programme Horizon Europe (2021-2027). J’ai animé la rédaction collective du document. J’ai, en particulier, écrit la première partie qui explique en quoi le numérique va changer la façon de faire de la recherche.

B : Quelle est ta définition de la science ouverte ?

JFA : Pour moi, c’est d’abord une nouvelle manière de faire de la recherche, en prenant en compte la disponibilité du numérique. Pour comprendre, il faut commencer par un peu d’histoire. Avant l’apparition de l’imprimerie, les résultats scientifiques étaient secrets, chiffrés parfois pour s’assurer qu’ils restaient la propriété exclusive de celui qui les avait découverts. Avec l’arrivée de l’imprimerie et la création des académies, un nouveau système a conduit à rendre disponibles les résultats de recherche grâce aux publications scientifiques.

Le numérique propose une nouvelle façon de faire de la science. Si on veut partager un résultat de recherche aujourd’hui et qu’on partage les publications, on fait une partie du chemin, mais une partie seulement. Il manque des éléments essentiels au lecteur de la publication pour comprendre et utiliser les résultats. Il faut lui donner accès à d’autres informations comme les cahiers d’expérience ou les descriptions d’algorithmes, les données et le code source. Un scientifique qui veut exploiter les résultats d’une recherche, peut le faire de manière précise et efficace.

B : Tu inclus l’open source comme élément essentiel de la science ouverte. Est-ce vraiment un aspect important de la science ouverte ?

JFA : Absolument. De nos jours, plus d’un papier sur deux dans Nature and Science fait appel à du numérique et du code. Le code permet d’expliquer les recherches et sa transmission est bien un composant essentiel de la science ouverte.

B : Tu définis la science ouverte comme une nouvelle façon plus coopérative de faire de la recherche. D’autres acteurs, Opscidia par exemple, nous l’ont défini comme une plus grande démocratisation de la recherche et le fait de faire sortir la science des laboratoires. Doit-on voir une contradiction entre vos points de vue?

JFA : Il faut d’abord que la science ouverte existe dans les laboratoires. On peut ensuite passer à sa démocratisation. On commence par les chercheurs, on passe après aux citoyens. En rendant les revues accessibles à tous, on les ouvre bien sûr à tous les chercheurs mais également à tous les citoyens. Cela soulève aussi la responsabilité des chercheurs d’expliquer ce qu’ils font pour que le plus grand nombre puisse le comprendre. On voit bien avec les controverses actuelles sur l’environnement ou les vaccins, l’importance de rendre la science accessible aux citoyens.

Il faut mentionner un danger à prendre en compte, et qui s’est manifesté clairement pendant la crise du Covid, c’est que certains papiers de recherches sont faux ou contiennent des erreurs. Vérifier les résultats, reproduire les expériences, sont donc des aspects essentiels de la recherche. La science ouverte en associant publications, données, et logiciels, ouvre la voie à la vérification et la reproductibilité.

Nous avons beaucoup à apprendre sur la science ouverte, c’est un sujet nouveau, en création, et pas encore mûr. C’est un sujet de recherche. Et puis, il faut être réaliste sur l’état de l’art de la science ouverte et son état du déploiement. Par exemple, tant que les chercheurs sont évalués sur la base de leur liste de publications, et par des indices comme le h-index, le processus d’évaluation reste un obstacle au développement de la science ouverte.

B : Tu soulèves un aspect essentiel. Est-ce que le mode de fonctionnement de la recherche scientifique est mal adapté à la science ouverte ?

JFA : La situation est très différente suivant les disciplines. Certaines disciplines comme l’astronomie ou la physique ont toujours ressenti un besoin naturel de communiquer et de partager les données. Elles ont rapidement adopté le numérique pour améliorer ce partage. Ce n’est pas un hasard si le Web est né au CERN dans un laboratoire de physique des hautes énergies. Mais dans de nombreuses disciplines, la science ouverte n’est pas encore assez prise en compte.

Par exemple, archiver du code ou des données, pour un informaticien, c’est naturel. Pourtant, le fait de partager son code ne fait pas suffisamment partie des critères d’évaluation des chercheurs en informatique.

L’ouverture des données est moins évidente pour un chercheur en sciences sociales. Les choses évoluent et se mettent lentement en place. Par exemple, Inrae a créé une direction pour la science ouverte.

B : Ce rapport est donc la vision européenne de l’Open Science ?

JFA : À ce jour, c’est le rapport de la Commission. Il représente sa vision aujourd’hui, une vision en construction parce que le sujet est complexe et difficile, pas tout à fait mûr, avec de vraies controverses.

B : Quel est l’avenir de ce rapport ?

JFA : La première version a été rendue publique. Le document a vocation à évoluer au fil du temps. L’étape suivante est la création d’une association (de droit belge) qui regroupe des acteurs de la recherche tels que les instituts de recherche, les universités, les organisations de financement, etc. Les statuts prévoient que chaque pays peut choisir un membre pour les représenter. Par exemple, Inria a été invité à représenter la France. Inria a choisi Laurent Romary pour tenir ce rôle. Par ailleurs, le conseil d’administration de l’association a été élu. Suzanne Dumouchel du CNRS fait partie du conseil. Cette association sera consultée pour chaque appel à projets dans le domaine des infrastructures pendant les sept ans à venir. Le message global de la commission et de l’organisation qu’elle met en place est que la science ouverte est devenue un citoyen de première classe, un sujet horizontal qui doit couvrir tous les aspects de la recherche scientifique.

Serge Abiteboul & François Bancilhon

https://binaire.socinfo.fr/page-les-communs-numeriques/

5 novembre 2021
Un wiki grand comme le monde

Florence Devouard est une ingénieure agronome française, devenue dirigeante associative. Vice-présidente de Wikimédia France de 2004 à 2008, elle a présidé la Wikimedia Foundation de 2006 à 2008, en remplacement de son fondateur, Jimmy Wales.

Florence Devouard, aka Anthere, sur devouard.org

binaire : Pouvez-vous nous raconter votre parcours ? Comment en êtes-vous arrivée à vous intéresser assez à Wikipédia pour devenir la présidente de la fondation qui chapeaute l’encyclopédie ?

FD : J’ai fait des études d’ingénieure agronome. A Nancy, je me suis spécialisée en biotechnologies. J’ai un peu travaillé dans le milieu académique initialement, mais j’ai rapidement bifurqué vers le monde de l’entreprise.

J’ai suivi mon époux en Belgique flamande, puis aux États-Unis et j’ai eu deux enfants. Je me suis intéressée à l’informatique, mais c’étaient plus les usages que le codage qui m’attiraient. J’ai travaillé, par exemple, sur des outils d’aide à la décision. Et puis, au début des années 2000, j’ai atterri à Clermont-Ferrand où je me suis sentie un peu isolée. Je me suis alors plongée dans le web qui me permettait de rencontrer des gens qui partageaient mes intérêts, c’était juste ce dont j’avais alors besoin. Je suis devenue un peu activiste anonyme du web.

J’étais aussi gameuse, et je passais pas mal de temps sur les forums, beaucoup avec des Américains. Sur ces forums, qui n’étaient pas faits pour ça, je me suis retrouvée à écrire de nombreux textes sur la sécurité biologique, parce j’avais des choses à raconter. C’était l’époque de l’envoi d’enveloppes avec de l’anthrax, juste après les attentats du 11 septembre.

J’ai notamment beaucoup discuté sur un forum avec un activiste de GreenPeace. C’est lui qui m’a fait découvrir Wikipédia qui démarrait à ce moment. Il m’a suggéré d’y raconter ce qui me tenait à cœur, sur la version anglophone. A cette époque, il n’y avait encore quasiment personne sur Wikipédia en français.

J’ai alors découvert ce qu’était un wiki. Techniquement c’est très simple, juste un site web sur lequel on peut facilement s’exprimer. Je pouvais comme tout le monde participer à l’écriture de pages web et la création de liens entre elles. À l’époque, c’était tout nouveau, ça nous paraissait génial et peu de gens intervenaient. Pourtant, je n’arrivais pas à sauter le pas, je craignais le regard des autres, et je doutais de ma capacité à m’exprimer en anglais. Alors, je procrastinais. Il m’a forcé la main : il a copié-collé mes explications pour créer des articles. Ils ont été lus et modifiés et ça m’a fait réaliser que je pouvais écrire, que je pouvais faire profiter les autres de mes connaissances, que je pouvais contrecarrer un peu le matraquage de l’administration américaine sur la sécurité biologique. Et cela correspondait à ce que j’avais envie de faire.

binaire : Pourquoi est-ce que cela vous correspondait si bien ?

FD : J’avais l’impression d’écrire des textes qui pouvaient être lus dans le monde entier, faire quelque chose d’utile en apportant des connaissances et en faisant passer des idées. Je participais alors en particulier à des controverses entre la France et les États-Unis sur des sujets comme les armes de destruction massive, les OGM, et la disparition des abeilles. Sur chacun de ces sujets, il y avait des écarts de pensée importants entre la France et les US. Je pouvais donc faire passer aux US des idées qui avaient cours en France et que je maitrisais. Je pouvais faire découvrir aux Américains qu’il n’y avait pas que l’Amérique et que d’autres, ailleurs, pensaient différemment.

binaire : Est-ce que c’est ce genre de motivation de passer des idées qui anime encore aujourd’hui les Wikipédiens ?

FD : Oui. Nombre d’entre eux collaborent à l’encyclopédie par altruisme, pour faire passer aux autres des idées auxquelles ils tiennent. Ils veulent participer au développement des connaissances globales, faire circuler ces connaissances. C’est ce qui est génial. Avec Wikipédia, on peut faire travailler en commun un groupe de personnes aux quatre coins de la planète. Le numérique permet de réunir les quelques personnes qui s’intéressent à un sujet, même le plus exotique, pour partager leurs connaissances et confronter les points de vue.

binaire : C’était vrai au début quand tout était à faire. Est-ce que c’est toujours pareil aujourd’hui ?

FD : C’est vrai que cela a beaucoup changé, aussi bien les méthodes de travail, et que les contenus. Au tout début, au début des années 2000, on travaillait seul hors ligne, puis on se connectait pour charger l’article. Maintenant, on est connecté en continu et on interagit en permanence avec les autres rédacteurs.

A l’époque, on arrivait souvent devant une page blanche. Quand j’ai commencé à bosser sur la Wikipédia francophone, on était cinq et on devait tout construire. Aujourd’hui sur un sujet précis, on arrive et une grosse masse de connaissances a déjà été réunie. On démarre rarement de nouveaux sujets. Il faut avoir une bonne expertise sur un sujet pour pouvoir y contribuer. Avant, on débroussaillait avec comme ligne de mire très lointaine la qualité d’une encyclopédie conventionnelle. Aujourd’hui, on vise la perfection, par exemple, le label « Article de qualité », qui est un label très difficile à obtenir. Certains travaillent comme des dingues sur un article pour y arriver. C’est de cette quête de perfection qu’ils tirent leur fierté.

Ils éprouvent bien sûr aussi du plaisir à faire partie d’un réseau, à rencontrer des gens,

La situation pionnière qu’on a connue et que j’ai beaucoup aimée, est parfois encore un peu celle que rencontrent certains Africains qui rejoignent le projet dans des langues locales, depuis des pays encore mal connectés à internet. Ce n’est d’ailleurs pas simple pour eux de s’insérer dans le collectif qui a beaucoup changé.

binaire : La fondation Wikimédia promeut d’autres services que l’encyclopédie Wikipédia. Vous pouvez nous en parler ?

FD : Exact. L’encyclopédie représente encore 95% des efforts, mais on a bien d’autres projets. C’est d’ailleurs sur les projets moins énormes que j’ai le plus de plaisir à participer.

J’ai travaillé notamment sur un projet pour améliorer les pages « biaisées », des pages assez anciennes, où il reste peu de contributeurs actifs. On peut se retrouver par exemple confronté à des services de communication d’entreprises qui transforment les pages en les biaisant pour gommer les aspects un peu négatifs de leurs entreprises. Il faut se battre contre ça.

Un autre projet très populaire, c’est Wikimedia Commons qui regroupe des millions d’images. C’est né de l’idée qu’il était inutile de stocker la même image dans plusieurs encyclopédies dans des langues différentes. Je trouve très sympa dans Wikimedia Commons que nous travaillions tous ensemble par-delà des frontières linguistiques, que nous arrivions à connecter les différentes versions linguistiques.

Un troisième projet, Wiki Data construit une base de connaissances. Le sujet est plutôt d’ordre technique. Cela consiste en la construction de bases de faits comme « “Napoléon” est mort à “Sainte Hélène” ». À une entité comme ”Napoléon”, on associe tout un ensemble de propriétés qui sont un peu agnostiques de la langue. Les connaissances sont ajoutées par des systèmes automatiques depuis d’autres bases de données ou entrées à la main par des membres de la communauté wikimédienne. On peut imaginer de super applications à partir de Wiki Data.

Enfin, il y a d’autres projets comme Wiktionnaire ou Wiki Books, et des projets naissants comme Wiki Abstracts.

binaire : La fondation développe des communs. Comment la fondation choisit-elle quels communs proposer ? Comment définit-elle sa stratégie ?

FD : Au début, on avait juste l’encyclopédie. La Fondation a été créée en 2003, mais sans véritablement de stratégie. On faisait ce que les gens avaient envie de faire. Par exemple, Wiktionnaire a été créé à cette époque. On avait des entrées qui étaient juste des définitions de mots. On se disputait pour savoir si elles avaient leur place ou pas dans Wikipédia. Comme on ne savait pas comment trancher le sujet, on a créé autre chose : le Wiktionnaire. Dans cette communauté, quand tu as une bonne idée, tu trouves toujours des développeurs. Les projets se faisaient d’eux-mêmes, du moment que suffisamment de personnes estimaient que c’était une belle idée. Il n’y avait pas de stratégie établie pour créer ces projets.

À partir de 2007-2008, les choses ont changé, et la Fondation a cherché à réfléchir sur ce qu’on voulait, définir où on allait. Mais ça a pris du temps pour y arriver. Si on n’y fait pas attention, en mettant plein de gens autour de la table, on arrive à une stratégie qui est un peu la moyenne de ce que tout le monde veut, qui confirme ce qu’on est déjà en train de faire, sans aucun souffle, qui ne donne pas de vraie direction et qui n’est donc pas une vraie stratégie proactive.

binaire : À défaut de stratégie, la communauté a au moins développé ses propres règles ?

FD : Au début, il n’y avait même pas de règles communes. Elles ont émergé au cours du temps, au fil des besoins. Le mode fonctionnement est très flexible. Chaque communauté définit en fait ses propres règles, ses propres priorités. Les différentes versions linguistiques s’adaptent aux cultures.

Dans le temps, le modèle a tendance à se scléroser en s’appuyant bien trop sur la règle du précédent. Si ça marche à peu près, on préfère ne toucher à rien. Le Fondation qui lie tout cela ne cherche pas non plus à imposer sa loi, à de rares exceptions près. Comme par exemple, quand elle a défini des critères pour les biographies individuelles. Elle cherche surtout à tenir compte des lois des pays, et donc à limiter les risques juridiques.

Les règles communes tout comme une stratégie commune ont doucement émergé. Mais le monde de Wikimédia reste un monde très flexible.

binaire : Pouvez-vous nous parler des individus qui participent à Wikipédia. Cela semble vraiment s’appuyer sur des communautés très différentes.

FD : En partant du plus massif, vous avez la communauté des lecteurs, puis celle les éditeurs. Parmi ces derniers, cela va de l’éditeur occasionnel peu impliqué, jusqu’au membre actif qui participe à la vie de la communauté. Vous avez ensuite les associations locales et la fondation qui définissent un certain cadre par exemple en lançant des nouveaux projets. Elles interviennent aussi directement dans la vie de la communauté, notamment pour des raisons juridiques. Enfin, il faut mentionner, les salariés et contractuels de la fondation qui implémentent certains choix de la Fondation, et parfois entrent en conflit avec la communauté.

Le nombre de salariés des associations est très variable. Wikimédia France a une dizaine d’employés. Wikimédia Allemagne est plus ancienne et a environ deux cents personnes. D’autres pays n’ont que des bénévoles.

binaire : Le nombre de salariés est lié à la richesse de l’association locale ?

FD : Oui. L’association allemande a existé assez tôt en vendant notamment des encyclopédies off-line. Dans certains pays, les associations ont eu le droit de mettre des bandeaux d’appel aux dons sur Wikipedia, ce qui rapporte de l’argent. Dans d’autres, comme en Pologne, on peut via les impôts choisir de contribuer financièrement à l’association locale.

Le modèle économique varie donc d’un pays à l’autre. La Fondation Wikimédia (mondiale) redistribue une partie de ses fonds. Certains pays comme l’Allemagne sont assez riches pour s’en passer. Il reste une énorme disparité sur la disponibilité de moyens pour les Wikipédiens suivant leur pays.

binaire : Vous êtes aussi impliquée dans d’autres associations comme Open Food Fact ? Quel y est votre rôle ?

FD : Je suis dans leur Conseil d’Administration. Je suis là avec quelques autres personnes pour garantir le futur de toutes ces ressources développées en commun, et garantir une certaine pérennité.

binaire : Une dernière question. Vous avez à cœur de défendre une certaine diversité. Est-ce que vous pouvez partager cela avec les lecteurs de binaire ?

FD : Tous ces projets sont massivement le fait de mâles, cis, blancs, jeunes. On perd des talents à cause de cela, car l’environnement participatif ou le cadre de travail peuvent repousser. Il faut absolument que l’implication soit plus globale. On essaie d’explorer des solutions par exemple en luttant contre le harcèlement. Mais à mon avis on y arrive mal. J’aimerais bien savoir comment faire. Aujourd’hui, le pilotage global est très anglosaxon, et ça ne marche pas bien.

Wikipédia est une superbe réussite, on a construit quelque chose de génial. Un temps, on s’est inquiété de la diminution du nombre de contributeurs, la fuite des cerveaux. Je pense qu’on a réglé ce problème, aujourd’hui la population de contributeurs est quasi stable. Maintenant, pour continuer notre œuvre, on a besoin de plus de diversité. Je dirais que c’est aujourd’hui notre plus gros challenge.

Serge Abiteboul, Inria et ENS, Paris, & François Bancilhon, serial entrepreneur

De wikimedia.org

https://binaire.socinfo.fr/page-les-communs-numeriques/

2 novembre 2021
Les communs numériques

Un nouvel « Entretien autour de l’informatique ». Judith Rochfeld est professeure de droit privé à l’École de droit de la Sorbonne, et directrice du Master 2 « Droit du commerce électronique et de l’économie numérique ». C’est une des meilleures spécialistes des communs. Elle est co-éditrice du Dictionnaire des biens communs aux PUF, 2021. Elle est autrice de « Justice pour le climat ! Les nouvelles formes de mobilisation citoyenne » chez Odile Jacob, 2021.
Cet article est publié en collaboration avec theconversation.fr.

Judith Rochfeld

binaire : Judith, peux-tu nous dire qui tu es, d’où tu viens ?

JR : Je suis au départ une juriste, professeure de droit privé à l’Université Paris 1 Panthéon-Sorbonne. Au début, je m’intéressais aux grandes notions juridiques classiques, dont la propriété privée. Puis, sous le coup de rencontres et d’opportunités, j’ai exploré deux directions : le droit du numérique d’un côté ; et, avec un groupe de travail composé d’économistes, d’historiens, de sociologues, les « communs » dans la suite des travaux d’Elinor Ostrom (*), d’un autre côté. Cela m’a amenée à retravailler, entre autres, la notion de propriété. Par la suite, pour concrétiser certains des résultats de ces réflexions, j’ai dirigé, avec Marie Cornu et Fabienne Orsi, la rédaction d’un dictionnaire des biens communs. Aujourd’hui, je m’intéresse particulièrement à toutes les formes de biens communs et de communs, principalement en matière numérique et de données ainsi qu’en environnement.

binaire : Pourrais-tu préciser pour nos lecteurs les notions de « biens communs » et de « communs » ?

JR : Le vocabulaire n’est pas complètement stabilisé et peut varier suivant les interlocuteurs. Mais si l’on tente de synthétiser, on parlerait de « biens communs » pour saisir des biens, ressources, milieux, etc., à qui est associé un intérêt commun socialement, collectivement et juridiquement reconnu. Ce peut être l’intérêt d’une communauté nationale, internationale ou l’intérêt de groupes plus locaux ou restreints. On peut prendre l’exemple des monuments historiques : en 1913, on a assisté à des combats législatifs épiques pour faire reconnaître qu’il fallait les identifier, les classer, et admettre qu’ils présentaient un intérêt pour la nation française dans son ensemble ; qu’en conséquence, leurs propriétaires, fussent-ils privés, ne pouvaient pas avoir sur eux de pleins pouvoirs (comme le voudrait l’application de la propriété classique), jusqu’à celui de les détruire ; qu’ils devaient tenir compte de l’intérêt pour d’autres (voire pour les générations à venir), avec des conséquences juridiques importantes (l’obligation de les conserver dans leur état, de demander une autorisation pour les modifier, etc.).

Il existe d’ailleurs divers intérêts communs reconnus : l’intérêt historique et/ou artistique d’un monument ou d’autres biens culturels, l’intérêt environnemental ou d’usage commun d’un cours d’eau ou d’un terrain, l’intérêt sanitaire d’un vaccin, etc.

Mais précisons la terminologie. D’abord, il faut différencier entre « biens communs » et le « bien commun » discuté, par exemple, dans « Économie du bien commun » de Jean Tirole. Le second renvoie davantage à l’opposition entre bien et mal qu’à l’idée d’un intérêt commun.

Ensuite, il faut distinguer « biens communs » et « communs ». Avec la notion de « communs » (dans le sens que lui a donné Elinor Ostrom), on ajoute l’idée d’une organisation sociale, d’un gouvernement de la ressource par la communauté. C’est cette communauté qui gère les accès, les prélèvements, les différents droits…, et assure avec cela la pérennité de la ressource. C’est le cas par exemple pour un jardin partagé, un tiers-lieu, ou une encyclopédie en ligne telle que Wikipédia, administrés par leurs utilisateurs ou un groupe de personnes dédiées.

Un commun se caractérise typiquement par une communauté, une ressource que se partage cette communauté, et une gouvernance. Dans un bien commun, on n’a pas forcément cette gouvernance.

binaire : Cela conduit bien-sûr à des conflits avec la propriété privée ?

JR : On a souvent tendance à opposer les notions de biens communs ou de communs au droit de propriété privée, très belle avancée de la révolution française en termes d’émancipation et de reconnaissance d’un espace d’autonomie sur ses biens au bénéfice de l’individu propriétaire. Reconnaître qu’un bien porterait un intérêt commun poserait des limites au pouvoir absolu que la propriété renferme, en imposant la considération de l’intérêt d’une communauté. Cela peut être vrai dans certains cas, comme celui des monuments historiques évoqué.

Mais c’est oublié qu’il peut y avoir aussi une volonté du propriétaire d’aller en ce sens. La loi de protection de la biodiversité de 2016 permet ainsi, par exemple, de mettre un bien que l’on possède (un terrain, une forêt, etc.) au service d’une cause environnementale (la réintroduction d’une espèce animale ou végétale, la préservation d’une espèce d’arbre,…) en passant un accord pour formaliser cette direction : le propriétaire établit un contrat avec une association ou une collectivité, par exemple, et s’engage (et engage ses héritiers) à laisser ce dernier au service de la cause décrite. On assiste alors à une inversion de la logique de la propriété : elle sert à partager ou à faire du commun plutôt qu’à exclure autrui. C’est la même inversion qui sert de fondement à certaines licences de logiciel libre : celui qui pourrait bénéficier d’une « propriété » exclusive, à l’égard d’un logiciel qu’il a conçu, choisit plutôt de le mettre en partage et utilise pour cela une sorte de contrat (une licence de logiciel libre particulière) qui permet son usage, des modifications, mais impose à ceux qui l’utilise de le laisser en partage. Le droit de propriété sert ainsi à ouvrir l’usage de cette ressource plutôt qu’à le fermer.

binaire : Pour arriver aux communs numériques, commençons par internet. Est-ce que c’est un bien commun ? Un commun ?

JR : C’est une grande discussion ! On a pu soutenir qu’Internet était un commun mondial : on voit bien l’intérêt de cette ressource ou de cet ensemble de ressources (les différentes couches, matérielles, logicielles, etc.) pour une communauté très large ; ses fonctionnement et usages sont régis par des règles que se donnent des « parties prenantes » et qui sont censées exprimer une sorte de gouvernance par une partie de la communauté intéressée. En réalité, internet a même plusieurs gouvernances — technique, politique — et on est loin d’une représentation de l’ensemble des parties prenantes, sans domination de certains sur d’autres. La règle, cependant, qui exprime peut-être encore le mieux une partie de cette idée est celle de neutralité du net (dont on sait qu’elle a été bousculée aux États-Unis) : tout contenu devrait pouvoir y circuler sans discrimination.

binaire : Est-ce qu’on peut relier cela au droit de chacun d’avoir accès à internet ?

JR : Oui, ce lien est possible. Mais, en France, le droit à un accès à internet a plutôt été reconnu et fondé par le Conseil constitutionnel sur de vieilles libertés : comme condition des libertés d’information et d’expression.

binaire : Le sujet qui nous intéresse ici est celui des communs numériques. Est-ce tu vois des particularités aux communs numériques par rapport aux communs tangibles ?

JR : Oui tout à fait. Ostrom étudiait des communs tangibles comme des systèmes d’irrigation ou des forêts. La menace pour de telles ressources tient principalement dans leur surexploitation : s’il y a trop d’usagers, le cumul des usages de chacun peut conduire à la disparition matérielle de la ressource. D’ailleurs, l’économie classique postule que si j’ouvre l’usage d’un bien tangible (un champ par exemple, ouvert à tous les bergers désirant faire paître leurs moutons), ce dernier sera surexploité car personne ne ressentira individuellement la perte de façon suffisante et n’aura intérêt à préserver la ressource. C’est l’idée que synthétisera Garrett Hardin dans un article de 1968 resté célèbre, intitulé la « Tragédie des communs » (**). La seule manière de contrer cet effet serait d’octroyer la propriété (ou une réglementation publique). Ostrom s’inscrira précisément en faux en démontrant, à partir de l’analyse de cas concrets, que des systèmes de gouvernance peuvent se mettre en place, édicter des règles de prélèvements et d’accès (et autres) et assurer la pérennité de la ressource.

Pour ce qui est des communs numériques, ils soulèvent des problèmes différents : non celui de l’éventuelle surexploitation et de la disparition, mais celui qu’ils ne soient pas produits. En effet, si j’ouvre l’accès à des contenus (des notices de l’encyclopédie numérique, des données, des œuvres, etc.) et si, de plus, je rends gratuit cet usage (ce qui est une question un peu différente), quelle est alors l’incitation à les créer ?

Il faut bien préciser que la gratuité est une dimension qui a été placée au cœur du web à l’origine : la gratuité et la collaboration, dans une vision libertaire originaire, allaient quasi de soi. Les logiciels, les contenus distribués, etc. étaient créés par passion et diffusés dans un esprit de don par leurs concepteurs. Or, ce faisant, on fait un choix : celui de les placer en partie hors marché et de les faire reposer sur des engagements de passionnés ou d’amateurs désintéressés. La question se pose pourtant aujourd’hui d’aller vers le renforcement de modèles économiques qui ne soient plus basés que sur cette utopie du don, ou même sur des financements par fondations, comme ceux des Mozilla et Wikipedia Fundations.

Pour l’heure, la situation actuelle permet aux grandes plateformes du web d’absorber les communs (les contenus de wikipédia, des données de tous ordres, etc.), et ce sans réciprocité, alors que l’économie de l’attention de Google dégage des revenus énormes. Par exemple, alors que les contenus de l’encyclopédie Wikipédia, un commun, alimentent grandement le moteur de recherche de Google (ce sont souvent les premiers résultats), Wikipédia n’est que très peu rétribuée pour toute la valeur qu’elle apporte. Cela pose la question du modèle économique ou du modèle de réciprocité à mettre en place, qui reconnaisse plus justement la contribution de Wikipédia aux revenus de Google ou qui protège les communs pour qu’ils demeurent communs.

binaire : On pourrait également souhaiter que l’État soutienne le développement de communs. Quelle pourrait être une telle politique de soutien ?

JR : D’un côté, l’État pourrait s’afficher aux côtés des communs : inciter, voire obliger, ses administrations à choisir plutôt des communs numériques (logiciels libres, données ouvertes, etc.). C’est déjà une orientation mais elle n’est pas véritablement aboutie en pratique.

D’un autre côté, on pourrait penser et admettre des partenariats public-commun. En l’état des exigences des marchés publics, les acteurs des communs ont du mal à candidater à ces marchés et à être des acteurs reconnus de l’action publique.

Et puis, le législateur pourrait aider à penser et imposer la réciprocité : les communs se réclament du partage. Eux partagent mais pas les autres. Comment penser une forme de réciprocité ? Comment faire, par exemple, pour qu’une entreprise privée qui utilise des ressources communes redistribue une partie de la valeur qu’elle en retire ? On a évoqué le cas de Google et Wikipédia. Beaucoup travaillent actuellement sur une notion de « licence de réciprocité » (même si ce n’est pas simple) : vous pouvez utiliser la ressource mais à condition de consacrer des moyens ou du temps à son élaboration. Cela vise à ce que les entreprises commerciales qui font du profit sur les communs participent.

Dans l’autre direction, un projet d’article 8 de la Loi pour une République Numérique de 2016 (non adopté finalement) bloquait la réappropriation d’une ressource commune (bien commun ici) : il portait l’idée que les œuvres passées dans le domaine public (des contenus numériques par exemple) devenaient des « choses communes » et ne pouvaient pas être ré-appropriées par une entreprise, par exemple en les mettant dans un nouveau format ou en en limitant l’accès.

D’aucuns évoquent enfin aujourd’hui un « droit à la contribution », sur le modèle du droit à la formation (v. L. Maurel par exemple) : une personne pourrait consacrer du temps à un commun (au fonctionnement d’un lieu partagé, à l’élaboration d’un logiciel, etc.), temps qui lui serait reconnu pour le dédier à ces activités. Mais cela demande d’aller vers une comptabilité des contributions, ce qui, à nouveau, n’est pas facile.

En définitive toutes ces propositions nous conduisent à repenser les rapports entre les communs numériques, l’État et le marché.

binaire : Nous avons l’impression qu’il existe beaucoup de diversité dans les communautés qui prônent les communs ? Partages-tu cet avis ?

JR : C’est tout à fait le cas. Les communautés qu’étudiaient Ostrom et son École étaient petites, territorialisées, avec une centaine de membres au plus, identifiables. Avec l’idée des communs de la connaissance, on est passé à une autre échelle, parfois mondiale.

Certains communs se coulent encore dans le moule. Avec Wikipédia, par exemple, on a des communautés avec des rôles identifiés qui restent dans l’esprit d’Ostrom. On a la communauté des « bénéficiaires » ; ses membres profitent de l’usage de la ressource, comme ceux qui utilisent Wikipédia. On a aussi la communauté « délibérative », ce sont les administrateurs de Wikipédia qui décident des règles de rédaction et de correction des notices par exemple, ou la communauté « de contrôle » qui vérifie que les règles ont bien été respectées.

Mais pour d’autres communs numériques, les communautés regroupent souvent des membres bien plus mal identifiés, parfois non organisés, sans gouvernement. Je travaille d’ailleurs sur de telles communautés plus « diffuses », aux membres non identifiés a priori mais qui bénéficient de ressources et qui peuvent s’activer en justice pour les défendre quand celles-ci se trouvent attaquées. Dans l’exemple de l’article 8 dont je parlais, il était prévu de reconnaître que tout intéressé puissent remettre en cause, devant les tribunaux, le fait de ne plus pouvoir avoir accès à l’œuvre du domaine public du fait de la réappropriation par un acteur quelconque. Il s’agit bien d’une communauté diffuse de personnes, sur le modèle de ceux qui défendent des « ressources environnementales ». On peut y voir une forme de gouvernance, certes à la marge.

binaire : On a peu parlé de l’open data public ? Est-ce que la définition de commun que tu as donné, une ressource, des règles, une gouvernance, s’applique aussi pour les données publiques en accès ouvert ?

JR : Il y a des différences. D’une part, les lois ont vu dans l’open data public le moyen de rendre plus transparente l’action publique : les données générées par cette action devaient être ouvertes au public pour que les citoyens constatent l’action publique. Puis, en 2016, notamment avec la loi pour une République numérique évoquée, cette politique a été réorientée vers une valorisation du patrimoine public et vers une incitation à l’innovation : des startups ou d’autres entreprises doivent pouvoir innover à partir de ces données. Les deux motivations sont légitimes. Mais, mon impression est qu’aujourd’hui, en France, l’État voit moins dans l’open data un moyen de partage de données, qu’un espace de valorisation et de réappropriation. D’autre part, ce ne sont pas du tout des communs au sens où il n’y a pas de gouvernance par une communauté.

binaire : Tu travailles beaucoup sur le climat. On peut citer ton dernier livre « Justice pour le climat ». Quelle est la place des communs numériques dans la défense de l’écologie ?

JR : Je mets de côté la question de l’empreinte environnementale du numérique, qui est un sujet assez différent, mais néanmoins très préoccupant et au cœur des réflexions à mener.

Sur le croisement évoqué, on peut tracer deux directions. D’une part, il est évident qu’un partage de données « environnementales » est fondamental : pour mesurer les impacts, pour maîtriser les externalités. Ces données pourraient et devraient être saisies comme des « biens communs ». On a également, en droit, la notion voisine de « données d’intérêt général ». Il y a déjà des initiatives en ce sens en Europe et plus largement, que ce soit à l’égard des données publiques ou de données générées par des entreprises, ce qui, encore une fois, est délicat car elles peuvent recouper des secrets d’affaires.

D’autre part, la gravité de la crise environnementale, et climatique tout particulièrement, donne lieu à des formes de mobilisations qui, pour moi, témoignent de nouvelles approches et de la « conscientisation » des biens communs. Notamment, les procès citoyens que je décris dans le livre, qui se multiplient dans une bonne partie du monde, me semblent les expressions d’une volonté de réappropriation, par les citoyens et sous la pression de l’urgence, du gouvernement d’entités ressenties comme communes, même si le procès est une gouvernance qui reste marginale. Ils nous indiquent que nous aurions intérêt, pour leur donner une voie de gouvernement plus pacifique, à installer des instances de délibération, à destination de citoyens intéressés (territorialement, intellectuellement, par leur activité, leurs besoins, etc.) saisis comme des communautés diffuses. A cet égard, une initiative comme la Convention Citoyenne sur le climat était particulièrement intéressante, ouvrant à une version moins contentieuse que le procès.

Il pourrait en aller de même dans le cadre du numérique : l’utilisation de l’ensemble de nos données personnelles, des résultats de recherche obtenus en science ouverte, etc. pourraient, comme des communs, être soumise à des instances de délibération de communautés. On prendrait conscience de l’importance des données et on délibérerait sur le partage. Sans cela, on assistera toujours à une absorption de ces communs par les modèles d’affaires dominants, sans aucune discussion.

Serge Abiteboul, Inria & ENS Paris, François Bancilhon, serial entrepreneur

(*) Elinor Ostrom (1933-2012) est une politologue et économiste américaine. En 2009, elle est la première femme à recevoir le prix dit Nobel d’économie, avec Oliver Williamson, « pour son analyse de la gouvernance économique, et en particulier, des biens communs ». (Wikipédia)

(**) « La tragédie des biens communs » est un article décrivant un phénomène collectif de surexploitation d’une ressource commune que l’on retrouve en économie, en écologie, en sociologie, etc. La tragédie des biens communs se produirait dans une situation de compétition pour l’accès à une ressource limitée (créant un conflit entre l’intérêt individuel et le bien commun) face à laquelle la stratégie économique rationnelle aboutit à un résultat perdant-perdant.

https://binaire.socinfo.fr/page-les-communs-numeriques/

28 septembre 2021
Ouvrez, ouvrez les revues scientifiques

Le site web d’Opscidia explique que la société « s’appuie sur la littérature scientifique en accès ouvert ainsi que sur les dernières avancées du traitement automatique du langage naturel dans le but de vous apporter le meilleur de l’information technologique ». Pour comprendre ce que ça voulait dire, nous avons rencontré ses dirigeants-fondateurs, Sylvain Massip et Charles Letaillieur. Le CEO Sylvain a une thèse en physique de l’université de Cambridge et a été chercheur et directeur de l’innovation dans une start-up, Natural Grass. Le CTO Charles est ingénieur Télécom Paris et a eu de nombreuses expériences dans le numérique, Cap Gemini, Streamezzo, La Netscouade, Adminext. Ils ont tous les deux une solide expérience dans l’open access et open data, ainsi qu’en apprentissage automatique.

Photo de Ben Taylor provenant de Pexels

Binaire : Quelle a été l’idée de départ pour Opscidia ?

SMCL : Nous étions tous les deux passionnés par la science ouverte. Notre vision est que le développement de la publication scientifique en accès ouvert et le développement d’applications, qui permettent de faciliter la diffusion de la connaissance scientifique dans la société au-delà des cercles académiques sont des mouvements qui vont de pair et se nourrissent mutuellement.

Au début, nous voulions tout révolutionner en même temps, et cela reste notre objectif à long terme ! Plus modestement, aujourd’hui, l’essentiel de nos travaux portent sur la diffusion des articles ouverts au-delà des chercheurs académiques. Nous proposons des applications qui s’appuient sur des technologies d’intelligence artificielle pour analyser automatiquement les publications scientifiques en accès ouvert, ce qui permet de réutiliser les résultats de la recherche pour les entreprises qui font de la R&D, et pour les décideurs publics. Nous avons construit une plateforme que nous commercialisons par abonnement.

Et puis, au-delà de ces deux premières cibles, nous voulons aller jusqu’à l’information du grand public. Si les articles scientifiques sont écrits par des chercheurs pour des chercheurs, ils peuvent aussi être de superbes outils pédagogiques pour le grand public.

Notre plateforme permet de naviguer dans la littérature scientifique. Nos utilisateurs peuvent la personnaliser pour leurs besoins propres. Nous avons par exemple travaillé avec la commission européenne et avec l’entrepôt de données ouvert OpenAIRE, un dépôt d’articles scientifiques en open access.

Nous réalisons aussi des projets qui ne sont pas directement liés à la plateforme, en nous appuyant sur nos domaines d’expertise, comme l’analyse automatique de publications scientifiques avec de l’intelligence artificielle.

Opscidia est maintenant une équipe de huit personnes avec des experts en traitement du langage naturel, des développeurs de logiciels et des business développeurs. Nous avons à ce jour une dizaine de clients, parmi eux, la Commission Européenne, pour qui nous analysons les signaux faibles issus des projets de recherche, l’INRAE ou encore la Fondation Vietsch avec qui nous avons développé un fact-checker scientifique.

binaire : Science ouverte (open science), accès ouvert (open access), vous pouvez expliquer aux lecteurs de binaire de quoi on parle.

SMCL : Pour nous, l’idée de l’open science est que la science ne doit pas être réservée aux seuls chercheurs académiques, mais qu’elle doit être partagée par tous. Elle doit donc sortir des murs des universités et des laboratoires de recherche et devenir accessible aux industriels, aux décideurs politiques et aux citoyens. Dans notre société moderne, de nombreux problèmes ne peuvent pas être compris si on ne comprend pas la science en action.

Pour que la science soit ouverte, il faut que les publications scientifiques soient accessibles à tous, c’est l’open access, et il faut que les données scientifiques soient ouvertes à tous, c’est l’open data. L’open science, c’est le cadre général ; l’open access et l’open data sont des éléments de l’open science.

binaire : Parlons un peu de la manière dont fonctionnent les revues scientifiques.

SMCL : Le « vieux » système des publications scientifiques date d’après la deuxième guerre mondiale. C’est à cette époque que se sont formés les éditeurs scientifiques, et qu’après un processus de fusion/acquisition ils sont devenus les quelques gros éditeurs qui dominent le domaine aujourd’hui.

Les éditeurs mettaient alors en forme les articles, les imprimaient sur du papier, puis diffusaient les revues scientifiques imprimées dans les universités. Tout cela coûtait cher. Les universités et les laboratoires devaient donc payer pour recevoir les revues.

Avec l’avènement d’internet et du web, une grande partie de ce travail a disparu et tout le monde a pensé que les coûts allaient diminuer, que les prix baisseraient en conséquence. Pas du tout ! Il y a eu au contraire création d’un grand nombre de nouvelles revues alors que les prix individuels baissaient peu. Le coût pour les universités a augmenté considérablement au lieu de diminuer.

Ça mérite de s’arrêter un instant sur l’écosystème : des chercheurs écrivent des articles, les éditent en grande partie eux-mêmes maintenant, les soumettent à publications, d’autres chercheurs les relisent (le reviewing) et les sélectionnent. En bout de chaîne, les universités paient. Et les éditeurs ? Ils se contentent de faire payer très cher les abonnements pour juste organiser le processus et mettre les articles sur le web.

A part le fait que la collectivité paie cher pour un service somme toute limité, le processus empêche les chercheurs dans des organisations moins bien dotées que les grandes universités occidentales d’avoir accès aux publications, ce qui est un problème pour le développement de la recherche scientifique.

Ce sont les motivations principales du mouvement open access pour rendre les publications scientifiques accessibles à tous. Ce mouvement s’est beaucoup développé depuis les années 90.

binaire : Comment est-ce que cela fonctionne ?

SMCL : Le monde de l’open access est compliqué. On se perd dans les modèles de publication et dans les modèles de financement des publications. Comme les éditeurs de publications scientifiques ont subi de fortes pressions pour rendre leurs publications ouvertes, ils l’ont fait mais avec des modes tels que cela n’a pas vraiment suffi pour que les gens accèdent à la connaissance contenue dans les publications.

Une solution proposée et promue par les éditeurs est la « voie dorée » (gold open access) : le chercheur paye pour publier son papier et qu’il soit accessible à tous. C’est une première réponse, mais une solution qui ne nous paraît pas optimale parce qu’elle reste coûteuse et que ce ne sont pas les chercheurs qui pilotent le processus. Aujourd’hui, les négociations entre les universités et les éditeurs se font en général au niveau des États. Ce sont de très gros contrats pour se mettre d’accord sur le prix, dans une grande complexité et une relative opacité.

Un modèle alternatif est que tout soit organisé directement par les chercheurs et gratuitement pour tous. Évidemment, il n’y a pas de miracle : il faut bien que quelqu’un paie pour absorber les coûts, par exemple des institutions comme la commission européenne.

L’environnement est encore instable et il est difficile de dire comment tout ça va évoluer.

binaire : Quelle est la pénétration de l’open access, et comment la situation évolue-t-elle ?

SMCL : On mesure ça assez précisément. Le ministère de la recherche publie d’ailleurs un baromètre pour la France. On peut aussi consulter les travaux d’Eric Jeangirard sur le sujet. Il y a aussi des équivalents internationaux. En gros, au niveau mondial 30 à 40% des articles sont en open access.

Les chiffres de pénétration sont très dépendants des domaines de recherche. L’informatique est parmi les bons élèves. Et ce pour beaucoup de raisons : les informaticiens ont l’expertise technique, il y a des bases de publications, il y a la mentalité et la culture de l’open source. Les mauvais élèves sont plutôt l’ingénierie et la chimie. Les sciences humaines et sociales, avec une dépendance plus forte des chercheurs dans les éditeurs du fait de l’importance que joue la publication de livres dans ces disciplines, mais aussi avec beaucoup d’initiatives pour promouvoir l’Open Access, sont dans une dynamique assez spécifique.

Certaines des différences sont fondées. Comparons les publications d’articles dans le domaine médical et en informatique. En informatique, les chercheurs publient souvent leurs résultats en « preprints », c’est-à-dire des versions open access avant publication officielle dans une revue. En médecine, une telle publication peut conduire à des risques sanitaires graves. On l’a vu dans le cas du Covid avec des batailles de publication de preprints. Parmi les 2000 articles par semaine qui ont été publiés sur le coronavirus, beaucoup étaient des preprints, tous n’ont pas été relus par des pairs (peer review), beaucoup ont été abandonnés et n’ont pas eu de suite. Du coup, les chercheurs en médecine sont plus réticents à publier avant que l’article n’ait été accepté pour publication, et ce, même si les preprints permettent en fait d’améliorer la qualité des publications en augmentant la transparence.

Pour terminer, on pourra noter que la diffusion de l’open access est clairement en croissance. C’est ce que montrent les chiffres. Cela vient notamment de règles comme le plan S qui, par exemple, oblige les chercheurs à publier en open access s’ils ont bénéficié de financement de l’Union européenne.

binaire : Est-ce que ouvert ou pas, cela a des impacts sur la qualité des publications ?

SMCL : Les journaux en open access gold ont le même niveau de sérieux que les journaux classiques : les articles sont revus par des pairs. Donc la qualité est là et la seule différence avec les journaux classiques est le modèle économique avec transfert du paiement du lecteur vers l’auteur. Avec un bon système de peer review, la qualité est au rendez-vous quel que soit le modèle économique. Le mécanisme du preprint privilégie par contre la transparence, la facilité et la rapidité d’accès au dépend du contrôle de qualité. Mais les preprints ont vocation à être publiés ensuite dans des revues à comité de lecture, et la transparence supplémentaire offerte par le système de preprint permet en général d’augmenter la qualité du processus de relecture !

binaire : De 30 à 40% du marché, c’est déjà une victoire ! Quel est le panorama mondial et quelle est la position de la France sur l’open access ?

SMCL : Oui. Ça progresse bien et l’open access finira par s’imposer. C’est le sens de l’histoire.

L’Europe est assez leader sur ces thématiques, ce qui est récent et n’a pas toujours été le cas. Il faut rappeler que les principaux éditeurs sont européens (britanniques, néerlandais et allemands), donc ils ont forcément voix au chapitre en termes de lobbying. La commission européenne est un lieu d’affrontement entre les parties. L’Amérique du sud est assez en pointe pour l’open access avec des initiatives comme SciELO ou Redalyc.

Aux États Unis, le grand entrepôt de données et d’articles médicaux (Pubmed) a été organisé par l’État avec une vraie volonté d’open data. Il y a en revanche beaucoup moins d’obligations écrites pour les chercheurs qu’en Europe ; ils publient où ils veulent, mais ils doivent publier leurs données dans Pubmed. Il y a de sérieux combats au moment des renouvellements des revues. En Europe, les éditeurs ont un argument de choc. C’est eux qui contrôlent l’historique et personne ne veut perdre l’accès à des dizaines d’années de résultats scientifiques. Aux Etats-Unis, grâce à Pubmed, c’est moins vrai.

La France est plutôt active en faveur de l’open access. La Loi sur la république numérique a levé des interdictions importantes. Le Ministère de la Recherche et de l’Enseignement Supérieur est très moteur, et la nomination de Marin Dacos, un militant de l’open science, comme Conseiller science ouverte au Ministère a fait avancer les choses.

binaire : Qu’est-ce que la science ouverte apporte ?

SMCL : La promotion de modes ouverts fait diminuer la compétition, encourage la collaboration. Le travail collaboratif s’impose. Avec un meilleur accès, plus précoce, aux résultats d’autres chercheurs, on peut plus facilement faire évoluer cette recherche. En travaillant sur des données ouvertes, on peut plus facilement travailler ensemble.

Prenons une problématique importante, celle de l’évaluation des chercheurs, qui conditionne le recrutement et les promotions. Le fait d’aller vers de l’open science et de l’open data, conduit à modifier ce processus d’évaluation. Par exemple, si un chercheur met à disposition un jeu de données que tous exploitent pendant des années, son impact en termes de recherche peut être immense, et ce même s’il n’a que peu publié. Il faut modifier l’évaluation pour qu’elle tienne compte de son apport à la communauté.

Évidemment, cela dépend beaucoup du domaine. On ne va pas offrir un large électron-positron collisionneur à chaque groupe qui a envie de faire de la physique des particules. Donc forcément, dans ce domaine, les données doivent être par nature partagées. En revanche, dans d’autres domaines où les expériences sont plus petites et où potentiellement les applications industrielles sont plus rapides, les choses auront tendance à être plus fermées.

Et puis, on n’a pas forcément à choisir entre tout ouvert ou tout fermé. Dans le travail qu’Opscidia fait pour la commission européenne, la commission veut croiser des données sur le financement des projets avec des données scientifiques publiques. Cela n’oblige évidemment pas la commission à ouvrir ses données sensibles.

binaire : Du côté logiciel libre, de nombreuses associations et quelques organisations, fédèrent la communauté. Est-ce pareil pour l’open access ?

SMCL : Les militants de l’open science sont le plus souvent des fonctionnaires et des chercheurs académiques. Ils s’appuient sur des institutions comme le Comité pour la science ouverte. Ce comité, organisé par le ministère, réalise un travail considérable. Il fédère de nombreux acteurs publics qui ont chacun leur spécificité et leur apport. Malgré le militantisme, on reste dans un cadre assez institutionnel.

binaire : Est-ce qu’il y a un pape de l’open access, un équivalent de Richard Stallman pour le logiciel libre ?

SMCL : De nombreuses personnes ont eu un grand impact sur ce domaine. On peut peut-être citer Aaron Swartz, un peu le martyr de l’open access ou Peter Suber qui a fait beaucoup pour populariser l’approche mais à notre sens, l’Open Access reste avant tout une affaire aux mains des communautés de recherche et des chercheurs individuels sur le terrain.

Serge Abiteboul, Inria et ENS, Paris, François Bancilhon sérial-entrepreneur

https://binaire.socinfo.fr/page-les-communs-numeriques/

6 juillet 2021