Catégorie : Patrimoine Numérique

Le grand moissonnage des données personnelles

Solove et Hartzog viennent de publier un excellent article sur le moissonnage massif des données sur le web (« web scraping » en anglais) pour l’entraînement des systèmes d’Intelligence Artificielle et les tensions que cela génère avec les principes de la protection des données personnelles¹. Cet article nous permet de revisiter la problématique du moissonnage massif des données et de rappeler les travaux et consultations menés par la CNIL sur ce sujet depuis plusieurs mois². Serge Abiteboul, Antoine Rousseau et Ikram Chraibi-Kaadoud

L’IA, en particulier l’IA générative, nécessite de vastes quantités de données pour son entraînement. Certaines de ces données sont collectées directement auprès des individus, tandis que d’autres sont obtenues via une interface de programmation d’application (API) conçue pour une extraction et un partage consensuel des données. Toutefois, la majorité des données sont obtenues par moissonnage. Le moissonnage des données sur Internet consiste à utiliser des logiciels automatisés pour extraire des informations à partir de sites web ou de réseaux sociaux.

1 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
2 https://www.cnil.fr/fr/technologies/intelligence-artificielle-ia

Moissonnage et Intelligence Artificielle

Le moissonnage de données est un outil essentiel pour les chercheurs et les journalistes qui leur permet d’accéder à des informations cruciales pour leurs projets. En collectant rapidement des données issues de multiples sources, il facilite des recherches et des études qui seraient autrement impossibles. Cette collecte massive des données semble également être essentielle pour le développement et l’amélioration des modèles d’IA, car elle fournit les vastes quantités de données nécessaires à l’entraînement des algorithmes. Par ailleurs, en diversifiant les sources de données à travers différentes régions et cultures, le moissonnage peut aussi aider à éviter les biais dans les modèles d’IA.

Il est par ailleurs souvent avancé que ce moissonnage permet aux petites entreprises de rivaliser avec les grandes plateformes en facilitant l’accès à des informations, ce qui stimule la concurrence, l’innovation et la diversité technologique. Comme le souligne l’autorité de la concurrence dans son rapport sur l’IA générative³, les données, qu’elles soient textuelles, visuelles ou vidéo, sont essentielles pour les modèles de langage et proviennent principalement de sources publiques comme les pages web ou les archives web telles que Common Crawl⁴.

3 https://www.autoritedelaconcurrence.fr/fr/communiques-de-presse/intelligence-artificielle-generative-lautorite-rend-son-avis-sur-le
4 https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

Moissonnage et vie privée

Bien que le moissonnage offre des avantages importants, il pose de nombreuses questions : protection du secret des affaires, secret industriel, propriété intellectuelle, rétribution des ayants droits et vie privée.

En ce qui concerne la protection de la vie privée, qui nous intéresse ici, le vaste moissonnage des données personnelles soulève des questions inédites. Comme le rappelle la CNIL, “La généralisation des pratiques de moissonnage a ainsi opéré un changement de nature quant à l’utilisation d’internet, dans la mesure où toutes les données publiées en ligne par une personne sont désormais susceptibles d’être lues, collectées et réutilisées par des tiers, ce qui constitue un risque important et inédit pour les personnes⁵.”

En effet, l’ampleur de ce moissonnage est sans précédent – la quantité de données, notamment de données personnelles, collectées par chaque moissonneur est stupéfiante.
Par exemple, OpenAI a certainement moissonné une partie non négligeable du Web et utilisé ces données pour entraîner les modèles GPT qui sous-tendent notamment ChatGPT. Des entreprises comme ClearviewAI et PimEyes ont moissonné des milliards de photos pour alimenter des outils de reconnaissance faciale. De nouvelles entreprises d’IA apparaissent à un rythme effarant, chacune ayant un appétit vorace pour les données.

Il est important de rappeler que, dans la plupart des juridictions et notamment en Europe, les données personnelles « publiquement disponibles » sur internet sont soumises aux lois sur la protection des données et la vie privée, notamment le RGPD (règlement général sur la protection des données). Les individus et les entreprises qui moissonnent ces informations personnelles ont donc la responsabilité de s’assurer qu’ils respectent les réglementations applicables. Par ailleurs, les entreprises de médias sociaux et les opérateurs d’autres sites web qui hébergent des données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage par des tiers sur leurs sites.

5 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage

La consultation de la CNIL

La CNIL a régulièrement souligné la nécessité de vigilance concernant les pratiques de moissonnage et a formulé des recommandations pour leur mise en œuvre⁶. Elle a également demandé à plusieurs reprises un cadre législatif spécifique pour ces pratiques qui permettrait de sécuriser les organismes utilisant ces pratiques, de les encadrer, et de protéger les données personnelles accessibles en ligne⁷. La CNIL a parfois jugé ces pratiques illégales en l’absence d’un cadre juridique, par exemple lorsque utilisées par des autorités pour détecter des infractions ou lorsque des données sensibles sont collectées⁸. Cependant, elles ont été acceptées dans certains cas, comme la recherche de fuites d’informations sur Internet, à condition de mettre en place des garanties solides⁹. En attendant un cadre juridique spécifique, la CNIL rappelle les obligations des responsables de traitement et les conditions à respecter pour le développement de systèmes d’IA.

6 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage
7 https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000047624863
8 https://www.cnil.fr/fr/reconnaissance-faciale-sanction-de-20-millions-deuros-lencontre-de-clearview-ai
9 https://www.cnil.fr/fr/la-recherche-sur-internet-de-fuites-dinformations-rifi

Alors que certains chercheurs, comme Solove et Hartzog, proposent de limiter le moissonnage uniquement aux projets d’intérêt public, le RGPD autorise, sous certaines
conditions, le moissonnage en cas d’intérêt légitime du moissonneur¹⁰. Le recours à cette base légale suppose que les intérêts (commerciaux, de sécurité des biens, etc.)
poursuivis par l’organisme traitant les données ne créent pas de déséquilibre au détriment des droits et intérêts des personnes dont les données sont traitées¹¹. Le responsable du traitement doit notamment mettre en place des garanties supplémentaires pour protéger les droits et libertés des individus. La CNIL, dans sa fiche sur l’utilisation de l’intérêt légitime pour développer des systèmes d’IA, souligne que les mesures appropriées varient selon l’usage de l’IA et son impact sur les personnes concernées¹². Elle recommande d’exclure la collecte de données à partir de sites sensibles ou s’opposant au moissonnage, et de créer une « liste repoussoir » permettant aux individus de s’opposer à la collecte de leurs données. La collecte doit se limiter aux données librement accessibles et rendues publiques intentionnellement.
De plus, il est conseillé d’anonymiser ou de pseudonymiser les données immédiatement après leur collecte, de diffuser largement les informations relatives à la collecte et aux droits des personnes, et de prévenir le recoupement des données en utilisant des pseudonymes aléatoires propres à chaque contenu.

10 D’autres bases légales, comme le consentement ou la mission d’intérêt public, sont aussi envisageables.
11 https://www.cnil.fr/fr/les-bases-legales/interet-legitime
12 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage

Rendre le moissonnage techniquement plus difficile

Comme mentionné précédemment, les hébergeurs de données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage. Par exemple, plusieurs autorités de protection des données (APD) du monde entier ont soutenu, dans une déclaration conjointe sur le moissonnage, que les entreprises devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques associés à cette pratique¹³. Ces APD indiquent que les sites web devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques. Une combinaison de ces contrôles devrait être utilisée en fonction de la sensibilité des informations. Certaines de ces mesures de protection seraient la limitation du nombre de visites par heure ou par jour pour un seul compte, la surveillance des activités inhabituelles pouvant indiquer un moissonnage frauduleux et la limitation de l’accès en cas de détection, la prise de mesures affirmatives pour détecter et limiter les bots, comme l’implémentation de CAPTCHAs et le blocage des adresses IP, ainsi que la menace ou la prise de mesures légales appropriées et la notification des individus concernés. Des recommandations similaires ont récemment été faites par la CNIL Italienne¹⁴. Bien entendu, les grandes plateformes telles que Facebook, X (anciennement Twitter), Reddit, LinkedIn, n’ont pas attendu ces recommandations pour mettre en place des mesures pour limiter le moissonnage. Par exemple, récemment X a constaté des « niveaux extrêmes de moissonnage de données » et a pris des mesures pour le limiter aux moissonneurs connectés¹⁵.

13 https://ico.org.uk/media/about-the-ico/documents/4026232/joint-statement-data-scraping-202308.pdf
14 https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10019984#english
15 https://www.socialmediatoday.com/news/twitter-implements-usage-limits-combat-data-scrapers/

Pour Conclure…

Le moissonnage de données est un sujet complexe qui suscite de nombreuses questions et débats. Dans ce contexte, la consultation de la CNIL est cruciale, et il est essentiel que chacun puisse s’exprimer sur ce sujet sensible. Comme le souligne cet article, il est difficile de tout interdire ou de tout autoriser sans discernement.

La clé réside dans un compromis basé sur la transparence et le respect des droits des individus. Il est indispensable que les utilisateurs soient clairement informés des campagnes de moissonnage, de leurs objectifs et de leur droit de s’y opposer. A cette fin, la CNIL propose, dans sa dernière consultation, l’idée de créer un registre sur son site où les organisations utilisant des données collectées par moissonnage pour le développement de systèmes d’IA pourraient s’inscrire. Par ailleurs, chacun a un rôle à jouer en contrôlant les informations qu’il publie en ligne, ce qui souligne le besoin d’une éducation et d’une sensibilisation accrues sur la gestion des données personnelles.

Pour reprendre les mots de Solove et Hartzog, le moissonnage de données devrait être perçu comme un « privilège » qui impose des responsabilités aux moissonneurs. Cela signifie qu’une attention particulière doit être portée au principe de la minimisation des données si cher au RGPD¹⁶, à la sécurité des données collectées et au respect des droits des utilisateurs. Une telle approche permettra de trouver un équilibre juste et équitable, garantissant à la fois la protection de la vie privée et le développement responsable de l’Intelligence Artificielle. Finalement, le développement de « l’IA frugale¹⁷ » qui consiste à développer des plus petits modèles, utilisant notamment moins de données d’entrainement mais de meilleure qualité, apporte des perspectives intéressantes en termes de protection de nos données.

Claude Castelluccia, Directeur de recherche chez Inria, au sein de l’équipe Privatics de Grenoble, et commissaire à la CNIL en charge de l’Intelligence Artificielle.

16 https://www.cnil.fr/fr/reglement-europeen-protection-donnees/chapitre2#Article5
17 https://www.univ-grenoble-alpes.fr/actualites/the-conversation/sciences/the-conversation-l-ia-peut-elle-vraiment-etre-frugale–1428627.kjsp

La Fenaison, Julien Dupré, ©domaine public, dont de Justina G. Catlin en mémoire de son mari, Daniel Catlinau St. Louis Art Museum, partagé par sur https://www.slam.org/collection/objects/10758 Contrairement au moissonnage des céréales qui est un bien rival, nos données personnelles peuvent être moissonnées indéfiniment. Il est donc légitime de garder un contrôle sur leur usage, y compris quand ces données sont disponibles en ligne.

20 septembre 2024
Patrimoine industriel informatique
Ces temps difficiles donnent à certains d’entre nous le temps de lire et de réfléchir. Quelle occasion de regarder dans le rétroviseur le passé de l’informatique et du numérique, de s’interroger sur un patrimoine qu’ont construit des pionniers et qui reste encore largement à explorer ! C’est ce que propose le numéro 73 de la Revue Patrimoine Industriel du Cilac. Exceptionnellement, compte tenu du confinement de tous, le Cilac a décidé de mettre ce numéro, réalisé avec la SIF et Software Heritage, en accès ouvert dès sa parution. C’est un magnifique numéro collector inédit que je vous encourage aussi à acheter en format papier : pour 25 €. À déguster sans modération ! Serge Abiteboul
Déclaration de conflit d’intérêt : je suis membre du Cilac et de la SIF.

Avec ce numéro thématique de la revue que nous avons réalisé avec le soutien de Software Heritage et en collaboration avec la Société informatique de France (SIF), le CILAC s’aventure en des territoires patrimoniaux nouveaux, relativement peu explorés et cartographiés.

Depuis la Seconde Guerre mondiale, l’informatique – la science et les technologies du traitement automatique de l’information par des algorithmes – s’est développée de manière exponentielle, bouleversant tous les domaines scientifiques, financiers, industriels et commerciaux et s’embarquant dans les appareils globalisés de notre vie domestique.

Voici rassemblés les premiers jalons d’un nécessaire regard patrimonial sur l’informatique : c’est aussi l’ouverture d’un chantier avec des suggestions de pistes à explorer. En partageant plus largement ce dossier des patrimoines de l’informatique, nous espérons qu’il fera date.

Florence Hachez-Leroy, Présidente du CILAC

Sites Web
Sommaire du numéro 73
- Paul SMITH, Éditorial, p. 5
- Roberto DI COSMO Pierre PARADINAS, Avant-propos, p. 6
- Paule NIVAT, Maurice, l’art et le patrimoine, p. 7
- Serge ABITEBOUL, Florence HACHEZ-LEROY, Quel patrimoine pour l’informatique ? p. 8
- Jean-François ABRAMATIC, Le web a été produit par une « usine » d’un type nouveau, p. 20
- Florence HACHEZ-LEROY, Pierre PARADINAS, Musées et collections informatiques, p. 26
- Len SHUSTEK, Que devons-nous collecter pour préserver l’histoire du logiciel ? p. 36
- Roberto DI COSMO, Le code source des logiciels, p. 40
LES COLLECTIONS
- Christiane de FLEURIEU, L’informatique de Bnp Paribas, p. 46
- Mathieu BARROIS, Le patrimoine historique du groupe Bull, p. 52
- Michel MOUYSSINAT, IBM Europe : une collection aux racines françaises, p. 58
- Isabelle ASTIC, Les collections informatiques du musée des Arts et métiers, p. 64
- Antoine MATRION, La collaboration entre l’université de Lille et l’entreprise GEMPLUS, p. 70
- Philippe DUPARCHY, En France, à Grenoble, il existe un patrimoine informatique complet, p. 72
- Pour protéger, il faut reconnaître, et pour reconnaître, il faut dénommer, Entretien avec Jean DAVOIGNEAU, p. 74
POINTS DE VUE
- Gilles DOWEK, Conserver les démonstrations, conserver les programmes, p. 78
- Valérie SCHAFER, À la recherche du web perdu, p. 80
- Serge ABITEBOUL Claire MATHIEU, Images de la transformation numérique, p. 82
- Protections monuments historiques 2018, p. 84
- La vitrine du libraire, p. 88
- Résumés, p. 90
3 avril 2020
Du Shape aux inventeurs du numérique
Lors des journées du patrimoine, faites une chose rare : venez découvrir les inventeurs du numérique. Une visite guidée de l’exposition « du Shape aux inventeurs du numérique » est proposée samedi 15 septembre 2018 sur le site d’Inria à Rocquencourt, près de Versailles. C’est une occasion unique de rentrer au cœur de l’histoire de la recherche française en informatique. Marie-Agnès Enard et Thierry Viéville.

© Inria / Photo G .Scagnelli

L’exposition retrace l’aventure humaine du site Inria de Rocquencourt et des activités de recherche qui y ont été menées de 1952 à nos jours. Animée par des scientifiques d’Inria, institut de recherche en science du numérique, cette exposition est à destination de tous les publics.
La première partie de l’exposition permet de s’immerger dans la période d’après-guerre avec l’installation sur le site des troupes alliées en Europe et de comprendre le contexte du Plan Calcul et de la naissance de l’IRIA (ancien acronyme d’Inria) après le départ de l’OTAN en 1967.

L’exposition s’articule autour de la reconstitution de bureaux-type des différentes époques «charnières» du déploiement de la micro-informatique et des réseaux. Des équipements «phares», emblématiques de chaque époque sont présentés et remis en service. Des vidéos et des panneaux d’affichage racontent les principales évolutions techniques, les faits majeurs de l’histoire de l’informatique tels que :

– Les origines de l’informatique, les fondateurs et fondatrices, la machine de Turing, l’histoire des algorithmes, la mécanographie et les cartes perforées, les langages de l’informatique

– L’histoire des réseaux, Arpanet, la naissance d’internet et le World Wide Web,

– La machine à écrire

– L’histoire des supports numériques,

– L’histoire de la souris informatique et celle du clavier,

– Le logiciel libre et les systèmes d’exploitation,

– L’histoire d’Apple

– Le Minitel
L’exposition illustre également comment les environnements de travail étaient rudimentaires avant l’apparition des ordinateurs et comment ils se sont complexifiés ensuite. C’est une occasion pour le jeune public de comprendre “comment on faisait avant”.

© Inria / Photo G .Scagnelli

Les époques

1952 à 1966 : installation, création et départ des troupes alliées – Le calcul avant l’électronique

1967 à 1979 : création de l’Iria ; la mécanographie et l’arrivée de l’ordinateur en 1971

1980-1990 : apparition du Minitel, la micro-informatique apparaît dans les bureaux, déploiement des Mac et de la souris informatique

1990 – 2000 : le travail en réseau apparaît grâce à l’Internet – les télécommunications se démocratisent avec l’apparition du BeBop

2000 à nos jours : la convergence (mobilité, télécommunications, IA…)

Infos pratiques

Horaires : samedi 15 septembre de 10h à 17h30.
Adresse : Inria, domaine de Voluceau (RD307) – 78150 Rocquencourt.
Accès gratuit sur présentation d’une pièce d’identité.
Stationnement gratuit.
Accessible aux personnes à mobilité réduite.
Contact : expo@inria.fr

Rémy Taillefer

Pour en savoir plus :

https://journeesdupatrimoine.culture.gouv.fr/
https://www.inria.fr/

* Supreme Headquarters Allied Powers Europe (Grand Quartier général des puissances alliées en Europe de l’OTAN)
12 septembre 2018
Numérique : ne perdons pas la mémoire

Valérie Schafer

Binaire est très sensible au patrimoine numérique et son devenir. Dans un long article paru chez nos amis d’)i(nterstices, « Le patrimoine numérique, entre enjeux matériels et immatériels » Valérie Schafer fait le point sur la question du patrimoine et référence de très nombreuses initiatives pour le Web et les réseaux sociaux, qui montrent parfois le retard que nous avons pris sur certains aspects en France. Pierre Paradinas (Cnam).

Le patrimoine numérique, entre enjeux matériels et immatériels

Nous passons tous les jours du temps sur Internet, mais nous avons déjà oublié les sites que nous visitions assidûment il y a dix ans. À quoi ressemblaient-ils ? Pour s’en souvenir, nous pouvons nous plonger dans les archives du Web. La question de l’archivage du patrimoine numérique a d’ailleurs pris de l’ampleur ces dernières années…

Photo Jason Scott [CC BY 2.0], via Wikimedia Commons.
« Internet Archive redonne vie au Macintosh de 1984 », « Internet Archive : testez le Macintosh de 1984 dans votre navigateur », pouvait-on lire en ligne à la mi-avril 2017, sur des sites spécialisés dans les contenus informatiques et numériques. La fondation Internet Archive annonçait en effet la sortie d’un émulateur permettant de retrouver l’environnement des premiers ordinateurs personnels et avec lui des logiciels comme MacWrite, MacPaint ou des jeux tels que Dark Castle et Space Invaders.

Cette annonce médiatisée, le succès d’expositions consacrées aux jeux vidéo ces dernières années ou celle consacrée aux gifs par le Museum of the Moving Image de New York en 2014, le dynamisme d’institutions comme le Computer History Museum aux États-Unis, ou encore l’organisation en juin 2017 à Londres d’une semaine consacrée aux archives du Web (Web Archiving Week), sont autant de signes d’un intérêt pour le patrimoine numérique sous toutes ses formes. C’est ce patrimoine varié et hétérogène, conjuguant aspects matériels et immatériels et réunissant de nombreuses parties prenantes que nous vous invitons à découvrir, mais aussi les enjeux sous-jacents de cette patrimonialisation. En effet, la volonté de conserver les documents et traces numériques, d’archiver le Web, de transmettre aux générations futures un patrimoine informatique, si elle s’inscrit dans la continuité d’initiatives de patrimonialisation à la fois technique, scientifique et industrielle, devient aussi une patrimonialisation de la communication et par son ampleur acquiert un statut particulier, reconnu en 2003 par l’Unesco : celui de patrimoine numérique.

Les différentes facettes du patrimoine numérique

En octobre 2003, le patrimoine numérique est reconnu — et ainsi son existence et sa valeur pleinement légitimées — par une Charte de l’Unesco qui met sous un même chapeau, tout en les distinguant, patrimoine numérisé et patrimoine nativement numérique (ce que les Anglo-Saxons appellent Born-Digital Heritage) :

« Le patrimoine numérique se compose de ressources uniques dans les domaines de la connaissance et de l’expression humaine, qu’elles soient d’ordre culturel, éducatif, scientifique et administratif ou qu’elles contiennent des informations techniques, juridiques, médicales ou d’autres sortes, créées numériquement ou converties sous forme numérique à partir de ressources analogiques existantes. Lorsque des ressources sont « d’origine numérique », c’est qu’elles existent uniquement sous leur forme numérique initiale », note ainsi la Charte. Celle-ci énumère quelques-uns de ces documents nativement numériques qui peuvent être des textes, des bases de données, des images fixes et animées, des documents sonores et graphiques, des logiciels et des pages Web.

Si ce patrimoine partage bien des points communs avec le patrimoine culturel immatériel défini par l’Unesco la même année, une troisième forme de patrimoine, que nous qualifierons de patrimoine du numérique pour le distinguer des précédents, apparaît aussi en filigrane. Ainsi, la Déclaration de Vancouver sur le numérique de 2012 — La Mémoire du monde à l’ère du numérique : numérisation et conservation — souligne à quel point les enjeux matériels sont prégnants pour la sauvegarde d’un patrimoine numérique risquant d’être perdu en cas d’obsolescence rapide du matériel et des logiciels qui servent à le créer.

La conservation du matériel a certainement été l’enjeu le mieux identifié et le plus rapidement dans le cadre de la poursuite des projets de conservation d’un patrimoine technique, industriel et scientifique. Elle n’a pas attendu le numérique pour être prise en charge par de multiples acteurs de la patrimonialisation.

Depuis la fermeture en 2010 du musée de l’informatique installé à la Défense, il n’existe plus de lieu fédérateur unique pour les collections françaises, alors dispersées entre différentes associations et musées dont celui des Arts et Métiers. Mais un mouvement est actuellement entrepris pour la réalisation d’un projet global s’appuyant sur des matériels, logiciels, documentations techniques et histoires orales, déjà préservés par plusieurs partenaires et acteurs de la gestion du patrimoine du numérique sur l’ensemble du territoire français (l’ACONIT, AMISA, le Cnam et son musée, la FEB, Homo Calculus, ou encore l’Espace Turing).

Outre la préservation indispensable des matériels, le patrimoine numérique doit absolument être associé à une réflexion sur les éléments de documentation divers (guides et modes d’emploi, Cd-Roms, kits de connexion, etc.), qui permettent de le recontextualiser, mais aussi de retrouver un patrimoine interactif. En effet, l’émulation, la préservation de consoles, d’ordinateurs, d’interfaces de programmation applicative (API), contribuent à les maintenir vivants au sein de leur écosystème. Brewster Kahle l’avait relevé dès 1997 dans Archiving the Internet, notant que « alors qu’il est possible de lire un livre ancien de 400 ans imprimé par Gutenberg, il est souvent difficile de lire une disquette informatique qui a 15 ans ». Celui qui dès 1996 bouleverse le patrimoine numérique en se lançant par la création d’Internet Archive dans l’entreprise titanesque d’archiver le Web mondial soulignait déjà des enjeux que relèvent aujourd’hui en partie sa fondation et une pluralité d’autres acteurs, institutionnels et scientifiques, parmi lesquels le récent projet Software Heritage soutenu par Inria.

Le patrimoine nativement numérique : d’Internet Archive à Software Heritage

La Charte de l’Unesco en 2003, en insistant sur le patrimoine dit « d’origine numérique » (mentionné dans les articles 1 et 7) au même titre que le patrimoine numérisé, reconnaît la valeur de documents qui n’existent qu’en format numérique, mais aussi les efforts de préservation et de patrimonialisation engagés en amont de cette Charte.

Parmi les pionniers dans ce domaine, la fondation Internet Archive est lancée en 1996 par Brewster Kahle en s’appuyant sur son entreprise Alexa (créée en 1996 et vendue à Amazon en 1999), spécialisée dans l’analyse de flux et la recommandation de sites. Dès 2001, la Wayback Machine permet aux internautes de parcourir la Toile du passé (aujourd’hui 286 milliards de pages archivées).

Figurines en céramique de Ted Nelson, Mary Austin et Brewster Kahle présentes dans la grande salle d’Internet Archive à San Francisco. Photo Jason Scott [CC BY-SA 2.0], via Wikimedia Commons.
En parallèle, d’autres initiatives se manifestent, par exemple au sein des bibliothèques nationales canadiennes et australiennes. Des projets précoces dans les pays scandinaves visent aussi dans la seconde moitié de la décennie 1990 à étendre le périmètre du dépôt légal au Web, tandis qu’est lancé le projet AOLA (Austrian On-Line Archive) au début des années 2000 pour développer un archivage du Web autrichien.

Toutes ces démarches font écho aux évolutions qu’ a connues le patrimoine au cours des dernières décennies, à une patrimonialisation de plus en plus sensible à de nouveaux objets, mais aussi à l’ascension du numérique, qui prend place dans des aspects de plus en plus étendus et variés de nos vies professionnelles, économiques, sociales et personnelles.

Le mouvement est suivi dans la décennie 2000 par de nombreux pays européens, la France inscrivant l’archivage du Web dans le dépôt légal en 2006. Déjà dotée d’une expérience de conservation des vidéogrammes et documents multimédia composites depuis 1975 puis des multimédias, logiciels et bases de données depuis 1992, la Bibliothèque nationale de France (BnF) prend alors en charge cette mission avec l’Institut national de l’audiovisuel (Ina) qui se voit confier les sites Web relevant du périmètre audiovisuel. Au-delà de ces initiatives nationales, des initiatives transnationales peuvent être évoquées, par exemple le lancement en 2008 du projet LiWA (Living Web Archives).

En 2009, le projet Memento du Los Alamos National Laboratory Research Library a par ailleurs permis de réaliser un outil libre, offrant aux internautes un accès aux versions précédentes d’une page web grâce à un plug-in à ajouter au navigateur. Dans le même esprit, le projet « 404-no-more » porté par Firefox et Internet Archive vise à éliminer les « erreurs 404 » en redirigeant automatiquement vers une version archivée de la page demandée.

Outre les archives du Web, les archives des Newsgroups, espaces de discussion de la communauté Usenet (réseau né à l’extrême fin des années 1970), méritent aussi notre attention : gérées depuis 2001 au sein du service de forum Google Groups, elles « ont accompagné les efforts de légitimation de l’entreprise auprès des publics d’utilisateurs, à une époque où Google était en phase de développement et de diversification de ses activités », rappelle Camille Paloque-Berges dans son article. « Google, alors en train de gagner la guerre de moteurs de recherche, s’est érigé par ce geste en protecteur du passé du réseau, ainsi qu’en candidat à sa propre reconnaissance au sein de cette histoire. »

Les communications et usages numériques les plus récents n’échappent pas non plus à cette patrimonialisation, à l’instar de l’archivage de Twitter, pris en charge par la Bibliothèque du Congrès américaine en vertu d’un accord avec Twitter depuis 2009 ou encore, avec un périmètre beaucoup plus restreint, le suivi par l’Ina et la BnF de quelques centaines de comptes Twitter et mots-dièses précis.

Enfin, parmi les derniers venus, avec des ambitions complémentaires des autres et spécifique à un champ jusque-là peu préservé, le projet Software Heritage lancé en 2016 complète ce paysage en plein essor. Comme le note Roberto di Cosmo, un des principaux instigateurs et porteurs de cette initiative : « […] Archiver du code source pose des problèmes spécifiques qu’on ne rencontre pas dans d’autres domaines. […] La préservation du code source avec ses spécificités n’était vraiment au cœur de la mission de personne : on préservait des logiciels exécutables, jouables, des jeux vidéo, c’était notamment fait par Internet Archive qui a une grosse sélection de jeux vidéo. On préservait des pages web qui parlaient de logiciels et de codes sources. Mais les codes sources, comme objet noble, non. »

L’articulation entre patrimoines et publics

Public scientifique, experts, amateurs et grand public, monde des médias, industriels, étudiants et enseignants, les publics potentiels du patrimoine numérique sont nombreux et les usages de celui-ci encore largement à explorer, favoriser, stimuler, inventer. Ainsi Roberto Di Cosmo espère que le projet Software Heritage intéressera les acteurs du patrimoine scientifique et technique ainsi que ses publics, mais aussi le monde de la recherche scientifique, qui pourra y trouver une archive de référence, ou encore le monde industriel.

Cependant, pour réunir et accueillir pleinement les publics, plusieurs défis sont encore à relever, car la vocation d’ouverture et de participation n’a pas toujours été pensée au préalable : bien sûr, il y a des questions d’accessibilité des données, notamment dans le cadre du dépôt légal, qui limite la consultation des archives du Web in situ en France à la BnF et quelques bibliothèques en région. Mais les enjeux concernent aussi l’interopérabilité, qui se pose par exemple à l’échelle européenne, car les fonds d’archives du Web sont imperméables entre les différents pays. L’accessibilité doit aussi être cognitive et pose le problème de l’accompagnement dans la découverte de ces sources, de la maîtrise des outils de traitement, de la littératie numérique, du substrat de culture informatique et numérique nécessaire (sujet d’actualité autour de l’apprentissage du code dans le secondaire). Enfin, des enjeux éthiques ne peuvent manquer de se manifester. Reste également à penser davantage la place de ces publics en amont même des réalisations. Comme le notaient en 2011 Hafizur Rahaman et Beng-Kiang Tan dans leur article :

« Les projets actuels de patrimonialisation numérique se concentrent surtout sur le « processus » ou sur le « produit », mais ne considèrent que rarement les « utilisateurs » […]. Pour une meilleure interprétation et expérience d’un site relevant du patrimoine numérique, il nous faut une méthode d’interprétation inclusive, qui devrait tenir compte de la variété de compétences des utilisateurs, dépasser la linéarité de la narration et la subjectivité dans la création des contenus. » (traduction : Francesca Musiani)

Si en quelques années la situation a déjà beaucoup évolué, notamment sous l’effet d’échanges de plus en plus féconds et nombreux entre le monde des archives, des bibliothèques et des chercheurs, elle peut aller encore plus loin pour pleinement inscrire dans cette dynamique les producteurs et publics, notamment les « publics ordinaires ». Ceux-ci restent souvent simples spectateurs de choix qui ne sont au demeurant pas le seul fait des institutions patrimoniales, mais aussi de plus en plus souvent des grandes entreprises de communication.

Des objets de recherche, des objets au service de la recherche

Alors qu’à ses débuts, le patrimoine nativement numérique concernait essentiellement le monde des bibliothèques et des archives, les chercheurs commencent à s’y intéresser sérieusement depuis quelques années, l’envisageant à la fois comme objet de recherche propre et objets-sources au service de leurs recherches.

La réflexion a d’abord porté sur le patrimoine numérisé, que ce soit dans le champ de l’histoire ou des sciences de l’information et de la communication, mais des initiatives comme les ateliers du Dépôt Légal du Web à l’Ina, sont un jalon important en France dans l’implication des communautés de recherche autour des archives du Web.

Comme le relevait Louise Merzeau, coorganisatrice des ateliers, dans son article : « Bien sûr, ce déploiement d’une vue stratifiée du réseau ne nous est pas familier, et il nous faudra apprendre à la manipuler. Comme outil de représentation, de navigation et de compilation, c’est l’archive elle-même qui produira ces nouveaux usages. De la même manière que l’archivage des sources audiovisuelles a rendu possibles quantité de recherches sur la radio et la télévision qu’on ne pouvait auparavant formaliser, le dépôt légal du Web est une condition de sa conversion en fait de culture. »

Les historiens du monde contemporain se convertissent aujourd’hui pour certains avec enthousiasme à ces nouvelles sources. Au sein de ces approches, l’importance des réflexions épistémologiques et méthodologiques est notable : sans rompre avec les méthodes historiennes antérieures, les chercheurs sont conscients de l’importance de bien comprendre ces sources avant de les exploiter. Nous avons notamment pu souligner avec Francesca Musiani et Marguerite Borelli dans notre article « Negotiating the Web of the Past » l’importance d’ouvrir les boîtes noires des archives du Web pour en saisir les biais et les multiples médiations subies au cours de l’archivage. Nous n’en rappellerons ici que quelques rapides éléments afin d’insister sur le fait que, comme l’avait noté l’historien danois Niels Brügger en 2012 dans la revue Le Temps des Médias, l’archive du Web est rarement une copie parfaite du site Web dans son aspect originel sur le Web vivant. Enchâssée dans des interfaces de consultation contemporaines, transformée sous l’effet de la perte de documents (des publicités, des images dans les années 1990, etc.), une page subit de nombreux changements. Ceux-ci sont encore amplifiés à l’échelle d’un site, par la remise en hypertextualité, quand certains hyperliens introduisent des sauts temporels entre plusieurs pages archivées à des dates différentes, mènent parfois à des impasses (les pages ne sont pas toutes archivées, et un site est rarement archivé à plus de deux ou trois clics de profondeur), etc. Comprendre les techniques, périmètres, choix de conservation opérés par les institutions est un préalable à une création raisonnée de corpus, quand bien même le chercheur semble avoir à disposition suffisamment, voire trop, de données à étudier.

L’archivage de Twitter au moment des attentats parisiens de 2015, opéré par la BnF et l’Ina, en témoigne. Ainsi, si l’Ina a pu collecter au moment de ces attentats environ 11 millions de tweets, reste que cette collection pléthorique comporte nécessairement certains biais et lacunes, notamment par le choix des mots-dièses archivés (dont la sélection a été faite en temps réel, au cours des événements) ou encore par des pertes de tweets au moment de la collecte via l’API publique de Twitter (celle-ci limite en effet la collecte gratuite à 1% du flux mondial à un instant donné. Or les flux Twitter consacrés aux attentats ont parfois représenté plus de 1% du total de tweets émis au niveau mondial, faisant perdre partie d’entre eux).

De cette masse de données découle aussi une autre piste de réflexion, sur la nature des outils permettant d’exploiter ces vastes gisements. Comme le souligne Thomas Drugeon, responsable du dépôt légal du Web à l’Ina, lors de notre entretien — et la question se pose à l’identique côté BnF —, le chercheur ne peut emporter avec lui les données, pour leur offrir le traitement appareillé par les outils informatiques de son choix. Les règles du dépôt légal le contraignent à traiter ces documents dans les enceintes des institutions. Aussi le monde des archives du Web développe-t-il de plus en plus des outils destinés à accompagner les chercheurs, permettant notamment dans le cas de l’Ina la réalisation de timelines ou de nuages de mots, le suivi de la circulation et de la popularité d’images, ou encore le croisement de nombreuses métadonnées, dont témoignent quelques-unes des figures suivantes.

Possibilité de croiser les données et métadonnées au cours de l’exploration des tweets et mots-dièse dans l’interface Ina. © Ina

Timeline et statistiques d’une recherche sur #prayforparis dans l’interface Ina. © Ina

Possibilité de générer un nuage de mots à partir d’une recherche, ici sur #jesuisahmed, dans l’interface Ina. © Ina

La BnF, en implémentant également dans ses archives des attentats de 2015 une recherche plein texte qui permet de croiser de multiples facettes, offre une entrée facilitée dans les données, non sans questionner également le chercheur sur les biais que ces outils peuvent induire dans la recherche qu’il va mener et la manière dont il va aborder ces masses de données.

Recherche plein texte et possibilité d’affiner les résultats à l’aide de facettes dans les archives du Web des attentats de 2015. © BnF

Conclusion

« Toute personne qui travaille avec des archives du Web s’est rapidement habituée au fait que la plupart des gens n’en ont même jamais entendu parler — et encore moins comprennent ce qu’elles sont et comment y accéder. En 2016 cependant, il semble que les archives du Web ont commencé à pénétrer la conscience du public, à passer des pages Technologies de la presse aux sections politiques et même culturelles », notait Jane Winters dans son article en début d’année. L’année 2016 aura-t-elle été celle des archives du Web, comme le suggère l’historienne britannique, familière de ces matériaux depuis plusieurs années ? Et ce succès de visibilité ne risque-t-il pas de se faire au détriment d’autres patrimoines numériques, moins valorisés actuellement, mais tout aussi importants (conservation des banques de données par exemple) ?

Dans tous les cas, en France comme dans le monde anglo-saxon, ce sujet, jusque-là plutôt confidentiel, aura fait l’objet d’une plus large couverture médiatique, notamment de la part du Monde, de Libération ou encore de L’Express, à la faveur des vingt ans de la fondation Internet Archive et des dix ans du dépôt légal du Web en France. Ainsi, les 22 et 23 novembre 2016, au cours du colloque « Il était une fois dans le Web. 20 ans d’archives de l’Internet en France », se réunissaient de multiples acteurs intéressés par ce patrimoine, professionnels de l’archivage et des bibliothèques, des médias, journalistes et chercheurs. Tous les intervenants témoignaient avec passion des défis techniques, mais aussi politiques et culturels passés et à venir de ce patrimoine nativement numérique. De plus en plus pléthorique, ce patrimoine mettra également au défi l’écriture de l’histoire, non seulement celle du numérique mais celle de nos sociétés contemporaines dans toutes ses facettes.

Valérie Schafer (Historienne, chargée de recherche CNRS à l’Institut des sciences de la communication).

Retrouver )i(nterstices

10 juillet 2017

Catégorie : Patrimoine Numérique

Le grand moissonnage des données personnelles

Patrimoine industriel informatique

Sites Web

Sommaire du numéro 73

Du Shape aux inventeurs du numérique

Les époques

Infos pratiques

Numérique : ne perdons pas la mémoire

Le patrimoine numérique, entre enjeux matériels et immatériels

Les différentes facettes du patrimoine numérique

Le patrimoine nativement numérique : d’Internet Archive à Software Heritage

L’articulation entre patrimoines et publics

Des objets de recherche, des objets au service de la recherche