Dépôt légal des pages web : bientôt !

Les archives des sites web français seront consultables au rez-de-jardin de la BNF

Samedi 22 janvier 2005, par Emmanuel Barthe // La documentation juridique

Le dépôt légal des sites web français (essentiellement le domaine .fr) n’est pas encore une réalité, mais ça approche.

Il n’est pas question de tout archiver, c’est techniquement — et financièrement surtout, peut-être ... — impossible. Il n’est pas non plus question de laisser cet archivage en consultation libre sur Internet. Pour des raisons de droit d’auteur [1], seuls les postes de consultation du rez-de-jardin de la Bibliothèque nationale de France (BNF) (pour les chercheurs, pas le grand public) y accèderont.

L’idée du projet de la BNF est de se limiter à l’archivage d’un échantillon représentatif des sites web français [2]. La représentativité d’un site, ici, est fondée sur sa notoriété en termes du nombre de liens hypertextes poitant vers ses pages. Le site repéré sera "aspiré" à distance par un logiciel robot spécialisé [3]), amélioré notamment par la concertation au sein du Consortium International pour la Préservation d’Internet (IIPC) [4]. Si le robot ne peut techniquement pas aspirer un site, il sera demandé à son éditeur de fournir son contenu par dépôt volontaire.
Sur le site de la BNF, la page Expérimentations sur le dépôt légal Internet à la BnF présente le cadre juridique et les méthodes testées et retenues, et on trouve une approche critique du projet de la BNF dans un article de Mehdi Gharsallah : Dépôt légal des publications électroniques et préservation patrimoniale du web français, 24 décembre 2004.

En aval de l’archivage de ces sites, la BNF étant une bibliothèque, il est aussi question d’indexer leur contenu archivé. Selon 01 Informatique (juillet 2004) [5], le travail de classement et d’indexation d’un telle masse numérique devrait résulter du projet WATSON (Web : Analyse des Textes, Sélection, et Outils Nouveaux), dirigé par la société Lingway et auquel participent aussi la BNF et deux laboratoires de recherches de linguistique du CNRS [6]. Soit : un éditeur de logiciels de traitement documentaire du français (moteurs de recherche en langage naturel, catégorisation et structuration des documents), un gros utilisateur (la BNF [7]) et deux groupes de chercheurs en sciences du langage. [8].
Le projet WATSON se situe dans la continuité des travaux de l’équipe de linguistes et informaticiens de Lingway (ex-ERLI, ex-Lexiquest) dirigée par Bernard Normier, fondateur d’ERLI en 1977 et donc chercheur en traitement automatique du langage depuis quelques 25 ans. Lingway espère en tirer une amélioration du "web mining" [9].
Dans le domaine juridique, Lingway a travaillé avec Jouve et les principaux offices de brevets européens sur ePatent, une sorte de moteur de recherche de brevets en langage naturel [10] utilisé sur le site Plutarque, la nouvelle banque de données de l’INPI. Lingway a aussi travaillé avec Questel-Orbit pour améliorer la lecture des brevets en texte intégral avec sa technologie LPS (Lingway Patent Suite).

Sur Libération.fr un entretien avec Jean-Noël Jeanneney, le président de la BNF (Le web français face au défi de l’archivage / Frédérique Roussel, Libération.fr, 22/06/2004), sur l’archivage et le dépôt légal de sites internet par la BNF :

  • pour l’instant (juin 2004), la BN n’a mené que des tests [11]. En effet, pour l’instant, le dépôt légal des sites web n’est pas prévu dans la loi française. Ce sera chose faite une fois voté le projet de loi Aillagon relatif au droit d’auteur et aux droits voisins dans la société de l’information. Selon l’article, la discussion parlementaire aura vraisemblablement lieu à l’automne 2004
  • un point qui devrait intéresser ceux qui utilisent le site archive.org, le grand site actuel de conservation des pages web anciennes : M. Jeanneney explique que pour les sites français les plus anciens, aujourd’hui disparus, « un accord est en cours de négociation avec Internet Archive, une fondation américaine qui enregistre depuis 1996 une grosse partie de l’Internet mondial mais qui n’a *pas* vocation à le conserver durablement ».

D’autres informations également dans un article paru dans Archimag fin 2003 (Projet de loi : dépôt légal des sites web / Mehdi Gharsallah, Archimag, décembre 2003-janvier 2004). Mehdi Gharsallah a également décrit de manière critique dans un autre article (précité) les difficultés techniques et les diverses réalisations et projets existant en matière d’archivage des sites web, notamment l’Internet Archive et les versions antérieures du site du Premier ministre français. BlogOKat signale [12] un article de Magali Haettiger, tiré de son mémoire soutenu en 2003 : Vers la conservation des sites web régionaux, Bulletin des bibliothèques de France 2003, tome 48 n° 4 p. 77. Enfin, on trouvera des communications techniques parfois de haut niveau mais toutes très intéressantes, sur le site bibnum.bnf.fr [13], notamment les supports des interventions effectuées lors du séminaire Aristote du 22 avril 2004 Internet : la mémoire courte ? sous la responsabilité scientifique de Julien Masanès (BNF) et Conservation des sites web, présentation de J. Masanès aux 4èmes journées internationales d’études de l’Arsag, 2002.

En clair, alors que l’Internet Archive n’archive finalement que peu de sites français et le plus souvent de manière très parcellaire, on pourrait avoir la possibilité, peut-être début 2006 et uniquement sur place à la BNF, de chercher et consulter des pages web françaises disparues. Tout comme aujourd’hui on peut y consulter un ouvrage épuisé et introuvable ailleurs.

Emmanuel Barthe
documentaliste juridique

Notes de bas de page

[1Nécessité de demander l’autorisation des titulaires de droits d’auteur car « la mise en consultation sur écran met en œuvre le droit exclusif de communication au public (droit de représentation en droit français) de l’auteur ». Pour plus de détails sur les aspects juridiques du dépôt des sites web, lire : Dépôt légal Internet : aspects juridiques / Valérie Game, responsable du service juridique de la BNF, 12 mai 2004.

[2Selon un article sur ZDNet (Internet et droits d’auteur : le projet de loi Aillagon adopté en Conseil des ministres / Jérôme Thorel, ZDNet France, 12/11/2003), concernant le dépôt légal des sites web : « Un dépôt légal dont se chargeront la Bibliothèque nationale de France (BNF) et de l’Institut national de l’audiovisuel (INA). "Ceux-ci seront autorisés à copier les contenus en ligne selon un mode d’échantillonnage permettant de constituer progressivement une mémoire collective, représentative de l’évolution de la communication publique en ligne, notamment l’internet." »

[3Pour un exemple d’"aspirateur" basique de sites web, voir l’excellent logiciel open source HTTrack. De conception française, il existe en version Windows.

[4Le site de la BNF présente brièvement les membres du Consortium et ses objectifs.

[5La linguistique pour analyser le web français / Emmanuelle Delsol, 01 Informatique n° 1777-1778 du 9 juillet 2004 p. 39

[6Lattice-Talana, hébergé par l’Ecole Normale Supérieure (ENS) et l’Université Paris VII Jussieu, et LaLICC hébergé par Paris IV (Sorbonne)

[7Pour une vue d’ensemble des projets de la BNF sur la conservation du Web français, voir le plan de la communication "Préservation d’Internet : enjeux et perspectives" de Catherine Lupovici, directrice du Département de la Bibliothèque numérique à la BNF et en charge du projet WATSON pour la BNF (et ex-responsable des activités bibliothèques chez l’"imprimeur électronique" Jouve), au séminaire ARISTOTE/BNF "Internet, la mémoire courte ?"

[8WATSON est en fait un volet du projet plus global AGILE, le tout s’inscrivant dans le cadre du programme de recherche interministériel (ministères de la Recherche, de l’Industrie et de la Culture) Technolangue en matière de traitement automatique des langues (entre parenthèses, le site technolangue.net fonctionne sous le logiciel de gestion de contenu (CMS) SPIP).

[9Selon Gilles Balmisse, consultant-formateur en knowledge management (KM), « On peut définir le web mining comme étant l’application des techniques du data mining à l’exploitation des données disponibles sur le web. Le data mining consiste à utiliser un ensemble de techniques statistiques qui, en "fouillant" un grand nombre de données structurées, permettent de découvrir et de présenter des informations à valeur ajoutée dans une forme interprétable facilement par un individu. Dans le cadre du web mining, il s’agit donc d’extraire des informations à valeur ajoutée à partir des données collectées sur les internautes afin de mieux les connaître » (extrait de son Livre blanc sur le web mining, autrefois disponible sur son ancien site http://kmcenter.free.fr).

[10Plus précisément, ePatent est une application pour base de données de brevets qui traduit automatiquement une question en langage naturel en une requête structurée à la norme IPC (International Patent Classification)

[11Sur ces tests, quelques informations dans un article de Sophie Janvier-Godat : L’archivage du web est en route à la Bibliothèque nationale, Le Nouvel Hebdo, 5 avril 2002.

[12Merci à BlogOKat pour sa brève Archivage et dépôt légal du web du 20 janvier 2005, qui m’a signalé plusieurs des pages web citées ici, dont l’article de Magali Haettiger au BBF.

[13bibnum.bnf.fr est un « espace professionnel sur la diffusion, l’échange et la conservation de l’information numérique proposé par le département de la bibliothèque numérique de la Bibliothèque nationale de France ».

Répondre à cet article