La documentation juridique

Dernier ajout : 8 décembre.

Derniers articles

Intérêt et limites des annuaires et portails juridiques

Dépassés par les moteurs de recherche, les annuaires en restent le soubassement indispensable

Lundi 7 février 2005

Lire la suite »

Beaucoup de bibliothèques, de documentalistes et d’organismes ont développé des annuaires de sites web juridiques pour guider leurs lecteurs et utilisateurs vers les meilleurs pages et sites web.

Aux débuts du Web, les résultats des moteurs n’étaient pas pertinents, car uniquement basés sur le texte intégral des pages web. Google et son classement par pertinence basé sur les liens hypertextes (le "PageRank") n’existaient pas. Les annuaires étaient lors incontournables et très utiles. Toute recherche
sur un des meilleurs moteurs de l’époque (AltaVista, Hotbot) devait être complétée par la consultation d’un annuaire.

Les défauts des annuaires juridiques français

Aujourd’hui, les annuaires de liens ont perdu beaucoup de leur intérêt. Pourquoi alors en ai-je commis un moi-même ? Parce que, s’ils sont réalisés dans une optique différente de celle de leurs débuts, ils peuvent encore aider à la recherche sur le Web. Cette optique, c’est sélectionner et enseigner, au lieu de chercher seulement à être exhaustif.

Mais restons dans notre spécialité : les sites juridiques français. Ce qu’on peut reprocher aujourd’hui aux annuaires de liens juridiques français, c’est :
- le manque de sélection des ressources : des annuaires comme [la Porte du droit-http://www.laportedudroit.com], Droit francophone ou le Juriguide listent entre 2000 et 3500 sites, dont certains plus ou moins juridiques. Alors qu’on peut estimer qu’il n’y a guère qu’environ 500, peut-être 600 sites juridiques français fiables et doté d’un contenu de qualité, des sites de spécialistes du droit (avocats notamment), d’institutions (Conseil de la concurrence, ...), des éditeurs (payants) et de e-zines (Juriscom, ...)
- le nombre important de liens en erreur 404 et les descriptions souvent un peu dépassées, le tout venant de la faible fréquence des mises à jour, découlant elle-même du nombre très (trop ?) important de liens
- pour des annuaires qui tiennent à tout référencer, les défauts des classifications utilisées :

  • manque de sous-catégories et/ou de tri. Avec quelques milliers de sites, ces manques deviennent criants : chez la Porte du droit ou Droit francophone, une même catégorie peut contenir plus de 200 liens en vrac, pas même triés. Exemples :
    Droit francophone > Doctrine > Vulgarisation du droit : 227 sites
    La Porte du droit > Social et Prud’Hommes : 170 sites
    Je tombe moi-même parfois un peu dans le piège : Internet juridique > Droit français > Propriété intellectuelle, communication, informatique, Internet et commerce électronique : 31 sites seulement mais je pourrais sans problème subdiviser en Communication, Informatique et NTIC et enfin Propriété intellectuelle
  • le manque de pertinence/caractère trop universitaire des catégories.

Le Juriguide, lui, échappe au manque de sous-catégories et son classement me semble pertinent, mais il est matériellement impossible à la petite équipe du Village de la Justice de passer leur temps à vérifier les liens. Heureusement, le webmestre du Juriguide précise pour chaque lien la date de son ajout à la base. Ceci compense cela et au total, le compromis retenu pour la réalisation et la mise à jour du Juriguide me semble relativement efficace.

Le recul général des annuaires

En plus de ces défauts, les annuaires et portails ont perdu la compétition qui les opposait aux moteurs de recherche. Le combat ne laisse que trois survivants : Google, Yahoo Search et le nouveau moteur en version bêta (test) de Microsoft (version de production prévue pour début 2005). Comme le notaient deux articles publiés fin 2003 dans l’excellente revue américaine Searcher [1], les internautes ont voté avec les pieds et ils ont choisi Google contre les annuaires, notamment ceux construits par les bibliothécaires pour guider leurs lecteurs et ce, quelle que soit la qualité de leur sélection. Depuis les premiers mois de 2004, les versions américaines de Google et Yahoo ont même retiré de la page d’accueil le lien vers l’annuaire (Google.com in English), soit relégué celui-ci en bas de la page d’accueil (yahoo.com). [Mise à jour au 27 août 20006 : cet été 2006, Yahoo.fr a carrément supprimé son annuaire (heureusement, la version US a gardé le sien, mais pour combien de temps ?) et Google.fr a, suivant l’exemple US avec deux ans de retard, relégué son (enfin, sa version de l’Open Directory) annuaire derrière le lien "plus >>".]

Les défauts de Google, les limites de Juritel.info

Mais Google a un inconvénient majeur pour un juriste et plus encore pour un non juriste qui cherche du droit : il ne trie que par pertinence, pas par la qualité, la fiabilité ou le caractère officiel de l’information, ce qui est important en général et vital/quasi-obligatoire en droit. Ce n’est pas parce que beaucoup de liens pointent vers une page web ou que ses mots correspondent exactement à ceux de votre recherche que, pour autant, elle a été rédigée par un auteur fiable ou qu’elle a été validée par un comité éditorial. Ainsi, il arrive que Google renvoie vers des articles de la presse informatique un peu approximatifs sur les réformes du droit de la propriété intellectuelle et de l’Internet.

La voie de l’avenir, pour guider efficacement les internautes, c’est alors peut-être celle montrée par les moteurs de recherche juridique Légicité (qui n’intègre plus de nouveau document depuis 2003) puis Juritel.info, un projet plus récent : créer des moteurs thématiques et n’indexant que des sites sélectionnés (voir par exemple la sélection d’environ 300 sites qu’indexait Légicité ; Juritel.info en indexe lui plus de 2000). Mais alors, comment atteindre l’expertise technique et la puissance d’indexation de Google ? Mission impossible ?

Pourtant, pas de moteur pertinent sans annuaires

Reconnaissons en revanche une utilité formidable aux annuaires de sites web juridiques : sans eux, la pertinence de Google serait bien moindre. En effet, d’une part, Google utilise doublement l’annuaire Open Directory (ODP) : il le copie pour en faire son "Directory" et il l’utilise en partie (en partie, oui, mais en partie seulement, voir les discussions à ce propos sur les forums du site WebmasterWorld, notamment ce fil-ci et celui-là) — comme tous les autres grands annuaires — pour établir la pertinence de ses résultats (le PageRank cité plus haut). En clair : entrer dans l’ODP fait monter le rang d’un site aux yeux de Google. D’autre part, Google répertorie les liens que tissent les autres annuaires et les analyse comme autant de recommandations.

Le maître mot : sélectionner

Ce qui entre parenthèses renforce ma suggestion implicite précédente : les annuaires devraient ne pas hésiter à afficher leurs préférences et leurs évaluations en sélectionnant plus. Mais cela peut entrer en contradiction avec l’objectif commercial de plusieurs d’entre eux, qui travaillent souvent sur la base du partenariat et de l’échange de liens, donc au mieux sur la base de l’exhaustivité, non pas d’une sélection fondée sur la valeur du contenu des sites.

Emmanuel Barthe
documentaliste juridique, auteur d’un annuaire juridique sélectif


Dépôt légal des pages web : bientôt !

Les archives des sites web français seront consultables au rez-de-jardin de la BNF

Samedi 22 janvier 2005

Lire la suite »

Le dépôt légal des sites web français (essentiellement le domaine .fr) n’est pas encore une réalité, mais ça approche.

Il n’est pas question de tout archiver, c’est techniquement — et financièrement surtout, peut-être ... — impossible. Il n’est pas non plus question de laisser cet archivage en consultation libre sur Internet. Pour des raisons de droit d’auteur [2], seuls les postes de consultation du rez-de-jardin de la Bibliothèque nationale de France (BNF) (pour les chercheurs, pas le grand public) y accèderont.

L’idée du projet de la BNF est de se limiter à l’archivage d’un échantillon représentatif des sites web français [3]. La représentativité d’un site, ici, est fondée sur sa notoriété en termes du nombre de liens hypertextes poitant vers ses pages. Le site repéré sera "aspiré" à distance par un logiciel robot spécialisé [4]), amélioré notamment par la concertation au sein du Consortium International pour la Préservation d’Internet (IIPC) [5]. Si le robot ne peut techniquement pas aspirer un site, il sera demandé à son éditeur de fournir son contenu par dépôt volontaire.
Sur le site de la BNF, la page Expérimentations sur le dépôt légal Internet à la BnF présente le cadre juridique et les méthodes testées et retenues, et on trouve une approche critique du projet de la BNF dans un article de Mehdi Gharsallah : Dépôt légal des publications électroniques et préservation patrimoniale du web français, 24 décembre 2004.

En aval de l’archivage de ces sites, la BNF étant une bibliothèque, il est aussi question d’indexer leur contenu archivé. Selon 01 Informatique (juillet 2004) [6], le travail de classement et d’indexation d’un telle masse numérique devrait résulter du projet WATSON (Web : Analyse des Textes, Sélection, et Outils Nouveaux), dirigé par la société Lingway et auquel participent aussi la BNF et deux laboratoires de recherches de linguistique du CNRS [7]. Soit : un éditeur de logiciels de traitement documentaire du français (moteurs de recherche en langage naturel, catégorisation et structuration des documents), un gros utilisateur (la BNF [8]) et deux groupes de chercheurs en sciences du langage. [9].
Le projet WATSON se situe dans la continuité des travaux de l’équipe de linguistes et informaticiens de Lingway (ex-ERLI, ex-Lexiquest) dirigée par Bernard Normier, fondateur d’ERLI en 1977 et donc chercheur en traitement automatique du langage depuis quelques 25 ans. Lingway espère en tirer une amélioration du "web mining" [10].
Dans le domaine juridique, Lingway a travaillé avec Jouve et les principaux offices de brevets européens sur ePatent, une sorte de moteur de recherche de brevets en langage naturel [11] utilisé sur le site Plutarque, la nouvelle banque de données de l’INPI. Lingway a aussi travaillé avec Questel-Orbit pour améliorer la lecture des brevets en texte intégral avec sa technologie LPS (Lingway Patent Suite).

Sur Libération.fr un entretien avec Jean-Noël Jeanneney, le président de la BNF (Le web français face au défi de l’archivage / Frédérique Roussel, Libération.fr, 22/06/2004), sur l’archivage et le dépôt légal de sites internet par la BNF :

  • pour l’instant (juin 2004), la BN n’a mené que des tests [12]. En effet, pour l’instant, le dépôt légal des sites web n’est pas prévu dans la loi française. Ce sera chose faite une fois voté le projet de loi Aillagon relatif au droit d’auteur et aux droits voisins dans la société de l’information. Selon l’article, la discussion parlementaire aura vraisemblablement lieu à l’automne 2004
  • un point qui devrait intéresser ceux qui utilisent le site archive.org, le grand site actuel de conservation des pages web anciennes : M. Jeanneney explique que pour les sites français les plus anciens, aujourd’hui disparus, « un accord est en cours de négociation avec Internet Archive, une fondation américaine qui enregistre depuis 1996 une grosse partie de l’Internet mondial mais qui n’a *pas* vocation à le conserver durablement ».

D’autres informations également dans un article paru dans Archimag fin 2003 (Projet de loi : dépôt légal des sites web / Mehdi Gharsallah, Archimag, décembre 2003-janvier 2004). Mehdi Gharsallah a également décrit de manière critique dans un autre article (précité) les difficultés techniques et les diverses réalisations et projets existant en matière d’archivage des sites web, notamment l’Internet Archive et les versions antérieures du site du Premier ministre français. BlogOKat signale [13] un article de Magali Haettiger, tiré de son mémoire soutenu en 2003 : Vers la conservation des sites web régionaux, Bulletin des bibliothèques de France 2003, tome 48 n° 4 p. 77. Enfin, on trouvera des communications techniques parfois de haut niveau mais toutes très intéressantes, sur le site bibnum.bnf.fr [14], notamment les supports des interventions effectuées lors du séminaire Aristote du 22 avril 2004 Internet : la mémoire courte ? sous la responsabilité scientifique de Julien Masanès (BNF) et Conservation des sites web, présentation de J. Masanès aux 4èmes journées internationales d’études de l’Arsag, 2002.

En clair, alors que l’Internet Archive n’archive finalement que peu de sites français et le plus souvent de manière très parcellaire, on pourrait avoir la possibilité, peut-être début 2006 et uniquement sur place à la BNF, de chercher et consulter des pages web françaises disparues. Tout comme aujourd’hui on peut y consulter un ouvrage épuisé et introuvable ailleurs.

Emmanuel Barthe
documentaliste juridique


La CJCE restreint la définition du critère de l’investissement substantiel

Protection des bases de données : un défaut dans la cuirasse

Pour la Cour de justice européenne, la création du contenu n’est pas un investissement substantiel

Vendredi 17 décembre 2004

Lire la suite »

Bâtiment de la Cour de Justice des Communautés européennes (Luxembourg)En matière de droit des bases de données, en quatre arrêts similaires du 9 novembre 2004 [15], les juges communautaires définissent de manière restrictive la notion d’investissement substantiel, en dissociant les coûts de constitution du contenu des coûts de création et de vérification de la base elle-même. Ils définissent également de manière restrictive les extractions substantielles.

Selon le communiqué n° 89/04 du 9 novembre 2004 de la Cour de justice des Communautés européennes (CJCE) :

  • « La notion d’investissement substantiel, dont dépend la protection du fabricant d’une base de données contre des actes non autorisés de copiage et de diffusion dans le public, ne comprend que les travaux de recherche, de rassemblement, de vérification et de présentation d’éléments existants, et non les moyens utilisés pour la création des éléments constitutifs de la base. »
  • « La notion de partie substantielle du contenu d’une base de données se réfère, d’un point de vue quantitatif, au volume de données extraits et/ou réutilisés et doit être appréciée par rapport au volume du contenu total de la base. D’un point de vue qualitatif, elle se réfère à l’importance de l’investissement lié à l’obtention, à la vérification ou à la présentation de la partie concernée par l’acte d’extraction et/ou de la réutilisation. »

D’une certaine manière, la CJCE fait ainsi prévaloir la liberté de la concurrence sur le nouveau monopole du droit du producteur de base de données créé par la directive 96/9 du 11 mars 1996 concernant la protection juridique des bases de données. [16]

En droit français, du fait de la très grande proximité, pour les juges français, entre les extractions de bases de données et la concurrence déloyale ou le parasitisme, la protection du droit sui generis était accordée quasi-systématiquement [17].

Les actions en concurrence déloyale et parasitisme [18], fondées sur l’article 1382 du Code civil (responsabilité pour faute), sont très courantes devant les tribunaux français et les juges sont peu tolérants envers ces pratiques. Ces actions sont souvent utilisées en substitut ou en complément d’une action en contrefaçon, fondée elle sur le droit d’auteur.

En effet, la protection par le droit d’auteur n’est pas systématique, le critère d’originalité/marque de la personnalité de l’auteur, même élargi de nos jours, exclut encore beaucoup de documents, et notamment de données ... Jusqu’à la transposition de la directive, les producteurs de contenu utilisaient donc les actions en concurrence déloyale ou parasitisme pour protéger au maximum leurs productions.

Avant la directive "bases de données", il restait donc des "trous" dans la cuirasse. D’où la directive. Mais avec ces arrêts de la CJCE, un trou — ou une exception, ou encore une liberté, selon le point de vue — vient de réapparaître.

Il devient ainsi plus difficile d’utiliser le droit sui generis pour protéger un contenu non protégeable par le droit d’auteur mais intégré dans une base de données au sens large du terme (base de données informatique proprement dite ou quasiment tout fichier structuré et doté d’un outil de recherche). Cependant, comme le note Estelle Derclaye [19], rien n’empêche a priori le producteur de la base de restreindre les extractions par des clauses précises dans les conditions générales d’utilisation ou d’abonnement.

Le sens de ces arrêts est d’autant plus net qu’ils ont été rendus sur conclusions contraires de l’avocat général Mme Stix-Hackl, qui estimait que la notion d’obtention n’inclut pas la pure saisie des données, mais qu’en revanche la protection de la directive joue lorsque la saisie coïncide avec le rassemblement et le tri de données existantes et ne peut pas en être dissociée [20].

Emmanuel Barthe
documentaliste juridique


1 | ... | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43

Dernières brèves