L’indexation de Legifrance par les moteurs et le moissonnage OAI des métadonnées pour enrichir le contenu des futures licences gratuites

Injecter des mot-clés matière dans des registres ECLI

Vendredi 16 mai 2014, par Emmanuel Barthe // Portails juridiques officiels - Diffusion des données juridiques publiques

Dans notre précédent article sur les bases de données juridiques publiques (CASS, INCA, JADE, JORF etc.), autrement dit le contenu de Legifrance qui doivent devenir librement et gratuitement réutilisables à la rentrée (autrement dit la fin des licences payantes Legifrance), nous écrivions :

  • que le fichier robots.txt de Legifrance n’interdit pas l’accès aux bases CASS et INCA et toutes les bases de jurisprudence de Legifrance sont dotées d’URLS fixes
  • et que la — toute relative — moins bonne indexation de Legifrance par Google en ce qui concerne la jurisprudence semble liée à la moindre fréquence des liens vers les arrêts publiés sur le portail officiel. Les décisions de justice, notamment, ne font pas l’objet d’un véritable sommaire sur Legifrance, contrairement au JORF.

D’où l’intérêt et l’urgence de monter un registre ECLI qui servira de sitemap et offrira aux moteurs, et quiconque moissonnera, une excellente passerelle de départ, peut être même meilleure que les sommaires du JO.

Mais sans parler de leurs limites (pas très droit des affaires comme indexation), ça ne couvre qu’une faible part de la jurisprudence. Par comparaison, *tous* les textes officiels ou presque comportent des mots-clés directement dans leur titre.

Or, les mots-clés dans ECLI, eh bien, ils sont prévus. En fait, ECLI étant compatible DC, il y a même deux champs matière :

  • dc.description
  • et dc.subject.

Pour les mots-clés, cet enrichissement d’ECLI ne saurait se faire sans ces précieuses métadonnées que les éditeurs privés détiennent. Les ouvriront-ils et les relieront-ils publiquement a un n° ECLI ? Il faudrait évaluer quel en serait l’intérêt pour eux. L’un d’entre eux, en jurisprudence en tout cas, met le n° ECLI à ses arrêts de la Cour de cassation, peut-être parce que la Cour elle-même les met sur ses arrêts (voir le site de la Cour).

C’est, je pense, l’avantage des titres des textes publies au JO que de comporter dans leur référence/titre/intitulé même des mots-clés, qui plus est officiels.

Mais les cours suprêmes aussi ont des mots clés :

  • le Recueil Lebon du Conseil d’Etat et le Bulletin des arrêts de la Cour de cassation ont des mots-clés dans leur champ Titrage (= abstract)
  • le CE met des mots-clés aussi dans Ariane web.

Pour résumer et conclure :

  • un registre ECLI des textes officiels avec ses champs matière remplis est faisable
  • un registre ECLI similairement enrichi de la jurisprudence publiée sur Legifrance, bien moins évident à réaliser pour les arrêts des cours d’appel et ceux des cours suprêmes non publiés aux Bulletins, est en revanche faisable pour les arrêts publiés au Bull. Cass et au Recueil Lebon
  • ces métadonnées enrichiraient grandement les données de Legifrance devenues totalement gratuites et faciliteraient donc la réalisation de bases de données moins chères et dotées d’une recherche efficace par mots-clés matière
  • les éditeurs juridiques pourraient éventuellement aider.

Répondre à cet article

1 Message