Legifrance II : L’héritage

Editorial de la Lettre de Juriconnexion n° 19, 2e et 3e trim. 2002

Vendredi 15 novembre 2002, par Emmanuel Barthe // Portails juridiques officiels - Diffusion des données juridiques publiques

Promesses tenues

Plus d’un mois après le lancement de la deuxième version du site Legifrance (dit "Legifrance II"), on peut maintenant faire le point et répondre à la question : les promesses faites par l’ancien Premier ministre à l’automne 2000 ont-elles été tenues ?

La réponse est oui. Même la base des arrêts inédits de la Cour de cassation est présente. Et si les questions et réponses de l’Assemblée nationale et du Sénat ne sont pas présentes, c’est tout simplement parce qu’elles ne font pas partie du périmètre des bases de données juridiques défini, du fait de la séparation des pouvoirs. Il y a certes d’autres limites, qui tiennent essentiellement à l’histoire des bases de données juridiques, et il reste des problèmes en suspens. Mais tout est là, et après beaucoup de critiques et de doutes, il faut le reconnaître et s’en réjouir.

Le résultat de choix anciens

Legifrance Il est le résultat de choix effectués, pour certains d’entre eux, il y a plus de quarante ans. Premier héritage : ORT, maître d’oeuvre de Legifrance II, était déjà le concessionnaire des bases de données juridiques, commercialisait Jurifrance et avait également réalisé Legifrance I.

Deuxième héritage : les bases de données actuelles de Legifrance Il résultent largement des choix de structuration et de contenu effectués dans les années 60, lors de la création de ces bases. LEX, LEGI, CASS, INCA, CONSTIT et JADE sont des bases de données très complexes, dotées de très nombreux champs, dont une partie seulement est exploitée dans Legifrance II.

Troisièmement, les images du journal officiel au format PDF viennent du cédérom "50 ans de JO". Ce qui explique le découpage par page et non par texte.

La complexité de Legifrance Il ne s’arrête pas là. Organisées de 1978 jusqu’à l’année dernière avec STAIRS, un ancien programme d’IBM [1], les bases sont maintenant gérées au format XML [2] par de gros systèmes de gestion de bases de données relationnelles. Intervient aussi un puissant moteur de recherche en texte intégral doté de fonctions d’analyse syntaxique et sémantique pour améliorer la question (élimination des mots vides, singulier/pluriel, lemmatisation ... ).

Cette richesse en champs et en fonctions est certes un facteur de complexité et de coûts mais aussi de souplesse des bases et de finesse des requêtes.

Des "bugs" et des "trous"

Legifrance Il est donc loin d’une simple collection de bases de texte brut interrogées en texte intégral. Cette complexité peut expliquer certains "bugs".

Par exemple, une certaine lenteur de traitement des requêtes, malgré l’augmentation du débit, est liée au passage des requêtes au travers des nombreux "modules" composant l’application. De même, si, en recherche experte dans la jurisprudence, certaines requêtes à plusieurs critères peuvent échouer, cela semble lié là aussi à la complexité. A noter aussi l’absence d’extraits du texte intégral dans la liste des résultats, une fonctionnalité pourtant classique dans les moteurs de recherche et présente sur Jurifrance. Le Secrétariat général du Gouvernement (SGG), la Direction des Journaux officiels (DJO), ORT et le comité de Legifrance (auquel participent deux membres du conseil d’administration de Juriconnexion, Jean Gasnault et Anny Maximin) travaillent sur ces défauts de jeunesse. Espérons que les solutions seront vite trouvées.

On remarque enfin quelque "trous" dans le contenu : par exemple, deux tribuanux administratifs manquent à l’appel. Sans compter l’anonymisation systématique des noms de personnes physiques dans la jurisprudence à compter du 15 septembre 2002.

Une complexité difficilement évitable

Au départ, ces bases n’ont pas été conçues pour la grande diffusion et le grand public mais essentiellement par et pour les institutions qui les produisent. Il s’agit de gérer une production très importante, des masses de centaines de milliers documents par base, avec un enrichissement du document brut (juridiction attaquée, notes de doctrine, champs date et titre, type de texte, numéro NOR, textes d’application, textes modifiés, etc.). Dès lors, la complexité est inévitable.

Si donc on désire des bases et un système de recherche plus adaptés aux besoins du grand public et plus robuste, je crois qu’il faut choisir entre l’impossible - refaire de A à Z ces bases (à quel coût ?) - et la reprise et le reformatage du contenu de Legifrance II, avec des moteurs de recherche en plein texte indexant le document brut. Problème : le " coût de mise à disposition " reste élevé, notamment face au principe affiché de gratuité des licences. Ce coût (8550,75 euros par an pour l’ensemble des mises à jour) peut tenir à distance des petites structures comme les associations par exemple. Certains tentent de contourner cela en téléchargeant les bases, hors légalité, avec des robots aspirateurs.

Conclusion

Legifrance II n’est peut-être pas à la hauteur de Jurifrance, mais il est gratuit. Les professionnels abonnés à Jurifrance peuvent le regretter mais d’autres apprécient le changement : fédérations professionnelles, associations, jeunes avocats, juristes d’entreprises solitaires, chercheurs et étudiants en droit, fonctionnaires, documentalistes... Néanmoins, l’amélioration des interfaces bénéficierait à tous.

Emmanuel Barthe

Cet éditorial est disponible en version d’origine sur le site de Juriconnexion

Voir aussi le n° spécial Legifrance de la Lettre de Juriconnexion (n° 20, mars 2003)

Notes de bas de page

[1STAIRS était un gros et puissant logiciel de recherche en texte intégral ou "full text", remplacé par SearchManager depuis 1992, d’après la définition donnée par le Dictionary of the Mainframe World

[2Cf La conception technique du site, dans la page A propos de Legifrance

Répondre à cet article