Allô Legifrance ? — La recherche par expression "débloque" [problème résolu]

Samedi 10 janvier 2009

[mise à jour au 7 février 2009 : les problèmes décrits dans ce billet ont été résolu. Merci au webmestre de Legifrance qui a patiemment relayé mes commentaires à Sword. Logique et rigueur ont prévalu. Heureusement, car sans cela, la recherche en texte intégral perd toute fiabilité. Ce bilet est conservé à titre historique]

Un conseil aux "Legifranciens" : évitez la recherche par expression, préférez lui celle par proximité [mise à jour au 7 février 2009 : vous pouvez y aller, le problème est réglé].

Pourquoi l’éviter, me direz vous, alors que pour les juristes, l’expression est un facteur de pertinence formidable dans les requêtes sur bases de données ?

Tout simplement parce que la recherche dite par "expression", sur Legifrance, n’en est pas une [mise à jour au 7 février 2009 : ça y est, la recherche par expression est redevenue rigoureuse]. Peut-être initialement par volonté d’aider le grand public, elle n’est pas vraiment fiable, au sens où elle ne fait pas ce qu’on peut attendre d’elle.

Précisément : même face à une expression, le moteur Fast utilisé par Legifrance :

  • dans certains cas, "lemmatise" : il cherche toutes les variantes des mots, obtient plus de 500 réponses et refuse donc d’afficher les résultats alors qu’il y en a moins de 500 en réalité
  • et sinon, il élargit la proximité, qui devrait être de 1 mot par définition, à plusieurs mots dans les requêtes par expression.

Démonstration

  • je suis, le 28 décembre 2008, sur la base JORF, dans l’interface expert
  • je cherche à savoir si l’arrêté du 11 avril 2005 relatif au service de documentation et d’études de la Cour de cassation a été modifié ou abrogé
  • sachant que le suivi des modifications sur les arrêtés n’existe pas — contrairement aux lois et décrets — je fais une recherche en texte intégral
  • sachant que le moteur n’accepte pas plus de 10 mots-clés, je tape "arrêté du 11 avril 2005", je sélectionne "expression" et "recherche sur tout", j’ajoute dans les mêmes conditions "cour de cassation"
  • et là, Legifrance me répond d’affiner ma requête [1] ?!?!
  • si j’enlève un des deux membres de ma requête (autrement dit, l’inverse d’affiner), en revanche, ça passe  !
  • de toute manière, si déjà je voulais retrouver cet arrêté sans en connaître l’adresse web profonde, j’aurais du mal puisqu’une recherche par Nature du texte=Arrêté et Date de signature=11 avril 2005 et Texte=Cour de cassation (à proximité, mot(s) du titre) renvoie le même message "Veuillez affiner votre recherche" !?!?

Explication et questions

L’explication — ou plutôt, comme on va le voir infra, une explication partielle — m’a été apporté par un des webmestres de Legifrance, que je remercie :

« Le problème vient de la recherche "arrêté du 11 avril 2005" comme une expression : le moteur de recherche Fast fait alors fonctionner la lemmatisation sur chacun des éléments de l’expression, ce qui engendre une recherche sur trop d’occurrences (plus de 500), d’où le message de demande d’affiner la requête.
Pour contourner cette limite, il suffit d’utiliser la proximité pour interroger la notion "arrêté du 11 avril 2005". »

J’avoue avoir du mal à comprendre pourquoi ici on a choisi de "lemmatiser". Une expression, dans le langage des bases de données, c’est une suite exacte de mots. Autrement dit, les résultats doivent comporter des séquences absolument identiques à la question. "Lemmatiser" une expression signifie qu’on ne cherche plus une expression ...

Je constate également que la lemmatisation ne se déclenche pas sur toute expression [2]. En effet, le 10 janvier 2009, avec "informatique et libertés" en recherche sur le titre, sans expression, on n’a sur la base JORF que 5 réponses seulement. Et 189 sans [3]. Donc, là, la lemmatisation n’a visiblement pas été déclenchée par cette expression.

Seraient ce les chiffres dans mon expression qui perturbent le moteur ? Pourtant a priori non, puisque l’expression "arrêté du 11 avril 2005" mise seule en recherche en texte intégral ne déclenche pas le message demandant d’affiner.

Enfin, je constate que Legifrance élargit la proximité, qui devrait être de 1 mot, à de plusieurs mots dans les requêtes par expression. Par exemple, l’expression "Commission nationale informatique et libertés" sur la base JORF déclenche des réponses contenant "Commission nationale de l’informatique et des libertés". Certes, c’est une aide car c’est le titre exact de la CNIL, mais cela signifie alors qu’on ne peut plus faire aucune confiance au moteur de Legifrance sur ce chapitre puisque pour lui, une expression n’en est pas une. La recherche par proximité, qui est celle de Legifrance par défaut, devrait suffire, non ? Pourquoi introduire de la proximité, qui plus est sans le dire, dans la recherche par expression ?

Un non sens

Sur le fond, un utilisateur ne peut pas s’attendre à ce qu’une expression n’en soit plus une. C’est même un non sens, une absurdité logique : si un utilisateur demande une expression, ce qui suppose une démarche positive, pourquoi ne pas la lui donner ? Même un moteur grand public comme Google respecte [4] — à peu près — ce type de demande [5].

On me répondra certainement que Legifrance est un portail tout public que lemmatiser et élargir les expressions est une aide bienvenue à la recherche.

Il y a pourtant deux bonnes raisons pour éviter de travestir et limiter ainsi la recherche par expression sur Legifrance :

  • les premiers utilisateurs de Legifrance sont des juristes et non ceux qui ignorent tout du droit. Je connais un tout petit peu les utilisateurs de Legifrance. Et puis, ce débat a déjà eu lieu — et il a eu une conclusion favorable aux juristes
  • vu que la proximité est le réglage par défaut de Legifrance, biaiser ainsi la recherche par expression n’a guère d’intérêt. Et ce, d’autant plus qu’elle est sous-utilisée par l’internaute lanbda.

Notes de bas de page

[1Stricto sensu, on pose une question à un être humain et une requête (de l’anglais "query") un ordinateur.

[2Heureusement d’ailleurs. La recherche par expression est en effet une nécessité en juridique, et pas seulement sur des expressions sans sens comme celle-ci "arrêté du 11 avril 2005".

[3Explication pour les non juristes : l’intitulé exact de la loi dite "Informatique et libertés" est "loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés". Et le nom exact de la CNIL est "Commission nationale de l’informatique et des libertés" et non "Commission nationale Informatique et libertés".

[4Message de Guy Coslado sur la liste Juriconnexion, 8 janvier 2009.

[5Alors que sans guillemets, il fait un peu ce qu’il veut avec sa lemmatisation à lui. Voyez la protestation de ma collègue veilleuse et blogueuse Armelle Thomas sur Inforizon.

Répondre à cette brève