ejustice : un moteur de recherche spécialisé juridique et pertinent

Doté d’un index de sites sélectionnés par un magistrat

Mardi 31 octobre 2006, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

[Mise à jour au 25 mai 2007 : David Taté l’avait deviné et Hugues-Jehan Vibert le confirme que ejustice n’utilise plus la technologie Vsearch. Il utilise maintenant Google, par le biais du programme Google Custom Search, dit "Google Co-op".]

Le Figaro du 31 octobre 2006 signale le lancement le 1er novembre d’ejustice.fr, moteur de recherche juridique français, dont l’index est constitué de sites web juridiques institutionnels sélectionné par un magistrat.

Les points forts d’ejustice

- Les résultats d’ejustice sont très souvent réellement pertinents. Et souvent — mais pas toujours, loin de là [1] — plus pertinents que la concurrence (les outils de recherche du Web gratuit [2]). Sur une des mes requêtes de test fétiche (abus position dominante télévision), c’est nettement plus pertinent que Google [3], Yahoo [4], Windows Live, MSN Search et Ask, les cinq meilleurs moteurs généralistes du moment, et aussi que Juritel.info et le moteur de recherche juridique du site Droit francophone, portail de diffusion libre du droit de l’Organisation internationale de la francophonie. Pour mémoire, Légicité, qui n’est aujourd’hui plus mis à jour, a été le pionnier des moteurs juridiques français. Juritel.info avait repris le flambeau.

- La fonction "Recherchez uniquement sur ce site" (une icône de loupe) est très efficace.

- La sélection des sites indexés par la base de données est très bonne, ça se voit qu’elle a été effectuée par un professionnel du droit, un magistrat en l’occurence : Dominique Barella, procureur, ancien membre du CSM et ancien président de l’USM.

Quelques limites

Quelques points noirs, notamment sur certaines fonctions et en droit financier et des sociétés :

- Lorsqu’on clique sur un résultat, il s’ouvre dans une autre fenêtre : le bouton Back devient alors inutilisable, ce qui est contraire aux habitudes des internautes et aux bonnes pratiques du web design.

- ejustice frame les pages résultats : il met son adresse à la place de celles des pages web-résultats.

- La liste de résultats n’a pas d’URL, c’est toujours http://www.ejustice.fr/search.php. On peut toutefois l’écrire ainsi (exemple) : http://www.ejustice.fr/search.php?query_string=Class%20action

- Comme chez les moteurs généralistes, la pertinence des réponses devient presque nulle aux alentours de la 21e réponse.

- Les mots de la requête sont automatiquement affublés d’une troncature droite : ça peut être bon comme mauvais (class action -> classification), et comme chez les moteurs généralistes, on ne contrôle pas bien la façon dont la requête est traitée par le moteur (ici Vsearch d’1PlusV).

- On aimerait bien avoir la liste complète des sites, histoire de vérifier ce qui est indexé ou pas. Par exemple, Wikipedia n’est pas indexé. Or, malgré les critiques portées contre ce site, il est à mon avis généralement fiable sur le droit français. Il semble que les sites non purement juridiques ne soient pas indexés, ce qu’on peut comprendre car ils seraient aussi source de bruit important, sauf à ce que le moteur posséde un algorithme à la Google. Je pense que, au moins pour l’instant, l’actualité et les sites non purement juridiques vont constituer l’"angle mort" de ejustice.
D’autre part, selon l’article du Figaro, ejustice aurait indexé 300 sites et 10 millions de pages web. Or, comme le fait remarquer David Taté sur son blog homonyme, "le site ejustice lui même indique n’avoir initialement référencé que 40 sites."

- Une collègue juriste me signale le point le plus gênant : en "corporate", en ingénierie juridico-financière, ejustice n’a quasiment aucune pertinence, en tout cas moins que les grands moteurs généralistes. Exemples : augmentation de capital : les 10 premières réponses ne renvoient même pas au règlement général de l’AMF, alors que son site est pourtant indexé. LBO : aucune pertinence ; pire : les 1er et 5e résultats ne sont là que parce qu’ils contiennent la chaîne de caractère lbo incorporée dans une adresse e-mail (lboutanos.huissierCHEZ[...].fr et lboursierCHEZ...].fr) ! C’est le résultat de la troncature droite automatique opérée par le moteur et signalée plus haut.
Il faut tout de même reconnaître, en ce qui concerne les moteurs en général, Google compris (exemple : lbo droit montage
http://www.google.fr/search?q=lbo+droit+montage), que le droit financier est très mal représenté sur le Web gratuit. A part les sites web des institutions financières (BDF, AMF, Euronext et FBF, je dois en oublier quelques unes), c’est le désert.

Quelques questions

- Le "business model" : la publicité apparemment (cf l’activité donnée au RCS : logiciels et publicité essentiellement), grâce au trafic des moteurs (d’autres d’autres moteurs sectoriels sont prévus).

- Il faudra aussi voir la rapidité de mise à jour de l’index et comment ejustice va indexer les sites de presse, qui bien que souvent mauvais en droit pur, sont systématiquement en avance sur les sites juridiques institutionnels en ce qui concerne les projets de réforme législative, tout en contenant peu d’articles sur le droit.

- Enfin, il serait éclairant d’en savoir un peu plus sur la technologie Vsearch et son éditeur la SARL 1plusV.

Emmanuel Barthe
documentaliste juridique s’exprimant à titre personnel

Mise à jour au 5 novembre 2006 : Réponses du gérant de la société 1plusV, développeur du moteur

« Ejustice.fr a été initialisé en octobre avec 40 sites mais
nous en sommes actuellement à 91 sites pour 10835800 index document pour la
recherche et 392883 mots cléfs associés. (chiffre au 5 novembre 2006).

La mise à jour du site est faite chaque fin de semaine.

En ce qui concerne les principales remarques techniques et les imperfections actuelles qui nous ont été signalés, nous allons y remédier cette semaine :

  • Au niveau performance, nous modifions actuellement les capacités de notre serveur pour permettre des temps de réponses beaucoup plus rapides.
  • Le code pour la recherche est : http://www.ejustice.fr/search.php?query_string=mot1+mot2+mot3
  • La mise entre guillemet d’une partie du texte permettant de limiter la recherche exacte à l’expression entre guillemet.
  • Nous avons supprimé la frame de résultats.
  • Nous avons supprimé la troncature droite pour les recherches en expression exacte. »

Notes de bas de page

[1Exemple avec la requête "salaire ordre public" sur ejustice, sur Google et sur Windows Live. Là, "il n’y a pas photo" comme on dit.

[2Je ne parle évidemment pas ici des plateformes payantes des éditeurs juridiques : Lextenso, Dalloz.fr, LexisNexis-Jurisclasseur, Lamyline Reflex, Net Permanents, Lexbase ...

Répondre à cet article