L’édition juridique

Dernier ajout : 6 décembre 2018.

Derniers articles

Search-as-you-type : la rapidité est un atout pédagogique, mais pas une martingale

Les éditeurs juridiques et une fonctionnalité de recherche plébiscitée

Vendredi 7 décembre 2018

Lire la suite »

Le search-as-you-type (appelé parfois find-as-you-type ou incremental search) est une technique de recherche mais aussi d’affichage (ça produit aussi le code HTML de la page de résultats) devenue très populaire sur certaines plateformes juridiques françaises.

Elle consiste à afficher les résultats en même temps temps que vous tapez vos mots-clés. Fini l’attente. Concrètement, l’objectif est de descendre sous le dizième de seconde.

Search-as-you-type : les grands moteurs

Importé dans le monde de l’édition juridique privée française par Doctrine.fr puis Alinea by Luxia en 2016, le search-as-you-type a été adopté par Open Dalloz Jurisprudence en 2017, puis Lextenso et Lexbase à leur tour en 2018. Si on considère l’ensemble de l’édition juridique française, en incluant donc l’éditeur officiel public qu’est la DILA, c’est le site Service-Public.fr qui fut le premier à implémenter cette fonctionnalité, en septembre 2015 [1].

Si on se réfère au marché juridique français, trois acteurs dominent le marché du search-as-you-type :

- Elasticsearch. Bien qu’open source, Elasticsearch est en pratique développé et largement commercialisé par la société du même nom (au S près : le nom de la société s’écrit ElasticSearch). Elasticsearch s’installe sur les serveurs de l’entreprise qu’elle doit "motoriser". Quelques billets instructifs sur Elasticsearch :

- Algolia. Algolia est une application hébergée (une "SaaS API" [2] pour être précis) sur les serveurs externes d’Algolia même (pas en cloud, donc) et développée par des Français. Conçue au départ pour servir de moteur aux applications mobiles conçues pour les smartphones, Algolia a changé de business plan en cours de route. Son atout principal, semble-t-il, réside dans sa capacité de montée en puissance ("scalability" [3]), une capacité clairement liée à son caractère SaaS. J’ai trouvé moins de choses niveau initiation sur Algolia, probablement du fait que c’est une application propriétaire mais aussi qu’elle est venue après Elasticsearch, dont elle est devenue le challenger n° 1. Voir tout de même ceci :

- Solr. Moteur de recherche open source lui aussi, mais de facto plus proche de la philosophie du libre (i.e. modifié par d’autres que ses auteurs initiaux) qu’Elasticsearch, Solr s’appuie sur la bibliothèque de recherche Lucene, créée par la fondation Apache. C’est un produit moins fini que les deux supra, plus une base sur laquelle il faut construire. Il équipe des sites connus et à fort trafic, comme l’Internet Archive ou le site américain de commerce électronique Zappo’s. Un peu de littérature sur Solr :

Pour une comparaison de popularité entre les trois moteurs (et d’autres) de type Search, voir sur le site DB Engine. On y voit très bien la place de challenger d’Algolia.

Comment le search-as-you-type fonctionne

Le principe est qu’à chaque fois qu’on tape un caractère (il y a des exceptions, voir infra), cela envoie une requête au serveur.

Techniquement, le search-as-you-type n’est pas à proprement parler une technique de recherche nouvelle, mais simplement le fait de lancer la recherche pour chaque nouveau caractère ajouté ou supprimé par l’utilisateur, avec la phrase de recherche courante. Par exemple, si on recherche “travail”, le moteur de recherche va successivement renvoyer des résultats pour t, tr, tra, trav, trava, travai, travail... Donc, au lieu de soumettre une seule requête au moteur, on va en soumettre sept.

Le search-as-you-type demande donc plus de ressources processeur au serveur et plus de bande passante que la recherche non-incrémentale, du fait des requêtes incessantes.

Mais on peut aussi faire du search-as-you-type uniquement sur une liste finie de termes, ce qui diminue fortement la consommation serveur, et ne faire un affichage qu’après 2, 3 ou 4 caractères tapés. C’est ce qui est semble-t-il recommandé et c’est ce que le moteur search-as-you-type de Service-Public.fr a implémenté : tant que vous tapez un ou deux caractères, il ne vous propose pas de compléter vos caractères par des mots. Au troisième caractère, il commence à proposer.

Cette technique a été rendue possible par la puissance de calcul accrue des machines et la hausse des débits des connexions Internet.

C’est une des raisons de son adoption tardive par les éditeurs : avec des millions de documents sur une plateforme, le serveur qui l’héberge est pas mal sollicité à chaque requête. Mais les performances actuelles des réseaux et des ordinateurs l’ont rendu possible.

NB : pour afficher les résultats en temps quasi-réel, il faut aussi un rendu des pages web (une écriture du code HTML si vous préférez) extrêmement rapide.

La réalité sur le search-as-you-type

Les jeunes juristes ne jurent que par cette technique et la réclament souvent à cor et à cri.

La réalité sur le search-as-you-type :

  • primo, c’est très impressionnant dans un monde obsédé par le temps et donc par la vitesse. Et c’est très ludique. En un mot : très marketing
  • secundo, c’est très pédagogique : en permettant de voir ce que fait l’ajout ou le retrait d’un mot, la vitesse incite à taper plein de mots qu’on n’aurait pas tapés sinon. En un mot, elle "forme" l’utilisateur
  • tertio, pour autant, ce n’est qu’une technique de recherche et d’affichage. Elle n’a aucun effet sur la qualité du contenu de la plateforme ni non plus sur la pertinence des résultats.

Ce dernier point est évident mais vaut le coup d’être rappelé tant les jeunes juristes semblent ne jurer que par la vitesse. Certes, ils sont sous pression car ce sont eux qui font une bonne partie des recherches dans les structures. Mais, comme le dit tant le proverbe que 25 ans d’expérience en recherche juridique, il ne faut pas confondre vitesse et précipitation [4].

Bien réfléchir à ses mots-clés et d’autres aspects *avant* de commencer à taper quoi que ce soit, employer des opérateurs booléens, choisir sa plateforme en fonction de ses points forts, éviter d’interroger tout le contenu : tout cela compte.

Moralité : le jour où Lexis 360, Lamyline, Dalloz.fr et ELnet auront implémenté cette technique, certaines comparaisons globalement non justifiées cesseront aussitôt.

Implémenter le search-as-you-type prend du temps et représente un investissement financier important après un contexte difficile [5].

Pour autant, il y a fort à parier que d’ici décembre 2019, les retardataires parmi les grands éditeurs juridiques y seront passés. Le search-as-you-type est attractif, réclamé et en voie de généralisation. Il est devenu impossible de l’ignorer.

Search-as-you-type v. suggest-as-you-type


La fonctionnalité suggest-as-you-type du site Service-Public.fr en action

Pourtant, après l’avoir adopté en 2012, Google a abandonné le search-as-you-type en 2017, officiellement parce qu’inadapté au mobile, devenu entretemps le support de 50% des requêtes de recherche envoyées au moteur [6].

Le search-as-you-type va contre une autre tendance des moteurs de recherche : suggérer des mots-clés — en essayant de deviner ce que l’utilisateur a en tête et le lui proposer. Google a de facto remplacé depuis 2017 le search-as-you-type par une autocomplétion mêlée de suggestions — suggestions qui existaient déjà chez lui [7]. Les suggestions, concrètement, c’est une liste d’expressions suggérées sous la requête/question de l’utilisateur. Ces expressions suggérées sont souvent différentes des termes que l’utilisateur est en train de taper [8]. Les suggestions vont donc plus loin, et théoriquement, elles devraient être plus intéressantes pour l’utilisateur.

Pour l’instant, je constate que les suggestions disponibles sur les moteurs internes actuels des éditeurs sont généralement peu pertinentes dès que la requête se complexifie (essentiellement le cas où elle comprend plus d’une notion/expression). Google a d’ailleurs "calmé" les suggestions, car nombre d’entre elles étaient non pertinentes et surtout révélaient voire étalaient au grand jour des problèmes de réputation.

La grande exception, c’est Service-Public.fr, dont le moteur search-as-you-type date de la refonte du site de 2015. Mais il y a des raisons à cette pertinence, cette avance sur les autres : Service-Public.fr a moins de contenu, beaucoup plus d’utilisateurs et beaucoup plus d’expérience (le temps a rodé ce moteur). Des avantages dont les moteurs d’éditeurs ne bénéficient pas.

Le search-as-you-type, lui, n’a pas de problèmes de pertinence ou de révélation de réputation. De plus, il offre de plus une alternative intéressante aux suggestions, car il permet de tester rapidement tous les mots-clés (et leurs variantes) auxquels l’utilisateur peut penser.

En attendant l’arrivée d’un suggest-as-you-type fortement pertinent et performant sur le droit français, le search-as-you-type est une étape utile, en tout cas plus efficace in fine sur le résultat de la recherche que l’état actuel (probablement temporaire) des moteurs de recherche des éditeurs juridiques traditionnels.

Emmanuel Barthe
documentaliste juridique, veilleur, testeur


La data et les réseaux, nouvel or noir des éditeurs juridiques

Dixit le patron du Groupe Revue Fiduciaire

Dimanche 4 novembre 2018

Lire la suite »

Une interview aux Echos d’Yves de la Villeguérin et Christophe Bossut, respectivement fondateur et DGD du Groupe RF [9] a attiré mon oeil. L’extrait clé [10] :
« Nous estimons que d’ici quelques années, la valeur ajoutée se fera dans l’analyse de l’audience. Il faut que l’on connaisse nos clients, leurs usages, etc. D’où l’intérêt d’éviter [...] que nos lecteurs clients passent par Google, avec la perte de data que cela entraîne. » [11]

L’analyse de l’audience

La tendance est la suivante : les éditeurs, y compris juridiques, se déplacent vers les réseaux sociaux, notamment académiques, et vers la data et son analyse ("business analytics"), comme l’écrivent les meilleurs spécialistes français du business model de l’édition scientifique Michel Vajou, Pierre-Carl Langlais ou Hubert Gruttenmeier. Rachats par le géant de l’édition scientifique Elsevier du logiciel de gestion de références bibliographiques Mendeley en 2013, du SSRN en 2016 puis de Bepress, éditeur de Digital Commons, une archive ouverte utilisée par 500 institutions scientifiques et universitaires. On peut aussi citer la prise de contrôle du logiciel de gestion de références bibliographiques Papers par Springer, éditeur de Nature, même si son concurrent ReadCube le rachète en 2016 [12].

Pourquoi un tel intérêt des éditeurs pour les réseaux sociaux scientifiques ? Comme l’écrit UrfistInfo, le blog du réseau des URFIS :
« Les réseaux sociaux académiques sont des "reputation metrics startups". On sait que ces services envisagent de monétiser les informations métriques recueillies, notamment à des compagnies de R&D, par exemple pour identifier les tendances ou les chercheurs qui émergent. D’où la mise en place d’une page Trending en temps réel sur ResearchGate » [13].

Deuxième raison, comme l’écrit Pierre-Carl Langlais, les incertitudes sur le business model d’Elsevier à long terme — incertitude que les analystes boursiers ne peuvent que développer, Elsevier étant un groupe coté. P.-C. Langlais note ainsi que « la position de force [d’Elsevier] tend à s’émousser et les négociations traînent en longueur » et que les « incertitudes d’Elsevier s’inscrivent dans un contexte plus large : la conversion de l’édition scientifique au libre accès ».

La veille EPRIST, une veille stratégique sur l’évolution du milieu éditorial

Pour suivre les évolutions cachées de ce secteur, vous pouvez suivre la veille du réseau EPRIST, assurée jusqu’en avril 2017 par Michel Vajou (consultant au sein de la société unipersonnelle M.V. Etudes et Conseil) puis par Pierre-Carl Langlais. Intitulée Notes d’analyse, cette veille est l’inverse de la douche froide habituelle de tweets et mails. C’est une analyse de plusieurs pages, publiée environ trois fois par an, et centrée à chaque fois sur un seul événement.

Pour vous donner un exemple de la vision à long terme — la vraie veille, la stratégique en tout cas, c’est ça : une vision à long terme — des Notes d’analyse EPRIST : la dernière note (septembre 2018) [14] dévoile le rôle capital que jouent 1. OpenCitations, devenu un véritable concurrent de Web of Science (Thomson Reuters) [15] et Scopus (Elsevier), et 2. Wikidata dans l’écosystème de la citation ouverte, en « émergence très rapide » [16].

Conclusion

Conclusion pour les documentalistes juridiques ? Prenez l’habitude de demander les statistiques de consultation de vos abonnements en ligne et de les analyser [17]. Face à cette évolution, c’est vraiment un strict minimum.

Après tout, ces stat’ appartiennent légitimement, me semble-t-il, autant à l’éditeur qu’à ses clients. Pourtant, avec l’évolution vers la data, elles vont prendre encore plus de valeur ... pour les seuls éditeurs.

Emmanuel Barthe
recherchiste, veilleur


Pour la recherche avancée et les opérateurs booléens dans les bases de données et moteurs de recherche

Users to publishers : "Don’t kill boolean operators !"

Vendredi 31 août 2018

Lire la suite »

Les éditeurs de bases de données, plateformes en ligne et moteurs de recherche sont régulièrement tentés de supprimer les opérateurs booléens (ET, OU, SAUF, * ...) et la recherche avancée (champ Titre, champ Mots-clés etc.).

Certains ont déjà succombé à cette tentation. Un oubli plus que gênant puisque la qualité et la rapidité des recherches en sont dégradées.

En effet, l’expérience montre que c’est le classement par pertinence ET les opérateurs booléens qui font les meilleures recherches et les meilleures veilles.

Leurs utilisateurs et clients professionnels de haut niveau — et même certains de niveau basique — en font les frais et s’en plaignent [18].

Et ce n’est pas le traitement du langage naturel (NLP) version machine learning (ML), aussi efficace soit-il (et il l’est), qui changera ça. Quant à la personnalisation des résultats, sa version actuelle me laisse rêveur et celle promise par le ML ne prévoit ni la connexion IP [19] ni le cas fréquent où on cherche quelque chose d’inhabituel. La possibilité de tweaker à fond une requête en texte intégral pur TOUT en bénéficiant des dernières technologies de synonymie automatique et de ranking (classement des résultats) est LA clé de la recherche.

Trop de boîte noire, de personnalisation des résultats et de simplicité tue la recherche, la vraie.

Les professionnels et les universitaires ne sont PAS des consommateurs qui cherchent un voyage en solde pour Acapulco ou la brosse à dent la moins chère. Leurs besoins sont nettement plus complexes.

Même des particuliers peuvent avoir besoin de tweaker une recherche de temps à autre. C’est ce que je viens de faire pour trouver un fauteuil/chaise design orange à dos droit d’un style bien précis. La fonction recherche par image de Google "is my friend". Et c’est aussi de la recherche avancée [20].

Emmanuel Barthe
geek et testeur de moteurs since 1991


English summary :

I am an information and monitoring professional with more than 25 years of experience behind me.

I am a big supporter of Boolean operators and other advanced search engine features. Because all my past experience proves that the alliance of machine learning and NPL doesn’t do better than my human knowledge of how to choose words and combine them.

And because Google and the like are available to everyone — while our employers are ready to pay for something that can do better than Google and the like.

That alone should be enough to convince publishers and all the professional databases sector to maintain operators and to allow their customers to use as freely as possible those operators.


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 48

Dernières brèves