La data et les réseaux, nouvel or noir des éditeurs juridiques

Dixit le patron du Groupe Revue Fiduciaire

Dimanche 4 novembre 2018, par Emmanuel Barthe // L’édition juridique

Une interview aux Echos d’Yves de la Villeguérin et Christophe Bossut, respectivement fondateur et DGD du Groupe RF [1] a attiré mon oeil. L’extrait clé [2] :
« Nous estimons que d’ici quelques années, la valeur ajoutée se fera dans l’analyse de l’audience. Il faut que l’on connaisse nos clients, leurs usages, etc. D’où l’intérêt d’éviter [...] que nos lecteurs clients passent par Google, avec la perte de data que cela entraîne. » [3]

L’analyse de l’audience

La tendance est la suivante : les éditeurs, y compris juridiques, se déplacent vers les réseaux sociaux, notamment académiques, et vers la data et son analyse ("business analytics"), comme l’écrivent les meilleurs spécialistes français du business model de l’édition scientifique Michel Vajou, Pierre-Carl Langlais ou Hubert Gruttenmeier. Rachats par le géant de l’édition scientifique Elsevier du logiciel de gestion de références bibliographiques Mendeley en 2013, du SSRN en 2016 puis de Bepress, éditeur de Digital Commons, une archive ouverte utilisée par 500 institutions scientifiques et universitaires. On peut aussi citer la prise de contrôle du logiciel de gestion de références bibliographiques Papers par Springer, éditeur de Nature, même si son concurrent ReadCube le rachète en 2016 [4].

Pourquoi un tel intérêt des éditeurs pour les réseaux sociaux scientifiques ? Comme l’écrit UrfistInfo, le blog du réseau des URFIS :
« Les réseaux sociaux académiques sont des "reputation metrics startups". On sait que ces services envisagent de monétiser les informations métriques recueillies, notamment à des compagnies de R&D, par exemple pour identifier les tendances ou les chercheurs qui émergent. D’où la mise en place d’une page Trending en temps réel sur ResearchGate » [5].

Deuxième raison, comme l’écrit Pierre-Carl Langlais, les incertitudes sur le business model d’Elsevier à long terme — incertitude que les analystes boursiers ne peuvent que développer, Elsevier étant un groupe coté. P.-C. Langlais note ainsi que « la position de force [d’Elsevier] tend à s’émousser et les négociations traînent en longueur » et que les « incertitudes d’Elsevier s’inscrivent dans un contexte plus large : la conversion de l’édition scientifique au libre accès ».

La veille EPRIST, une veille stratégique sur l’évolution du milieu éditorial

Pour suivre les évolutions cachées de ce secteur, vous pouvez suivre la veille du réseau EPRIST, assurée jusqu’en avril 2017 par Michel Vajou (consultant au sein de la société unipersonnelle M.V. Etudes et Conseil) puis par Pierre-Carl Langlais. Intitulée Notes d’analyse, cette veille est l’inverse de la douche froide habituelle de tweets et mails. C’est une analyse de plusieurs pages, publiée environ trois fois par an, et centrée à chaque fois sur un seul événement.

Pour vous donner un exemple de la vision à long terme — la vraie veille, la stratégique en tout cas, c’est ça : une vision à long terme — des Notes d’analyse EPRIST : la dernière note (septembre 2018) [6] dévoile le rôle capital que jouent 1. OpenCitations, devenu un véritable concurrent de Web of Science (Thomson Reuters) [7] et Scopus (Elsevier), et 2. Wikidata dans l’écosystème de la citation ouverte, en « émergence très rapide » [8].

Conclusion

Conclusion pour les documentalistes juridiques ? Prenez l’habitude de demander les statistiques de consultation de vos abonnements en ligne et de les analyser [9]. Face à cette évolution, c’est vraiment un strict minimum.

Après tout, ces stat’ appartiennent légitimement, me semble-t-il, autant à l’éditeur qu’à ses clients. Pourtant, avec l’évolution vers la data, elles vont prendre encore plus de valeur ... pour les seuls éditeurs.

Emmanuel Barthe
recherchiste, veilleur

Notes de bas de page

[1La Revue fiduciaire mise sur les start-up, par Marina Alcaraz, Les Echos, 22 juin 2018.

[2Le gras est de nous.

[3C’est un éditeur volontairement et extrêmement bien indexé par Google qui le dit. L’URL grouperf.com, c’est 87 000 pages indexées par Google. Lexis.com, malgré la richesse des contenus français et américains, c’est 132 000 pages seulement.

[4A noter que ReadCube est un logiciel propriétaire et qu’il est très lié à ses partnenaires éditeurs Springer, Nature et J. Wiley.

[5#DeleteAcademicSocialNetworks ? Les réseaux sociaux académiques en 2016, par Aline Bouchard, UrfistInfo, 30 août 2016. Une note synthétisant la plupart de ce long billet est disponible.

[6Les citations ouvertes, par Pierre-Car Langlais, Analyse I/IST n° 28, septembre 2018.

[7Le Web of Science, initialement prévu pour fonctionner sous fonds fédéraux mais in fine lancé en 1963 comme une entreprise commerciale par l’américain Eugene Garfield faute de financements, a participé à promouvoir l’importance pour les revues et la carrière des scientifiques de l’impact factor.

[8Juste une information extraite de cette note pour vous faire prendre conscience de l’importance de Wikidata — qui a à voir avec Wikipedia mais n’est *pas* Wikipedia — :
« En 2006 le projet Wikicite qui, dans sa première version ambitionne de développer " une base de données séparée contenant les données de citation que l’on pourrait extraire pour générer une référence complète et standardisée à la fin de l’article". Bien que périodiquement évoqué dans les années suivantes, cet idéal n’est jamais concrétisé.
L’émergence de Wikidata en 2013 change la donne. Ce "Wikipédia des données" permet de créer manuellement ou automatiquement des millions de fiches sur tous les champs de la connaissance. Wikidata est naturellement conçu pour héberger des données bibliographiques. C’est même un objectif prioritaire : tout comme Wikipédia, Wikidata repose sur un principe de vérifiabilité qui veut que chaque donnée soit référencée ; tout comme sur Wikipédia, la mise en œuvre de ce programme est compliquée par la nécessité de remplir la fiche de chaque nouvelle référence.
Le projet Source Metadata est initialement créé en 2014 pour établir des standards bibliographiques. Il réalise finalement l’objectif originel de Wikicite en développant une "large base de données bibliographiques sur Wikidata". Les contributeurs procèdent à l’importation préventive massive de références grâce à l’emploi de robots.
Actuellement plus de 20 millions de sources sont déjà présentes sur le projet. Cette intégration systématique constitue actuellement un défi pour l’ensemble de Wikidata : 40% des items (les "fiches" correspondant aux articles de Wikipédia) sont des références bibliographiques et cette part va sans doute continuer de croître. En août 2018, une discussion a été ouverte pour statuer sur l’avenir de cette base de données bibliographiques ouverte avec notamment la possibilité de créer un statut à part pour ces objets, voire de créer un nouveau projet.
Entretemps le projet Wikicite s’est structuré au-delà de Wikidata, notamment suite à l’organisation d’une première conférence à Berlin en 2016, depuis transformée en rendez-vous annuel. C’est lors de la conférence qu’est créée la propriété "cite", qui permet d’enregistrer les citations de chaque référence sur Wikidata. [...] Elle est aujourd’hui la 16e propriété la plus utilisée sur Wikidata avec plus de 4 millions d’usages. ».

Répondre à cet article