Logiciels, Internet, moteurs de recherche

Dernier ajout : 12 janvier.

Derniers articles

Les robots avocats et juges de demain ?

"Intelligence artificielle" en droit : les véritables termes du débat

Justice prédictive, legal tech, ROSS, Predictice, Minority report, machine learning, réseaux neuronaux, NLP, Big data etc.

Vendredi 24 février 2017

Lire la suite »

Legal tech, justice prédictive et plus encore "intelligence artiificielle" (IA) en droit sont devenus des sujets à la mode depuis 2015-2016.

Mais discours marketing et flou sur les performances sont légion dans ces informations — qui ressemblent plus à de la com’ qu’à de l’info.

De qui et de quoi parle t-on exactement : quelles sociétés, quelles fonctions, quelles technologies ?
Quels sont les véritables risques pour l’emploi des professionnels du droit (avocats, stagiaires, juristes d’entreprise, magistrats, notaires) et de leurs "paralegals", documentalistes et veilleurs ?
Quels sont, également, les risques de la justice prédictive ?

C’est le sujet de ce billet, qui vise à démystifier les fonctionnalités et performances des applications présentées comme des "IA" (intelligence artificielle) en droit, tant pour le présent que pour le futur. Il s’appuie sur la lecture d’une bonne partie de la littérature disponible et sur des discussions personnelles avec certains acteurs.

Sommaire

Un sujet très tendance

Les Echos (10 janvier 2017) viennent de publier un article au titre provocateur : Les robots seront-ils vraiment les avocats de demain ?

En fait, ses auteurs, Pierre Aidan, cofondateur de Legalstart.fr [1] et Florence Gsell, professeur de droit à l’université de Lorraine, réagissent, dans le but de rassurer les professions judiciaires, à un autre article. Ce dernier, beaucoup plus provocateur sur le fond, a été publié en octobre 2016 à la Harvard Business Review, par le célèbre consultant en informatique juridique britannnique Richard Susskind et son fils Daniel, économiste : Technology Will Replace Many Doctors, Lawyers, and Other Professionals (Les nouvelles technologies remplaceront beaucoup de médecins, juristes et autres professionnels libéraux). Cet article est en fait un résumé du dernier ouvrage des Susskind publié en octobre 2015 : The Future of the Professions : How Technology Will Transform the Work of Human Experts (Le futur des professions libérales : comment les nouvelles technologies vont transformer le travail des experts humains) (Oxford University Press, OUP).

La Semaine juridique publie, elle, une étude d’Antoine Garapon, magistrat, secrétaire général de l’Institut des hautes études sur la Justice (IHEJ) et spécialiste reconnu des questions de justice, intitulée « Les enjeux de la justice prédictive » [2]. Et pour ne pas être en reste, le Recueil Dalloz s’empare aussi du sujet avec une tribune de Marc Clément, Premier conseiller à la cour administrative d’appel de Lyon [3].

La revue Expertises, enfin, publie une interview de Rubin Sfadj, avocat aux barreaux de Marseille et New York et grand blogueur et twitto devant l’Eternel. Interview portant sur l’IA juridique [4] et plus concrète et plus claire — plus tranchée, peut-on dire — que les deux articles précédents.

Depuis les premiers succès commerciaux de ROSS, l’application au droit des faillites américain du système de machine learning développé par IBM, Watson, l’intelligence artificielle (IA) en droit est devenue tendance [5]. On parle beaucoup aussi de justice prédictive.

A lire aussi :

De quoi parle t-on exactement ? Ou comment définir les legal tech et l’IA en droit aujourd’hui

Les différents types de technologies utilisés en "IA"

Les différents types de technologies utilisés en "IA" (NB : pas de robotique en droit et la "vision" est en fait du machine learning)

Il y a des technologies, qu’il faut distinguer, et derrière ces technologies il y a des applications et leurs développeurs, grosses sociétés de l’informatique et de l’Internet ou start-ups, l’ensemble de ces sociétés étant communément appelé les "legal tech" [6].

Que font les legal tech ? Je reprend ici la liste très complète de Benoît Charpentier développée dans son article précité. Elles « proposent de très nombreux services et produits, comme :

  • le calcul de probabilité concernant les décisions de justice
  • le financement de contentieux (third-party litigation funding)
  • les plateformes d’actions collectives
  • la génération automatisée de documents juridiques dynamiques
  • le déploiement de systèmes intelligents ou d’intelligence artificielle (fondés par exemple sur le machine learning, le natural language processing ou encore le deep learning)
  • les plateformes de mise en relation avec des professionnels du droit
  • les solutions cloud
  • l’édition de logiciels spécialisés
  • la résolution de litiges non contentieux en ligne
  • les procédures d’arbitrage en ligne
  • les procédures de divorce en ligne
  • la signature électronique
  • la certification de documents (par exemple grâce à la technologie blockchain)
  • la réalisation de formalités et de dépôts en ligne (mise en demeure, acte introductif d’instance)
  • la visualisation de données complexes issues du Big Data
  • la programmation de contrats intelligents (smart contracts)
  • la mise en oeuvre d’outils collaboratifs
  • la revue de documents assistée par la technologie (Technology Assisted Review (TAR))
  • les outils de conformité
  • les outils de calculs fiscaux
  • les outils de gestion de contrats (contract management)
  • les outils de recherche juridique ».

Qui sont ces legal tech ? Il existe depuis peu une liste gratuite, fiable et quasi-exhaustive des legal techs françaises ou implantées en France (PDF), celle de Benoît Charpentier. Pour une liste mondiale, voir :

A mon goût, beaucoup de ces initiatives sont certes "legal" mais leur degré d’innovation en "tech" est faible : par exemple, simple mise en ligne de formulaires ou intermédiation entre avocats et prospects. Alors en voici une personnelle, non triée, forcément incomplète mais tendant à se focaliser sur l’innovation technologique (notamment machine learning, big data, analytics ...) :

A noter, car très souvent citée par les articles présents sur le Net mais non présente en France : DoNotPay conteste les PV de stationnement en justice sans avocat et avec un taux de succès important.

Attention : très peu parmi ces sociétés se rangent dans la catégorie de la (véritable) intelligence artificielle, autrement dit machine learning. Beaucoup se rangent dans les logiciels experts [7] (ce qui est déjà à mes yeux de l’innovation), une catégorie déjà ancienne à laquelle le cloud donne une nouvelle jeunesse mais qui n’est pas de l’IA.

Il y a aussi un débat sur le droit et l’opportunité de laisser les legal tech investir le marché du droit (principalement celui des avocats mais aussi celui des notaires) et de l’information juridique. Sur ce sujet, je vous renvoie aux articles cités en première partie plus haut. Sur les risques de la justice prédictive, voir infra.

Voici les quatre principales technologies en cause dans ce qu’on appelle — avec énormément d’exagération, on va le voir, vu les fonctionnalités et performances réelles des produits dont on parle — l’intelligence artificielle en droit [8] :

  • les systèmes experts. Un système expert est, selon Wikipedia, un outil capable de reproduire les mécanismes cognitifs d’un expert, dans un domaine particulier. Cette première des voies tentant d’aboutir à l’intelligence artificielle a donné des résultats décevants : par exemple, à partir d’une centaine de règles voire moins, certaines se contredisent et il devient nécessaire de les pondérer, ce qui est en fait peu rigoureux ; leur coût élevé est un autre écueil. Un exemple de système expert en droit, le prototype NATIONALITE du défunt IRETIJ (Institut de recherche et d’études pour le traitement de l’information juridique [9]) est décrit dans une contribution de 1989 [10]. Les logiciels de gestion de contrats sont un bon exemple de logiciels experts en droit. C’est l’émergence des trois règles suivantes qui a relance les espoirs des spécialistes en IA
  • le big data et surtout le (legal data) analytics. Il ne s’agit là que de technologies correspondant à des logiciels (Apache Hadoop, MongoDB, Microsoft Azure ...) faits pour traiter des masses de données et/ou des données pas assez structurées, nécessitant des logiciels différents des systèmes de gestion de base de données (SGBD) classiques
  • le machine learning [11] (ML, en français apprentissage statistique automatique), qui vient des réseaux neuronaux, une technologie développée à l’origine pour la reconnaissance automatique d’image. C’est le cas de ROSS d’IBM aux Etats-Unis. De son côté, Thomson Reuters, propriétaire de Westlaw, a lancé un laboratoire en 2015 et collabore avec IBM pour intégrer la technologie Watson dans ses produits. En France, Supra Legem, Predictice et Case Law Analytics [12] utilisent aussi le machine learning
  • le traitement du langage naturel ("natural language processing", NLP). ROSS est aussi une application du NLP. Machine learning et NLP utilisent tous deux la technique des réseaux neuronaux.

On peut rapprocher ces articles d’une note de McKinsey qui vient de paraître sur le futur du travail [13]. Elle prévoit dans le monde entier une automatisation croissante des tâches, pouvant supprimer 5% des emplois actuels et en modifier beaucoup plus.

ROSS : points forts et limites d’un moteur de recherche en langage naturel à base de machine learning avec supervision

C’est surtout le produit d’IBM qui fait parler de lui en ce moment (fin 2016-début 2017). Et même si, de fait, on peut parler d’une intense campagne de presse, je crois qu’on tient une confirmation du basculement du droit dans la véritable (mais limitée) intelligence artificielle dans les articles sur l’implémentation de ROSS par le petit cabinet d’avocats américain Salazar Jackson : en effet, selon le principal associé de cette firme, ROSS fait aussi bien et plus vite les recherches qu’un jeune collaborateur. Ce que semble confirmer une étude réalisée par une firme indépendante (certes payée par IBM) qui parle d’un gain de temps dans les recherches de 30% [14]. ROSS serait même capable de résumer sa recherche en un mémo [15]. L’avocat Rubin Sfadj estime toutefois que la prétendue capacité de ROSS à sortir un mémo est exagérée et cette fonctionnalité n’est citée dans aucun autre article.

Bien sûr, ROSS nécessite une interaction homme-machine. Il s’améliore en apprenant des retours des juristes sur ses recherches [16]. C’est ce qu’on appelle du supervised machine learning ou apprentissage automatique avec supervision [17].

ROSS est pour l’instant spécialisé uniquement dans la jurisprudence américaine en droit de la faillite (US bankruptcy law). Mais la diversité des tâches et des domaines possibles est une caractéristique du machine learning le plus récent (depuis environ 2015).

Le dirigeant et co-fondateur de ROSS Intelligence, Andrew Arruda, expliquait justement en août 2016 :

« La version actuelle du système est utilisée pour aider les juristes spécialisés en procédures collectives travaillant dans des firmes américaines. Les futures versions du système couvriront d’autres domaines du droit et d’autres juridictions. »

Rubin Sfadj estime quant à lui que ROSS sera capable de gérer les textes officiels (en sus de la jurisprudence) français.

Et Watson, l’application d’IBM dont ROSS est dérivé, sert déjà à de multiples tâches. Comme :

Autres exemples de la capacité du machine learning à s’appliquer à tous les domaines :

  • la Lettre de l’Expansion du 16 janvier signale que le réseau social interne développé par Orange, installé chez eux à l’automne 2015 [20] et également vendu par l’opérateur sous le nom de Business Together Sharespace [21] « s’appuie sur la technologie "machine learning" [...] et inclut des robots à même de suggérer à l’utilisateur des informations pertinentes ou des collègues susceptibles d’enrichir son activité »
  • Google a présenté fin novembre un algorithme repérant des signes de rétinopathie diabétique dans des photos du fond d’oeil. Et Facebook comme Microsoft ont dévoilé cette année des systèmes capables de "regarder" des images et en décrire le contenu pour les aveugles [22]

A priori (le manque d’information détaillées sur ROSS étant criant), les limites d’un système comme ROSS, sont :

  • comme pour les bases de données en ligne, son manque de confidentialité. Je sais que les éditeurs de services en ligne garantissent la "confidentialité" des données de leurs clients, mais de fait, si elles ne sont pas cryptées de bout en bout, elles ne sont pas réellement confidentielles. Il serait intéressant à cet égard de savoir si ROSS crypte les données de ses clients
  • sa dépendance à la "data"
  • le poids du passé (même s’il pourra certainement intégrer les projets de loi), car la donnée c’est du passé
  • sa dépendance aux personnes qui "l’entraînent" (machine learning supervisé)
  • son degré d’acceptation par la société, encore limité (cf la dernière partie de ce billet). Toutefois, si l’on s’en tient à l’histoire récente des innovations, les systèmes de machine learning en droit finiront, selon toute probabilité, par être assez rapidement acceptés par les consommateurs de droit. Les professionnels du droit risquent donc, à long terme, de devoir suivre
  • à court et moyen terme, le délai d’implémentation en droit français. ROSS ne pourra pas être implémenté en droit français avant un minimum de sept ans. Explication. En son état actuel limité au droit américain des faillites, ROSS aurait été développé en trois ans à partir de Watson. Compte tenu des spécificités du droit français (pas de la common law ... mais pas un véritable problème [23]), de la (relativement) petite taille du marché français du droit, de l’absence pour l’instant de disponibilité en accès libre [24] des décisions de justice judiciaire de première instance [25] avant des années malgré la loi Lemaire pour une République numérique [26], de la nécessité d’un partenariat entre un éditeur juridique et un éditeur de système de machine learning [27], cela devrait prendre au minimum sept ans et peut-être plus. La com’ des légal tech et particulièrement d’IBM sur les performances de leurs logiciels dépasse quelque peu la réalité et envahit même la presse économique et généraliste.

Predictice, Case Law Analytics, Supra Legem : calculer les chances de gagner un procès avec le machine learning

Côté justice prédictive, pour le moment, on n’en est en réalité qu’à l’analyse fine (par chambre, par juge, des montants des dommages-intérêts ou de quel type de camp a gagné) de la jurisprudence disponible et à la recherche en langage naturel sur celle-ci. C’est le sens (mesuré) du billet du professeur Dondero cité en introduction. Pour autant, un de mes collègues estime que le Machine learning en droit a beaucoup d’avenir.

Ils prédisent vos chances de gagner une action judiciaire (sur Predictice et Case Law Analytics) (Le Parisien 8 octobre 2016). Predictice : grâce aux algorithmes, cette startup est capable de prédire l’issue d’une action en justice et d’optimiser les stratégies contentieuses des avocats (OVH News 7 juillet 2016). Des prétentions un peu exagérées si l’on lit bien les deux documents et qu’on regarde la copie écran chez OVH News. Comme le montre l’article plus réaliste de Libération du 23 février (Justice prédictive, l’augure des procédures), il s’agit en fait essentiellement de lister le type de partie vainqueur et donc d’une certaine façon de donner un pourcentage de chance de remporter un procès sur un type de contentieux, et de déterminer les montants de dommages-intérêts alloués selon la cour d’appel [28].

Sur Case Law Analytics : Un outil pour mieux évaluer le risque juridique, lettre Emergences n° 41, 19 mai 2016. Il s’agit en fait ici d’une évaluation probabiliste des dommages-intérêts. Il y a, chose rare parmi toutes ces applications de machine learning, une version, gratuite et très limitée, de démonstration pour Iphone et Ipad. Elle permet d’évaluer une fourchette pour le montant de la pension alimentaire avec les probabilités associées.

C’est quelque chose que l’éditeur juridique Francis Lefebvre avait déjà approché avec son produit Jurisprudence chiffrée fondé sur les faits et chiffres présents dans les arrêts de cour d’appel de la base JuriCA. Jurisprudence chiffrée trouve depuis 2010 des arrêts de cour d’appel correspondants aux critères exacts donnés et le montant des dommages-intérêts. Par exemple, à partir de la profession et l’ancienneté, Jurisprudence chiffrée donne le montant des dommages-intérêts pour licenciement sans cause réelle et sérieuse [29].

Seule soi-disante "IA" à proposer une démo grandeur nature, qui plus est gratuite, Supra Legem, développée par le fiscaliste, programmeur et data scientist Michael Benesty, aide à améliorer la pertinence et la rapidité des recherches, identifier un revirement de jurisprudence, identifier les moyens de l’administration qui n’ont pas fonctionné, identifier des tendances de certaines chambres, voire prédire des revirements de jurisprudence du Conseil d’Etat [30].

Pourquoi une montée des "IA" en droit ?

Une des raisons de la probable montée de ces systèmes : les économies réalisées. C’est, avec la rapidité, LE motif mis en avant par le managing partner d’une "small law firm" spécialisée en droit américain des faillites, le domaine de ROSS.

Or la Justice a justement un problème budgétaire criant, reconnu par Jean-Jacques Urvoas, le ministre de la Justice lui-même ... [31] Une tribune iconoclaste aux Echos, rédigée par des non juristes (évidemment ...), propose d’ailleurs de confier la justice française à l’intelligence artificielle [32].

Impact prévisible des "IA" sur les stagiaires, paralegal et documentalistes juridiques ?

Ces outils auront aussi un impact sur la recherche — et donc la veille — documentaire juridique : les tâches répétitives et "découpables" en petits morceaux seront robotisées, les autres ne le seront pas. Par exemple, ROSS réalise la recherche booléenne et la première analyse des résultats. Selon les termes d’Andrew Arruda [33] (traduction par nos soins) :

« La technologie AI de ROSS remplace le besoin d’utiliser les opérateurs et mots-clés de la recherche booléenneed par du langage ordinaire. Si un juriste d’affaires a besoin de connaître la différence entre les deux concepts juridiques "loss" et "recoupment", tout ce dont le juriste a besoin est de demander à ROSS : "Quelle est la différence entre "loss" et "recoupment" ?
Le résultat fourni par le système va au-delà de la simple identification des arrêts pertinents. Au lieu de cela, il attire l’attention du juriste sur les passages clés dans l’affaire qui devrait répondre idéalement à la question posée.
Quand vous posez une question à ROSS sur l’état du droit, vous la posez comme vous le feriez avec un collègue humain. ROSS découpe la phrase pour déterminer le sens de la question, puis conduit la recherche. »

Autrement dit, ROSS reste un moteur de recherche (nettement) amélioré. Ce n’est pas une véritable IA. Il ne menace guère que la fonction recherche — et encore : lisez ce qui suit.

Autrement dit encore, si on se projette dans environ sept ans [34], plus le travail du documentaliste juridique français procédera, comme le dit Jean Gasnault (La Loi des Ours), « d’heuristiques pointues pratiquant pour partie un mode intuitif (opérer par rapprochements semi conscients) », et j’ajouterais : plus il aura une conscience d’artisan et d’expert de haut vol (notamment dans la maîtrise des sources méconnues ou mal indexées [35]), moins au final il aura de chances d’être automatisé. Mais aussi : plus il travaillera *avec* l’IA.

Pour les postes de paralegal orienté recherches et veille (par exemple, les spécialistes de la recherche, de la veille et de l’enregistrement des brevets) et pour les jeunes collaborateurs (qui font aux Etats-Unis énormément de recherches, ce qui correspond en France aux stagiaires), une étude d’Altman Weill datant de 2015 est pessimiste [36]. La brève précitée de la Lettre de l’Expansion est encore plus explicite : « Watson [...] est réputé pour son rôle dans la destruction d’emplois ». Pour les autres paralegals, le risque à court terme, surtout en France, est faible mais à long terme, leurs tâches découpables seront probablement automatisées.

Toutefois, le Conseil d’orientation pour l’emploi (COE) dans un rapport publié le 12 janvier 2017, moins de 10% des emplois sont "très exposés" aux mutations technologiques et présentent donc le risque d’être supprimés, mais près de la moitié devront évoluer [37]. Les emplois supra ne sont pas dans la liste des 10% du COE.

IA en droit et science-fiction ou les risques de la justice prédictive

Et si on en arrivait là où Google semble être arrivé du fait de l’intégration de machine learning dans ses algorithmes (ses ingénieurs ne savent plus totalement en détail comment leur moteur fonctionne : en tout cas, c’est ce que dit un scientifique chez un rival, Qwant [38]) ? En arriverait-on à ce que ROSS n’est pas — en tout cas pas encore —, c’est-à-dire une véritable intelligence artificielle ?

Les risques :

  • on ne saurait ni qui exactement nous juge ni pourquoi on nous condamne
  • et "power to the machine". On ferait plus confiance à l’algorithme qu’à l’humain, dans une époque méfiante vis-à-vis de la Justice. La situation et ce risque sont assez bien décrits dans une brève intervention sur France Inter.

La science-fiction a déjà envisagé ces risques (nous ne parlerons pas ici des lois de la robotique d’Asimov, non pertinentes ici et de toute façon déjà dépassées [39]) :

  • le tome 3 de la bande dessinée SOS Bonheur, un classique du genre publié en 1989 [40] parle de justice automatisée : chaque avocat soumet ses conclusions dans une machine et la machine rend son verdict, le juge n’est là que pour contrôler le bon fonctionnement de cette dernière. Ainsi la justice est aveugle et équitable puisqu’elle est censée rendre le même verdict pour tous ceux qui sont dans la même situation sur tout le territoire. Jusqu’au jour où la machine condamne un homme qui a commis un délit mineur à la peine de mort alors que cette dernière a été abolie il y a déjà de nombreuses années. Peut-on désobéir à la machine au risque de remettre en cause tous les autres jugements déjà rendus ?
  • nous avons (presque) tous vu le film Minority report de Steven Spielberg avec Tom Cruise (d’après la nouvelle éponyme de Philip K. Dick). Même si ce sont des êtres humains spéciaux (des"precogs") qui y tiennent le rôle des logiciels et des données et statistiques, le sens en est clair :
    • les programmes sont écrits par des êtres humains, dans l’intérêt de certains
    • et comme tels seront toujours biaisés. Particulièrement si l’information qui y est entrée est biaisée. Illustrations récentes aux USA avec les programmes prédictifs de la police. Antoine Garapon évoque lui aussi ce risque. Pour une vue plus large et un point sur les principaux programmes en cours.

Si le machine learning finit, ce qui est probable selon nous (cf supra), par être utilisé par le juge, il est à espérer que les conclusions d’Antoine Garapon et Marc Clément (dans les articles de revues juridiques cités au début de ce billet) s’imposeront :

Eviter le risque de « l’effet "moutonnier" de la justice prédictive qui pousse au conformisme et réclame plus aux juges qui estiment qu’ils doivent aller à contre-courant, c’est-à-dire faire leur métier tout simplement ! »

« Il sera donc capital que les modes de raisonnement inscrits dans les algorithmes soient parfaitement explicites et maîtrisés par le juge. Il conviendra, de plus, que des méthodes alternatives soient proposées et que l’on ne se retrouve pas en situation de monopole avec une seule technologie utilisable. »

Concernant la justice prédictive, Rubin Sfadj souligne que lorsque les outils de justice prédictive seront utilisés par la puissance publique, cet usage devrait reposer sur trois grands principes éthiques — qui, à bien les lire, ne sont pas si exigeants que ça :

  • le principe de responsabilité conduisant à désigner pour chaque algorithme utilisé une personne référente, à l’instar du directeur de publication en droit de la presse
  • le principe de clarté, c’est-à-dire la mention explicite dans une décision de justice élaborée avec l’aide d’un algorithme de ce procédé et la motivation sur laquelle repose le recours à ce type d’outil
  • le principe de précision permettant de corriger une source d’erreur à tout stade du traitement algorithmique.

Certains vont plus loin, en proposant voire exigeant que le code des applications sur lesquelles se fonde une décision de justice soit disponible en open source. Celui de Supra Legem l’est déjà [41].

Un article de la série Fururography sure Slate.com, propose une troisième voie entre secret et open source. Un amendement à loi fédérale américaine FOIA (Freedom Of Information Act [42]) donnerait le droit au public de soumettre des jeux de données tests à l’administration. Celle-ci devrait les passer à travers ses programmes et publier les résultats. Experts et journalistes pourraeint alors calculer le taux d’erreur de ces algorithmes [43].

En France, notre droit permet en tout cas de demander communication du code source des logiciels créés et utilisés par l’Administration, au titre de la communication des documents administratifs. La Commission d’accès au documents administratifs (CADA) [44] puis le tribunal administratif (TA) de Paris [45] l’ont confirmé à propos du logiciel simulant le calcul de l’impôt sur les revenus des personnes physiques. La DGFiP s’est résolu à s’y conformer l’an dernier, juste avant que le TA ne rende sa décision. La CADA a enfoncé le clou en 2016 en autorisant la communication à une association de lycéens du code source du logiciel Admission post bac (APB) [46]. Le Ministère de l’Education nationale s’y est conformé partiellement [47].

Du côté des structures privées, les meilleures n’auront-elles pas intérêt à maintenir une expertise en recherche et veille afin de contrôler la pertinence des réponses (car un mémo fourni par ROSS serait bel et bien au minimum une amorce de réponse) ?

ROSS, Predictice, Case Law Analytics, des inconnus

Mais pour éviter de trop conjecturer et en apprendre plus, il serait bien de pouvoir tester ces IA. Et de lire autre chose que des communiqués à peine dissimulés.

En effet, il n’existe aucune démo gratuite en accès libre de ROSS ni de Predictice, le site web du produit ROSS est d’un vide intersidéral (le compte Twitter est beaucoup plus riche !) et les cabinets d’avocats utilisateurs ne lâchent aucun exemple d’utilisation ni de recherche ni aucun autre détail.

Emmanuel Barthe
bibliothécaire documentaliste et veilleur juridique, spécialiste des moteurs de recherche pour le droit et des données juridiques publiques
licence en droit, Faculté de droit de Sceaux


Une "webliographie" sélective et rapide sur ROSS :


Any Yahoo Pipes true substitute out there ?

Tools for RSS feed merging and filtering

Mercredi 30 novembre 2016

Lire la suite »

Pipe dreams by darwin Bell

The loss of Yahoo Pipes in August 2015 [48] was a major blow to the monitoring/research community and also web site authors looking for selected content. Its ability to combine and filter multiple RSS feeds into one feed was unique among free hosted services.

This post will focus on how we could replace Yahoo Pipes for these functions [49]. We will not deal here with the web page scraping Pipes was able to do too [50].

So I went looking for substitutes which could merge and filter feeds. I mean, real ones : as simple as Pipes. For instance, they shall have a graphic user interface (GUI) ; coding shouldn’t be necessary. The only difficulty allowed should be the use of regular expressions (Regex).

Free hosted substitutes

  • FeedCombine, RSSMix, FeedRinse or ChimpFeedr (to merge feeds into one feed) then FeedSifter or FeedRinse (to filter the mega-feed) can answer simple needs.
    FeedRinse can do more, as it accepts Regex but it can’t merge more than 5 feeds, is slow and bugs according to La Bibliothèque du CHUM’s test.
    FeedCombine cannot combine more than 5 feeds, say Anik Dumont-Bissonnette.
    ChimpFeedr is very simple at "chomping" (as their web site says) feeds.
    RSSMix, according to the same test, works perfectly, merging up to 100 feeds
  • Feed Informer combines and filters feeds, but filtering can only be done using AND or OR operators
  • IFTTT doesn’t seem to do exactly that : merging and filtering RSS feeds into one feed. Which is not to say it does not have its (numerous) advantages in the field of monitoring services.

Paid hosted substitutes

Self-hosted solutions (need coding skills)

In the sources listed below, I found other free or paid total or partial replacements — but you have to host them on your own server and/or they’re far too complicated for the average information professional :

  • Tiny Tiny RSS (TT-RSS) is an RSS reader with very interesting RSS feeds filtering features (open source)
  • Huginn by cantino (open source on GitHub). According to a MakeUseOf article, « this is the most popular of all the GitHub solutions mentioned, and has a huge, active support community behind it. It’s well documented and easy to use »
  • WebHookit, based on Node.js and mongoDB (open source)
  • Pypes (open source on GitHub), a Python application
  • Rss Percolator (open source on GitHub). Downloads, aggregates and filters RSS feeds
  • ClickScripts (open source on GitHub)
  • Bipio (open source). See the Getting started page (developer documentation) for a quick presentation. Bipio is a graph pipelining API talking RESTful JSON
  • Neddick (open source on GitHub).
  • pipe2py (open source on GitHub). You need to backup your YP pipes before. It uses JSON and the Google App Engine
  • Pipes2js (open source on GitHub)
  • Superpipes (open source), to be hosted on a Debian server
  • open source edition of MuleSoft’s Anypoint Studio
  • Quadrigram seems too graphics-oriented to me (apparently free).

NB : the first four services are recommended [55] by Serge Courrier, a French consultant specialising in RSS readers and the use of RSS feeds for monitoring web sites [56].

Walled gardens

RSS is important to information professionals and, as we’ve seen, much used by people whose job is to monitor web resources. But this does not prevent RSS implementation from receding. If you look into the list of applications which can be connected by IFTTT, you will find that RSS is just one among more than a hundred of mostly proprietary ones ... Walled gardens again.

Did I miss something ? Do you know about any simple tool that could replace the "RSS mashup" function of Yahoo Pipes ? I’m interested in free as well as paid for services.

Emmanuel Barthe
law librarian researcher, open law specialist and monitoring solutions specialist


Sources for this article

Here are the links I found to some articles/blog posts and a number of forum discussions about Yahoo Pipes substitutes :

This article was written with the the help of Serge Courrier.


Legifrance et les autres n’ont pas de fil RSS ? Gênant mais contournable

Créer un flux RSS pour un site web qui n’en possède pas

Les services de création de fils RSS recommandés

Mercredi 30 novembre 2016

Lire la suite »

Les sites juridiques officiels et le RSS

Certains (doit on dire beaucoup ?) se plaignent que ne figurent toujours pas de flux RSS (je peux les comprendre !) sur beaucoup de sites publics — et non des moindres, comme Legifrance (à part le sommaire par e-mail du JORF, mais l’e-mail est hors concours dans cet article :-) [57] ou les sites des Bulletins officiels.

Seuls les sites éloignés de France ou au minimum de son administration semblent avoir plus de liberté pour créer des fonctions de veille. Exemples :

On a plus généralement l’impression que les sites publics ont interdiction de créer des fonctionnalités de veille — même basiques comme les alertes e-mail, les newsletters et les fil RSS [58]. Alors que le grand public et les associations — et pas seulement les professionnels — en ont besoin. Et la diffusion du droit ne s’en porterait pas plus mal ...

Pour les plus pressés et ceux que la technique effraie, ils peuvent récupérer des fils déjà créés grâce aux services précités. Mais ils sont très rares. Un exemple : les circulaires, un service créé par Guillaume Adréani, ex-responsable de la documentation du Défenseur des droits, grâce au service Feed43 : circulaire.legifrance.gouv.fr (ce flux fonctionne très bien).

Certains services en ligne permettent de contourner ce manque : ce sont des services de création de fils RSS. Ils créent des flux RSS à partir de quasiment n’importe quelle page web.

Les services de création de fils RSS recommandés

Voici les services de création de fils RSS recommandés et utilisés par la communauté des veilleurs français :

- gratuits (plus ou moins) :

  • Feed43, un service assez technique mais puissant : expressions régulières acceptées, création d’un nombre illimité de flux, avec une mise à jour toutes les six heures. Version payante avec mise à jour toutes les heures
  • Fivefilters Feed Creator : limité à 10 résultats par fil. On peut acheter le logiciel pour l’installer sur son propre serveur à partir de 20 euros
  • Deltafeed. Une version gratuite limitée à 15 fils et des versions payantes. Deltafeed est le travail d’un développeur Allemand
  • Queryfeed : très simple d’utilisation, il offre un grand nombre d’opérateurs et de champs. Malgré ce nom très américain, le développeur de Queryfeed est russe
  • dernier arrivé : Exileed permet de créer des fils RSS pour les seuls réseaux sociaux suivants : Vkontakte (le développeur d’Exileed est lui aussi russe), Google+, Twitter, Instagram, Facebook, Youtube, Tumblr et d’autres

- payants, plus "industriels", avec essai gratuit [59] :

  • Feed43 : voir supra. Je le classe ici aussi, vu la puissance de ses fonctionnalités
  • Feedity : des références prestigieuses. La version gratuite de Feedity est très limitée, le rafraichissement ne se fait qu’une fois par jour, ne ramène que les 5 dernières actus par jour et surtout, le fil se désactive s’il n’y a rien eu de neuf depuis 7 jours sur la page [60]. C’est généralement insuffisant. C’est pourquoi je l’ai listé dans les services payants
  • FetchRSS (ajouté, cf les commentaires infra) : la version gratuite étant très limitée [61], c’est fondamentalement un service payant. Très simple d’utilisation, il offre en option un délimiteur (pour créer un fil RSS ne fonctionnant qu’à partir des modifications d’une partie de la page suivie) et gère les grands réseaux sociaux : Facebook, Twitter, YouTube, SoundCloud, Instagram et les deux grands sites marchands que sont Amazon et eBay
  • FeedsAPI.com.

Attention, les grands réseaux sociaux suppriment leurs fils RSS natifs, il faut donc passer par les solutions alternatives recommandées par la communauté :

A noter (mais assez complexe à mettre en oeuvre) : il est possible de créer un fil RSS à partir des résultats d’un Google Search Engine (GSE). Voir l’article Créer des flux RSS sur Google Search via Google Custom Search Engine (mai 2016) rédigé par des étudiants du Master Intelligence Economique et Stratégies Compétitives de l’Université d’Angers.

Pour trouver de nouveaux services de création de fils RSS

Des pistes pour trouver d’autres services de création de flux RSS :

  • consultez la slide très élaborée publiée par Serge Courrier sur son Slideshare : Schéma d’une plateforme de veille "modulaire" 100% RSS (màj 24 novembre 2016)
  • suivez le Scoopit dédié au RSS de S. Courrier RSS Circus : les agrégateurs/lecteurs de flux [62], le RSS va t-il mourir (il n’est pas près de décéder en réalité), les services de création de fils RSS etc.
  • ou cherchez avec la requête web page to OR create OR generator RSS dans un moteur comme Exalead, Google ou Bing. Exemple avec Google : web page to OR create OR generator RSS.

Une page de Bryan Coder, veilleur professionnel et formateur, tient à jour une liste de presque tous les services qui fonctionnent bien à l’heure actuel : Tout ce qu’il faut savoir pour obtenir des flux RSS sur le web 2.0.

Et pour votre veille sur le RSS, abonnez vous :

Ok, j’ai un fil RSS. Maintenant, j’en fais quoi ?

Après, on colle l’adresse du flux RSS créé au bon endroit dans son lecteur/agrégateur de flux RSS comme The Old Reader (gratuit jusqu’à 100 fils), Feedly, Inoreader (payant mais le meilleur lecteur RSS en termes de fonctionnalités à l’heure actuelle) ou Netvibes (gratuit, fonctions avancées payantes) et le tour est joué.

Notez qu’on peut, avec certains outil filtrer par mots-clés les fils RSS reçus avant de les renvoyer, toujours en RSS. Voir à cet égard :

Et si vraiment on veut du mail in fine, on passe par un service "RSS to Mail" :

Tout ça est un peu compliqué, certes, mais nécessité fait loi. Et puis, on n’a plus tellement le choix : si un bibliothécaire/documentaliste/veilleur/chercheur n’est pas un geek aujourd’hui, quel peut être son avenir professionnel à long terme ?

Emmanuel Barthe
bibliothécaire documentaliste et veilleur juridique


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 29

Dernières brèves