Actualités : derniers articles

Chercher du droit avec Google : un guide rapide et facile ... avec maître Yoda

10 règles à connaître pour les apprentis Jedi de la recherche juridique

Samedi 17 février 2018

— Aujourd’hui nous recevons Maître Eolas ... Pardon , c’est Maître Mô ... Ah non finalement ce sera Maître Yoda pour nous apprendre à maîtriser la force de Google ;-) dans les recherches juridiques.
Maître Yoda, c’est à vous.

— Merci, jeune padawan.
La règle zéro, d’abord tu maîtriseras.

0. A tes mots-clés, au moins 30 secondes, tu réfléchiras

Comment c’est écrit dans les documents que tu cherches, tu essaieras de deviner. Le vocabulaire de ce que tu veux trouver, tu imiteras.

Exemple : si des commentaires rédigés par des juristes tu cherches, tu taperas : formation contrat de travail à durée déterminée. Et non pas : comment conclure un CDD.

Exemple : si juste une synthèse pratique des règles du contrat de travail à durée déterminée (CDD) pour Monsieur ou Madame Tout le monde tu cherches, simplement tu taperas : CDD.


1. Pour mot-clé, l’expression juridique à la fois la plus pertinente et la plus "tarte à la crème" (la plus classique) tu emploieras

Exemple : responsabilité du dirigeant.
Pas : responsabilité PDG (plus précis mais pas assez "tarte à la crème" en droit français). Bien sûr, si la responsabilité du président de SAS tu cherches, responsabilité du président de SAS tu taperas.

Exemple : modification de la situation juridique de l’employeur.
Pas : changement d’employeur. Sauf si un particulier tu es et que des documents parlant ton langage tu veux.

Exemple : si tu cherches si un dirigeant peut se faire accompagner au comité d’entreprise par trois collaborateurs et non deux comme écrit dans le Code du travail, tu écriras : comité d’entreprise employeur trois collaborateurs. Et non : deux collaborateurs. Car c’est l’expression dominante sur le Web dans ce contexte (du fait que l’essentiel des documents se contentent de répéter le Code du travail) et les résultats de Google cela influence [1].

2. Plus de trois mots-clés tu taperas

Si une question précise tu as, en entier tape la. Les résultats eux aussi plus précis seront.

3. Par les suggestions de Google, influencer tu ne te laisseras pas

Dans une recherche basique, aux particuliers, les expressions suggérées par Google utiles peuvent être. Aux juristes, pas vraiment.

4. Si des résultats à côté de la plaque Google te renvoie, le mode Mot à mot tu utiliseras

La majeure partie des "interprétations" des questions par Google Mot à mot désactive. Pour y accéder, sous la zone de saisie, à droite, sur Outils, puis Tous les résultats puis Mot à mot, cliquer il faut. Pour que Mot à mot sur smartphone disponible soit, activer la version ordinateur des pages il faut.

5. Le filetype:pdf presque toujours tu tenteras

A la fin de ta question filetype:pdf tu ajouteras. Histoire de voir si des articles de niveau universitaire et des rapports officiels ça ne ramène pas. Autrement dit : du contenu fiable et de qualité, pas le côté obscur de l’Internet.

6. Google Books tu consulteras

Très très précieux, ça, jeune apprenti. Même si les ouvrages ne sont pas disponibles en entier, sur une question précise les paragraphes visibles sont souvent suffisant.

7. Jusqu’à au moins le 30e résultat toujours tu iras

Voire le 100e résultat. Si, si !

Statistiquement, si tes mots-clés tu as bien choisis et si les filtres et opérateurs de Google tu as bien utilisés, les bons résultats ont 90% de chances de se situer dans les 10 premiers résultats. Mais 9% de se situer entre le 11e et le 30e. Et 1% entre le 30e et le 100e [2].

8. A interroger Google Scholar tu penseras

Surtout si le droit international public, le droit comparé, les libertés publiques, les droits de l’Homme ou le droit de l’Internet tu pratiques [3]

9. (pour les experts) Les opérateurs et les guillemets avec modération tu emploieras

Car la synonymie automatique de Google cela désactive.

Exemple : "modification de la situation juridique de l’employeur" OR "transfert du contrat de travail" OR 122-12 OR 1224-1 le coup vaut, car très efficacement sur les résultats cette formulation juridique influe.

Mais "émission de télévision" "responsabilité civile", bien moins intéressant est par rapport à émission de télévision responsabilité civile.

10. (pour les étudiants en droit et les particuliers) De Google seul rarement tu te contenteras

Un livre de base, une base de données, une plateforme de revues universitaires (Cairn, voire OpenEdition Journals, ex-Revues.org) ou un avocat tu consulteras. Moins cher qu’un 4/20 en contrôle continu ou qu’un procès perdu cela te coûtera.

— Mais Maître, vous avez triché. Vous avez donné 11 enseignements et non 10 !

— C’était pour voir si attentif tu étais !


Les robots, avocats et juges de demain ? Pas vraiment ...

Intelligence artificielle en droit : derrière la "hype", la réalité

Justice prédictive, legal tech, Ross, Westlaw, Lexis, Supra Legem, Minority report, machine learning, réseaux neuronaux, NLP, Big data etc.

Vendredi 16 février 2018

Legal tech, justice prédictive et plus encore "intelligence artificielle" (IA) en droit sont devenus des sujets à la mode depuis 2015-2016.

Mais discours marketing et flou sur les performances sont légion dans ces informations — qui ressemblent souvent plus à de la communication qu’à de l’information.

De qui et de quoi parle t-on exactement : quelles sociétés, quelles fonctions, quelles technologies ?
Quels sont les véritables risques pour l’emploi des professionnels du droit (avocats, stagiaires, juristes d’entreprise, magistrats, notaires) et de leurs "paralegals", documentalistes et veilleurs ?
Quels sont, également, les risques de la justice prédictive ?

C’est le sujet de ce billet, qui vise à démystifier les fonctionnalités et performances des applications présentées comme des "IA" (intelligence artificielle) en droit, tant pour le présent que pour le futur. Il s’appuie sur la lecture d’une bonne partie de la littérature disponible et sur des discussions personnelles avec certains acteurs.

Executive summary (TL ;DR)

En quelques paragraphes pour ceux qui sont pressés :

  • l’intelligence artificielle est d’abord un champ de recherche et les réalisations dignes de ce nom en droit sont rares. Le reste, c’est soit de l’informatique "à la papa" soit des logiciels experts
  • techniquement, l’IA en droit se caractérise par l’utilisation combinée :
    • du Big data
    • du machine learning (ML)
    • et surtout du traitement du langage naturel (TAL) — en anglais "natural language processing" (NLP) — plus précisément une version du NLP dopée par le ML et l’analyse syntaxique. Ce qui signifie que les soi-disant "intelligences artificielles" en droit sont en fait des moteurs de recherche de nouvelle génération et des systèmes d’aide à la décision. Pas des cerveaux juridiques
  • la valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements se font en open source. Autrement dit, les données comptent plus que les logiciels. Cela devrait permettre aux éditeurs juridiques français traditionnels, actuellement à la traîne, de revenir dans la course car c’est eux qui détiennent les données les plus riches en droit français, tout particulièrement la doctrine
  • si on a beaucoup parlé de Ross, l’IA d’IBM, c’est d’abord grâce à une offensive marketing et communicationnelle de première ampleur. Mais ses performances réelles sont en deçà de sa réputation. Elle ne fait que de la recherche et de l’analyse sur la jurisprudence de droit américain des faillites ou de la propriété intellectuelle
  • à plus faible dose mais régulièrement depuis une dizaine d’années, Westlaw et Lexis Advance intègrent des petits bouts d’IA, essentiellement du NLP pour améliorer la pertinence des recherches par une sorte de synonymie et de désambiguisation améliorées, mais aussi, depuis peu, des statistiques par juge ou avocat
  • en droit français à l’heure actuelle, seuls trois systèmes peuvent prétendre à être qualifiés d’IA : Supra Legem, qui se limite au droit administratif, Predictice et Case Law Analytics. Tous ne travaillent que sur la jurisprudence, à l’exclusion du contentieux pénal. On peut à la limite ajouter le pionnier Jurisprudence chiffrée de Francis Lefebvre, qui travaillait déjà sur le langage naturel en 2010. Leur apport : une recherche facilitée, et le calcul du montant prévisible des dommages-intérêts et des chances de gagner un procès. Cet apport ne suffit pas, à l’heure actuelle, à convaincre les magistrats, qui disposent d’outils internes mieux adaptés (barèmes), mais suscite l’intérêt de certains cabinets d’avocats
  • les risques de suppression nette d’emplois dans le secteur juridique sont un sujet de débat mais il demeure que les tâches simples et "découpables" seront automatisées et que les collaborateurs, les "paralegals" et les documentalistes juridiques devront apprendre à travailler avec l’IA (et non à côté d’elle), autrement dit à l’utiliser et l’améliorer. Quant à l’IA connectée au cerveau, on en est très loin
  • la justice dite prédictive entraînerait de sérieux risques, au premier plan desquels le jugement sur des critères obscurs et le conformisme des juges à ce qui a déjà été jugé. Des limites légales existent déjà et des parades techniques sont proposées, notamment l’open source du code ou des tests de vérification à partir de jeux de données. Elle aurait pour avantage de faciliter le calcul des chances de gagner ou perdre un contentieux.

Sommaire

Un sujet très tendance

Début janvier 2017, Les Echos publient un article au titre provocateur : Les robots seront-ils vraiment les avocats de demain ?

En fait, ses auteurs, Pierre Aidan, cofondateur de Legalstart.fr [4] et Florence Gsell, professeur de droit à l’université de Lorraine, réagissent, dans le but de rassurer les professions judiciaires, à un autre article.

Ce dernier, beaucoup plus provocateur sur le fond, a été publié en octobre 2016 à la Harvard Business Review, par le célèbre consultant en informatique juridique britannnique Richard Susskind et son fils Daniel, économiste : Technology Will Replace Many Doctors, Lawyers, and Other Professionals (Les nouvelles technologies remplaceront beaucoup de médecins, juristes et autres professionnels libéraux). Cet article est en fait un résumé du dernier ouvrage des Susskind publié en octobre 2015 : The Future of the Professions : How Technology Will Transform the Work of Human Experts (Le futur des professions libérales : comment les nouvelles technologies vont transformer le travail des experts humains, Oxford University Press, OUP) [5]. Quant au consultant américain Jaap Bosman, son ouvrage Death of a law firm (Mort d’un cabinet d’avocats) prédit la fin du "business model" actuel des cabinets d’avocats en soulevant la question épineuse de la standardisation du service juridique grâce à l’intelligence artificielle (IA) [6].

Et en novembre 2016, la journaliste britannique Joanna Goodman [7] publie Robots in Law : How Artificial Intelligence is Transforming Legal Services (Les robots juridiques : comment l’intelligence artificielle transforme les services juridiques, Ark Group) [8].

Toujours début janvier 2017, la Semaine juridique publie, elle, une étude d’Antoine Garapon, magistrat, secrétaire général de l’Institut des hautes études sur la Justice (IHEJ) et spécialiste reconnu des questions de justice, intitulée « Les enjeux de la justice prédictive » [9]. Et pour ne pas être en reste, le Recueil Dalloz s’empare aussi du sujet avec une tribune de Marc Clément, Premier conseiller à la cour administrative d’appel de Lyon [10]. C’est la newsletter Dalloz Actualité qui a publié peut-être le meilleur article sur le sujet : L’intelligence artificielle va provoquer une mutation profonde de la profession d’avocat, par Caroline Fleuriot, 14 mars 2017. Le seul reproche que je ferais à cet article est de reprendre, sans recul, des phrases chocs, excessives, destinées à impressionner ou à faire peur [11].

La revue Expertises, enfin, publie une interview de Rubin Sfadj, avocat aux barreaux de Marseille et New York et grand blogueur et twitto devant l’Eternel. Interview portant sur l’IA juridique [12] et plus concrète et plus claire — plus tranchée, peut-on dire — que les deux articles précédents.

Depuis les premiers succès commerciaux de Ross, l’application au droit des faillites ou de la propriété intellectuelle américain du système de machine learning Watson développé par IBM, l’intelligence artificielle (IA) en droit est devenue tendance [13]. On parle beaucoup aussi de justice prédictive.

A lire aussi :

On peut rapprocher ces publications d’une note de McKinsey qui vient de paraître sur le futur du travail [14]. Elle prévoit dans le monde entier une automatisation croissante des tâches, pouvant supprimer 5% des emplois actuels et en modifier beaucoup plus.

De quoi parle t-on exactement ? Ou comment définir les legal tech et l’IA en droit aujourd’hui

Les différents types de technologies utilisés en "IA"

Les différents types de technologies utilisés en "IA" (NB : pas de robotique en droit et la "vision" est en fait du machine learning)

Pour comprendre où en est l’intelligence artificielle en droit, il faut savoir de quoi on parle. Et pour savoir de quoi on parle, il faut bien commencer par des catégories et des définitions. Le premier stade de ce travail de définition et de catégorisation, c’est celui des technologies utilisées et les entreprises impliquées.

Il y a donc des technologies, qu’il faut distinguer les unes des autres, et derrière ces technologies, il y a des applications (des logiciels, si vous préférez) et leurs développeurs, grosses sociétés de l’informatique et de l’Internet ou start-ups, l’ensemble des sociétés travaillant sur l’application des toutes dernières technologies informatiques au droit étant communément appelé les "legal tech" [15]. Les entreprises et les produits d’IA en droit sont un sous-ensemble des legal tech. Pour autant, il faut bien distinguer l’IA de l’ensemble des legal tech.

Que font ces legal tech ? Je reprend ici la liste très complète de Benoît Charpentier développée dans son article précité. Elles « proposent de très nombreux services et produits, comme :

  • le calcul de probabilité concernant les décisions de justice [ça, c’est de l’IA. De l’IA (très) faible, mis de l’IA. Voir plus loin pour les explications]
  • le financement de contentieux (third-party litigation funding)
  • les plateformes d’actions collectives
  • la génération automatisée de documents juridiques dynamiques [ici aussi, il peut y avoir de l’IA (très) faible]
  • le déploiement de systèmes intelligents ou d’intelligence artificielle (fondés par exemple sur le machine learning, notamment ses variantes natural language processing et deep learning)
  • les plateformes de mise en relation avec des professionnels du droit
  • les solutions cloud
  • l’édition de logiciels spécialisés
  • la résolution de litiges non contentieux en ligne
  • les procédures d’arbitrage en ligne
  • les procédures de divorce en ligne
  • la signature électronique
  • la certification de documents (par exemple grâce à la technologie blockchain)
  • la réalisation de formalités et de dépôts en ligne (mise en demeure, acte introductif d’instance)
  • la visualisation de données complexes issues du Big Data
  • la programmation de contrats intelligents (smart contracts)
  • la mise en oeuvre d’outils collaboratifs
  • la revue de documents assistée par la technologie (Technology Assisted Review (TAR))
  • les outils de conformité
  • les outils de calculs fiscaux
  • les outils de gestion de contrats (contract management)
  • les outils de recherche juridique [là aussi, il peut y avoir de l’IA. Toujours (très) faible] ».

Une autre classification, plus resserrée mais moins évocatrice, est disponible sur l’article de Case.One (une de ces legal tech) LegalTech 2018 : où allons-nous ? (janvier 2018) :

  • information juridique
  • rédaction d’actes
  • litiges en ligne
  • mise en relation [avec des avocats]
  • outils métier [pour avocats ou juristes d’entreprise].
  • IA/machine learning/justice prédictive.

Qui sont ces legal tech ? Il existe une liste gratuite, fiable et quasi-exhaustive des legal techs françaises ou implantées en France (PDF), celle de Benoît Charpentier. Elle date de début 2017. Pour une liste mondiale, voir [16] :

A mon goût, beaucoup de ces initiatives sont certes "legal" mais leur degré d’innovation en "tech" est faible : par exemple, simple mise en ligne de formulaires ou intermédiation entre avocats et prospects. Alors voici une liste personnelle de legal tech françaises (ou plutôt présentes en France), non triée, forcément incomplète mais tendant à se focaliser sur l’innovation technologique (notamment machine learning, big data, analytics ...) :

A noter, car très souvent citée par les articles présents sur le Net mais non présente en France : DoNotPay conteste les PV de stationnement en justice sans avocat et avec un taux de succès important.

Attention : très peu parmi ces sociétés se rangent dans la catégorie de l’intelligence artificielle telle qu’on la pratique aujourd’hui, autrement dit une IA à base de machine learning. Beaucoup se rangent dans les logiciels experts, une catégorie d’IA déjà ancienne à laquelle le cloud donne une nouvelle jeunesse mais qui n’est pas de l’IA telle qu’on la voit aujourd’hui (sur les logiciels experts et l’IA récente, voir infra). Cette IA "à l’ancienne" de type logiciel expert peut être très efficace si ses concepteurs ont accumulé beaucoup d’expérience et à condition de ne pas lui en demander trop. L’exemple le plus connu et le plus utilisé est probablement la génération automatisée de documents, qui s’appuie sur l’ancienne technique des formulaires. Un exemple plus "récent" et très innovant à l’époque est Jurisprudence chiffrée conçu chez l’éditeur juridique Francis Lefebvre il y a une dizaine d’années (voir infra). Ce produit utilise les cartouches sémantiques Luxid conçues et développées justement depuis plus de vingt cinq ans par la société Expert System (ex-Temis) [18]. Ces cartouches se retrouvent chez de nombreux éditeurs juridiques, y compris LexisNexis et Legifrance [19].

Et à propos d’intelligence artificielle, il faut être clair : ce qu’on appelle IA est, à strictement parler, une discipline scientifique, autrement dit un champ de recherche. Par extension, on qualifie aussi d’IA les produits qui se rangent dans ce champ [20]. On parle bien ici de *recherche* : on n’en est pas à reproduire le fonctionnement d’une intelligence humaine. Un des deux co-fondateurs de l’équipe de recherche en IA de Uber, Gary Marcus, professeur de psychologie à l’Université de New York, le dit clairement [21] :

" Il y a tout ce que vous pouvez faire avec le deep learning [...]. Mais ça ne veut pas dire que c’est de l’intelligence. L’intelligence est une variable multi-dimensionnelle. Il y a beaucoup de choses qui rentrent dedans. [...] La véritable IA est plus éloignée que ce que pensent les gens "

En fait, nous parlons ici de ce que les spécialistes de l’IA appellent "week AI" (ou "narrow AI"). Comme l’expliquent Wikipédia et Techopedia, l’IA faible est une intelligence artificielle non-sensible qui se concentre sur une tâche précise. Autrement dit, l’IA faible consiste à imiter une fonction étroite typiquement humaine, comme reconnaître un chat sur une photo floue (reconnaissance de forme/d’image) et de la faire plus rapidement. L’IA faible est définie par contraste avec l’IA forte (une machine dotée de conscience, de sensibilité et d’esprit, tout comme un être humain) ou l’intelligence artificielle générale ou AGI [22] (une machine capable d’appliquer l’intelligence à tout problème plutôt qu’un problème spécifique). Le point le plus important ici est que tous les systèmes d’IA actuellement existants sont considérés comme des intelligences artificielles faibles.

D’ailleurs, vu les fonctionnalités et performances réelles des produits dont nous allons parler, il est évident que parler d’intelligence artificielle en droit au sens strict est très exagéré. On devrait plutôt parler des différents types ou niveaux d’IA.

Il y a aussi un débat sur le droit et l’opportunité de laisser les legal tech investir le marché du droit (principalement celui des avocats mais aussi celui des notaires) et de l’information juridique. Sur ce sujet, je vous renvoie aux articles cités en première partie plus haut. Sur les risques de la justice prédictive, voir infra.

Après avoir présenté les prestations et les entreprises du secteur des legal tech et avoir défini l’intelligence artificielle, voici les cinq principales technologies en cause dans ce qu’on appelle l’intelligence artificielle en droit [23] :

  • les systèmes experts. Un système expert est, selon Wikipedia, un outil capable de reproduire les mécanismes cognitifs d’un expert, dans un domaine particulier, par des règles logiques. Cette première des voies tentant d’aboutir à l’intelligence artificielle a donné des résultats décevants : par exemple, à partir d’une centaine de règles voire moins, certaines se contredisent et il devient nécessaire de les pondérer, ce qui est en fait peu rigoureux ; leur coût élevé est un autre écueil. Un exemple de système expert en droit, le prototype NATIONALITE du défunt IRETIJ (Institut de recherche et d’études pour le traitement de l’information juridique [24]) est décrit dans une contribution de 1989 [25]. Les logiciels de gestion de contrats sont un bon exemple de logiciels experts en droit. C’est l’émergence des quatre technologies suivantes qui a relancé les espoirs des spécialistes de la recherche en IA
  • le big data et surtout le (legal data) analytics. Il ne s’agit là que de technologies correspondant à des logiciels (Apache Hadoop, MongoDB, Microsoft Azure ...) faits pour traiter des masses de données énormes et/ou des données pas assez structurées, nécessitant des logiciels différents des systèmes de gestion de base de données (SGBD) classiques
  • le machine learning [26] (ML, en français apprentissage statistique automatique). Cet apprentissage peut être supervisé (des humains apprennent à l’algorithme à reconnaître les formes ou les notions, ils vérifient et corrigent) ou non supervisé. Michael Benesty, avocat fiscaliste et data scentist français, auteur du site de démonstration Supra Legem, définit ainsi le machine learning utilisé actuellement dans le cadre du droit [27] :

    « Il s’agit d’une expression vague qui regroupe toute une famille d’algorithmes qui ont en commun d’apprendre par eux-mêmes en observant des données. Ces algorithmes sont inspirés de différentes sciences et notamment des statistiques.
    En matière de justice prédictive, c’est la sous-famille des algorithmes
    supervisés qui est utilisée »

Une excellente interview du chercheur français Yann Le Cun, directeur du laboratoire d’IA de Facebook, explique de manière simple comment fonctionnent les réseaux neuronaux, l’apprentissage supervisé et l’apprentissage non supervisé [28]. Ross d’IBM, aux Etats-Unis, utilise le machine learning, dans sa version supervisée : des juristes, des avocats ont "enseigné" et "corrigé" l’application et continuent de le faire. L’application Predictice en France fonctionne selon le même principe. De son côté, Thomson Reuters, propriétaire de Westlaw, a lancé un laboratoire en 2015 et collabore avec IBM pour intégrer la technologie Watson dans ses produits. Ross est un système à apprentissage automatique supervisé. En France, Supra Legem, Predictice et Case Law Analytics [29] utilisent aussi le machine learning

  • le deep learning (apprentissage statistique automatique profond), concrètement, est un développement du machine learning. Il utilise à fond la technique des réseaux neuronaux pour tenter de se passer complètement d’une vérification/correction par des humains. Les réseaux neuronaux sont une technologie développée à l’origine pour la reconnaissance automatique d’image ("pattern recognition"). Pour (tenter de) comprendre, il faut lire les exemples de fonctionnement d’un réseau neuronal donnés par deux spécialistes français interviewés par Le Monde [30] :

« Yann Le Cun : Le deep learning utilise lui aussi l’apprentissage supervisé, mais c’est l’architecture interne de la machine qui est différente : il s’agit d’un "réseau de neurones", une machine virtuelle composée de milliers d’unités (les neurones) qui effectuent chacune de petits calculs simples. « La particularité, c’est que les résultats de la première couche de neurones vont servir d’entrée au calcul des autres ». Ce fonctionnement par "couches" est ce qui rend ce type d’apprentissage "profond". »

« Yann Ollivier, chercheur en IA au CNRS et spécialiste du sujet, donne un exemple parlant : « Comment reconnaître une image de chat ? Les points saillants sont les yeux et les oreilles. Comment reconnaître une oreille de chat ? L’angle est à peu près de 45°. Pour reconnaître la présence d’une ligne, la première couche de neurones va comparer la différence des pixels au-dessus et en dessous : cela donnera une caractéristique de niveau 1. La deuxième couche va travailler sur ces caractéristiques et les combiner entre elles. S’il y a deux lignes qui se rencontrent à 45°, elle va commencer à reconnaître le triangle de l’oreille de chat. Et ainsi de suite. »

D’après Michael Benesty (Supra Legem), toutefois, en machine learning sur du droit, on est plus dans le NLP (voir juste infra) [31] que dans les réseaux neuronaux [32]. Les réseaux neuronaux ici réduisent le traitement des données en amont, mais leur apport en droit est très inférieur à ce qu’ils ont fait pour la reconnaissance d’image. De plus, ils coûtent très cher du fait de la puissance et du temps de calcul nécessaires (location de serveurs et de logiciels) [33].

JPEG - 99.4 ko
Un réseau de neurones convolutifs schématisé
  • le traitement du langage naturel (dit traitement automatique du langage ou TAL) (en anglais "natural language processing", NLP). Ross, Predictice ou Supra Legem [34] sont des applications utilisant le NLP. Plus précisément le NLP tel qu’on le pratique aujourd’hui : à base de machine learning et de techniques d’analyse syntaxique ("parsing", en anglais) [35] et non plus d’analyse sémantique. Le NLP actuel, c’est l’application du machine learning, en version non assistée, au langage, plus précisément aux textes. Le NLP à base de machine learning a été énormément facilité par la diffusion en open source en 2013 par Google du logiciel Word2vec (W2V), qui transforme les mots en vecteurs. Concrètement, Word2vec devine les termes similaires (proches par le sens) d’un mot en utilisant les autres mots faisant partie du contexte de ce mot [36]. Toutefois, si le NLP à la sauce ML détecte — indirectement et implicitement — le sens des mots, il ne sait pas en détecter la logique : licéité et illicéité, par exemple, risquent fort d’être similaires pour lui.

Enfin, il faut bien comprendre que pour imiter des fonctions caractéristiques des humains, comme classer automatiquement des documents par thème, un simple logiciel ne suffit pas :

  • déjà, de nombreux programmes informatiques (de type ML ou logiciel expert comme vu précédemment) doivent être testés, combinés et adaptés par un ou des développeurs. Ce ne sont pas des produits sur étagère, ce sont ce que l’on appelle dans l’industrie informatique des développements spécifiques
  • ensuite — et c’est encore moins connu —, le machine learning et les réseaux neuronaux nécessitent une architecture matérielle et réseau très spécifique elle aussi, autrement dit choisir l’assemblage ad hoc de serveurs puissants, avec leurs systèmes d’exploitation (OS), repérer les goulots d’étranglement dans la circulation et le traitement des données sur Internet, dans les serveurs et entre eux, savoir comment régler et "booster" les performances de ces matériels ... Pour les petits et moyens programmes, cela passe par la location (vite onéreuse) de ressources en "cloud computing" : du temps et de la capacité de serveur disponible par Internet. Le plus utilisé est Amazon Web Services (AWS). On peut citer aussi Microsoft Azure et Google Cloud (avec son produit applicatif TensorFlow). Sur les gros programmes d’IA, le travail sur cette architecture matérielle mobilise jusqu’à la moitié des spécialistes affectés au projet. Sur ce segment, Google, Facebook, Amazon et Microsoft ont une puissance et une avance énormes sur leurs concurrents.

Dans cette présentation des technologies dites d’IA, il reste enfin à expliquer dans quels produits, concrètement, on les emploie.

Selon Ron Friedmann, consultant américain en informatique juridique depuis 30 ans [37], sur le marché américain, « il existe au moins quatre utilisations presque banales de l’intelligence artificielle que les cabinets d’avocats et les directions juridiques peuvent aisément déployer à partir de produits IA standards, de manière similaire à d’autres technologies :

  • "document review" dans la procédure [très américaine] d’"e-discovery" ("predictive coding”) [38]
  • vérification détaillée des contrats de cessions d’actions/de parts de société (le produit de Kira est selon la société déployé dans 200 établissements)
  • outils de recherche dans de multiples domaines juridiques (Westlaw, Lexis Advance, Ravel)
  • saisie et gestion des temps.

Les données comptent plus que les applications

Nous venons de présenter les technologies impliquées dans l’IA en droit. Et de voir que les deux critères principaux (et alternatifs) pour parler d’IA (faible) en droit, sont soit l’appartenance de l’application à la catégorie des systèmes experts soit l’utilisation de machine learning.

Pourtant, sur le plan stratégique, le plus important en IA n’est pas là. Pour le comprendre, il faut lire le rapport de France Stratégie sur l’IA publié en mars 2017 [39].

Dans ce rapport, la contribution spécifique du Conseil National du Numérique (CNNum) souligne l’importance fondamentale des données :

« La valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements se font de manière ouverte (en open source). En conséquence, les organisations doivent prendre conscience de l’importance stratégique des données qu’elles détiennent. Il s’agit également, à plus long terme, d’engager une réflexion sur les modes de partage de la valeur entre acteurs privés. En ce sens, le Conseil s’est par ailleurs saisi de la question de la libre circulation des données aux niveaux international et européen, d’un point de vue de transfert entre les territoires mais également entre acteurs économiques. »

En droit français, cette difficulté donne raison au professeur (et avocat) Bertrand Warusfel, quand il écrit, interrogé par ActuEL Direction Juridique (Editions Législatives) [40] :

« on va certainement [...] dématérialiser plus encore les procédures, voire les audiences. A mon sens, ce n’est qu’une fois que cette première phase de dématérialisation de la justice aura été menée à bien qu’il serait justifié d’envisager d’introduire des outils plus "intelligents". Sauter une étape serait sans doute peu cohérent, voire dangereux. »

Ce sont justement leurs bases de données qui font l’avance de Google et Facebook. C’est pourquoi cela ne les gêne pas de mettre leurs logiciels en open source. Au contraire, cela accélère l’adoption de l’IA par les développeurs puis la société dans son ensemble. Une démarche imitée de manière légèrement différente par LexisNexis :

  • l’éditeur américain a annoncé en mars 2017 qu’il va donner accès à ses contenus et à son expertise, ainsi que celle de sa filiale LexMachina, à cinq start-ups sélectionnées : Visabot, TagDox, Separate.us, Ping, and JuriLytics [41]. Lexis espère profiter de leurs innovations
  • et le 8 juin, Lexis annonce le rachat de Ravel Law, LA start-up indépendante de 21 personnes spécialisée dans la recherche sur la jurisprudence américaine à base de ML et de NLP. Le fondateur de Ravel Law Daniel Lewis explique à cette occasion que le rachat donnera à Ravel Law « accès à un vaste assortiment de données de haute qualité, quelque chose qui est nécessaire. Même la meilleure IA ne peut surmonter les défauts dus à un accès limité en terme de données », dit-il. « On a besoin de données de haute qualité en entrée" a-t-il ajouté. « Si vous avez de la mauvaise qualité en entrée, vous avez de la mauvaise qualité en sortie. »

Nous venons de présenter les produits et les sociétés des legal tech puis de définir l’IA en droit, pour éviter de gober le discours marketing selon lequel tout ce qui est legal tech serait IA. Plus généralement, tout ce qui est IA aurait des performances à la limite du miraculeux. Ce discours " IA partout " et " IA miracle" [42] qui inonde — au point qu’on peut parler d’IA washing [43] — depuis l’année 2016 presse, Internet et café du commerce, nous allons maintenant lui river son clou en présentant en détail les outils IA de recherche et d’analyse de la jurisprudence (encore une fois, des IA faibles). Nous commencerons par l’IA vedette américaine — j’ai nommé Ross — puis nous verrons les implémentation de l’IA (du NLP surtout) dans les grandes platefomes des éditeurs juridiques américains traditionnels et enfin les IA jridiques françaises.

Ross : points forts et limites d’un moteur de recherche en langage naturel à base de machine learning avec supervision

Fin 2016-début 2017, c’est surtout le produit d’IBM qui fait parler de lui — voir notamment notre "webliographie" sélective sur Ross infra. Et même si, de fait, on peut parler d’une intense campagne de presse, je crois quand même qu’on tient confirmation d’une amélioration radicale de la recherche documentaire en droit dans les articles sur l’implémentation de Ross par le petit cabinet d’avocats américain Salazar Jackson : en effet, selon le principal associé de cette firme, Ross fait les recherches sur la jurisprudence aussi bien et plus vite qu’un jeune collaborateur [44]. Ce que semble confirmer une étude réalisée par une firme indépendante (certes payée par IBM) qui parle d’un gain de temps dans les recherches de 30% [45].

Ross serait même, soi-disant, capable de résumer sa recherche en un mémo ? L’avocat Rubin Sfadj estime que la prétendue capacité de Ross à sortir un mémo est exagérée. Il a raison. C’est ce que Jimoh Ovbiagele, le CTO de Ross, a fini par reconnaître devant un journaliste du New York Times : des humains se chargent du brouillon produit par Ross et créent le mémo final, et c’est pour cela que ça prend un jour entier [46].

Bien sûr, Ross nécessite une interaction homme-machine. Il s’améliore en apprenant des retours des juristes sur ses recherches [47]. C’est donc de l’apprentissage automatique avec supervision [48].

Ross est pour l’instant spécialisé uniquement dans la jurisprudence américaine en droit de la faillite (US bankruptcy law) et en propriété intellectuelle (US IP law) — il s’agit en fait de deux applications différentes, Ross ne traite pas les deux matières en même temps [49]. Mais la diversité des tâches et des domaines possibles est une caractéristique du machine learning le plus récent (depuis environ 2015). Le cabinet américain Latham & Watkins, implanté à Paris, est en phase de « test » avec Ross [50], suivi par de plus petites structures et l’Ordre des avocats de Lille.

Le dirigeant et co-fondateur de Ross Intelligence, Andrew Arruda, expliquait justement en août 2016 :

« La version actuelle du système est utilisée pour aider les juristes spécialisés en procédures collectives travaillant dans des firmes américaines. Les futures versions du système couvriront d’autres domaines du droit et d’autres juridictions. »

Rubin Sfadj estime quant à lui que Ross sera capable de gérer les textes officiels (en sus de la jurisprudence) français.

Dans son enquête de février 2017, l’Agefi Hebdo concluait sur Ross : « Le résultat ? Pour l’heure, moyennement convaincant. » [51] L’Agefi cite Bénédicte Brémond, avocate en charge du knowledge management chez Latham & Watkins Paris :

« Quoique déjà très performants, des outils comme Ross sont encore pour la plupart en phase de test dans les firmes et devront encore apprendre avant de fournir aux avocats un service fiable adapté à leurs pratiques. »

Ross aura visiblement encore bien d’autres applications en droit. À l’image de Watson, l’application d’IBM dont Ross est dérivé. Watson sert déjà à de multiples tâches. Comme :

Autres exemples de la capacité du machine learning à s’appliquer à tous les domaines :

  • la Lettre de l’Expansion du 16 janvier signale que le réseau social interne développé par Orange, installé chez eux à l’automne 2015 [57] et également vendu par l’opérateur sous le nom de Business Together Sharespace [58] « s’appuie sur la technologie "machine learning" [...] et inclut des robots à même de suggérer à l’utilisateur des informations pertinentes ou des collègues susceptibles d’enrichir son activité »
  • Google a présenté fin novembre un algorithme repérant des signes de rétinopathie diabétique dans des photos du fond d’oeil. Et Facebook comme Microsoft ont dévoilé cette année des systèmes capables de "regarder" des images et en décrire le contenu pour les aveugles [59]

A priori (le manque d’information détaillées sur Ross étant criant), les limites d’un système comme Ross, sont :

  • les applications dérivées du Watson d’IBM sont toutes étroitement spécialisées (et non généralistes sur un domaine) et nécessitent d’énormes développements informatiques spécifiques et un très gros travail d’input et d’apprentissage par des experts [60]
  • comme la plupart des bases de données en ligne actuelles, son manque de confidentialité. Je sais que les éditeurs de services en ligne garantissent la "confidentialité" des données de leurs clients, mais de fait, si elles ne sont pas cryptées de bout en bout, elles ne sont pas réellement confidentielles. Il serait intéressant à cet égard de savoir si Ross crypte les données de ses clients
  • sa dépendance à la "data". Si les données sont incomplètes, non exhaustives ou comportent un biais, les résultats seront biaisés [61]
  • le poids du passé (même s’il pourra certainement intégrer les projets de loi), car la donnée c’est du passé
  • sa dépendance aux compétences des personnes qui "l’entraînent" (cas du machine learning supervisé)
  • son degré d’acceptation par la société, encore limité (cf la dernière partie de ce billet). Toutefois, si l’on s’en tient à l’histoire récente des innovations, les systèmes de machine learning en droit finiront, selon toute probabilité, par être assez rapidement acceptés par les consommateurs de droit. Les professionnels du droit risquent donc, à long terme, de devoir suivre. Comme le rappelle un professionnel américain des enquêtes ("fact finding") pour avocats, les "IA" d’aujourd’hui sont les "logiciels" de demain [62]
  • à court et moyen terme, le délai d’implémentation en droit français. Ross — tout comme ses concurrents français — ne pourra pas être implémenté en droit français global avec une pleine efficacité avant un minimum de huit ans. Explication. En son état actuel limité au droit américain des faillites et de la propriété intellectuelle, Ross aurait été développé en trois ans à partir de Watson pour ses capacités en NLP (cf détails supra sur les technologies de NLP à la sauce machine learning). Compte tenu des spécificités du droit français (pas de la common law ... mais pas un véritable problème [63]), de la (relativement) petite taille du marché français du droit, de l’absence pour l’instant de disponibilité en accès libre [64] des décisions de justice judiciaire de première instance [65] avant des années malgré la loi Lemaire pour une République numérique [66], de la nécessité d’un partenariat entre un éditeur juridique et un éditeur de système de machine learning [67], cela devrait prendre au minimum huit ans et peut-être plus. La com’ des légal tech ou d’IBM sur les performances de leurs logiciels dépasse de beaucoup la réalité et envahit même la presse économique et généraliste.

Il faut enfin noter, pour être complet sur Ross, qu’IBM a du mal à rentabiliser son activité "cognitive" (l’adjectif à la mode pour désigner les activités d’IA). Comme le relève une enquête du Monde [68], le chiffre d’affaires du groupe — qui a parié sur l’IA pour sa croissance et a investi 15 milliards de dollars depuis le lancement du projet Watson (alors appelé DeepQ) en 2007 — décroît depuis depuis 2011 : « au final, en cinq ans, un quart des recettes a disparu. La capitalisation boursière [est passée] de presque 250 milliards de dollars en 2011 à un peu plus de 136 milliards aujourd’hui. Pour l’instant, Watson a du mal à tenir ses promesses. » Selon Le Monde, les raisons sont principalement liées :

  • à l’absence d’étude longue de longue durée à sur la fiabilité des diagnostics livrés par Watson et ses conjugaisons
  • au fait qu’il s’agit à chaque fois d’un développement spécifique, pas de l’installation d’un produit standard. Les prospects hésitent : il faut investir un budget, un temps de travail de plusieurs mois minimum (18 mois pour le Crédit Mutuel, pourtant client de longue date d’IBM), des équipes et des petites mains pour "former" le progiciel. Le retour sur investissement est long. C’est cet aspect que souligne la directrice du KM de Latham Paris dans la citation précédente extrait de l’article de l’Agefi Hebdo
  • les concurrents, même si leur marketing et leur communication sont moins efficaces, sont très actifs. Le cabinet d’avocats d’affaires international Baker & McKenzie a ainsi annoncé, en août 2017, adopter comme principal outil d’intelligence artificielle non pas ROSS, mais eBrevia, conçu par une start-up créée en 2011 dans l’Etat du Connecticut. eBrevia, tout comme ROSS, a un partenariat universitaire fort : sa technologie a été initialement développée à l’Université de Columbia University. L’application, selon le site du magazine américain Forbes, utilise le machine learning pour faire du "contract review" (de l’analyse en masse de contrats pour en extraire informations et clauses contestables ou à revoir) [69].

Westlaw, Lexis Advance : les améliorations machine learning en cours et prévisibles

D’après Michael Mills [70], co-fondateur et chief strategy officer de Neota Logic (une société précurseur dans les outils d’aide à la décision en droit puis d’IA juridique aux Etats-Unis), cela fait 11 ans que Lexis et Weslaw ont commencé à intégrer du NLP dans leurs moteurs de recherche. Et Lexis a racheté Lex Machina en 2015 puis Ravel Law en 2017, LE spécialiste américain du ML juridique sur la jurisprudence (voir supra).

Par exemple, la fonction Westlaw Answers répond carrément directement aux questions courantes/"bateau" en quelques phrases, avec les citations de jurisprudence qui conviennent.

Autre exemple : Lexis Advance offre la possibilité de chercher en language naturel (fonction ”Run search as natural language") et surtout d’ajouter à la recherche les expressions juridiques synonymes de celles saisies (fonction "Include legal phrases equivalents"). Et depuis 2017, un clic sur le nom juge ou de l’avocat permet de consulter des tableaux de données sur eux, cela ne marchant que pour les domaines de pratique couverst par Lex Machina [71]. A partir de ces tableaux, les abonnés à Lex Machina peuvent analyser plus avant. Là, cependant, il ne s’agit plus d’IA à strictement parler, juste d’"analytics" [72].

Les améliorations prévisibles résident dans la continuation et l’amélioration des précédentes :

  • du NLP state "of the art"
  • des suggestions/recommandations (soit de notions à ajouter, soit de régimes juridiques/bases légales) découlant de l’analyse par le machine learning du comportement des utilisateurs dans leurs recherches. Notamment, en analysant les arrêts déjà mis de côté/sélectionnés par l’utilisateur, il est possible d’en déduire ceux qui manquent. Ce type d’amélioration exploite à fond les excellentes perfomances du ML en catégorisation ("taxonomy" lit-on souvent)
  • plus de "direct answsers"
  • des statistiques sur les tendances des juges américains
  • une interaction vocale avec l’application, grâce à l’envol de l’utilisation des smartphones, y compris les fonctions d’envoi des résultats et d’impression.

Predictice, Case Law Analytics, Supra Legem : calculer les chances de gagner un procès en droit français avec le machine learning

Abordons maintenant les IA juridiques françaises. Ce sont des applications dites de justice prédictive.

Côté justice prédictive, pour le moment, on n’en est en réalité qu’à une analyse (par chambre, par juge, des montants des dommages-intérêts ou de quel type de camp a gagné) de la jurisprudence disponible et à la recherche en langage naturel sur celle-ci. C’est le sens du billet très mesuré du professeur Dondero cité en introduction. Plus généralement, déjà en 2014, un spécialiste du ML, le professeur Michael Jordan, estimait qu’on attendait beaucoup trop beaucoup trop tôt du deep learning et du big data [73].

Pour l’instant, le ML en droit n’est pas de la véritable intelligence artificielle, au moins au sens fort du terme (cf propos supra sur l’IA forte et faible). Voici la définition de l’IA par le meilleur dictionnaire de langue française, celui élaboré par l’ATILF [74], le Trésor de la langue française (TLF) : « Intelligence artificielle : recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des êtres humains ». Du temps de la lutte entre Microsoft et les autres éditeurs de logiciels de bureautique (années 80), on appelait ça du vaporware : annoncer des sorties d’applications entre 6 mois et 2 ans à l’avance pour pousser les clients à attendre la nouvelle version. Et à ne surtout pas aller chez la concurrence — ici, je dirais : ne pas se servir de ce qui marche déjà très bien, comme les compétences des meilleurs documentalistes juridiques ou l’application Jurisprudence chiffrée (cf juste infra).

L’article précité de Valérie de Senneville aux Echos le souligne :

« pour le moment, " il y a beaucoup d’effets d’annonce ", remarque Jean Lassègue, philosophe et chercheur au CNRS. L’épistémologue, qui a consacré de nombreux travaux à l’informatique, invite à s’interroger sur le problème de la qualification des faits et de leur catégorisation. " La machine ne peut pas régler cela ", affirme Jean Lassègue. »

Antoine Garapon, le directeur de secrétaire général de l’Institut des hautes études sur la justice (IHEJ), ne dit pas autre chose dans son entretien avec Les Petites Affiches (septembre 2017) [75] :

« LPA — L’impact réel des legaltechs sur le droit ne reste-t-il pas néanmoins encore assez limité ?
A. G. — Bien sûr et je pense que l’impact le plus important du de la legaltech se situe en réalité sur le plan imaginaire. [...] Il est en effet frappant de constater à quel point on évoque legaltech et justice prédictive quand les réalisations pratiques restent très mineures puisque ces technologies ne sont pas encore matures. »

Predictice

Ils prédisent vos chances de gagner une action judiciaire (sur Predictice et Case Law Analytics) (Le Parisien 8 octobre 2016). Predictice : grâce aux algorithmes, cette startup est capable de prédire l’issue d’une action en justice et d’optimiser les stratégies contentieuses des avocats (OVH News 7 juillet 2016). Les prétentions de l’application Predictice sont un peu exagérées si l’on lit bien les deux documents et qu’on regarde la copie écran chez OVH News. Comme le montre l’article plus réaliste de Libération du 23 février (Justice prédictive, l’augure des procédures), il s’agit en fait essentiellement de lister le type de partie vainqueur et donc d’une certaine façon de donner un pourcentage de chance de remporter un procès sur un type de contentieux, et de déterminer les montants de dommages-intérêts alloués selon la cour d’appel [76].

Concrètement, Predictice est un outil d’aide à la décision à destination des professionnels du droit. Il permet d’accéder à la jurisprudence et aux textes de loi via un moteur de recherche en langage naturel utilisant des technologies de text mining (dependency parsing etc.). Un algorithme calcule les probabilités de résolution d’un contentieux, le montant des indemnités potentielles et identifie les moyens de droit ou les faits les plus influents dans les décisions antérieures rendues par les juridictions. La restitution des analyses se fait sous forme graphique ou statistiques). L’application utilise les technologies de NLP à base de règles. C’est donc un système expert classique.

Selon son éditeur, Predictice est en cours de commercialisation : pilote auprès de grosses structures (Orange, AXA, Covéa, Dentons, Taylor Wessing) et abonnement sur demande des cabinets d’avocats. Cette commercialisation a commencé à la rentrée 2017.

Le test de l’application au sein des deux cours d’appel de Rennes et Douai s’est terminé début octobre 2017 : les magistrats n’ont pas adopté l’outil, estimant que, malgré sa « modernité », il « méritait d’être sensiblement amélioré. Le communiqué précise qu’il « ne présentait pas en l’état de plus-value pour les magistrats, qui disposent déjà d’outils de grande qualité d’analyse de la jurisprudence de la Cour de cassation et des cours d’appel. » Un tweet de la Première présidence de la Cour de Rennes précise que les outils en question seraient JuriCA et Jurinet. Le Premier président de la cour d’appel de Rennes, Xavier Ronsin, considère que les résultats livrés étaient trop aléatoires [77]. Toutefois, le communiqué ajoute que de nouveaux tests par d’autres cours d’appel seront envisagés, « sur la base du volontariat [...], à l’issue des nouveaux stades de développement de l’outil » [78]. Plusieurs sous-entendus dans ces informations :

  • les magistrats des cours d’appel disposent de la base d’arrêts d’appel inédits JuriCA dans sa version interne au ministère de la Justice et de la base Jurinet, riche en doctrine interne des juridictions judiciaires, en fait surtout de la Cour de cassation et de son Service de documentation, des études et du rapport (SDER). Jurinet, ce sont les documents annexes aux décisions et non publiés : les nombreuses études rédigées par le SDER, dans les arrêts Cass. les conclusions de l’avocat général et surtout le rapport du conseiller rapporteur ... Pourtant, à notre connaissance, aucun de ces documents n’épluche les montants de dommages-intérêts. D’ailleurs, ce type d’étude n’intéresse pas la Cour de cassation, juge du droit et non des faits. Or les CA, qui elles auraient intérêt à faire des études de ce genre, n’ont ni SDE comme la Cass’ ni moyen similaire.. En revanche et bizarrement, aucune référence expresse n’est donc faite aux bases de données des éditeurs, notamment Juris-Data de LexisNexis, ses Données quantifiées et Jurisprudence chiffrée de Francis Lefebvre voire Dalloz.fr (qui intègre le contenu de JuriCA elle aussi). Par exemple, la base Juris-Data de LexisNexis intègre des dizaines de milliers d’arrêts (sélectionnés) de cours d’appel accompagnés d’une fiche donnant le type de préjudice et le montant des dommages-intérêts
  • les cours d’appel ont élaboré en interne des guides d’indemnisation voire des barèmes non officiels liés à leur jurisprudence locale (sans parler du barème national indicatif mais officiel en matière de pension alimentaire). C’est ce que laissait clairement entendre le premier président de la Cour de Rennes, Xavier Ronsin, au printemps 2017 : « Ce n’est pas de la justice prédictive, c’est juste une aide à la décision. Les magistrats ont déjà des instruments et des barèmes. » [79] C’est ce que confirme un intervenant sur Twitter, citant ces deux guides : Reférentiel indicatif de l’indemnisation du préjudice corporel des cours d’appel, ENM, septembre 2016, L’indemnisation des préjudices en cas de blessure ou de décès, par Benoît Mornet, président de chambre à la cour d’appel de Douai, septembre 2017. En fait, il faut lire l’interview de Xavier Ronsin, donnée à Dalloz Actualité pour mieux comprendre ce que techniquement les magistrats reprochent à l’outil :

    « On se situe plus dans un projet d’approche statistique et quantitative que qualitative. Parfois, les résultats peuvent même être aberrants. Prenons l’exemple d’un calcul d’indemnités de licenciement sans cause réelle et sérieuse. Les montants sont calculés par le juge en mois de salaire. Or le salaire d’un cadre n’est pas le même qu’un ouvrier. Il suffit qu’une décision de justice concerne un cadre pour fausser complètement l’analyse, selon l’affaire ou le bassin d’emplois, et pour que le résultat proposé ne dise rien du cas à résoudre. Il serait plus pertinent de privilégier une approche selon le nombre de mois de salaire alloué, plutôt que savoir si le résultat probable sera de 4 000 ou 8 000 €. [...]
    Le logiciel ne s’intéresse qu’au dispositif d’une décision de justice. L’algorithme ne sait pas lire toutes les subtilités de la motivation, surtout lorsque la décision est complexe. »

Plusieurs cabinets d’avocats au contentieux, toutefois, sont intéressés par Predictice et testent l’application : Châtain & Associés, Bruzzo Dubucq, Barreau de Lille, Taylor Wessing ... D’autres sont dubitatifs. Beaucoup restent silencieux.

Case Law Analytics

Sur Case Law Analytics, il n’y a pour l’instant vraiment que deux articles à lire : Un outil pour mieux évaluer le risque juridique, lettre Emergences n° 41, 19 mai 2016 et Justice prédictive : vers une analyse très fine du risque juridique ... (entretien avec Jacques Lévy-Véhel, directeur de recherche à l’INRIA et Jérôme Dupré, magistrat en disponibilité, co-fondateurs), Le Village de la Justice 22 mars 2017. Il s’agit en fait ici d’une évaluation probabiliste des dommages-intérêts. Extrait de l’article du Village de la Justice :

« " Il ne s’agit pas de dire la probabilité d’aller au contentieux mais plutôt d’estimer les sommes d’argent que vous pouvez être condamné à payer dans tel ou tel cas de figure, explique Jérôme Dupré. Nous n’aimons pas l’expression “justice prédictive”, qui est à notre avis trompeuse et parfois même dangereuse. C’est pourquoi nous ne donnons pas un chiffre unique mais une distribution probabiliste des montants de condamnation possibles. Il est difficile de calculer ce risque parce que les aspects procéduraux sont complexes à modéliser pour le moment mais c’est possible dans certains cas. " A l’heure actuelle, trois contentieux sont prêts et peuvent être utilisés : le licenciement sans cause réelle et sérieuse, la prestation compensatoire et la pension alimentaire. Mais la start-up n’entend pas s’arrêter là. »

En novembre 2017, le cabinet d’avocats (spécialisé en droit social) Clichy Grangé a annoncé s’être équipé de l’outil Case Law Analytics [80].

Chose rare parmi toutes ces applications de machine learning, Case Law Analytics propose une version, gratuite mais très limitée, de démonstration pour Iphone et Ipad. Elle permet d’évaluer une fourchette pour le montant de la pension alimentaire avec les probabilités associées.

Deux prédécesseurs sans machine learning : Jurisprudence chiffrée et Données quantifiées Juris-Data

C’est quelque chose que l’éditeur juridique Francis Lefebvre avait déjà approché avec son produit Jurisprudence chiffrée fondé sur les faits et chiffres présents dans les arrêts de cour d’appel de la base JuriCA. Jurisprudence chiffrée trouve depuis 2010 des arrêts de cour d’appel correspondants aux critères exacts donnés et le montant des dommages-intérêts. Par exemple, à partir de la profession et l’ancienneté, Jurisprudence chiffrée donne le montant des dommages-intérêts pour licenciement sans cause réelle et sérieuse [81]. Jurisprudence chiffrée utilise un programme qui identifie les zones des arrêts d’appel riches en information de type juridiction, adresse, profession, âge, ancienneté, montant des indemnités etc., isole ces informations et permet de mener une recherche d’arrêts très rigoureuse par ces critères combinés. Mais à l’époque de sa conception, les avancées du machine learning commençaient à peine, il est donc peu probable que Jurisprudence chiffrée utilise le ML [82]. En revanche, il y a un travail fin sur le langage naturel, à base de cartouches Temis.

Notez que Jurisprudence chiffrée est à la fois un logiciel expert et un outil de traitement du langage naturel (TAL). En tant qu’utilisant les techniques de TAL, il représente pour le droit français le trait d’union entre l’IA à l’ancienne, de type pur logiciel expert, et l’IA récente, de type machine learning. En effet, on l’a vu, le ML en droit est utilisé essentiellement, pour l’instant, pour le traitement automatique du langage.

JPEG - 104.5 ko
Interface de recherche de l’application Jurisprudence chiffrée en matière d’indemnité d’éviction (baux commerciaux)

La base (et ouvrage) rivale de LexisNexis Contentieux de l’indemnisation devenue Données Quantifiées JurisData (et accessible par l’onglet Pratique & Outils de Lexis360, mais non comprise dans l’abonnement standard à Lexis360) est elle, en revanche, faite "à la main", ce qui permet de la ranger dans la catégorie analyse prédictive (les résultats sont présentés sous une forme assez dans le style "tableau de bord") mais pas dans celle de l’IA [83]. Elle est nourrie avec une sélection d’arrêts d’appel provenant de la base Juris-Data [84], soit 50 000 arrêts à novembre 2017 [85]. Tout comme Jurisprudence chiffrée, elle ne traite que certains thèmes : licenciement, rupture de bail commercial, pension alimentaire et prestation compensatoire ...

Doctrine.fr

Doctrine.fr, malgré son nom, ne contient pas de doctrine, juste des liens vers des actualités gratuites des éditeurs juridiques (Dalloz Actualité, site de la Gazette du Palais, LegalNews ...), des billets de blogs juridiques (celui du professeur Dondero y est en bonne place) et quelques sites de définitions (le Dictionnaire de droit privé de Serge Braudo) ou de synthèse (Open Dalloz). En matière de doctrine, c’est donc un métamoteur.

Ses apports sont ailleurs :

  • d’abord, proposer un moteur de recherche de jurisprudence extrêmement simple à utiliser et extrêmement rapide. Le "learning curve" (délai d’apprentissage) est quasiment nul. Certes, construire une plateforme et un moteur "from scratch" aide beaucoup ici. Il n’empêche : les éditeurs juridiques traditionnels feraient bien d’en prendre de la graine
  • ensuite, utiliser le machine learning pour personnaliser la recherche et les alertes e-mail. Le NLP à la "sauce" ML est peu utilisé pour la améliorer la recherche. En fait, il l’est pour classer automatiquement les décisions de justice par domaine du droit — le résultat est pertinent —, ce qui aide à affiner les résultats de la recherche.

Pour l’instant, le moteur de Doctrine.fr fonctionne donc essentiellement comme un "full text" [86] à réponse quasi-instantanée.

Supra Legem, l’IA gratuite de droit public

Seule application de "justice prédictive" (en fait, on vient de le voir, de recherche fine et d’aide à la décision) à proposer une démo grandeur nature, qui plus est gratuite, Supra Legem, développée par l’avocat fiscaliste, programmeur et data scientist Michael Benesty, aide à améliorer la pertinence et la rapidité des recherches, identifier un revirement de jurisprudence, identifier les moyens de l’administration qui n’ont pas fonctionné, identifier des tendances de certaines chambres, voire prédire des revirements de jurisprudence du Conseil d’Etat [87]. A lire absolument pour plus de précisions sur le projet Supra Legem et de manière générale sur les applications de justice prédictive, le compte-rendu que M. Benesty en a fait au Journal of Open Access to Law (JOAL) début 2017 [88] .

Pour autant, les déductions qu’on peut tirer des analyses des statistiques présentees par Supra Legem doivent être prises avec des pincettes, comme l’a montré un vif débat lors du lancement de l’application et des premiers articles écrits sur elle. Attention : Supra Legem n’est plus mis à jour. Profitez de cette démo avant qu’elle ferme.

À noter qu’un de mes contacts estime que le machine learning en droit a beaucoup d’avenir si le deep learning non supervisé y perce. Et ce, même sur des marchés juridiques en régression comme le marché français. Imaginons par exemple que les algorithmes de deep learning arrivent à détecter des similitudes ("patterns") indépendantes de la langue et entre les documents juridiques allemands (un marché en meilleure santé) et français : les recherches entreprises sur le droit allemand — un marché bien plus rentable que le droit français — seraient alors transposables et réutilisables en droit français.

On remarque que les éditeurs juridiques français traditionnels (groupe ELS avec Francis Lefebvre, Dalloz et Editions Législatives, Lexbase, LexisNexis SA, Wolters Kluwer France, Lextenso) ne proposent pas de produit incorporant du machine learning. Pour certains, je dirais : pas encore, mais je serais surpris que cela tarde [89] D’autant que ce sont les éditeurs qui possèdent le commentaire de la jurisprudence (dit aussi doctrine). Or en droit français, la donnée qui relie entre elles et permet de comprendre les décisions de justice, c’est la doctrine. Alors qu’en pays de "common law", le "case law" (jurisprudence) contient ses propres liens et son propre commentaire. En effet, le principe du "stare decisis" impose au juge anglo-saxon de citer les précédents pertinents et les juges des cours donnent leur "opinion" — autrement dit, ils commentent leur propre décision, chose impensable en France [90].

Pourquoi une montée des "IA" en droit ?

Une des raisons de la probable montée de ces systèmes : les économies réalisées. C’est, avec la rapidité, LE motif mis en avant par le managing partner d’une "small law firm" spécialisée en droit américain des faillites, le premier domaine de ROSS.

A noter, hors cabinets d’avocats, que la Justice a justement un problème budgétaire criant, reconnu par Jean-Jacques Urvoas, le ministre de la Justice lui-même ... [91] Une tribune iconoclaste aux Echos, rédigée par des non juristes (évidemment ...), propose d’ailleurs de confier la justice française à l’intelligence artificielle [92]. Et confirmation le 5 avril : la proposition n° 48 du rapport de la mission d’information sénatoriale sur le redressement de la justice présidée par Philippe Bas (voir pp. 20, 21 et 36 du dossier de presse) consiste à « mettre les outils de la "justice prédictive" au service du bon fonctionnement de la justice et de la qualité des décisions de justice et prévenir leurs dérives possibles » [93].

Impact prévisible des "IA" sur les jeunes collaborateurs, stagiaires, paralegal et documentalistes juridiques ?

Ces outils auront aussi un impact sur la recherche — et donc la veille — documentaire juridique : les tâches répétitives et "découpables" en petits morceaux seront robotisées, les autres ne le seront pas. Par exemple, ROSS réalise la recherche booléenne et la première analyse des résultats. Selon les termes d’Andrew Arruda [94] (traduction par nos soins) :

« La technologie AI de ROSS remplace le besoin d’utiliser les opérateurs et mots-clés de la recherche booléenneed par du langage ordinaire. Si un juriste d’affaires a besoin de connaître la différence entre les deux concepts juridiques "loss" et "recoupment", tout ce dont le juriste a besoin est de demander à ROSS : "Quelle est la différence entre "loss" et "recoupment" ?
Le résultat fourni par le système va au-delà de la simple identification des arrêts pertinents. Au lieu de cela, il attire l’attention du juriste sur les passages clés dans l’affaire qui devrait répondre idéalement à la question posée.
Quand vous posez une question à ROSS sur l’état du droit, vous la posez comme vous le feriez avec un collègue humain. ROSS découpe la phrase pour déterminer le sens de la question, puis conduit la recherche. »

Autrement dit, ROSS reste un moteur de recherche (nettement) amélioré. Ce n’est pas une véritable IA. Il ne menace guère que la fonction recherche — et encore : lisez ce qui suit.

Autrement dit encore, si on se projette dans environ huit ans [95], plus le travail du documentaliste juridique français procédera, comme le dit Jean Gasnault (La Loi des Ours), « d’heuristiques pointues pratiquant pour partie un mode intuitif (opérer par rapprochements semi conscients) », et j’ajouterais : plus il aura une conscience d’artisan et d’expert de haut vol (notamment dans la maîtrise des sources méconnues ou mal indexées [96]), moins au final il aura de chances d’être automatisé.

Mais aussi : plus il travaillera *avec* l’IA. Le documentaliste, le veilleur, le paralegal, le stagiaire juriste, le collaborateur, l’éditeur vérifieront, compléteront et amélioreront le travail de l’IA [97]. Quelques exemples donnés par J. Gasnault : « La préparation [des] données est essentielle pour un bon fonctionnement des algorithmes les traitant. Les documentalistes ont une carte à jouer dans cette évolution, en raison de leur compétence spécifique d’enrichissement des données. Cela donne un axe bien identifiable de progression de leurs connaissances : métadonnées, FRBR, normes ELI-ECLI, etc. »

Il y a bien d’autres choses qu’un documentaliste juridique apporte *en plus* d’un robot. Sur ce sujet, voir notre billet Documentaliste : un nouveau métier, de nouveaux noms. Pour ne pas rallonger le présent billet, je me contenterai de (re)citer une bibliothécaire documentaliste juridique américaine [98] :

« L’IA est itérative et continuera à s’améliorer, mais elle ne sait pas grand chose du facteur qu’est le contexte de la question posée ni comment le gérer. Pour que l’IA soit utile dans des recherches complexes (et non juste des recherches sur références bibliographiques) dans la plupart des structures juridiques, j’estime qu’elle aura besoin d’apports significatifs en savoir interne. Il est déjà difficile de faire correctement (voire de faire tout court) du KM. Comment alors allons nous documenter le savoir historique de la structure de manière à ce qu’un robot puisse correctement l’interpréter et l’appliquer ? Ce qui est saisi ne constitue pas réellement la totalité de la requête que l’on entre dans une machine : il y a bien plus de choses à préciser pour que la machine puisse fournir une réponse. »


Il faut aussi lire ce billet d’un consultant, professionnel de haut niveau de la veille, domaine ou excellent les documentalistes : La Veille : 70% d’humain et 30% d’informatique. J’ai appris en lisant cet article un nouveau concept aux termes assez éclairants : la pensée latérale. Les systèmes de veille automatique, les chatbots et les agrégateurs de sources numériques ne sont pas si performants en eux-mêmes. Ils ont besoin d’humains pour déterminer les sources à surveiller et affiner les requêtes booléennes. De plus, on a encore besoin d’un humain pour identifier et suivre les signaux faibles, pour sortir des sentiers battus, pour laisser agir la sérendépité et regarder là où la machine n’ira pas parce que ce n’est pas dans son algorithme.

La journaliste britannique Joanna Goodman, dans son ouvrage précité Robots in Law : How Artificial Intelligence is Transforming Legal Services écrit que l’IA pour les juristes n’est pas une option. Selon elle, les juristes qui accepteront la réalité de l’IA et l’incorporeront dans leur pratique professionnelle sont ceux qui réussiront le mieux dans les années à venir, car l’IA modifie le partage de la valeur entre les acteurs de la "chaîne" juridique. Lire à ce propos le compte-rendu du livre par Robert Ambrogi [99].

Une autre façon, française cette fois et plus diplomate, de formuler cela : en partenariat avec Predictice, le bâtonnier de l’Ordre des avocats au barreau de Lille a dû convaincre ses collègues [100] :

« Il faut tuer tout de suite le fantasme, ça ne remplacera pas les avocats dont les analyses ne peuvent être automatisées »

Selon lui, il s’agit plutôt d’un outil stratégique :

« Le défenseur peut, entre autres, voir quelle juridiction sera la plus encline à rendre une décision favorable à son client. »

Un des meilleurs "papers" sur ce sujet, sur un plan technique — et non économique — est celui publié à la Savannah Law Review [101] par l’"investigateur" américain Philip Segal (Charles Griffin Intelligence), spécialiste des recherches de personnes, d’informations et de faits dont le contentieux américain est friand. P. Segal parle d’améliorations sur des outils que nous utilisons déjà, comme YouTube par exemple, qui devrait bientôt pouvoir se voir appliquer des moteurs de recherche vidéo très puissants. Il reconnaît que l’IA apportera d’importants changements dans la pratique des juristes américains. Mais il est loin de craindre ces nouveaux outils pour son métier. Il signale précisément leurs avantages comme leurs limites. Ainsi, il recommande :

  • de comparer et évaluer les IA comme toute autre base de données en ligne *avant* de les acheter
  • d’accumuler une expérience concrète des "trucs" à savoir pour les interroger sans se "faire avoir" par leurs biais

Pour les postes de paralegals orientés recherches et veille (par exemple, les spécialistes de la recherche, de la veille et de l’enregistrement des brevets) et pour les jeunes collaborateurs (qui font aux Etats-Unis énormément de recherches, ce qui correspond en France aux stagiaires, mais en font aussi beaucoup en France durant leur première année), une étude d’Altman Weill datant de 2015 est pessimiste [102]. La brève précitée de la Lettre de l’Expansion est encore plus explicite :

« Watson [...] est réputé pour son rôle dans la destruction d’emplois. »

Pour les autres paralegals, le risque à court terme, surtout en France, est faible mais à long terme, leurs tâches découpables seront probablement automatisées.

Plus généralement, de nombreux entrepreneurs millionnaires comme Bill Gates ou Elon Musk (voitures électriques Tesla) et des scientifiques comme l’astrophysicien Stephen Hawking ou le docteur Laurent Alexandre (fondateur de Doctissimo) estiment que l’IA va créer du chômage et que les conséquences sociales de cette nouvelle révolution sont encore largement sous-estimées. Elon Musk estimait par exemple le 15 février 2017 que les conducteurs professionnels (soit 15% de la population active mondiale) pourraient se retrouver sans emploi dans les 20 prochaines années, et qu’il y aura de moins en moins de métiers qu’un robot ne pourra pas faire [103]. Le cabinet américain Forrester anticipe, pour le marché de l’emploi des Etats-Unis, une disparition nette de 7% des jobs d’ici 2025 imputable à l’automatisation [104].

Côté France, la journaliste indépendante Tiffany Blandin préconise en conclusion de son enquête Un monde sans travail ? [105], de « regarder l’automatisation dans les yeux ». Elle explique que « personne ne peut dire précisément combien d’emplois vont disparaître à cause de l’intelligence artificielle » et que « c’est pour cela que les dirigeants de la Silicon Valley se sont pris de passion pour le revenu universel ». Et le Canard Enchaîné d’ironiser sur les 10% de postes en danger d’être détruits selon le rapport précité du 10 janvier 2017 du Conseil d’orientation pour l’emploi (COE) [106], en notant que cela représente quand même 3 millions de chômeurs en plus [107].

On ne parlera pas ici de l’ubérisation, que redoutent aussi bien le magazine Capital qu’un un enseignant de l’Université Paris Dauphine [108].

Les spécialistes en intelligence artificielle, eux, vont même plus loin : un sondage mené fin 2016 auprès de 352 chercheurs en IA également auteurs d’articles et présents lors de deux conférences sur le sujet [109] a donné le résultat suivant : selon eux, en se plaçant donc en 2016, il y a une chance sur deux que l’IA soit meilleure que les humains à à peu près tout type de tâche individuelle ("High level machine intelligence - AI human tasks") dans 45 ans. et une chance sur deux que tous les emplois humains soient automatisés ("AI human jobs"), y compris la recherche en IA, dans 122 ans (voir les graphiques en fin d’article). Fin 2017, ce sondage est encore fréquemment cité.

Mais le magazine Business Insider, en rendant compte [110] de ce pre-print, appelle à la prudence. Il commence par rappeller que de nombreuses prédictions d’experts dans le passé se sont avérées fausses. Surtout, Business Insider explique que :

« Quarante ans est un chiffre important lorsque les humains font des prédictions parce que c’est la durée de la vie active de la plupart des gens. Donc, si un changement est censé se réaliser après, cela signifie qu’il se produira au-delà de la durée de vie active de tous ceux qui travaillent aujourd’hui. En d’autres termes, il ne peut se produire avec une technologie dont les experts d’aujourd’hui ont une expérience pratique. Cela suggère qu’il s’agit d’un chiffre à traiter avec prudence. »

Quant à l’IA connectée au cerveau, ce n’est vraiment pas pour tout de suite : le chirurgien français Laurent Alexandre, fondateur du site Doctissimo, et partisan de l’être humain augmenté (ou transhumanisme), commentant les prédictions du singulariste (et par ailleurs employé de Google) Ray Kurzweil, estime qu’ « un cerveau connecté, on en est encore loin. Croire qu’on y arrivera d’ici 15/20 ans, il me semble que c’est faire preuve de naïveté neuro-technologique. Pour l’instant, les seules choses que nous arrivons à faire, c’est recréer des faux souvenirs chez des rats par exemple, en les "connectant". Mais on leur bousille le cerveau, on est très loin d’être au point sur ce sujet-là ». [111]

Surtout, comme l’explique Olivier Ezratty (ancien de Microsoft), les livres et articles sur l’impact de l’IA sur l’emploi font l’impasse sur plusieurs points clés [112] :

  • « au démarrage des précédentes révolutions industrielles, les métiers disparus comme les nouveaux métiers ont rarement été bien anticipés »
  • un phénomène induit par le numérique et qui n’a rien à voir avec l’intelligence artificielle : « le transfert du travail non pas seulement vers les machines mais aussi vers les clients » (exemples des formulaires et modèles de contrats en ligne que nous remplissons nous-mêmes et des guichets automatiques bancaires)
  • ils se focalisent sur la situation aux Etats-Unis, ignorant la plupart du temps totalement le reste du monde
  • ils ont « bien du mal à faire le tri dans les évolutions de l’emploi entre ce qui provient de l’automatisation, de la globalisation et de la concurrence asiatique dans l’industrie manufacturière et même indienne, dans les emplois concernant les services informatiques. L’emploi a surtout migré géographiquement. Les emplois perdus dans l’industrie aux USA et en Europe se sont retrouvés en Asie » [et en Europe de l’Est].

Autre publication relativisant les choses : selon le rapport précité du COE [113], moins de 10% des emplois sont "très exposés" aux mutations technologiques et présentent donc le risque d’être supprimés — mais près de la moitié des emplois devront toutefois évoluer [114]. Les emplois juridiques évoqués supra ne sont pas dans la liste des 10% du COE. Et Anne-France de Saint-Laurent Kogan, spécialiste des transformations du travail liées au numérique, tempère elle aussi les choses [115].

Dans une autre étude (américano-britannique), The Future of Skills’ Employment in 2030, le panel des personnes interrogées estime que tant les juristes que les bibliothécaires documentalistes feront partie des métiers pour lesquels la demande va augmenter à l’échéance 2030. Cette enquête a été produite par l’éditeur scolaire et universitaire Pearson, NESTA, une fondation pour l’innovation globale et l’Oxford Martin School. Surprise : les bibliothécaires documentalistes sont carrément listés dans le segment "haute croissance". Toutefois, les compétences demandées aux bibliothécaires documentalistes vont probablement évoluer dans les années à venir [116]

Menée par les professeurs américains Dana Remus (Faculté de droit de Université de Caroline du Nord) et Frank Levy (économiste, Massachusetts Institute of Technology, le fameux MIT), une étude publiée en novembre 2016 suggère que l’IA a « un effet modéré » sur des métiers tels que la recherche documentaire juridique et la rédaction de contrats [117]. L’étude indique que les tâches précitées représentent environ 40% de la facturation globale des avocats.

Cela dit, selon cette étude — un gros article scientifique de 77 pages publié sur le Legal SSRN —, l’impact estimé de l’IA sur des domaines tels que le "fact-checking" (vérification des faits, typique du droit anglo-saxon), le conseil aux clients, la gestion électronique de documents (GED), la rédaction de conclusions et les audiences — le tout représentant près de 55% des heures facturées — est « faible ».

Mais l’intelligence artificielle a un rôle plus important à jouer dans d’autres domaines. Selon l’étude, l’impact estimé de l’IA sur l’examen de documents ("document review", là aussi une procédure inconnue en droit français) — qui consiste essentiellement à passer en revue de grandes masses de documents pour y chercher les détails pertinents dans le cadre d’un contentieux — est « fort ». Heureusement pour les avocats anglo-saxons, l’étude ajoute que cela représente seulement 4% des heures facturées [118].

Le professeur Joël Monéger, spécialiste des baux, dans une tribune à la revue Loyers et Copropriété [119], formule ainsi les possibilités et les limites de la justice prédictive à la française :

« Prévoir le droit positif tient [...] de la gageure. [...] Certes, la prédictibilité de la solution paraît possible lorsque la plus haute juridiction a tranché le point de droit avec fermeté et de manière répétée. De même, semble-t-il, lorsqu’elle donne des signes annonciateurs d’un revirement possible de la jurisprudence. Mais, au-delà, la jurisprudence, même émanant de nos plus hautes juridictions, est bien souvent délicate à prévoir, notamment face à des textes récents, mal rédigés, ou à des textes en décalage grave avec les réalités sociales ou économiques. Cela tient à l’art de la rédaction des arrêts qui suppose un lecteur formé au décryptage de formules insuffisamment enseignées. De plus, la Cour de cassation ne peut pratiquer l’ultra petita et ne répond qu’aux moyens du pourvoi. »

Pour l’illustrer, il donne l’exemple de deux jurisprudences récentes de la Cour de cassation.

IA en droit et science-fiction ou les risques de la justice prédictive

Et si on en arrivait là où Google semble être arrivé du fait de l’intégration de machine learning dans ses algorithmes (ses ingénieurs ne savent plus totalement en détail comment leur moteur fonctionne : en tout cas, c’est ce que dit un scientifique chez un rival, Qwant [120]) ? Car c’est un fait : l’IA à base de ML est impénétrable [121]. En arriverait-on à ce que ROSS n’est pas — en tout cas pas encore —, c’est-à-dire une véritable intelligence artificielle ?

Les risques :

  • on ne saurait ni qui exactement nous juge ni pourquoi on nous condamne
  • et "power to the machine". On ferait plus confiance à l’algorithme qu’à l’humain, dans une époque méfiante vis-à-vis de la Justice. On ne tenterait plus sa chance en justice si elle est faible. La situation et ce risques sont assez bien décrits dans une brève intervention d’Antoine Garapon sur France Inter et surtout dans son interview au Point par Laurence Neuer dans la remarquable série Mon petit droit m’a dit [122].

La science-fiction a déjà envisagé ces risques (nous ne parlerons pas ici des lois de la robotique d’Asimov, non pertinentes ici et de toute façon déjà dépassées [123].) :

  • le tome 3 de la bande dessinée SOS Bonheur, un classique du genre publié en 1989 [124] parle de justice automatisée : chaque avocat soumet ses conclusions dans une machine et la machine rend son verdict, le juge n’est là que pour contrôler le bon fonctionnement de cette dernière. Ainsi la justice est aveugle et équitable puisqu’elle est censée rendre le même verdict pour tous ceux qui sont dans la même situation sur tout le territoire. Jusqu’au jour où la machine condamne un homme qui a commis un délit mineur à la peine de mort alors que cette dernière a été abolie il y a déjà de nombreuses années. Peut-on désobéir à la machine au risque de remettre en cause tous les autres jugements déjà rendus ?
  • nous avons (presque) tous vu le film Minority report de Steven Spielberg avec Tom Cruise (d’après la nouvelle éponyme de Philip K. Dick). Même si ce sont des êtres humains spéciaux (des"precogs") qui y tiennent le rôle des logiciels et des données et statistiques, le sens en est clair :
    • les programmes sont écrits par des êtres humains, dans l’intérêt de certains
    • et comme tels seront toujours biaisés. Particulièrement si l’information qui y est entrée est biaisée. Le machine learning a tendance à reprendre et aggraver les biais humains parce que c’est une technologie ultra dépendante des données qu’on lui fournit. Illustrations récentes aux USA avec les programmes prédictifs de la police [125]. Antoine Garapon évoque lui aussi ce risque. Pour une vue plus large et un point sur les principaux programmes en cours.
JPEG - 29.6 ko
L’ouvrage Minority report de Philip K. Dick avec pour couverture l’affiche du film

Si le machine learning finit, ce qui est probable selon nous (cf supra), par être utilisé par le juge, il est à espérer que les conclusions d’Antoine Garapon et Marc Clément (dans les articles de revues juridiques cités au début de ce billet) s’imposeront :

Eviter le risque de « l’effet "moutonnier" de la justice prédictive qui pousse au conformisme et réclame plus aux juges qui estiment qu’ils doivent aller à contre-courant, c’est-à-dire faire leur métier tout simplement ! »

« Il sera donc capital que les modes de raisonnement inscrits dans les algorithmes soient parfaitement explicites et maîtrisés par le juge. Il conviendra, de plus, que des méthodes alternatives soient proposées et que l’on ne se retrouve pas en situation de monopole avec une seule technologie utilisable. »

Concernant la justice prédictive, Rubin Sfadj, dans son entretien avec la revue Expertises, souligne que lorsque les outils de justice prédictive seront utilisés par la puissance publique, cet usage devrait reposer sur trois grands principes éthiques — qui, à bien les lire, ne sont pas si exigeants que ça :

  • le principe de responsabilité conduisant à désigner pour chaque algorithme utilisé une personne référente, à l’instar du directeur de publication en droit de la presse
  • le principe de clarté, c’est-à-dire la mention explicite dans une décision de justice élaborée avec l’aide d’un algorithme de ce procédé et la motivation sur laquelle repose le recours à ce type d’outil
  • le principe de précision permettant de corriger une source d’erreur à tout stade du traitement algorithmique.

Quant aux juges, leur réplique à la justice prédictive est déjà prête : "Convainquez-nous avec des arguments juridiques, peu nous chaut vos statistiques". Le Conseil d’Etat, par la voix de Christian Vigouroux, lors du colloque sur l’open data de la jurisprudence organisé en octobre par la Cour de cassation, a déjà prévenu que la juridiction administrative suprême ferait en sorte que le juge administratif ne puisse pas se voir opposer sa propre jurisprudence [126]. Côté justice judiciaire, selon Xavier Ronsin, Premier président de la cour d’appel de Rennes [127] :

« L’hypothèse selon laquelle des plaideurs assistés d’avocats, renonceraient à aller jusqu’au bout d’un contentieux judiciaire classique, parce qu’ils auraient lu les résultats d’un logiciel dit de "prédictibilité de la justice" et qu’ils décideraient alors de transiger, est contestée par beaucoup et mérite à tout le moins d’être vérifiée. Lorsque l’on constate la difficulté de faire aboutir les "modes alternatifs de règlement des litiges (MARD)", il y a de quoi être sceptique, mais pourquoi ne pas l’espérer ?
Au-delà d’un refus de principe sur la possibilité d’enfermer la future décision d’un juge dans le raisonnement d’un algorithme basé sur des "précédents jurisprudentiels", je pense malgré tout que les magistrats doivent se préparer à comprendre ce processus, et à recevoir des dossiers d’avocats comportant des analyses savantes ainsi que des contenus statistiques de milliers de décisions au soutien d’une thèse et de prétentions de leurs clients. De tels dossiers n’empêcheront de toute façon pas la liberté du juge de faire du "sur-mesure" pour chaque dossier, mais ils pourront peut-être éclairer son raisonnement. »


Dans un entretien avec Acteurs publics.com, Xavier Ronsin ajoute [128] :

« C’est une opération complexe que la motivation intellectuelle d’un juge, une opération subtile qui s’articule à un raisonnement et non à une simple corrélation d’items factuels. »

Du côté des avocats, Pascal Eydoux, président du Conseil national des barreaux (CNB) estime qu’ « il n’est pas question que la profession d’avocats envisage de s’opposer à cette évolution car elle est inéluctable et attendue ». Sanjay Navy, avocat à Lille où il a testé Predictice, pense que « ça peut permettre de dire à l’adversaire : "regardez les condamnations en moyenne, négociez sinon vous risquez d’être condamné à tant, ce n’est pas moi qui le prétends, mais la jurisprudence !" ».

Autrement dit, la justice prédictive aurait pour avantage de faciliter le calcul des chances de gagner ou perdre un contentieux, limitant ainsi la prise de risque et facilitant grandement le travail des assureurs. La connaissance de la "vraie" jurisprudence, celle des statistiques.

À condition, évidemment, qu’il ne soit pas fait appel, que la juridiction suprême ne change de pas jurisprudence "juridique" ou que les textes applicables ne soient pas modifiés. Par ailleurs, comme le rappelle Bruno Mathis, consultant, la justice prédictive est « inutile pour estimer des dommages-intérêts obéissant à un barème [...] et Où la justice prédictive sera-t-elle la plus utile ? Dans la masse des décisions qui ne sont ni trop spécifiques ni trop communes. » [129]

On peut aussi craindre une anonymisation insuffisamment forte, c’est-à-dire n’empêchant pas, d’ici les huit ans nécessaires pour que les jugements de première instance accèdent à l’open data [130], la réidentification du fait d’un apprentissage statistique automatique ayant beaucoup progressé et s’appuyant les données indirectement nominatives. Ce risque est réel : le rapport Cadiet sur l’open data des décisions de justice, qui est en réalité d’abord l’œuvre de la haute magistrature [131], préconise une pseudonymisation renforcée, et non une véritable lutte contre la réidentification [132]. Or cette pseudonymisation renforcée ne semble être rien d’autre que la formalisation des pratiques actuelles des juridictions suprêmes, désormais en charge de l’anonymisation (pardon, pseudonymisation), qui font face au coût que cela représente.

Le professeur Anne Debet, ancien commissaire de la CNIL, et un des meilleurs spécialistes français du droit des données personnelles, interrogée par la mission Cadiet, explique pourtant que :

  • au regard de la jurisprudence de la Cour européenne des droits de l’homme, « on peut imaginer une condamnation de la CEDH sur le fondement d’une possible réidentification des personnes dans une décision contenant des données sensibles non correctement anonymisées »
  • au regard des exigences du RGPD, la simple pseudonymisation (le terme même employé par le rapport) est insuffisante : « L’anomymisation doit être conforme aux exigences posées par la loi informatique et libertés et par le RGPD. [...] Il ne doit pas s’agir d’une simple pseudonymisation, [...] Cette amélioration a néanmoins un coût et un budget conséquent doit y être consacré. » On ne saurait être plus clair.

Les avocats craignent aussi une certaine déshumanisation ou une justice au rabais, voire un possible risque de "fainéantisation". Comme le formule Me Navy lui-même : « On vient me voir avec un problème, je tape sur le logiciel, j’ai 90% de chances de le perdre, donc je ne prends pas le dossier alors qu’en s’y penchant bien, je pourrais soulever un point particulier et gagner. » [133]

Certains vont plus loin, en proposant voire exigeant que le code des applications sur lesquelles se fonde une décision de justice soit disponible en open source. Pour reprendre les mots de Michael Benesty : « la confiance que l’on placerait dans des outils de justice prédictive implique, au cours du processus, que le calculs et les caractéristiques du modèle de prédiction soient visibles et compréhensibles par le juriste, avocat ou magistrat, qui les emploie. Cela se traduit par une obligation de transparence sur les algorithmes, que garantit la libération en open source de la solution autant que par une vigilance et une expertise juridique sur les données mobilisées. » [134] Le code source de Supra Legem, l’application de M. Benesty, est déjà en open source [135].

Le magistrat Antoine Garapon, dans son entretien précité aux Petites Affiches, penche, de manière moins radicale, pour la création d’un service public chargé de contrôler le code source, sous condition de secret professionnel [136].

Un article de la série Futurography sur Slate.com, propose une autre troisième voie entre secret et open source. Un amendement à loi fédérale américaine FOIA (Freedom Of Information Act [137]) donnerait le droit au public de soumettre des jeux de données tests à l’administration. Celle-ci devrait les passer à travers ses programmes et publier les résultats. Experts et journalistes pourraient alors calculer le taux d’erreur de ces algorithmes [138].

Enfin, selon un article d’Internet Actu [139], l’évolution des technologies d’IA pourrait permettre de sortir de l’opacité du fonctionnement de deep learning pour les humains. Algorithmes génétiques et IA symbolique, par exemple, peuvent être compris et débuggués. Il serait aussi possible de demander au programme d’expliquer ce qu’il fait.

En France, notre droit permet en tout cas de demander communication du code source des logiciels créés et utilisés par l’Administration, au titre de la communication des documents administratifs. La Commission d’accès au documents administratifs (CADA) [140] puis le tribunal administratif (TA) de Paris [141] l’ont confirmé à propos du logiciel simulant le calcul de l’impôt sur les revenus des personnes physiques. La DGFiP s’est résolu à s’y conformer l’an dernier, juste avant que le TA ne rende sa décision. La CADA a enfoncé le clou en 2016 en autorisant la communication à une association de lycéens du code source du logiciel Admission post bac (APB) [142]. Le Ministère de l’Education nationale s’y est conformé partiellement [143].

Ne pas oublier non plus que l’article 11 du règlement (européen) général de protection des données (RGPD), applicable en 2018, interdit toute décision automatisée qui affecterait significativement un citoyen européen — toutefois cela a de fortes chances de rester un principe sans application concrète — et que les articles 12 et 14 créent, pour les autres décisions, un "droit à explication" [144]. Une décision de justice prédictive, par exemple [145].

Enfin, du côté des structures privées (les cabinets d’avocats les premiers), les meilleures n’auront-elles pas intérêt à maintenir une expertise en recherche et veille afin de contrôler la pertinence des réponses (car un mémo fourni par ROSS serait bel et bien au minimum une amorce de réponse) ? Attention aux biais dans les contenus et les statistiques ... Pour le dire en anglais : « Content experts and data scientists needed ! »

ROSS, Predictice, Case Law Analytics, des inconnus

Mais pour éviter de trop conjecturer et en apprendre plus, il serait bien de pouvoir tester ces IA. Et de lire autre chose que des communiqués à peine dissimulés.

En effet, il n’existe aucune démo gratuite en accès libre de ROSS ni de Predictice, le site web du produit ROSS est d’un vide intersidéral (le compte Twitter est beaucoup plus riche !) et les cabinets d’avocats utilisateurs ne lâchent aucun exemple d’utilisation ni de recherche ni aucun autre détail.

C’est là que la libre disponibilité de l’interface et du code source de Supra Legem remplit son office : permettre de tester un outil de "justice prédictive".

Emmanuel Barthe
bibliothécaire documentaliste et veilleur juridique, spécialiste des moteurs de recherche pour le droit et des données juridiques publiques
licence en droit, Faculté de droit de Sceaux


Une "webliographie" sélective et rapide sur ROSS :


Documentalistes juridiques free lance et autres indépendants du secteur de l’information juridique

Une liste

Jeudi 8 février 2018

Vous avez besoin d’un spécialiste de la recherche de documents juridiques ? Vous voulez négocier votre facture annuelle avec un gros éditeur juridique ? Vous avez beaucoup d’ouvrages papier et ebooks mais vous ne savez ni où ils sont dans le cabinet ni quels titres exactement vous avez ? Le site web de votre cabinet aurait besoin d’un coup de jeune ? Votre organisation possède un thésaurus juridique et doit le mettre à jour ou moderniser son format ?

A la faveur des évolutions du secteur juridique ou par choix, les documentalistes juridiques free lance sont de plus en plus nombreux et de plus en plus qualifiés.

Ils ne sont pas seuls : d’autres indépendants, souvent experts dans leur domaine, exercent depuis longtemps dans les secteurs du Web sémantique, des thésaurus et plans de classement, des intranets, de l’informatique/édition juridique, de la communication et du conseil en management.

NB : cette liste ne prétend pas à l’exhaustivité. Notamment, elle se focalise sur les indépendants, elle exclue donc les sociétés dirigées et possédées par plus de 3 personnes ou par des personnes n’y travaillant pas ou encore par des personnes morales. Ne sont pas non plus listés ici les secrétaires classeurs [146].

La liste :

- Documentalistes juridiques veilleurs [147] :

  • Yann Dumetier (Juridoc)
  • Marie Lavie de Randé
  • Myriam Querrien Bortoli (Adhoc)
  • Jean Gasnault (La Loi des Ours) : non seulement documentaliste juridique mais aussi spécialiste de l’accès au droit et des données juridiques en accès libre. Administrateur de l’association Open Law.

- Web sémantique et langages documentaires juridiques :

  • Sylvie Dalbin : la spécialiste française du thésaurus. À travaillé pour des éditeurs juridiques français
  • Jean Delahousse : le spécialiste français du web sémantique juridique. Il est notamment intervenu pour les communautés européennes
  • Thomas Francart (Sparna), spécialiste du langage/format de vocabulaire/thésaurus Skos. Il est notamment intervenu pour l’ONU.

- Infographistes juridiques et legal designers :

- Webmestres, community managers :

- Communicants juridiques et conseils en management de cabinet d’avocats : voir la liste tenue à jour par ma collègue Carole Guelfucci sur son blog Sérendipidoc : Les conseils des conseils.

J’ai oublié quelqu’un ? Les commentaires sont ouverts infra.

Emmanuel Barthe
bibliothécaire documentaliste juridique, veilleur, formateur


Dernières brèves

Comment se protéger facilement de la curiosité de Facebook, Google, Amazon et Microsoft etc.

... et d’autres intrusions

Mardi 6 février 2018

Lire la suite »

Nous autres parents reprochons souvent à nos ados le temps qu’ils passent sur leurs écrans. Mais avons-nous conscience du temps que nous, nous y passons ? Nous avons tous regardé un jour autour de nous dans le métro en allant au travail : 70-80% des passagers sont sur leur portable.

Pourquoi se protéger de Facebook et des autres

Grâce à cette connexion plusieurs heures par jour, nos fournisseurs de messagerie, cloud, réseaux sociaux et autres jeux en ligne nous espionnent, avec notre consentement — vous savez, le fameux contrat de x pages de long [1] que, bien obligé, vous avez validé lors de la création de votre compte.

JPEG - 64 ko
Facebook conditions d’utilisation et politique de confidentialité

Puisque c’est gratuit, c’est nous le produit : ce sont nos données de navigation, nos contacts, nos préférences, nos achats, nos opinions, nos intentions, nos émotions que les membres du GAFAM (Google, Amazon, Facebook, Microsoft mais aussi Twitter, LinkedIn et d’autres) analysent (pour développer de l’IA et étendre leur marché) et vendent.

N’oubliez pas que Google a votre autorisation pour scanner en permanence tous vos mails, tous vos fichiers stockés sur Drive, toutes les pages web où vous êtes passé [2]. De nombreuses coïncidences m’ont fait comprendre que LinkedIn accède au carnet d’adresse [3]. C’est exact : LinkedIn fait absolument *tout* pour récupérer votre carnet d’adresses [4], y compris vos nouveaux contacts. La plupart des commentateurs avisés sur Internet estiment que les réseaux sociaux et applications utilisent deux moyens principaux pour trouver vos contacts [5] :

  • si vous avez un smartphone Android, votre carnet d’adresse est quasi-certainement chez Google et quantité d’applications Android, dont LinkedIn, exigent d’y accéder pour fonctionner. Et Android ne vous donne même pas la possibilité de contrôler les autorisations données aux applis (c’est tout ou rien), contrairement à iOS (le système d’exploitation des iPhones)
  • si vous n’avez jamais installé cette app ni une autre du même groupe (pour mémoire, Facebook a racheté WhatsApp ...), le réseau social/l’appli possède votre adresse email et numéro de téléphone tout simplement grâce à vos amis et contacts, qui eux ont autorisé l’appli à télécharger leurs contacts ...

De tous les réseaux sociaux, de toutes les sociétés Internet, Facebook est le plus indiscret, le plus intrusif. Dans le cadre de sa fonctionnalité suggérant des "amis FB" appelée "People You May Know" (PYMK), il scanne toutes les listes de contacts de toutes les personnes qui utilisent ses services ou ceux de ses filiales (notamment WhatsApp). FB sait aussi repérer avec qui vous passez du temps sans même utiliser le GPS de votre smartphone. Facebook génère plus de 1300 catégories dans lesquelles sont projetés ses utilisateurs en fonction des attributs de personnalité déduits de leur activité sur le réseau social et sur les données collectées à partir des sites internet qui lui sont affiliés [6]

Quant à Twitter, il vend l’entièreté de sa base de données, y compris les lieux et heures de vos tweets et vos plus vieux tweets — auxquels vous ne pouvez plus accéder et que vous ne pouvez donc plus effacer si besoin est.

Ce n’est pas vraiment ici le sujet, mais vous noterez au passage que les principaux réseaux sociaux, et plus encore leurs applications pour smartphone, sont conçus pour créer et maintenir une addiction à travers une culture du plaisir immédiat et, plus grave encore, qu’elles tendent à priver leurs utilisateurs du bonheur (par opposition au plaisir, qui n’est pas sur la durée) des relations IRL (in real life), dont l’effet positif a été prouvé bien plus grand.

PNG - 9.8 ko
A Twitter database

Parmi le GAFAM et Twitter, j’exclus Apple de la liste des sociétés qui fouillent trop dans vos données. Il fait son chiffre d’affaires dans le logiciel et les matériels, quasiment pas dans la data. Mais les data peuvent un jour devenir son business model. C’est un basculement que Microsoft, encore peu dans le data business, est en train de faire.

Enfin, n’oubliez pas que si un virus ou un hacker mal intentionné rentre dans votre ordinateur, le pillage de vos données personnelles risque d’être beaucoup plus important encore. D’où antivirus et firewall.

Faut-il vraiment protéger ses données ?

Vous allez me dire : « Mais je n’ai rien à cacher ! »

Voici ce qu’en dit Glen Greenwald, le reporter qui a le plus travaillé sur les révélations d’Edward Snowden [7] :

« Au cours des 16 derniers mois, alors que je discutais de ce problème dans le monde entier, chaque fois que quelqu’un me disait : "Je ne m’inquiète pas vraiment des atteintes à la vie privée parce que je n’ai rien à cacher". Je leur dis toujours la même chose : "Voici mon adresse e-mail : lorsque vous arrivez à la maison, envoyez-moi les mots de passe de tous vos comptes e-mail. Tous. Je veux vraiment me promener à travers ce que vous faites en ligne, lire ce que je veux lire et publier ce que je trouve intéressant, Après tout, si vous n’êtes pas une mauvaise personne, si vous ne faites rien de mal, vous n’avez rien à cacher." Eh bien, pas une seule personne n’a relevé mon défi. »

Vous allez aussi me dire : « Et si je vendais mes données ? Ca me rapporterait, non ? » [8]

Eh bien ... non, comme le montrent deux chercheurs de l’Institut national de recherche en informatique (INRIA), Serge Abiteboul et Gilles Dowek :

  • « première idée fausse : cela poserait un problème aux géants du Web. Une fois notre propriété établie, une clause des contrats qu’ils nous feront signer nous la fera céder pour bénéficier de services »
  • deuxième idée fausse : la valeur de nos données. « Dans les systèmes de "crowd sourcing" comme Amazon Mechanical Turk, des foules d’internautes produisent déjà sur le Web mais pour de très faibles sommes [9]. » Il y a déjà eu des expériences de vente de leurs données par des particuliers. Elles indiquent qu’il n’est guère possible de faire plus 300 USD par an. Et que les données actuelles de beaucoup de particuliers de base ne valent guère plus d’1 USD
  • « enfin, plus profondément, il n’existe que peu de données numériques individuelles. La plupart de ces données sont "sociales". Vous postez une photo sur Facebook : est-elle à vous, aux personnes que vous avez photographiées, aux personnes qui vont la tagger, ou à celles qui vont la commenter, la diffuser ? Parmi vos données les plus utilisées dans la publicité figurent vos courriels. À qui appartient un courriel ? À la personne qui l’écrit, à celles qui le reçoivent, aux personnes en copie ? Si le courriel parle de vous, en êtes-vous un peu propriétaire ? »

C’est donc pour moi un souci constant que d’éviter de laisser trop de traces au GAFAM. Autrement dit, j’essaie d’assurer un minimum de sécurité et de protection à mes données et ma vie privée.

Comment je fais ? Lisez la suite.

Quelques recommandations et précautions pour diminuer les risques pour votre vie privée

Voici les précautions que je prends et que je recommande — si vous ne les connaissez pas déjà. Attention : ce n’est pas une protection parfaite. C’est un compromis et du "faute de mieux".

1. Videz tous les jours les données personnelles de votre navigateur web, que ce soit sur sur ordinateur ou sur smartphone. Sur Firefox ça s’automatise dans les Options (ordinateur, Android). Sur Google Chrome, comme par hasard, il faut le faire à la main ...
NB : inutile de supprimer les mots de passe et les données de saise automatique.

Google Chrome > Paramètres > Confidentialité

JPEG - 43.1 ko
Google Chrome > Paramètres > Confidentialité > Effacer les données de navigation

2. Dans les paramètresde votre navigateur, activez la fonctionnalilté "Interdire le suivi" (Do not track / Ne pas pister) (Chrome, Firefox).

Vous avez parcouru un site marchand et après, de la publicité pour les produits que vous avez consultés est affichée sur les sites que vous visitez ? La fonctionnalité Do Not Track (DNT) est censée bloquer ce comportement.

3. Si vous avez un compte Google, supprimez le suivi de votre activité. Connectez-vous-y, cherchez Google Dashboard puis videz un par un les historiques de chaque application et interdisez leur pour le futur de continuer à mémoriser votre activité.

4. Utilisez la messagerie Telegram ou le courrier papier en cas de besoin de confidentialité absolue. Ce sont les recommandations de journalistes d’investigation. Aux dernières nouvelles, le chiffrement des messages sur Telegram n’a toujours pas été cassé.

Logo de l'application de messagerie Telegram

5. N’utilisez plus Facebook et désactivez ou supprimez votre compte. Si les liens précédents ne marchent pas, cherchez sur le web comment faire, car FB ne le met pas du tout en avant.
Si vous avez juste besoin d’une messagerie et que vous ne correspondez jamais avec plus de 10 personnes, utilisez le mail. Si vous voulez vraiment une messagerie instantanée ou que vous correspondez avec de plus grands groupes, utilisez plutôt Messenger ou WhatsApp. Même si ce sont des filiales de Facebook, leur "empreinte sur la vie privée" est moindre. Mais pas nulle : par exemple, si vous installez WhatsApp, Facebook a accès à votre liste de contacts ...

6. Tous les mois, tapez vos nom et prénom dans Google et ceux des membres de votre famille. En cas de publication de données personnelles ou d’informations privées, contactez l’adresse de contact et en cas de refus d’effacer, invoquez la loi CNIL et le règlement européen sur la protection des données personnelles (RGPD). Double refus ? Signalez-le à la CNIL.

7. Sur votre ordinateur :

  • utilisez un pare-feu en permanence ("firewall"). Surtout si vous surfez sans routeur, c’est-à-dire sans "box". Par exemple avec un ordinateur portable doté d’une clé 4G [10]. Sous Windows, depuis la version 7, il est activé par défaut. D’autres pare-feux gratuits sont disponibles, mais celui de Microsoft fait correctement son travail. Il est en revanche très difficile à paramétrer. Donc, pour des besoins précis ou évolutifs, préférez-lui un concurrent : ZoneAlarm, Comodo, TinyWall, Avast ... NB : un pare-feu ne peut être installé sur un smartphone que si on a "rooté" (Android) ou "jailbreaké" (iOS) celui-ci, mais son intérêt est moindre que sur un ordinateur
  • ayez un antivirus et tenez le à jour. Avast est un des meilleurs et il est gratuit pour les particuliers. Sinon, F-Secure, BitDefender, Kaspersky, McAfee, Trend Micro ou Norton de Symantec font bien le job. NB : pour l’instant, les antivirus sont inutiles sur les smartphones.

8. Ayez partout un mot de passe différent et complexe (avec des chiffres, des caractères non alphabétiques etc., voir ces recommandations très complètes). Vous pouvez le faire générer par un générateur de mot de passe solides. Si retenir et saisir tous ces mots de passe vous fatigue, utilisez un gestionnaire de mots de passe.
Parmi les gestionnaires de mots de passe recommandés : LastPass, Dashlane et KeePass. Ce dernier est de surcroît open source et recommandé par l’Etat français. Autrement dit, il dispose de la certification de l’autorité nationale de sécurité informatique (ANSSI). Mais il ne dispose pas de version mobile. Pour les deux premiers, la version smartphone est payante. Si vous êtes sous Mac, utilisez 1Password.

D’autres recommandations de protection de vos données et de vos appareils sont disponibles sur un site sérieux et réputé : Privacy Tools.

Vous avez d’autres pratiques de protection de votre vie privée à recommander ? Les commentaires sont ouverts.

Emmanuel Barthe


Le Mémento PME : un nouveau Mémento pratique Francis Lefebvre

Un révélateur des tendances de l’édition juridique française

Lundi 29 janvier 2018

Lire la suite »

Le Mémento PME est un nouveau titre dans la collection des Mémentos Pratiques des éditions juridiques Francis Lefebvre.

Vous allez me dire : « Un de plus — pourquoi parler de celui-ci ? »

Parce qu’il illustre assez bien certaines des tendances récentes de l’édition juridique française :

- C’est un exemple de la multiplication des titres chez les éditeurs juridiques. Comme pour les romans, il semblerait que plus on publie, plus on (a des chances de) vend(re). Il y a aussi une tendance à publier de nouvelles éditions plus souvent.

- C’est un exemple de l’intérêt des acheteurs pour ce type d’ouvrage. Même LexisNexis s’y est mis avec sa collection Lexis pratique, qui compte justement un ouvrage dénommé Fiscal. Comme le Mémento Fiscal.

- Le Mémento PME existe certes en version tablette et iPad, mais comme la très grande majorité des ouvrages juridiques électroniques en France, ce n’est pas un véritable ebook — au sens de fichier indépendant téléchargeable (format ePub, par exemple).

- C’est un ouvrage très intéressant pour les PME de moins de 50 salariés (et leurs avocats), un segment peu prisé jusqu’ici des grands éditeurs juridiques (je ne parle pas de la Revue Fiduciaire, les PME sont clairement un de leurs marchés favoris), mais un segment à séduire dorénavant.

- Et puis c’est exceptionnellement riche : 3000 pages pour 119 euros TTC (prix de lancement jusqu’au 31 mars, 128,99 euros après).

Exemples de contenu du Mémento PME :

Comptable :

  • Qu’est-ce qu’une charge et comment la comptabiliser ?
  • Comment évaluer la valeur des actifs ?
  • Quelles sont les divergences entre la comptabilité et la fiscalité ? Quels sont les retraitements extra-comptables à effectuer ?

Fiscal :

  • Quelles sont les charges admises en déduction du résultat des entreprises ? Quand peut-on les déduire ?
  • Quelles sont les conditions de déduction d’une provision ?
  • Qu’est-ce qu’un amortissement fiscal ? Comment le calculer ?
  • À quel taux d’impôt sur les sociétés les bénéfices de votre entreprise doivent-ils être taxés ?
  • Êtes-vous assujetti à la TVA ? Votre activité est-elle taxable, exonérée ou imposable par option ?
  • Quelles sont les obligations déclaratives des sociétés ?

Social :

  • L’agent chargé d’un contrôle Urssaf doit-il respecter un délai minimum entre l’envoi de l’avis préalable et sa première visite ?
  • Le salarié a-t-il droit aux jours de congés pour événements familiaux en cas de remariage ?
  • Peut-on convoquer les délégués du personnel à une réunion par courriel ?
  • Dans quels cas la période de mise à pied conservatoire doit-elle être rémunérée ?
  • Le salarié doit-il motiver sa démission ?
  • Est-il possible de vapoter dans l’enceinte de l’entreprise ?

Pourquoi et comment bloguer : quelques constats et convictions personnelles

Bloguer, c’est être libre (de s’exprimer)

Vendredi 26 janvier 2018

Lire la suite »

Je blogue depuis 2004. C’est une passion et une respiration.

Quand j’en parle, on me demande parfois :

  • Je voudrais bloguer mais je n’ose pas. Est-ce que ce que je veux écrire en vaut le coup ?
  • Faut-il publier beaucoup/souvent si on blogue ?
  • Sur quoi bloguer ? Sur quel sujet ?
  • Comment s’y prendre ? Comment est-ce qu’on blogue ?
  • Est-ce que ça a encore un intérêt de bloguer ? Est-ce que ce n’est pas plus simple et plus efficace de poster sur Twitter/Facebook/(écrivez ici votre réseau social préféré) ?
  • Qui va me lire ? Pour qui écrire ?
  • Bloguer, c’est dangereux ?
  • Bloguer, ça rapporte ?
  • Comment faire pour être bien référencé dans les moteurs de recherche (Google, Bing) ?

Alors, simplement, voici les réponses que je donne. Ce sont les miennes, d’autres blogueurs en donneront d’autres. Mais si ça peut vous aider à faire des choix et éventuellement vous lancer, j’en serai heureux.

Je voudrais bloguer mais je n’ose pas. Est-ce que ce que je veux écrire en vaut le coup ?

Ne vous posez même pas la question. Quand j’ai commencé, j’ai blogué pour moi seul :-) Bloguer est, au moins au départ, un acte solitaire et qui suppose qu’on a très envie de s’exprimer.

On blogue parce qu’on a quelque chose à dire et qu’on a envie de le publier, de le dire aux autres. Bloguer, c’est une passion, une obsession, une marotte.

C’est le temps qui dira si votre sujet et votre plume en valent le coup. Ce sont vos lecteurs, par leurs tweets, leurs posts Facebook, leurs commentaires sous vos billets, qui vous confirmeront que ce que vous écrivez intéresse, est utile ou émeut.

En théorie, on dit billet ou post pour un blog, pas article. Stricto sensu, le mot "article" est réservé aux articles de presse.

Après, quand je vois le peu de détails et d’arguments de certains articles, et inversement la longueur et le nombre de liens et de notes de bas de page de certains de mes billets, je n’ai aucune gêne à les qualifier d’articles. A propos de mon billet sur l’intelligence artificielle en droit [11], un spécialiste du sujet m’a même conseillé de le passer sur l’archive de pre-prints du CNRS, HAL. Sur HAL, concrètement, ce sont des articles de revues scientifiques qu’on publie. Alors ...

Faut-il publier beaucoup/souvent si on blogue ?

Réponse simple : non. Réponse nuancée : idéalement, une fois par semaine. Disons au moins une fois par mois.

En fait, tout dépend de votre envie d’être populaire et bien classé dans les moteurs de recherche. Google a tendance à vous laisser tomber si vous ne publiez pas au moins une fois par semaine. Ce qui est exigeant, surtout si vous bloguez sans rien y gagner sur le plan financier.

L’idéal, c’est d’avoir toujours de côté un ou deux billets prêts à être publié et des les publier progressivement. Ne pas faire de feu d’artifice en publiant trop de billets d’avion un coup mais les espacer d’au moins une semaine. (Cela dit, il m’arrive de ne pas pouvoir me retenir et d’en publier trois en une semaine. Tant pis !)

L’important pour être lu, c’est d’être crédible et de tenir la distance (au moins les deux premières années). Ce qui compte, ce n’est pas de publier souvent mais de publier bien (plus de précisions infra sur ce que veut dire « bien publier »).

Sur quoi bloguer ? Sur quel sujet ?

Sur ce que vous voulez. Exactement.

Sur ce qui vous branche ou ce qui est à la mode. Sur ce qui peut rapporter (un peu) d’argent. Sur ce qui peut vous faire (un peu) de pub. Sur ce qui peut vous aider à démontrer votre compétence si vous cherchez un poste, des partenaires commerciaux ou des clients.

Trois conditions si vous voulez être lu :

  • un sujet étroit/de niche ou au minimum très bien délimité. Ne sautez pas du coq à l’âne d’un billet à l’autre. Et les algorithmes des moteurs de recherche du Web n’aiment pas trop le mélange des genres
  • accrochez-vous à votre sujet. Ne le lâchez pas. Si vous voulez en changer, lancez un autre blog, sous une autre adresse et un autre nom
  • publiez :
    • soit de vrais scoops ou des exclusivités. Vos billets peuvent alors être courts mais c’est difficile, le scoop est le domaine de la presse
    • soit de longs billets argumentés et documentés.

Autrement dit, maîtrisez votre sujet. Soit vous le connaissez déjà (très) bien et vous êtes très bien informé (vous avez très vite les derniers tuyaux), soit vous faites de solides recherches pour vous documenter et ne pas dire de bêtises. Après tout, c’est Internet : même si la majorité des sites gratuits n’a guère d’intérêt pour les professionnels et les gens sérieux [12], il y a quand même des sites en accès libre fiables et bourrés d’information, même s’ils sont parfois difficiles à trouver [13].

Comment s’y prendre ? Comment est-ce qu’on blogue ?

Tres simplement et très facilement.

On commence par écrire son premier post sur n’importe quel logiciel de traitement de texte. Même si le bon vieux Bloc-Notes a mes faveurs, même Write, Open Office, Libre Office ou Word feront l’affaire. Sur smartphone, utilisez donc Simple Notepad de Mighty Frog si vous êtes sous Android [14]. Évitez Google Docs, il a besoin d’une connexion.

Pourquoi dites-vous de commencer par écrire sur un bon vieux logiciel de texte ? Moi, je veux écrire en ligne !

Parce que vous n’avez pas envie de rater votre premier essai. Rédiger hors ligne vous enlève la pression, vous permet de réécrire autant de fois qu’il le faudra sans aucun risque.

Et parce que pour bloguer, il faut prendre sur son temps libre. Et qu’on n’en a pas beaucoup. Or, quel meilleur endroit que les transports en commun pour écrire sur son smartphone, sa tablette ou son portable ? Justement, dans les transports, le plus souvent, il n’y a pas de connexion ...

Je ne sais pas écrire. Je n’ai aucun style !

Franchement, à moins d’avoir une prétention scientifique — ce qui est, je le reconnais, le cas de ce blog — on s’en moque. Quand je vois les fautes d’orthographe et de grammaire sur les SMS et Facebook, je me dis que le niveau moyen sur Internet est tel que vos lecteurs peuvent très bien n’en avoir rien à fiche [15].

Essayez quand même de ne pas faire une faute toutes les deux phrases. Ça fatigue à la longue et ça peut vous faire perdre bêtement des lecteurs. En plus, la plupart des logiciels de blog ont un correcteur orthographique intégré ... Au pire, copiez-collez vos écrits dans Word ou Open Office et laissez son correcteur faire le travail.

Question style, on s’en fiche encore plus. Parce que si vous écrivez au moins un billet par mois, à force, vous allez apprendre à écrire. Comme un journaliste, un écrivain ou un publicitaire. C’est en forgeant qu’on devient forgeron.

Sachez simplement que quand j’ai commencé, je faisais des phrases à rallonge et que je n’aérais mes paragraphes ni par des lignes vides ni par des intertitres ni par des puces ni par des images. Bref, je faisais des gros pâtés :-) Tout ce qu’il ne faut pas faire. Puis, très lentement, j’ai appris.

Il existe plein de guides/tutoriels gratuits sur Internet pour apprendre à écrire pour le Web. Il y en a de deux sortes :

  • ceux qui vous conseillent dans le seul but d’être bien classé dans Google et au final gagner de l’argent. Bons conseils en général (je les ai lus et en ai suivi certains), mais si vous les suivez à la lettre, vous ne risquez pas de vous distinguer de la masse
  • ceux qui ne veulent pas vous formater et vous recommandent la sincérité et l’authenticité. C’est mon cas. Trop de blogs n’ont d’original que leur charte graphique (le design, les couleurs et les images de leurs pages).

Avec quelle application/logiciel bloguer ?

Le plus simple pour débuter, c’est :

  • Blogger de Google. Mais s’il est très simple à utiliser, il est devenu un peu "has been". A mon avis, il est en perte de vitesse. Notamment, il n’est pas assez soutenu par Google.

Et sinon, à peine plus compliqué :

  • WordPress (WP) en version hébergée chez ... WordPress ("hébergée" veut dire que vous n’avez rien à installer et pas à vous soucier de votre serveur). WP offre même une application Android pour bloguer directement à partir de votre smartphone. C’est un plus.
    WordPress est LE logiciel dominant pour écrire sur Internet. Sa part de marché des logiciels de gestion de contenu (CMS) a dépassé les 50% en 2016 [18].
    En échange de la gratuité de l’hébergement sur WordPress.com, des publicités apparaîtront sur vos pages. Et vous ne pouvez pas contrôler leur nature ou leur contenu. Pour l’éviter, vous pouvez payer ou choisir de gérer votre serveur et d’installer vous-même WP

  • DotClear. Bien qu’il n’offre pas de version hébergée, son installation est automatisée, il est très riche en fonctionnalités, il est français et c’est une excellente alternative à WordPress [19].

Personnellement, j’utilise Spip, dans sa version 3, la plus récente, mais le délai pour le maîtriser ("learning curve") est plus important et la communauté des sites sous Spip se réduit inéxorablement depuis 2006 [20]. Pour les problémes techniques et les mises à jour de Spip, j’ai pris un webmestre. Je n’ai plus le temps de passer un dimanche les mains dans le cambouis.

Si vous prenez autre chose, vérifiez bien que les dernières mises à jour datent de moins de six mois, que la communauté autour de ce soft est nombreuse et qu’elle est toujours active. Sinon, le jour où vous aurez un bug ou bien à transporter votre production sur un autre logiciel, ce sera très compliqué voire très cher. Pour avoir d’autres idées, vous pouvez consulter un article de ce blog datant certes de 2007, mais plusieurs des logiciels cités sont toujours bien vivants [21].

Est-ce que ça a encore un intérêt de bloguer ? Est-ce que ce n’est pas plus simple et plus efficace de poster sur un réseau social ?

Sur un réseau social, ce que vous écrivez appartient, en fait, au réseau social. Si le réseau social arrête ses activités — voyez ce qui pourrait arriver à toutes les listes de discussion Yahoo Groupes ... — il vous serait très difficile, pour ne pas dire impossible, de transférer ça ailleurs. De même, si vous voulez transférer tout ce que vous avez écrit d’un réseau social à un autre ou vers un blog, ce sera mission impossible.
Votre blog, en revanche, est votre propriété, juridiquement et surtout — la plupart du temps — techniquement. Vos écrits sont stockés dans une base de données bien faite, récupérable et transplantable ailleurs.

Si le réseau social se fâche avec Google ou a un mauvais moteur de recherche interne, vos statistiques de consultation vont se casser la figure.
Sur votre blog, le trafic qui y passe, c’est votre affaire, votre responsabilité. S’il monte ou s’il tombe, c’est de votre fait.

Sur un réseau social, vous ne pouvez pas empêcher quelqu’un d’écrire des c...ies sur votre page ou juste à côté. Si vous voulez fermer votre compte, tous les commentaires et réponses des autres resteront en ligne, eux. Ça peut être gênant.
Alors que sur votre blog, vous êtes le maître. Vous pouvez censurer les trolls, les pubs et les inintéressants (je le fais, c’est *mon* blog) [22].

Sur un réseau social, les messages longs (400 mots et plus) sont mal vus et généralement peu lus. Le format long sur un réseau social, en pratique, tourne autour de 100 à 200 mots [23]. Et renvoie au blog pour plus de détails !
Sur un blog, vous écrivez aussi long (ou aussi court, après tout) que ça vous chante. Il est établi que pour être bien référencé par Google, la longueur idéale d’un billet de blog se situe entre 1000 et 2000 mots mais varie selon le secteur [24]. De plus, long, ça fait sérieux. Et il suffit de faire un chapeau ou un résumé en début d’article et tout le monde est content.

Les posts sur les réseaux sociaux disparaissent des écrans radar en quelques jours. Tenter de les retrouver par Google ou le moteur interne du réseau est le plus souvent peine perdue.
Inversement, la popularité d’un billet bien argumenté se bonifie avec le temps. Mon billet le plus consulté, Où trouver des arrêts de cour d’appel ?, a été écrit à l’origine en octobre 2011. Je ne l’ai mis à jour que cinq fois depuis. Six ans après, il est autour de 300 000 visites au total, et demeure un des articles les plus lus récemment sur mon blog.

Et puis, un blog, c’est beaucoup plus personnel qu’un compte sur Facebook. Sur un grand réseau social, le produit c’est vous. Vous, vos données, vos liens affectifs et vos émotions. Le réseau social, c’est aujourd’hui établi, cherche à provoquer votre indignation, votre colère, votre compassion. Parce que ce sont les émotions qui créent le buzz. Et c’est le buzz qui crée le trafic. Et c’est le trafic qui crée les données et la publicité qu’on vend.
Sur votre blog, vous n’êtes pas le produit, vous êtes l’auteur du produit. Le produit, vous le contrôlez de A à Z. Vous pouvez même en faire payer une partie (voir le blog Abondance d’Olivier Andrieu, le pape français du référencement de sites web). La publicité, si vous en mettez, vous pouvez dans plusieurs cas la contrôler. Et c’est vous qui en touchez les (faibles) revenus.

Tout ça ne vous empêche pas d’annoncer vos posts sur Twitter, FB etc. et de créer le débat. Bien au contraire ! Blog et réseau social sont complémentaires et se renforcent l’un l’autre.

Qui va me lire ? Pour qui écrire ?

Ne vous tracassez pas. Votre lectorat vous trouvera — ou pas — et ce, principalement par la communauté de blogueurs, twittos et "FBers" autour de vous et pour le reste par Google. Tenez deux ans. Si au bout de deux ans, vous n’avez toujours que quelques dizaines de visiteurs uniques par jour, posez vous des questions. Et envisagez d’arrêter ou de changer de sujet.

Si vous êtes très volontaire, très pressé ou bien vous voulez bloguer pour de l’argent, il faut prévoir :

  • une formation pour vous au marketing en ligne
  • d’échanger des liens avec des sites proches du vôtre par le sujet : vous faites un lien vers eux, ils en font autant en sens inverse
  • de faire travailler un spécialiste du référencement (SEO)
  • si rien de toute cela ne marche, une campagne de publicité.

De temps en temps, proposez à vos lecteurs de vous suggérer des thèmes de billet.

Bloguer, c’est dangereux ?

Soyons clair :

  • c’est à vous de choisir ce que vous aller dire sur votre blog. Réfléchissez avant de cliquer sur Publish. Imaginez que vous êtes à une conférence, devant plus de 100 personnes, c’est vous qui intervenez : est-ce que vous pouvez vous permettre de dire ça ? Non ? Alors, ne bloguez pas là-dessus
  • bloguer n’est pas plus dangereux que d’écrire un billet d’humeur dans un journal ou un status sur Facebook. Un blog est *public*. Écrire sur un blog, c’est publier. Et publier, c’est rendre public.

Sincérité ne veut pas dire épancher son cœur ni prendre le risque d’être accusé de diffamation. Juste écrire sur un ton personnel et sur ce qui vous intéresse vous personnellement. Pas votre public. Rappelez-vous : bloguer est fondamentalement un acte solitaire et très personnel. Si vous bloguez, c’est d’abord pour vous. Mais c’est aussi un acte public : tout le monde peut vous lire. Il vaut mieux garder un équilibre entre ces deux aspects.

Bloguer, ça rapporte ?

Oui, mais en général très, très peu. Les pubs Adsense et Adwords ne rapportent pas lourd. De plus, elles peuvent être envahissantes et donc gêner vos lecteurs.

Pour du discret, vous pouvez essayer :

  • les commissions des sites de commerce électronique (Amazon ...) sur les ventes faites suite à un clic sur un lien posté sur votre blog. Mais leur rentabilité n’est pas meilleure sauf si votre blog est orienté consommation ou informatique et son trafic très élevé
  • le lien (avec ou sans image) sur la page d’accueil de votre site. C’est une partie de la popularité de votre site dans Google (Page Rank) que vous transmettez ainsi. Pour qu’on vous propose ça, il faut que votre blog soit déjà un minimum connu et reconnu.

Pour vous donner une idée : ce blog, avec un lien publicitaire en bas de la page d’accueil, sans logo ni image, me rapporte environ 100 euros par an. Il m’en coûte 150. Ce n’est pas comme ça que je vais devenir riche ...

Comment faire pour être bien référencé dans les moteurs de recherche (Google, Bing) ?

Voyez mon précédent article 10 conseils pour mieux référencer votre site dans Google ... et ailleurs.

En résumé

En résumé, ne vous laissez pas arrêter par vos doutes et lancez vous ! Ce n’est qu’ainsi que vous apprendrez et que vous saurez si vous êtes capable de tenir sur la durée.

Et, sans mépriser votre public ni les tendances n’oubliez pas : c’est *votre* blog. C’est votre originalité. Vous n’êtes pas obligé de faire comme tout le monde.

Emmanuel Barthe
blogueur depuis 2004

PS : ma collègue documentaliste juridique Carole Guelfucci donne ses raisons de bloguer et ses conseils : Tenir un blog professionnel.


 

Page parrainée par Convention.fr, le spécialiste des conventions collectives et affichages