Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

Les robots, avocats et juges de demain ? Pas vraiment ... Mais la contrainte budgétaire y pousse

Intelligence artificielle en droit : derrière la "hype", la réalité
Justice prédictive, legal tech, audit de contrats, Case Law Analytics, Hyperlex, Minority report, regex, machine learning, NLP, GPT, Big data etc.

[Ce "paper", initialement publié en janvier 2017, est régulièrement mis à jour. Une version plus courte et plus synthétique a été publiée à la Semaine juridique édition Générale (JCP G) du 8 avril 2019 sous le titre "Les outils de l’intelligence artificielle pour le droit français" (accès réservé).]

Legaltech, justice prédictive et plus encore "intelligence artificielle" (IA) en droit sont devenus des sujets à la mode depuis 2015-2016 [1].

Mais discours marketing et flou sur les technologies comme sur les performances sont légion dans la majorité des articles disponibles — qui ressemblent souvent plus à de la communication qu’à de l’information.

De qui et de quoi parle-t-on exactement quand on parle d’IA : quelles sociétés, quelles fonctions, quelles technologies ?
Quels sont les outils juridiques méritant l’appellation IA ?
Quels sont les véritables risques pour l’emploi des professionnels du droit (avocats, stagiaires, juristes d’entreprise, magistrats, notaires) et de leurs "paralegals", documentalistes et veilleurs ?
Quels sont, également, les risques de la justice prédictive ?

C’est le sujet de ce billet, qui vise à démystifier les fonctionnalités et performances des applications présentées comme des "IA" (intelligences artificielles) en droit, tant pour le présent que pour le futur. Il s’appuie sur la lecture d’une bonne partie de la littérature disponible et sur des discussions personnelles avec de nombreux acteurs et utilisateurs.

Résumé / Executive summary (TL ;DR)

En dix points pour celles et ceux qui sont pressés :

1. L’intelligence artificielle est d’abord un champ de recherche et un terme marketing très vendeur mais fourre-tout. Les spécialistes la définissent comme la frange la plus avancée de l’informatique. Autrement dit, les réalisations dignes de ce nom, particulièrement en droit, sont rares. Le reste, c’est de l’informatique très classique.

2. Techniquement, la véritable IA en droit (en incluant le meilleur de l’IA "à la papa") se caractérise par l’utilisation combinée :

  • du Big data
  • du machine learning (ML), de plus en plus utilisé à la place des regex (recherche de chaînes de caractères)
  • de calculs de probabilité, avec toutes les limites des statistiques
  • et surtout du traitement du langage naturel (TAL) — en anglais "natural language processing" (NLP). Soit (cas rare jusqu’en 2020) dopé par le machine learning et l’analyse syntaxique, soit (cas moins fréquent depuis 2020) à base de systèmes experts s’appuyant eux-mêmes sur les chaînes de caractères (regex). Ce qui signifie que les soi-disant "intelligences artificielles" en droit sont en fait a) des moteurs de recherche de nouvelle génération (tous) et b) des systèmes d’aide à la décision (en France, uniquement Case Law Analytics). Pas des cerveaux juridiques. Toutefois, depuis 2022, les "large language models" (LLM) (GPT et al.) sont entrés dans la danse et, malgré (ou vu) leur incapacité à raisonner et leur dépendance aux données d’entraînement, affichent des performances tantôt bluffantes tantôt désespérantes (voir 4. infra)
  • et de systèmes experts, où on formalise l’expertise de spécialistes, notamment par le biais d’arbres hiérarchiques ou dans le domaine du vocabulaire (ce qui participe au TAL).

3. La valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements (à part GPT d’OpenAI) se font en open source. Autrement dit, les données comptent plus que les logiciels. Cela devrait permettre aux éditeurs juridiques français traditionnels, à la traîne (sauf Francis Lefebvre) depuis 2016, de revenir dans la course car ce sont eux qui détiennent les données les plus riches en droit français, tout particulièrement la doctrine.

4. Si on a beaucoup parlé de Ross, l’IA juridique d’IBM disparue fin 2020, c’est d’abord grâce à une offensive marketing et communicationnelle de première ampleur. Mais ses performances réelles furent très en deçà de la réputation qu’une campagne de presse et sur les réseaux sociaux très adroite lui avait faite. Elle ne faisait que de la recherche et de l’analyse sur la jurisprudence de droit américain dans des domaines précis, comme les faillites ou la propriété intellectuelle.
Toujours par IBM, Debater, taillée pour argumenter, pourrait sembler plus prometteuse. Elle est pourtant sans spécialisation juridique à ce stade, pas même aux États-Unis.
Que dire sur ChatGPT, GPT-3 et GPT-4 ? La famille des GPT, à partir de la version 3, a montré d’emblée des capacités rédactionnelles bluffantes. En même temps, ils ne raisonnent pas et n’ont pas eu accès à un contenu juridique riche en commentaire lors de leur entraînement. Ils ne sont donc pas rigoureux sur le plan juridique et sortent fréquemment des erreurs et des absurdités. Je les considère comme non fiables en droit français.
Développé à partir de GPT-3, l’américain Lexion serait déjà capable de suggérer une clause entièrement rédigée à partir de quelques mots. Correctement paramétré, GPT-3.5 a réussi deux matières du QCM de l’examen du Barreau américain. Sur le même test, GPT-4 réussit, lui, toutes les épreuves. Développé sur la base de GPT-3, Harvey.ai est un ChatGPT interne pour cabinets d’avocats anglo-saxons.
Perplexity.ai, développée à partir de WebGPT d’OpenAI, entraînée sur un fond sélectionné pour sa fiabilité et connectée au Web, peut donner (pas toujours) des réponses correctes là où ChatGPT échoue, même si pour y arriver elle copie-colle essentiellement.

5. L’IA et les éditeurs juridiques. A plus faible dose mais régulièrement depuis une dizaine d’années, Westlaw et Lexis Advance, puis Doctrine, Lexbase ou Lefebvre Dalloz (avec Ok.Doc) intègrent des petits bouts d’IA, essentiellement du NLP pour améliorer la pertinence des recherches par une sorte de synonymie et de désambigüisation améliorées, mais aussi, depuis peu, par des statistiques par juge ou par avocat.
En 2023, le véritable enjeu pour les éditeurs et les legaltech est de proposer un LLM chatbot et donc d’entraîner un GPT sur leur fonds. Le premier à le faire semble-t-il est Wolters Kluwer Espagne suivi par aux États-Unis par Lexis+ AI. En droit français, c’est LegiGPT, développé par un indépendant sur une API de GPT-3, qui leur a brûlé la politesse.

6. Cet accent sur la recherche et la justice dite "prédictive" (la traduction correcte de l’anglais est "justice prévisible") fait oublier que le type d’application d’IA juridique le plus répandu sont probablement les logiciels de "contract review" (détection, analyse et classification de clauses dans les contrats anglo-saxons) : eBrevia, Kira ou Luminance par exemple.

7. En droit français, à l’heure actuelle, seul un nombre limité d’applications peuvent prétendre à être qualifiées d’IA (faibles) :

  • en "contract review", Softlaw et Hyperlex
  • en moteur de recherche, Ok.Doc
  • sur les seuls Codes (pour l’instant), LegiGPT
  • en justice (dite) prédictive, Case Law Analytics, Predictice et Legalmetrics de Lexbase [2]. Tous ne travaillent que sur la jurisprudence, à l’exclusion du contentieux pénal, Case Law Analytics ayant une approche très délimitée et haute couture, quand Predictice est de facto plus axé sur le droit du travail et la responsabilité civile. On peut à la limite ajouter le pionnier Jurisprudence chiffrée de Francis Lefebvre, qui travaillait déjà sur le langage naturel en 2010. Les apports de ces applications : une recherche facilitée, et le calcul du montant prévisible des dommages-intérêts et des chances de gagner un procès. Cet apport ne suffit pas toujours à convaincre les magistrats, qui disposent d’outils internes mieux adaptés (barèmes), mais suscite l’intérêt croissant des cabinets d’avocats et des assureurs
  • sur les textes officiels, RegMind de Luxia, une application de veille et de suivi automatiques du droit bancaire et financier, et Mlang, un algorithme de calcul open source de l’impôt français que la DGFiP devrait mettre en production en 2023.

8. Les risques de suppression nette d’emplois dans le secteur juridique sont un sujet de débat pour l’heure théorique. Il n’en demeure pas moins que la recherche par mot-clés va être grandement simplifiée, que les tâches simples et "découpables" seront automatisées et que les collaborateurs, les "paralegals" et les documentalistes juridiques devront apprendre à travailler avec l’IA (et non à côté d’elle), autrement dit à l’utiliser et l’améliorer. Quant à l’IA connectée au cerveau, même si des recherches existent, on en est très loin.

9. La justice dite prédictive pourrait entraîner de sérieux risques (mais ce n’est pas démontré en l’état actuel des outils), au premier plan desquels le jugement sur des critères obscurs et le conformisme des juges à ce qui a déjà été jugé. Des limites légales existent déjà et des parades techniques sont proposées, notamment l’open source du code ou des tests de vérification à partir de jeux de données. La justice dite prédictive a pour avantage de faciliter le calcul des chances de gagner ou perdre un contentieux, ce qui pousse à la transaction et peut réduire l’encombrement des tribunaux, confrontés à un sous-financement budgétaire. Exécutif et législatif poussent clairement à la roue puisqu’avec la loi de réforme de la Justice du 23 mars 2019 et son décret d’application du 11 décembre 2019, la conciliation ou médiation préalable est devenue obligatoire pour les litiges en dessous de 5000 euros et les conflits de voisinage (même si les textes d’application ... compliquent le versant certification — optionnelle — de cette réforme [3] et que cette obligation de MARL "saute" si les conciliateurs restent indisponibles plus de trois mois).

10. En conclusion, vu l’importance des enjeux — qui sont au fond très politiques et économiques — et en même temps le fossé entre la com’ et les fantasmes d’une part et la réalité d’autre part, nous recommandons fortement de tester par soi-même ces nouvelles applications. Aucune n’étant en open source ni disponible en démo gratuite, il est nécessaire de se faire sa propre opinion, par soi-même.

Sommaire

1. Un sujet très tendance depuis 2016

Début janvier 2017, Les Echos publient un article au titre provocateur : Les robots seront-ils vraiment les avocats de demain ?.

En fait, ses auteurs, Pierre Aidan, cofondateur de Legalstart.fr [4] et Florence Gsell, professeur de droit à l’université de Lorraine et ancien conseiller scientifique du Conseil national des barreaux (CNB) de 2007 à 2017, réagissent, dans le but de rassurer les professions judiciaires, à un autre article.

Ce dernier, beaucoup plus provocateur sur le fond, a été publié en octobre 2016 à la Harvard Business Review, par le célèbre consultant en informatique juridique britannnique Richard Susskind et son fils Daniel, économiste : Technology Will Replace Many Doctors, Lawyers, and Other Professionals (Les nouvelles technologies remplaceront beaucoup de médecins, juristes et autres professionnels libéraux). Cet article est en fait un résumé du dernier ouvrage des Susskind publié en octobre 2015 : The Future of the Professions : How Technology Will Transform the Work of Human Experts (Le futur des professions libérales : comment les nouvelles technologies vont transformer le travail des experts humains, Oxford University Press, OUP) [5]. Quant au consultant américain Jaap Bosman, son ouvrage Death of a law firm (Mort d’un cabinet d’avocats) prédit la fin du "business model" actuel des cabinets d’avocats en soulevant l’épineuse question de la standardisation du service juridique grâce à l’intelligence artificielle (IA) [6].

Et en novembre 2016, la journaliste britannique Joanna Goodman [7] publie Robots in Law : How Artificial Intelligence is Transforming Legal Services (Les robots juridiques : comment l’intelligence artificielle transforme les services juridiques, Ark Group) [8].

Toujours début janvier 2017, la Semaine juridique publie, elle, une étude d’Antoine Garapon, magistrat, secrétaire général de l’Institut des hautes études sur la Justice (IHEJ) et spécialiste reconnu des questions de justice, intitulée « Les enjeux de la justice prédictive » [9]. Et pour ne pas être en reste, le Recueil Dalloz s’empare aussi du sujet avec une tribune de Marc Clément, Premier conseiller à la cour administrative d’appel de Lyon [10]. C’est la newsletter Dalloz Actualité qui a publié peut-être un des meilleurs articles sur le sujet : L’intelligence artificielle va provoquer une mutation profonde de la profession d’avocat, par Caroline Fleuriot, 14 mars 2017. Le seul reproche que je ferais à cet article est de reprendre, sans recul ni évaluation des performances réelles (surtout à l’époque), des phrases chocs destinées à impressionner ou à faire peur [11]. Mais pour le reste, en 2023, il reste dans l’ensemble lucide et d’actualité.

La revue Expertises, enfin, publie en janvier 2017 une interview de Rubin Sfadj, avocat aux barreaux de Marseille et New York et grand blogueur et twitteur devant l’Eternel. Interview portant sur l’IA juridique [12] et plus concrète et plus claire — plus tranchée, peut-on dire — que les deux articles précédents.

Depuis fin 2016, donc, le sujet ne quitte plus guère les sommaires des revues juridiques françaises, les pages de la presse économique et celles des nombreux sites consacrés à la "French legal tech".

C’est en fait depuis les premiers succès commerciaux de ROSS Intelligence, l’IA d’IBM en droit [13], que l’attention des médias s’est portée sur l’IA appliquée au domaine du droit. Depuis l’application du système de machine learning Watson développé par IBM au droit américain des faillites ou de la propriété intellectuelle, l’intelligence artificielle (IA) en droit est devenue tendance [14]. On parle beaucoup aussi de justice prédictive.

A lire aussi sur ce même sujet :

On peut rapprocher ces publications d’une note de McKinsey (décembre 2016) sur le futur du travail [15]. Elle prévoit dans le monde entier une automatisation croissante des tâches, pouvant supprimer 5% des emplois actuels et en modifier beaucoup plus.

Toujours selon McKinsey (avril 2018), ce ne sera pas le secteur des professions juridiques ni même celui des consultants ou des professions libérales qui devrait le plus bénéficier — en terme de création de valeur/augmentation de revenus — de l’IA mais la vente et le marketing (services aux clients, recommandations d’achat, tarification dynamique), la logistique et la production (maintenance prédictive) et le voyage (Bookings.com, Liligo, Trainline et autres comparateurs de prix d’hôtels et de billets d’avion et de train) [16].

2. De quoi parle-t-on exactement ? Ou comment définir les legaltech et l’IA en droit aujourd’hui

Les différents types de technologies utilisés en "IA"
Extrait de : Artificial intelligence in law : The state of play 2016, par Michael Mills (Neota Logic)

Les différents types de technologies utilisés en "IA" (NB : pas de robotique en droit et la "vision" mentionnée dans ce schéma recouvre en fait le machine learning (ML) et d’autres technologies)

Pour comprendre où en est l’intelligence artificielle en droit, il faut savoir de quoi on parle. Et pour savoir de quoi on parle, il faut bien commencer par des catégories et des définitions. Le premier stade de ce travail de définition et de catégorisation, c’est celui des technologies utilisées et des entreprises impliquées.

2.1. Définir l’intelligence artificielle

Il faut définir les technologies, car s’en tenir à la définition d’origine de l’intelligence artificielle, vu son flou, est impossible. Les nombreuses définitions que nous avons collectées, une fois comparées et combinées, aboutissent à deux conceptions de l’IA.

La première, officielle et héritée d’un des fondateurs de la "discipline", comporte trois éléments :

  • l’IA est un :
    • ensemble de techniques
    • ET/OU une discipline
  • qui simule l’intelligence humaine. Plus précisément, elle exécute des fonctions associées à l’intelligence humaine.

La notion de simulation (on ne reproduit pas mais on fait comme si) présente dans cette première conception est très importante, non seulement dans la définition de l’IA, mais aussi comme critère très concret permettant de trier le bon grain de l’ivraie, i.e. distinguer l’IA juridique rigoureuse de solutions qui en fait ne font que s’en approcher, particulièrement en justice dite "prédictive". Simuler est un critère exigeant : il faut s’approcher très près du même résultat par d’autres moyens. On parle aussi de modélisation : un modèle est traduit par un algorithme.

Cette première conception illustre aussi un autre point essentiel de l’IA juridique : il ne s’agit pas réellement d’intelligence, mais de fonctions, de petits morceaux. Il n’y a pas de globalité.

La deuxième conception insiste sur :

  • l’aspect promotionnel du terme
  • et sur le fait que l’IA surfe sur les technologies informatiques les plus avancées.

Cette deuxième conception offre l’avantage d’une plus grande franchise et d’une plus grande clarté. Elle est donc plus facile à appliquer.

Une troisième conception, enfin, propose une conception fondée sur l’autonomie et l’adaptativité. Elle a l’avantage de décrire mieux l’IA telle qu’on la pratique aujourd’hui (machine learning, deep learning).

Voyons les différentes définitions en détail.

Le terme « intelligence artificielle », créé par John McCarthy, est défini par l’un de ses créateurs, Marvin Lee Minsky, comme « la construction de programmes informatiques qui s’adonnent à des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des processus mentaux de haut niveau tels que : l’apprentissage perceptuel, l’organisation de la mémoire et le raisonnement critique ». La définition du Larousse est un peu moins floue mais reste insuffisante : « l’ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence ».

Elle est proche de celle adoptée par la norme ISO/IEC 2382 Vocabulaire des technologies de l’information : « Capacité d’une unité fonctionnelle à exécuter des fonctions généralement associées à l’intelligence humaine, telles que le raisonnement et l’apprentissage ». Voici enfin la définition de l’IA par le meilleur dictionnaire de langue française, celui élaboré par l’ATILF [17], le Trésor de la langue française (TLF) : « Intelligence artificielle : recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des êtres humains ».

Dans la même veine, selon Jean-Gabriel Ganascia, chercheur au Laboratoire informatique de Sorbonne-Université (LIP6) et président du comité d’éthique du CNRS, l’IA « désigne une discipline scientifique qui a pour but de décomposer l’intelligence en fonctions élémentaires, au point qu’on puisse fabriquer un ordinateur pour les simuler » [18].

Dans une étude sur la « justice algorithmique » publiée par la fondation Jean Jaurès, un avocat, une spécialiste de l’IA et un ingénieur dans l’industrie financière insistent, dans leur définition de l’IA, sur les aspects outil et algorithmes [19]. Pour eux, « plus qu’une discipline, l’intelligence artificielle est aussi un outil : un moyen pour résoudre un problème, répondre à une question ou analyser et comprendre des mécanismes. L’intelligence artificielle regroupe ainsi l’ensemble des méthodes permettant de simuler un phénomène ou un scénario, qu’il soit physique, chimique, médical, sociologique, démographique ou encore juridique. Un modèle est traduit algorithmiquement pour reproduire numériquement, par une simulation sur ordinateur, le phénomène ou le scénario en question. » A titre personnel, nous penchons pour cette définition, que nous trouvons très opérationnelle. Dans ce billet, nous allons en effet insister sur l’aspect outil.

Le philosophe et chercheur en sciences de l’information et de la communication Pierre Lévy, avec franchise, définit, lui, l’IA de manière plus tranchée et, de fait, plus claire : « L’intelligence artificielle est une expression de type "marketing" pour designer en fait la zone la plus avancée et toujours en mouvement des techniques de traitement de l’information » [20].

Robert Bentz, qui a créé et dirigé une équipe de cinquante personnes spécialisée en IA au sein du Commissariat à l’énergie atomique (CEA) écrit, dans une tribune au Monde : « La mise au point de ces algorithmes n’a jamais prétendu faire appel à l’intelligence artificielle, mais plutôt à des modèles mathématiques, de la linguistique, du traitement du signal. Alors pourquoi parler de solutions d’intelligence artificielle ? [...] Oui, l’informatique nous aide par sa rapidité, mais en rien par une intelligence non démontrée. Ce que nous appelons intelligence artificielle, doit se nommer algorithmique rapide, évoluée ou avancée » [21].

Cet aspect « informatique avancée » est aussi ce sur quoi Jean-Gabriel Ganascia insiste : « certains [dans les années 1990] préféraient parler d’“informatique avancée” ou d’“intelligence augmentée” » (qui permettent en plus de conserver l’acronyme « IA »). Luc Julia, cocréateur de Siri (Apple), penche pour cette dernière expression, en soulignant que « c’est notre intelligence à nous qui est augmentée ». Mais, reconnaît-il, « c’est compliqué de changer de terme maintenant, c’est entré dans le langage courant, c’est utilisé depuis soixante ans… C’est l’image qu’il y a dans la tête des gens qu’il faut changer. On a fait une erreur dans le terme, maintenant il faut expliquer ce qu’il y a derrière » [22].

L’Université d’Helsinki, dans son remarquable cours en ligne (MOOC) d’initiation à l’IA, si elle reconnaît l’absence de définition officielle de l’intelligence artificielle, propose de dépasser la définition — trop simple — proposée plus haut d’informatique avancée. Ce cours, intitulé Elements of AI, propose une définition de l’IA centrée sur l’autonomie et l’adaptativité. Pour citer le cours : « Autonomie : capacité d’effectuer des tâches dans des environnements complexes sans être constamment guidé par un utilisateur. l’adaptativité : capacité d’améliorer le rendement en tirant des leçons de l’expérience. » [23] Cette définition est certes reliée aux technologies qui dominent actuellement le domaine de l’IA : le machine learning, et plus particulièrement le deep learning et ses réseaux de neurones. Mais comme nous allons le voir, elle éclaire assez bien le champ de l’IA en droit.

Autonomie et adaptativité : ce sont des critères qu’on retrouve mis en avant dans la définition très détaillée adoptée par le Parlement européen dans ses trois recommandations sur l’IA du 20 octobre 2020 proposant un règlement européen sur l’IA : « système qui est soit fondé sur des logiciels, soit intégré dans des dispositifs matériels, et qui fait preuve d’un comportement intelligent, notamment en collectant et traitant des données, en analysant et en interprétant son environnement et en prenant des mesures, avec un certain degré d’autonomie, pour atteindre des objectifs spécifiques » [24].

2.2. Aspect marketing et hype

Le but marketing cité par Pierre Lévy [25] se voit dès l’origine même du terme "intelligence artificielle". Selon Tom Morisse, research manager chez Faber Novel : « si le mathématicien de formation John McCarthy utilise ces mots pour proposer le Dartmouth Summer Research Project — atelier de l’été 1956 que beaucoup considèrent comme le coup d’envoi de la discipline — c’est autant pour la distinguer des travaux connexes qu’étaient la théorie des automates et la cybernétique que pour la doter d’une définition idoine » [26].

L’aspect marketing forcené est toujours très prégnant, aujourd’hui, dans les produits estampillés "IA". La dernière vague d’IA, celle des chabots LLM à la ChatGPT, donne lieu à encore plus de hype et de FOMO ("fear of missing out"), comme le note à propos des influenceurs IA l’analyste IA Alberto Romero [27]. Pour citer le chercheur François Chollet qui travaille sur le deep learning chez Google :

« Il est vraiment frappant de constater que chaque tweet sur l’IA tente explicitement d’induire un sentiment de peur. "Vous êtes en train de vous faire distancer. Tous vos concurrents l’utilisent. Tous les autres gagnent plus d’argent que vous. Tous les autres sont plus productifs. Si vous n’utilisez pas le dernier XYZ, vous ratez quelque chose". »

Concrètement, les "tech" se sont retrouvées dans une ruée vers l’or de l’intelligence artificielle, où depuis grosso modo 2012, les financements en IA sont massivement revenus et même montés à des sommets. Mais, comme le dit Meredith Whittaker, cofondatrice d’AI Now et dirigeante du groupe Google Open Research, à The Verge, « de nombreuses affirmations sur les avantages et l’utilité de l’intelligence artificielle et des algorithmes ne sont pas étayées par des preuves scientifiques publiquement accessibles » [28]. Ses propos sont recoupés par ceux d’Olivier Ezratty sur FrenchWeb : « L’IA est parée de capacités qu’elle n’a pas encore et n’est pas prête d’avoir. On est en pleine construction d’une vision mythique de l’IA, basée sur des mécanismes de propagande de l’innovation [...]. Ces mécanismes sont amplifiés par la communication marketing des fournisseurs tels qu’IBM et Google qui embellissent toujours la mariée, par une stratégie de la sidération, par la difficulté de vérifier les faits avancés ou la fainéantise intellectuelle ambiante, et par l’absence généralisée de connaissances techniques sur l’IA, même chez la majorité des spécialistes du numérique » [NB : notamment chez les journalistes et les prospectivistes] [29]. Ou encore par ceux d’Hervé Bourlard, qui dirige l’institut suisse de recherche Idiap, spécialisé dans l’intelligence artificielle et cognitive : « Jamais aucun système d’intelligence artificielle, je dis bien aucun, n’a passé le premier test de Turing. » Le terme d’intelligence artificielle est redevenu tendance dans les années 1990, « pour des raisons publicitaires, marketing et commerciales », explique H. Bourlard. « Mais, ajoute-t-il, sans réels progrès autres que sur le plan de la puissance des modèles mathématiques. » Il préfère parler d’apprentissage automatique. Auquel trois éléments, selon lui, donnent sa force : la puissance de calcul, les modèles mathématiques et les vastes et omniprésentes bases de données [30].

En fait, l’IA est d’abord une idéologie, et non une technologie. Comme l’écrivent deux chercheurs travaillant chez Microsoft : « L’"IA" est mieux comprise comme une idéologie politique et sociale plutôt que comme un panier d’algorithmes. Le cœur de cette idéologie est qu’une série de technologies, conçues par une petite élite technique, peuvent et doivent devenir autonomes et finalement remplacer, plutôt que compléter, non seulement les individus mais aussi une grande partie de l’humanité. » [31]. Pour montrer en quoi il s’agit d’une idéologie et non d’une réalité, ils précisent : « En fait, le plus grand avantage de la Chine en matière d’IA est moins [leur industrie et leurs données] de surveillance qu’une vaste main-d’œuvre de l’ombre qui labelllise (met des "étiquettes") activement les données introduites dans les algorithmes. [...] Des recherches récentes ont montré que sans la création des êtres humains qu’est Wikipedia, la valeur des moteurs de recherche s’effondrerait (puisque c’est là que se trouvent souvent les meilleurs résultats de recherches substantielles), et ce, quand bien même les services de recherche sont présentés comme des exemples de première ligne de la valeur de l’IA. »

Mike Mallazzo, un spécialiste du marketing pour applications et e-commerce, est allé plus loin dans un post Medium de juin 2019, en affirmant que « les startups rebaptisent sans vergogne les algorithmes rudimentaires d’apprentissage machine comme l’aube de la singularité, avec l’aide d’investisseurs et d’analystes qui ont un intérêt direct dans le développement du battage publicitaire. » Selon M. Mallazo, « la définition de l’intelligence artificielle devient [alors] si confuse que toute application du terme devient défendable. » [32] Il cite notamment cet article de Devin Coldewey publié sur Tech Crunch en 2017 : ‘AI-powered’ is tech’s meaningless equivalent of ‘all natural’ ("IA" est l’équivalent technologique et sans signification de "naturel"). Pour Mike Mallazo, les journalistes (américains) savent parfaitement que c’est du « f...age de gu... » mais y sacrifient sans problème.

L’IA est si à la mode, si tendance, si hype, que des communicants, des journalistes, des legaltech et apparemment même des universitaires estoniens, voient de l’IA là où il n’y en a pas — ou très peu. Ainsi, le gouvernement estonien aurait utilisé une IA ("AI judge") pour régler les litiges portant sur des créances contractuelles inférieures à 7000 euros. C’est faux, mais cela a été tant répété que le ministère estonien de la Justice a finit par publier en février 2022 un post sur son site pour clarifier les choses : Estonian does not develop AI judge.
Autre exemple, le système de résolution des litiges (online dispute resolution, ODR) d’eBay est souvent présenté comme une preuve que « le grand remplacement » (celui des juges par des IA) est possible. Un des créateurs de ce mécanisme chez eBay a écrit un article à ce sujet [33]. Mais l’auteur ne parle pas des aspects logiciels/IT. Pour autant que je sache, il n’y a pas d’aspect IA dans le système de résolution des litiges en ligne d’eBay. Il s’agit principalement d’un système de résolution des litiges bien conçu. Il se pourrait qu’il y ait un peu de machine learning pour détecter si le ton des réclamations ou des réponses est acrimonieux et ainsi les bloquer, mais c’est bien tout ce que cet article laisse entrevoir.

Enfonçons donc le clou : pour l’instant, le "juge IA" n’existe pas, c’est une "fake news".

On peut faire un parallèle avec les promesses de l’IA en matière de finance, de spéculation boursière et de banque. Citons ici deux articles du Financial Times. Le premier date de 2020 et est signé par un "founder and chief investment officer", un professionnel du "trading", qui pourrait en large part être appliqué à l’IA en droit [34] :

« Ne croyez pas la "hype" à propos de l’IA et de la gestion de fonds. L’apprentissage machine peut générer des améliorations marginales mais rien de véritablement transformationnel. [...] [un autre problème] est qu’un système d’IA tire des leçons du passé. Or en finance, le passé n’est pas un bon guide pour l’avenir. [...] Si on veut qu’un système d’IA réagisse rapidement aux événements, il doit construire un modèle sur une histoire très courte, ce qui réduit la quantité de données dont le système peut tirer des enseignements. [...]
Enfin, [dans] les données financières, [...] bien qu’il ne soit pas entièrement aléatoire, le rapport signal/bruit est certainement faible. Dans les domaines où l’IA a été couronnée de succès, ce n’est généralement pas le cas. [...]
Bien qu’il soit peu probable que l’IA crée de nouvelles sources de revenus "scalables", elle s’avère utile dans des tâches plus banales. L’IA est très efficace pour nettoyer les données et pour détecter des caractéristiques intéressantes dans des ensembles de données gigantesques, par exemple. »

Début 2023,au détour d’un rapport sur les risques de l’IA dans le secteur financier [35], le régulateur financier européen, l’ESMA, confirme les dires d’Ewan Kirk :

« Dans l’ensemble, bien que les acteurs du marché utilisent de plus en plus l’IA pour soutenir certaines activités et optimiser des phases spécifiques de leur activité, cela ne semble pas conduire à une refonte rapide et perturbatrice des processus d’entreprise.
Nous n’avons pas pu trouver de preuves suggérant que l’IA permet de réduire les frais en contenant les coûts ou qu’elle est exploitée comme un argument de vente pour facturer des frais excessifs aux investisseurs.
En principe, l’utilisation de l’IA et du machine learning dans la gestion des investissements offre la perspective de décisions d’investissement efficaces et le potentiel — si la technologie est appliquée à plus grande échelle — de réduire les frais d’exploitation des fonds au fil du temps.
Toutefois, sur la base de nos conclusions concernant les fonds qui en font explicitement la promotion, il se peut que la technologie ne se soit pas encore traduite de manière cohérente par des résultats supérieurs pour les investisseurs des fonds. »

Des spécialistes de l’IA dans les banques faisaient en 2018 le même constat [36] dans le second article du FT. Pour Foteini Agrafioti, responsable de Borealis, la branche de recherche sur l’IA de la Banque Royale du Canada, « il y a trop de gens qui font ces déclarations [sur les coûts élevés et l’impact sur l’emploi]. Les problèmes que nous avons résolus sont très limités. » Le professeur Patrick Henry Winston, qui a dirigé le laboratoire d’IA du MIT entre 1972 et 1997 et désormais titulaire de la chaire Ford au même MIT, partage les préoccupations de Mme Agrafioti concernant les limites de l’IA : « Une grande partie de ce dont vous avez besoin pour remplacer les gens qui pensent n’est pas à la portée des systèmes d’intelligence artificielle actuels, qui sont en réalité plus perceptifs que cognitifs. Quand le cognitif arrivera-t-il ? In fine, oui, il arrivera, mais ma boule de cristal est trouble sur le timing. Peu de personnes travaillant sur l’IA aujourd’hui travaillent réellement sur le côté cognitif. »

En septembre 2020, ce sont les Echos eux-mêmes — pourtant de chauds défenseurs des start-ups (ils leur consacrent une rubrique spécifique) — qui soulignaient que « l’intelligence artificielle cale : si les applications se multiplient dans les entreprises, les révolutions grand public de la voiture autonome ou des assistants personnels nécessiteront de nouvelles avancées conceptuelles dont nous sommes encore bien loin » [37]. En citant même l’inévitable Yann Le Cun, qui demande de la patience : selon l’article, « l’idéal serait de disposer de machines capables d’inférences causales, c’est-à-dire d’établir directement toutes les relations causes-effets possibles entre des modèles (si je pousse ce verre, il bascule, et la table est mouillée…). Mais c’est alors tout le modèle conceptuel de l’IA qu’il faudrait revoir. » L’article cite aussi Jean-François Gagné, cofondateur et PDG d’Element AI, un éditeur canadien d’algorithmes : « L’IA, telle que nous la connaissons aujourd’hui, ne peut pas faire de miracle si elle ne dispose pas de données à partir desquelles apprendre » (ce qui prend tout son sens en droit quand on sait le manque de décisions pénales disponibles et plus encore le manque de motivation en fait et en droit de celles disponibles, cf infra).

Jeremy Kun, professeur de mathématiques, programmeur en machine learning (maths et stats sont au coeur du ML) et ingénieur informatique chez Google, le dit encore plus abruptement — et qui plus est de manière générale — sur son compte Twitter : « Les personnes qui veulent classifier les sexes de manière algorithmique doivent faire beaucoup plus d’efforts pour trouver de vrais problèmes à résoudre. Je commence à penser que les applications de ML sont des pièges pour les paresseux qui ne veulent pas apprendre la connaissance du domaine sur quoi que ce soit. » [38]

2.3. L’IA, une discipline ?

Le terme même de discipline, pour l’IA, est sujet à caution. Certes, la norme ISO 2328 et Jean-Michel Ganascia cités plus haut la qualifient de discipline — qui plus est expressément, pour J.M. Ganascia.

Certes, il existe une International Association for Artificial Intelligence and Law (IAAIL), qui organise chaque année une International Conference on Artificial Intelligence and Law (ICAIL). Mais leurs travaux sont très théoriques et selon nous peu en prise avec la réalité de l’IA en droit, notamment les travaux des développeurs, codeurs, SSII et éditeurs.

Prenons par exemple le paper The winter, the summer and the summer dream of artificial intelligence in law présenté à ICAIL 2021 par Enrico Francesconi de l’Istituto di Informatica Giuridica e Sistemi Giudiziari (un institut de recherche en informatique juridique membre du CNRS italien) [39]. Je ne suis pas un spécialiste de l’IA, mais plutôt un observateur, et le seul domaine de l’IA et du droit que je connaisse vraiment bien est le domaine français. Mes commentaires seront donc limités, alors que l’article a une perspective beaucoup plus large. Je resterai également sur le côté "industriel". Je ne suis pas un théoricien et je ne m’intéresse qu’aux applications réelles de l’IA juridique. Selon cet article, l’IA appliquée au droit est sortie de son hiver grâce a) à la convergence des approches théoriques et b) aux connaissances fournies par le Web sémantique. Je ne sais pas ce qu’il en est exactement pour les autres systèmes juridiques mais pour le droit français, les progrès ont été réalisés grâce à a) l’augmentation de la puissance de calcul à des coûts abordables (aka AWS ou Google Tensor Flow), b) la disponibilité en open source d’algorithmes de traitement automatique du langage naturel (NLP) "à la sauce" machine learning (BERT, Flair, SpacY ...), c) la disponibilité des données juridiques (aka Legifrance et les données judiciaires ouvertes) et d) le bon vieux travail humain par des analystes et des avocats (Case Law Analytics, voir infra). Il n’y a pas là beaucoup de points communs avec les raisons avancées par E. Francesconi. Il ne cite certes que des auteurs anglo-saxons, néerlandais, allemands et italiens.

Je suis beaucoup plus enclin à écouter ce que Francesconi dit sur l’hypothèse (ou paradoxe) de Moravec [40], qui est corroborée par ce que je peux constater. En un mot, Francesconi avance que l’IA juridique ne sera une véritable IA au sens fort (pouvant remplacer l’être humain, le juge donc) que lorsqu’elle intégrera les émotions — ce sont également les conclusions du neurobiologiste (spécialiste du cerveau, donc) Antonio Damasio (voir infra 12.1.). Il attend donc logiquement l’avénement d’un Web 5.0, le Web Emotionnel, pour faciliter cette évolution.

Mais revenons à nos moutons disciplinaires. L’IA n’est pas une discipline scientifique bien délimitée. On emploiera plus facilement les termes de matière, de sujet ou encore de champ de recherches. En ce sens, voir la partie 7-1.1 Les disciplines de l’intelligence artificielle de la thèse de Daniel K. Schneider sur la Modélisation de la démarche du décideur politique dans la perspective de l’intelligence artificielle [41] :

« L’intelligence artificielle n’a pas d’objet de recherche académique bien défini à part l’intérêt porté au "mental" et aux représentations de connaissances. Elle s’est divisée en de nombreuses sous-disciplines focalisant sur des problèmes bien distincts (tel que la vision, la résolution de problèmes, la compréhension du langage, l’apprentissage,...). Il n’existe pas de paradigme unifié de recherche et certaines branches de l’IA sont devenues des terrains d’échanges multidisciplinaires où se côtoient philosophes, psychologues, informaticiens et autres qui s’intéressent aux divers problématiques de l’intelligence. »

Il y a donc des technologies, qu’il faut distinguer les unes des autres, et derrière ces technologies, il y a des applications (des logiciels, si vous préférez) et leurs développeurs, grosses sociétés de l’informatique et de l’Internet ou start-ups, l’ensemble des sociétés travaillant sur l’application des technologies informatiques au droit étant communément appelé les "legal tech" [42].

Les entreprises et les produits d’IA en droit sont un sous-ensemble des legal tech. Pour autant, il faut bien distinguer l’IA de l’ensemble des legaltech.

2.4. Les legaltech

2.4.1. Que font les legaltech ?

Le Lexique des termes juridiques [43] définit les legal tech (ou legaltech, mais les Américains séparent bien les deux mots) comme d’une part, « le recours à la technologie et aux logiciels pour offrir des services juridiques » et d’autre part, « l’ensemble des jeunes entreprises (dites start-up) exploitant les technologies de l’information dans le domaine juridique afin de proposer des services innovants ».

On notera au passage à quel point le terme "legal tech" isole voire rejette abusivement les éditeurs traditionnels de logiciels juridiques (comme par exemple les logiciels de gestion de cabinet d’avocats ou de gestion juridique des sociétés) et plus encore les éditeurs juridiques traditionnels [44]. Du style : les jeunes contre les vieux. Toute une stratégie marketing et communicationnelle dans une expression "legaltech", alors que les éditeurs juridiques font de l’informatique juridique depuis les années ’90 [45] Et même si les plateformes en ligne actuelles de certains peuvent manquer d’ergonomie ou de rapidité, ce n’est déjà plus le cas de Service Public, Lexbase, Lextenso voire la nouvelle version de Lamyline. Depuis 2017, c’est même un groupe d’édition juridique, legroupe Lefebvre Sarrut (dit ELS, et se présentant depuis fin 2021 sous la marque Lefebvre Dalloz), qui a embauché comme principal développeur au sein de son équipe de R&D un des meilleurs spécialistes du machine learning appliqué au droit français : Michaël Benesty.

Juriformation, le groupe de travail de l’association de documentalistes juridiques Juriconnexion, s’est penché plus avant sur la question de la définition des legaltech et de son ambigüité par rapport aux éditeurs [46].

Pour sa granularité/précision, on reprendra ici la liste très complète de Benoît Charpentier développée dans son article précité. Les legaltech « proposent de très nombreux services et produits, comme :

  • le calcul de probabilité concernant les décisions de justice [ça, c’est de l’IA. De l’IA (très) faible, mais de l’IA. Voir plus loin pour les explications]
  • le financement de contentieux (third-party litigation funding)
  • les plateformes d’actions collectives
  • la génération automatisée de documents juridiques dynamiques [ici aussi, il peut y avoir de l’IA (très) faible]
  • le déploiement de systèmes intelligents ou d’intelligence artificielle (fondés par exemple sur le machine learning, notamment ses variantes natural language processing et deep learning)
  • les plateformes de mise en relation avec des professionnels du droit
  • les solutions cloud
  • l’édition de logiciels spécialisés
  • la résolution de litiges non contentieux en ligne
  • les procédures d’arbitrage en ligne
  • les procédures de divorce en ligne
  • la signature électronique
  • la certification de documents (par exemple grâce à la technologie blockchain)
  • la réalisation de formalités et de dépôts en ligne (mise en demeure, acte introductif d’instance)
  • la visualisation de données complexes issues du Big Data
  • la programmation de contrats intelligents (smart contracts)
  • la mise en oeuvre d’outils collaboratifs
  • la revue de documents assistée par la technologie (Technology Assisted Review (TAR)) [il peut y avoir de l’IA]
  • les outils de conformité
  • les outils de calculs fiscaux
  • les outils de gestion et de production des actes courants de la vie des sociétés, notamment des assemblées générales et coseils d’administration
  • les outils de gestion de contrats (contract management, audit de contrats) [auxquels j’ajouterais les outils d’automatisation (partielle) de la production de contrats]
  • les outils de recherche juridique [là aussi, il peut y avoir de l’IA. Toujours (très) faible] ».

Une autre classification, plus resserrée mais moins évocatrice, est disponible sur l’article de Case.One (une de ces legal tech) LegalTech 2018 : où allons-nous ? (janvier 2018) :

  • information juridique
  • rédaction d’actes
  • litiges en ligne
  • mise en relation [avec des avocats]
  • outils métier [pour avocats ou juristes d’entreprise].
  • IA/machine learning/justice prédictive. Selon une enquête réalisée fin 2018 par le site d’actualité des startups Maddyness et les Actualités du droit (Wolters Kluwer), 19% des legal tech disent utiliser l’IA dans leurs technologies mais 13% seulement selon l’annuaire des legal tech du Village de la Justice [47]. En réalité, et au vu des startups listées dans le segment IA dans l’annuaire du Village de la Justice si on s’en tient à une définition stricte de l’IA (voir infra), le chiffre est probablement encore plus faible.

Après des années passées à mener une veille sur l’IA en droit et les legaltech, personnellement, je reprendrais bien la deuxième définition — sectorielle — proposée par le Lexique des termes juridiques Dalloz pour la simplifier : legaltech est un terme à vocation promotionnelle désignant depuis 2016 les nouveaux entrants pur numérique dans l’édition juridique et l’informatique juridique. Autrement dit, l’édition juridique moderne de fait recouvre très largement les legal tech.

2.4.2. Qui sont ces legal tech ?

Il existe une liste quasi-exhaustive des legaltechs françaises ou implantées en France (PDF), celle de Benoît Charpentier, consultant et avocat, mais elle date de début 2017 et n’a aujourd’hui plus qu’un intérêt historique. En décembre 2018, Florian Herlicq, product manager de LegalCluster, une legaltech elle-même, a entrepris de mettre à jour sa liste Les 100+ de la Legaltech française [48]. Là aussi, elle n’a plus aujourd’hui qu’un intérêt historique. Une autre liste est celle de l’annuaire des legaltech du Village de la Justice, certes autodéclarative, mais qui a l’avantage d’être mise à jour en continu. La plupart des legaltech françaises qui comptent sont membres du groupe LegalTech de France Digitale, le lobby/fédération professionnelle de la Tech française. Pour une liste mondiale, voir :

A mon goût, beaucoup de ces initiatives sont certes "legal" mais leur degré d’innovation en "tech" est faible : par exemple, simple mise en ligne de formulaires ou intermédiation entre avocats et prospects. Comme l’écrit de manière inconoclaste et pourtant très justement Martin Bussy, président de Legal Innovation, société de conseil stratégique et transformation digitale pour les professionnels du droit, « on est plutôt sur du "techwashing", technique consistant à faire passer des solutions classiques pour des innovations » [49]. Alors voici une liste personnelle de legal tech françaises (ou plutôt présentes en France), non triée, forcément incomplète mais tendant à se focaliser sur l’innovation technologique (machine learning, big data, analytics, langages de programmation simplifiés pour juristes, moteurs de recherche améliorés ...) :

Sur la production partiellement automatisée de contrats pour TPE et particuliers, voir :

  • le rigoureux comparatif — plus précisément une « évaluation de la qualité d’un “contrat de prestations de services” généré “en temps réel” » — publié par Philippe Gabillault (Toltec) fin janvier 2019 : Contribution #3–10 Legal Techs au banc d’essai
  • les évaluations détaillées de Captain Contrat, LegaLife, LegalPlace, ContractFactory et LegalVision réalisées par la startup courtier en assurances Coover.

Pour une liste quasi-exhaustive des legal tech exerçant sur le territoire français, voir la liste en annexe de la thèse de Bertrand Cassar, La transformation numérique du monde du droit (décembre 2020) p. XVIII [55].

A noter, car très souvent citée par les articles de presse présents sur le Net mais non présente en France : DoNotPay prétend contestes sans avocat les PV de stationnement en justice, réclamer des compensations en cas de vol d’avion supprimé et régler d’autres "pain points" de droit de la consommation assez précis. Selon Olivier Ezratty, « l’ensemble exploite IBM Watson, ce qui montre qu’avec un peu de détemination une personne isolée peut le paramétrer efficacement » [56]. Toutefois, même si Andreessen a investi dans sa startup, il semble que Joshua Browder, le fondateur de DoNotPay, affectionne les annonces fracassantes et pas forcément exactes à 100% [57]. Comme le dit crûment Campbell Hutcheson, un spécialiste informatique de la justice prédictive : « Browder a une longue histoire de revendications excessives. Je pense qu’il est dans le modèle "fake it till you make it" (faites semblant jusqu’à ce que vous y arriviez). » Le spécialiste de la cybersécurité Okcom n’apprécie pas du tout ses CGU, où par exemple, DoNotPay s’autorise à ne pas respecter le Do Not Track (DNT), qui est quand même un standard de l’industrie, et à conserver sans limite de durée vos données personnelles. Et quand bien même Joshua Browder assure travailler avec des experts de la loi, il n’est pas avocat et n’a même jamais étudié le droit. Pour finir, la paralegal Kathryn Tewson soupçonne DoNotPay de n’avoir pas grand’ chose d’une IA, mais tout d’un bon vieux formulaire à trous associé à des ... humains !

NB : l’importance de la legal tech française est très surévaluée. Comme l’écrit Martin Bussy début 2021 (le gras est de nous) [58] :

« Sur le plan du financement, la legaltech française et ses 220 start-up référencées ont levé 52 millions d’euros en 2019 (dont 32 millions par cinq start-up seulement). De l’autre côté de l’Atlantique, ce sont 1,6 milliard de dollars qui ont été investis. C’est un rapport de 1 à 30, très supérieur à l’écart de taille de marché (32 milliards d’euros contre 314 milliards). En Europe, la France est distancée par l’écosystème britannique (61 millions de livres sterling en 2018 soit 80 millions d’euros levés).
En tout, les legaltechs françaises représentent à peine 1,2 % de l’ensemble des levées de fonds de toutes les start-up en France en 2019. Ce n’est pas négligeable, mais cela correspond tout au plus au poids du droit dans l’économie. Malgré le retard digital du secteur, il n’y a aucun rattrapage en cours, mais plutôt une sorte d’autosatisfaction fondée sur les quelques belles opérations réalisées.
Du côté de la demande, en l’absence de données précises sur les investissements, les chiffres d’affaires ou même les usages, il est ardu de tirer des conclusions. On peut néanmoins s’interroger sur la réelle prise de conscience des clients (avocats, notaires, juristes). Une étude présentée en juillet 2019 parlait d’absence de marché du côté des clients. Le nombre de cabinets ou d’études utilisant véritablement des legal techs au quotidien est extrêmement réduit. Les Ordres professionnels sont encore conservateurs sur ces sujets et accompagnent de loin l’innovation, sans exercer de pression au changement. »

Le trait est toutefois sévère. On peut aussi avancer qu’en 2021 par rapport à 2016, les choses ont changé, que nombre de cabinets d’avocats utilisent une, deux ou trois legal tech au quotidien. Mais ce sont souvent les mêmes (justice prédictive : Doctrine, Predictice ...) et pour le reste des acteurs juridiques, ces legal tech sont souvent des legal tech d’avant l’invention du terme (gestion d ’AG ...).

Et on ne parle pas du chiffre d’affaires, même si les levées de fonds ont quand même continué en 2020 et si, d’après une étude menée par France Digitale auprès de ses membres, le chiffre d’affaires des start-up du droit aurait triplé entre 2018 et 2020 [59]. A noterque si la crise sanitaire a eu un effet négatif sur le chiffre d’affaires en 2020, le confinement, lui, a dopé l’usage des outils en ligne — ce qui pourrait être bénéfique pour le chiffre d’affaires des legal tech post-Covid.

2.5. IA juridique ancienne (logiciels experts) et IA juridique récente (ML, NLP)

Attention : peu parmi les legaltech se rangent dans la catégorie de l’intelligence artificielle, qu’on lui donne son sens large d’IA "à la papa" ou son sens exigeant, tel qu’on la pratique aujourd’hui, autrement dit une IA à base de machine learning et/ou de traitement du langage naturel (natural language processing, NLP).

Beaucoup parmi les legaltech peuvent se ranger dans les systèmes experts, une catégorie de logiciels qui recoupe en partie l’IA "à l’ancienne" et à laquelle le cloud donne une nouvelle jeunesse mais qui n’est pas de l’IA telle qu’on la voit aujourd’hui (sur les logiciels experts et l’IA récente, voir infra). L’IA à l’ancienne de type logiciel expert peut être très efficace si ses concepteurs ont accumulé beaucoup d’expérience et à condition de ne pas lui en demander trop. L’exemple le plus connu et le plus utilisé est probablement la génération automatisée de documents, qui s’appuie sur l’ancienne technique des formulaires.

Un exemple plus "récent" (et très innovant à l’époque) d’IA à l’ancienne est Jurisprudence chiffrée conçu chez l’éditeur juridique Francis Lefebvre il y a une dizaine d’années (voir infra). Ce produit utilisait les cartouches sémantiques ex-Luxid (devenues Cognito Discover) conçues et développées justement depuis plus de vingt cinq ans par la société Expert System (ex-Temis) [60]. Ces cartouches se retrouvaient chez de nombreux éditeurs juridiques, y compris LexisNexis et Legifrance [61].

2.6. Les technologies qui caractérisent l’IA aujourd’hui

Après avoir présenté les prestations et les entreprises du secteur des legal tech et avoir défini l’intelligence artificielle, voici les cinq principales technologies en cause dans l’IA en droit aujourd’hui [62].

2.6.1. Les systèmes experts

Un système expert est, selon Wikipedia, un outil capable de reproduire les mécanismes cognitifs d’un expert, dans un domaine particulier, par des règles logiques. Cette première des voies tentant d’aboutir à l’intelligence artificielle a donné des résultats décevants : par exemple, à partir d’une centaine de règles voire moins, certaines se contredisent et il devient nécessaire de les pondérer, ce qui est en fait peu rigoureux ; leur coût élevé est un autre écueil. Un exemple de système expert en droit, le prototype NATIONALITE du défunt IRETIJ (Institut de recherche et d’études pour le traitement de l’information juridique [63]) est décrit dans une contribution de 1989 [64]. En droit français, sur ce type de technologie, on doit beaucoup aux trois pionniers de ce qu’on n’appelait pas de l’IA mais simplement de l’informatique juridique : Pierre Catala (IRETIJ, Montpellier, un laboratoire défunt), à l’origine notamment de la base de données Juris-Data (un partenariat entre le ministère de la Justice et les Editions du JurisClasseur), Jean-Paul Buffelan-Lanore (Institut de recherche en informatique juridique, IRIJ - Université de Paris VIII), auteur de Jurindex, première banque de données juridiques française en 1970-1971 aux Éditions Masson et Lucien Mehl (pour le droit public). Fondamentalement, dans les années 60 à 80 en France, l’informatique juridique, c’est essentiellement des systèmes experts et, surtout, des thésaurus et des index (qui auront beaucoup plus de succès sur le long terme que les systèmes experts).

Les logiciels de gestion de contrats sont un bon exemple de logiciels experts en droit. L’autre grand exemple est l’utilisation des chaînes de caractères et des expressions régulières (regex) pour la recherche de notions exprimables de dizaines de façons différentes, même si l’utilisation de règles et la modélisation y sont peu développées et d’un niveau peu élevé. Ce travail sur le vocabulaire et les chaînes de caractères, c’est aussi une forme de traitement automatique du langage (TAL, NLP en anglais). Du TAL à l’ancienne, avec ses limites, mais bien rodé, notamment dans les cartouches de langage d’Expert System (ex-Temis), utilisées jusqu’à il y a peu par plusieurs grands éditeurs juridiques (mais pour lesquelles il n’y a plus de support), que nous avons citées supra à propos de l’application Jurisprudence Chiffrée. C’est de l’IA "de papa" [65] : rien de révolutionnaire, en réalité, mais ça fonctionne.

Mais c’est l’émergence des quatre technologies suivantes et la relance des statistiques qui ont relancé les espoirs des spécialistes de la recherche en IA.

2.6.2. Le big data

Le big data — et surtout le (legal data) analytics. Il ne s’agit là que de technologies correspondant à des logiciels (Apache Hadoop, MongoDB, Microsoft Azure ...) faits pour traiter des masses de données énormes et/ou des données pas assez structurées, nécessitant des logiciels différents des systèmes de gestion de base de données (SGBD) classiques.

2.6.3. Les statistiques

Les statistiques, avec toutes leurs limites. Par exemple, en justice dite prédictive, où il s’agit d’estimer l’issue d’un contentieux, ces limites sont :

  • pour les fonds de décisions de justice utilisés (l’échantillon, comme on dit en "stats") :
    • non exhaustivité, voire forte sélectivité
    • les biais contenus dans les données. Voici les types de biais possibles, selon un article de LeMagIT [66] :
      • « le biais de confirmation est un biais cognitif humain. Il consiste à sélectionner et à analyser les données de manière à refléter un point de vue préexistant
      • la variable confondante, un facteur aléatoire, influence à la fois les variables dépendantes et les variables explicatives. Il s’agit essentiellement d’un élément ayant un impact sur le résultat qui n’a pas été pris en compte. En l’occurrence, cette notion engendre la différenciation entre corrélation et causalité
      • le surajustement (ou surapprentissage) résulte d’une analyse qui est trop étroitement liée à un ensemble de données spécifiques. Exemple classique, un modèle prédictif peut fonctionner correctement sur les données initiales d’entraînement, mais son niveau de précision diminue lorsque de nouvelles données sont introduites
      • le biais d’échantillon est un échantillon qui ne représente pas la population qu’il est censé dépeindre
      • le biais de sélection correspond au fait de sélectionner des données pour l’analyse ou de choisir par inadvertance un échantillon non représentatif (ce qui est plus probable)
      • le paradoxe de Simpson se produit lorsqu’une tendance disparaît ou s’inverse à différents niveaux d’agrégation. Par exemple, une tendance peut être présente lorsque plusieurs groupes sont étudiés séparément, mais la tendance peut ne pas exister ou peut être le contraire lorsque les groupes sont combinés et analysés comme une seule population
      • l’asymétrie est une distribution de probabilité inégale qui peut être causée par des valeurs aberrantes, mais plus souvent par des valeurs surreprésentées »
    • en matière de justice dite prédictive, dès que le nombre de critères est élevé, le panel de décisions sur lequel on effectue les calculs est de petite taille (particulièrement sur la Cour de cassation — et les cours d’appel judiciaires d’avant l’open data des cours d’appel). Ce qui pose un problème de biais d’échantillon, d’autant que les décisions judiciaires de première instance ne seront pas disponibles en open data avant 2025 (et encore, pas les CPH ni les TCom)
    • le manque de motivation (l’argumentation du juge), extrêmement fréquente en première instance en pénal. En pratique, en première instance, même si l’obligation de motivation au pénal existe [67], les motifs de la condamnation soit sont implicites ou très brefs car les faits sont établis, soit sont dans le dossier, mais celui-ci n’est ni consultable ni transmissible aux tiers. En gros, au pénal, on plaide la peine, son type, son montant [68]. Le côté peu pratique et trop exigeant du logiciel utilisé pour la rédaction des décisions n’aide pas
    • les statistiques ne donnent des informations que sur le passé
    • corrélation n’est pas causalité : deux facteurs corrélés peuvent l’être dans entretenir la moindre relation [69]
  • le côté "déformant" de la moyenne, à laquelle hélas la plupart des juristes sont habitués, comme le grand public — la médiane est moins déformante
  • l’absence de correction des biais statistiques.

2.6.4. Le machine learning

NB : sur le machine learning, le deep learning, le NLP, Word2vec, les transformers et autres "large language models" (LLM) ainsi que ChatGPT, une excellente explication et vulgarisation est à lire et vous permettra d’encore mieux comprendre les technologies décrites ici dans les sections 2.6.4 à 2.6.7 : ChatGPT : comment ça marche ?, par Pierre-Carl Langlais, Sciences communes, 7 février 2023.

Le machine learning [70] (ML, en français apprentissage automatique). Cet apprentissage peut être supervisé (des tags ou des humains apprennent à l’algorithme à reconnaître les formes ou les notions) ou non supervisé. Michael Benesty, avocat fiscaliste et data scientist français, auteur de l’ancien site de démonstration Supra Legem, définit ainsi le machine learning utilisé actuellement dans le cadre du droit [71] :

« Il s’agit d’une expression vague qui regroupe toute une famille d’algorithmes qui ont en commun d’apprendre par eux-mêmes en observant des données. Ces algorithmes sont inspirés de différentes sciences et notamment des statistiques.
En matière de justice prédictive, c’est la sous-famille des algorithmes supervisés qui est utilisée. »

Une excellente interview donnée par le chercheur français Yann LeCun, directeur du laboratoire d’IA de Facebook, au journal Le Monde, explique de manière simple comment fonctionnent les réseaux neuronaux, l’apprentissage supervisé et l’apprentissage non supervisé [72]. ROSS d’IBM, aux Etats-Unis, utilisait le machine learning, dans sa version supervisée : initialement, la machine est entraînée sur des données déjà "étiquetées" (de l’anglais "labeled" : on pourrait dire classées ou indexées à titre de comparaison) puis des juristes, des avocats ont "enseigné" et "corrigé" l’application et continuent de le faire [73]. Thomson Reuters, propriétaire de Westlaw, a lancé un laboratoire en 2015 et collaborait avec IBM pour intégrer la technologie Watson dans ses produits. ROSS était un système à apprentissage automatique supervisé. En France, Case Law Analytics [74] utilise (en partie et semble-t-il peu) aussi le machine learning (Supra Legem l’utilisait aussi).

Dans le machine learning et ses dérivés tels les modèles de langage (LLM), la supervision humaine est souvent nécessaire du fait du besoin de modération/censure et des erreurs, dites hallucinations pour les LLM. Ce sont alors des "petites mains", des annotateurs/correcteurs qui officient. Il s’agit souvent de "crowdworkers" de pays du Tiers Monde dotés d’un niveau correct dans la langue en cause. Mais il peut aussi s’agir de professionnels des pays développés, comme dans le cas des 15 "annotatrices" qui travaillent pour pseudonymiser les décisions de justice au SDER de la Cour de cassation [75].

Ce travail de correction, dans le cas de la modération des vidéos de YouTube ou des hallucinations de GPT-3.5/ChatGPT et GPT-4, est "invisibilisé" car la légende de l’IA et son marketing veulent que l’IA n’ait pas besoin des humains. C’est pourtant le cas, au point que le Renforcement Learning from Human Feedback (RLHF) est une caractéristique fondamentale de ChatGPT (voir infra 2.6.7.) et qu’elle est responsable de son succès tout autant que sa capacité à passer le test de Turing et son interface chatbot.

Pour comprendre très concrètement ce que permet le machine learning en droit et comment le ML fonctionne sur des documents juridiques, voir l’excellent article d’Arthur Dyevre (Leuven Centre for Empirical Jurisprudence), Text-mining for Lawyers : How Machine Learning Techniques Can Advance our Understanding of Legal Discourse (SSRN, 4 décembre 2020).

2.6.5. Le deep learning

Le deep learning (apprentissage automatique profond), concrètement, est un développement du machine learning. Il utilise à fond la technique des réseaux neuronaux pour tenter de se passer complètement d’une vérification/correction par des humains. Les réseaux neuronaux sont une technologie développée à l’origine pour la reconnaissance automatique d’image ("pattern recognition").

Pour (tenter de) comprendre, il faut lire les exemples de fonctionnement d’un réseau neuronal donnés par deux spécialistes français interviewés par Le Monde [76] :

Yann LeCun : « Le deep learning utilise lui aussi l’apprentissage supervisé, mais c’est l’architecture interne de la machine qui est différente : il s’agit d’un "réseau de neurones", une machine virtuelle composée de milliers d’unités (les neurones) qui effectuent chacune de petits calculs simples. La particularité, c’est que les résultats de la première couche de neurones vont servir d’entrée au calcul des autres. Ce fonctionnement par "couches" est ce qui rend ce type d’apprentissage "profond". »

Yann Ollivier, chercheur en IA au CNRS et spécialiste du sujet, donne un exemple parlant : « Comment reconnaître une image de chat ? Les points saillants sont les yeux et les oreilles. Comment reconnaître une oreille de chat ? L’angle est à peu près de 45°. Pour reconnaître la présence d’une ligne, la première couche de neurones va comparer la différence des pixels au-dessus et en dessous : cela donnera une caractéristique de niveau 1. La deuxième couche va travailler sur ces caractéristiques et les combiner entre elles. S’il y a deux lignes qui se rencontrent à 45°, elle va commencer à reconnaître le triangle de l’oreille de chat. Et ainsi de suite. »


Deep learning : intervention de Yann LeCun, à l’USI, 22 juin 2015. Autre vidéo de Yann LeCun disponible sur le même sujet : celle de son intervention au Collège de France le 4 février 2016

On peut aussi citer le résumé utilisé par le journaliste des Echos Rémy Demichelis [77] :

« [Les] réseaux de neurones [sont] la technologie à l’origine du grand retour en grâce de l’IA ces dernières années pour sa capacité d’apprendre à partir de grandes bases de données ; le Big Data constitue son carburant. Sous le capot, il faut s’imaginer plein de cellules qui font des opérations d’une simplicité enfantine — on pourrait utiliser un tableur Excel pour y parvenir. Ces cellules commencent par des valeurs aléatoires puis ajustent leurs calculs au fil de leur entraînement, de leurs erreurs ou de leurs succès : c’est ainsi que le réseau constitué de ces « neurones » artificiels apprend. Un peu comme dans un jeu vidéo : " Perdu, essaie encore ! " Seulement, il faut énormément de données, et souvent aussi un humain derrière pour dire quand la réponse est bonne ou mauvaise. »

D’après Michael Benesty, le créateur de Supra Legem, toutefois, en machine learning sur du droit, on est plus dans le traitement automatique du langage (NLP) (voir juste infra) [78] que dans les réseaux neuronaux [79]. Plus précisément, les réseaux neuronaux ici réduisent le traitement des données en amont, mais leur apport en droit est très inférieur à ce qu’ils ont fait pour la reconnaissance d’image [80]. De plus, ils coûtent très cher du fait de la puissance et du temps de calcul nécessaires (location de serveurs et de logiciels).

Un réseau de neurones convolutifs schématisé
Aphex34

2.6.6. Le traitement automatique du langage naturel (NLP)

Le traitement automatique du langage naturel (TALN) se dit aussi traitement automatique des langues (TAL), mais c’est l’expression anglaise d’origine qui est la plus fréquemment utilisée : "natural language processing" (NLP). OK.Doc du groupe Lefebvre Dalloz (voir infra) par exemple est une application utilisant le NLP.

Cette utilisation du NLP est centrale dans la technologie de l’IA juridique récente, comme l’illustre l’interview par Robert Ambrogi, en octobre 2019, de deux des fondateurs de ROSS, son CEO (DG) Andrew Arruda et son CTO (DSI) Jimoh Ovbiagele, dont plus de la moitié est consacré à ce sujet [81]. Plus précisément, il s’agit du traitement du langage naturel tel qu’on le pratique aujourd’hui : à base de techniques d’analyse syntaxique ("parsing", en anglais) [82], de machine learning, et non plus d’analyse sémantique.

Le top du NLP actuel, c’est l’application du deep learning au langage, plus précisément aux textes. Le NLP à base de machine learning a été initialement énormément facilité par la diffusion en open source en 2013 par Google du logiciel Word2vec (W2V), qui transforme les mots en vecteurs. Concrètement, Word2vec devine les termes similaires (proches par le sens) d’un mot en utilisant les autres mots faisant partie du contexte de ce mot [83].

Concrètement, Word2vec et ses améliorations et successeurs fonctionnent comme de puissants outils de synonymie automatique. Plus efficaces que l’emploi de l’expression consacrée entre guillemets [84] mais aussi les habituels de dictionnaires de synonymes.

GloVe (Global Vectors for Word Representation [85]) de l’Université de Stanford est en quelque sorte une amélioration de Word2vec. Word2Vec ne considère que les mots voisins pour capturer le contexte (la taille de sa "fenêtre contectuelle" est de 10 à 15 mots), alors que GloVe considère le corpus entier. GloVe obtient de bien meilleures performances sur les problèmes d’analogie de mots et de reconnaissance d’entités nommées (NER).

Le successeur de Word2vec est BERT. Egalement issu de la recherche de développeurs de Google, et également publié en open source, il a été implémenté sur les pages de langue française dans Google Web Search en décembre 2019 et pourrait l’être en 2021 par certains grands éditeurs juridiques voire une ou deux legal tech.

BERT (Bidirectional Encoder Representations from Transformers) est un progrès par rapport à Word2vec en termes de désambiguïsation du langage naturel (face à la polysémie par exemple), notamment par une meilleure "compréhension" par l’algorithme du sens des phrases (sujet verbe complément) et du contexte [86]. BERT consiste à utiliser un "modèle de langage" pré-entraîné ("pre-trained language model") [87] par les ordinateurs surpuissants de Google, un modèle mis à disposition par Google. Ce modèle Transformers et l’apport de son mécanisme de l’ "attention" sont au centre de BERT. BERT est en quelque sorte la version deep learning et large language model (LLM) de Word2vec ou encore le début de l’application du deep learning (réseaux de neurones) au NLP (TAL). A l’heure actuelle, BERT semble encore peu utilisé par le secteur de l’IA juridique, même s’il existe un LEGAL-BERT [88]. On sait aussi qu’en avril 2020, ROSS travaillait dessus chez Vector (un institut canadien destiné à "doper" l’industrie canadienne de l’IA) et envisageait clairement de l’implémenter [89]. BERT peut servir non seulement en mode moteur de recherche mais aussi en mode réponse à des questions, y compris sur des questions juridiques simples, domaine où il est moins performant, selon le test effectué par Laurent Gouzènes de KM2 Conseil [90]. A ce titre, BERT est donc le précurseur des "large language models" (LLM) (notamment la série des GPT d’OpenAI) et des chatbots qui ont "explosé" sur le devant de la scène fin 2022, début 2023 avec ChatGPT puis ses avatars.

Après la présentation en ligne "Search On" par Google le 15 octobre 2020, le responsable de l’activité Search de Google a publié un billet qui résume assez bien ce qu’on peut attendre de BERT dans une utilisation généraliste. La conclusion qu’on peut en tirer est que BERT est très puissant et représente un net progrès par rapport à Word2Vec. Tout particulièrement, BERT améliore la représentation vectorielle des mots ("word embedding") déjà au coeur de Word2vec. Voici quelques liens sur BERT pour mieux comprendre cet aspect :

Pour bien comparer Word2vec, GloVe et BERT, lisez la synthèse de Neeraj Agarwal : Word embedding techniques in NLP, publié en novembre 2021 sur KDnuggets, un des sites "pédagogiques" de référence en matière de machine learning.

En revanche, on parle plus de spaCy et de Flair, même s’ils sont considérés comme moins efficaces en pseudonymisation. Ainsi, dans une vidéo publiée mi-novembre 2019, Juliette, linguiste computationnelle chez Predictice, révèle qu’ils s’apprêtent à utiliser spaCy.

Toutefois le NLP à la sauce ML a des limites :

  • notamment s’il "détecte" — indirectement et implicitement — le sens des mots, il ne sait pas en détecter la logique : licéité et illicéité, par exemple, risquent fort d’être similaires pour lui — sauf si BERT réussit à lever cette ambiguïté
  • à notre connaissance, le NLP à la sauce ML n’est, encore aujourd’hui (2022), utilisé en production que dans une partie de l’édition juridique française et des legal tech. Les juridictions suprêmes françaises ne l’utilisent que pour pseudonymiser (ex-anonymiser) les décisions de justice. Toutefois, certains moteurs de recherche d’éditeurs et de Legal tech l’utilisent de manière basique et limitée depuis environ 2021, par exemple Lexbase pour reformuler automatiquement la requête de l’utilisateur en y détectant les expressions. Le plus avancé à cet égard est Ok.Doc, le moteur de recherche de Lefebvre Dalloz dont la synonymie automatique est très avancée. Mais Ok.Doc ne couvre à ce stade que les ouvrages à mise à jour et les Mémentos, à travers un site en marge des plateformes historiques du groupe. On note aussi l’expérimentation fin 2022 par l’Autorité des marchés financiers (AMF) des technologies de traitement automatique du langage naturel dans l’analyse des documents établis par les sociétés cotées [91]
  • le ML n’est pas la seule technologie d’IA utilisée en NLP aujourd’hui. L’analyse des appels d’offre par le produit DocuChecker de la startup française Golem.ai utilise la linguistique universelle puis un enrichissement en vocabulaire du secteur. Mais pas de machine learning [92].

La génération suivante du machine learning — ou plutôt du deep learning — sont les "large language models" ou LLM et là, ce n’est plus Google qui mène la danse mais OpenAI, financé par Microsoft. Les LLM, au lieu de chercher des mots, utilisent cette capacité de prédiction statistique des mots pour produire des mots, autrement dit écrire. Et avec les interfaces de type chatbot, les LLM se mettent à répondre à des instructions ou des questions. C’est l’objet de la section suivante.

2.6.7. Et les IA génératives de texte (GPT, LLM ...) ?


Un test de ChatGPT sur une question de droit réalisé le 8 décembre 2022 : la "réponse" — on devrait dire la "production" — de ChatGPT est absurde et bourrée d’erreurs. Dans d’autres cas, on obtient des généralités où l’application ne s’engage pas et ne prend aucun risque [93]. Mais le taux d’erreurs en droit a baissé sur GPT-4

Cette évolution vers l’IA (en partie) via les chatbots est devenue beaucoup plus probable depuis la sortie de la version 3 de l’IA générative d’OpenAI GPT [94] et l’implémentation de GPT-3 [95] (en réalité sa version 3.5) dans un chatbot testable gratuitement nommé ChatGPT. ChatGPT a donc en entrée, tout comme GPT-3 :

  • des textes et bases de données textuelles disponibles gratuitement sur Internet (avant 2022). Voir détails infra
  • plus les instructions (en anglais "prompt") données en langage naturel par l’utilisateur.

 Les technologies et les fonds utilisés

Les IA génératives de texte utilisent des technologies dont nous avons déjà parlé plus haut :

  • elles descendent directement du NLP/TAL et de Word2vec. Elles ont commencé avec BERT. Là où le moteur de recherche de Google utilise la vectorisation des mots et l’analyse syntaxique pour approcher le sémantique (sens) et chercher, les IA génératives, elles, utilisent ces mêmes algorithmes pour produire du texte selon une prévisibilité. En analysant les données (texte, audio ou images), un modèle de langage peut tirer des enseignements du contexte — vous vous souvenez des vecteurs de Word2vec ? — pour prédire ce qui va suivre dans une séquence. C’est ce qu’on appelle des modèles de langage pré-entraînés — en anglais "large language models" (LLM). Les LLM les plus connus en 2023 à part GPT-3 sont probablement BLOOM (d’abord) de Hugging Face et Big Science (gros avantage : il est totalement open source) [96], Chinchilla (ensuite) [97], Sparrow (un concurrent de ChatGPT qui, lui, cherche sur le Web actuel et cite sa source [98]) [99] de Deep Mind (une filiale londonienne de Google), LaMDA (Language Model for Dialogue Applications) (aussi) de Google, sorti en mai 2021 et probablement le meilleur (c’est le LLM derrière le chatbot Bard de Google), ESMFold, OPT, BlenderBot3 et surtout LLaMa de Meta (Facebook) [100], WuDao 2.0 développé par l’Académie d’intelligence artificielle de Pékin et MT-NLG développé par Nvidia et Microsoft [101]. Du côté des alternatives open source ou sous licence non-commerciale à ChatGPT, en plus de BLOOM, on peut citer, selon Pierre-Carl Langlais, Vicuna et Pythia [102], même s’il semble qu’ils ne soient pas vraiment à la hauteur des GPT-3 ou 4
  • et elles utilisent le deep learning [103].

Selon la présentation synthétique du Parisien, « ChatGPT repose sur une intelligence artificielle, baptisée GPT-3, qui utilise des "transformers", des algorithmes de traitement automatique du langage naturel apparus en 2017. Doté de 175 milliards de paramètres [autrement dit 175 milliards de critères pour prendre une décision], ce système informatique a appris en étant alimenté pendant des mois avec tous les textes disponibles sur Internet. Il utilise l’apprentissage automatique, ou Machine Learning en anglais, avec le modèle de l’attention où une phrase est comprise dans son ensemble et dans le contexte avec une capacité de traitement de 3 500 mots » [104]. Selon Alexeï Grinbaum, directeur de recherche au CEA, interrogé par le Parisien, « GPT-3 ne savait pas distinguer le vrai du faux, les chercheurs d’OpenAI ont ajouté dans la version 3.5 des couches supplémentaires d’apprentissage par renforcement avec des évaluateurs humains ».

Olivier Ertzscheid, maître de conférences en sciences de l’information, donne des précisions sur le fonds sur lequel GPT-3 a été "entraîné" [105] :

« Concrètement le modèle de langage GPT-3 utilise le corpus (ou jeu de données) Common Crawl (la version de Google du Common Crawl est appelée le Colossal Clean Crawled Corpus, ou C4 [106], une base de donnée "ouverte" qui récupère (crawle) des milliards de mots issus de pages web et de liens, de manière aléatoire, puis les analyse et les “modélise” à l’aide de l’algorithme BPE qui va, grosso modo permettre d’effectuer sur ce corpus une première opération de tokenisation permettant une analyse lexicale et sémantique des unités collectées. GPT-3 s’appuie aussi sur un autre corpus, WebText2, qui lui agrège de la même manière des milliards de mots à partir des URL envoyés sur Reddit avec un score minimum de 3. GPT-3 s’appuie également sur deux autres corpus (Books1 et Books2) ainsi que sur une extractions de pages Wikipedia. Voilà pour les corpus “linguistiques” qui s’apparentent donc déjà eux-mêmes à différents agencements collectifs d’énonciation, ceux de Wikipédia n’obéissant ni aux mêmes règles ni aux mêmes processus que ceux issus de Reddit, là encore différ(a)nts de ceux issus du web de manière aléatoire. »

Il n’est entre parenthèses pas certain, vu le respect par Common Crawl du droit d’auteur américain ("copyright law") pour les oeuvres copyrightées qu’il contient et vu que le reste semble être en licence open, qu’OpenAI se soit "assis" sur le droit d’auteur à cette occasion. En revanche, beaucoup de licences open — dont celle de Wikipedia, CC BY-SA 3.0, qui a été utilisée ici — exigent qu’en cas de copie du contenu qu’elles protègent, la mention de paternité soit maintenue. Là, il pourrait bien y avoir des problèmes [107]. De plus, mes propres constatations me font penser que Common Crawl ne respecte pas le droit d’auteur des pays européens de droit continental — quand bien même les sites européens ne constituent pas la majorité de son contenu.

Au total, selon l’Université de Stanford, GPT-3 a été entraîné sur 570 GB, ce qui est nettement moins qu’Internet puisqu’en 2007 déjà, Eric Schmidt, PDG de Google à l’époque, estimait sa taille à environ 5 millions de téraoctets de données.

Pour GPT 3.5, autrement dit ChatGPT, c’est légèrement différent. Selon Pierre-Carl Langlais, GPT-3.5 n’a pas été entraîné sur la totalité de Common Crawl mais sur une sélection aléatoire de cet ensemble de données.

Pour GPT-4, OpenAI a choisi hélas, probablement par méfiance vis-à-vis de la concurrence, de ne pas donner la moindre information sur son corpus d’entraînement. Cela rend l’évaluation de ses performances plus délicate. En effet, il devient impossible de savoir avec certitude si le LLM possède la réponse dans son fonds d’entraînement et peut donc théoriquement la donner par copier-coller.

Deux précisions importantes :

  • dans ChatGPT ou Bing Chat, il y a "chat". Dans GPT-3 ou 4, il n’y a pas "chat". Cette interface de dialogue par laquelle passe toutes les instructions n’existe pas dans GPT-3, 3.5 et 4. Ce qui y existe, c’est une interface pour donner des instructions/consignes mais on ne peut pas répondre à ou commenter la génération de l’application, on ne dialogue pas [108]
  • l’interface pour donner les instructions ou dialoguer utilise elle aussi un LLM, pour comprendre — et non pas générer — le prompt.

ChatGPT a été entraîné sur un supercalculateur Azure (un énorme serveur, si vous préférez), assemblé et fourni par Microsoft, et son exécution est hébergée sur le service de cloud computing Azure [109].

Pour aller plus loin (degré de complexité et détail croisssant de la première suggestion à la dernière) :

  • une très bonne, voire lumineuse explication/ vulgarisation des LLM conversationnels : ChatGPT ou la percée des modèles d’IA conversationnels, PEReN (Pôle d’expertise de la régulation numérique du Gouvernement), Éclairage sur ... n° 6, avril 2023
  • l’intervention d’Andrej Karpathy d’OpenAI à Microsoft Build 2023, 25 mai 2023 : State of GPT. Très instructif, particulièrement sur les quatre étapes de l’entraînement des LLM : "pretraining" — qui représente 99% du temps d’entraînement —, "supervised fine tuning", "reward modeling", "reinforcement learning" — qui inclut RLHF —
  • les 69 pages publiées le 11 mars 2023 par Stephen Wolfram [110] : What Is ChatGPT Doing … and Why Does It Work ? ou sa version vidéo de 3h15.

 Le rôle clé du Reinforcement Learning from Human Feedback (RLHF)

Les Echos ajoutent des précisions importantes sur ce dernier point : « Un premier algorithme, appelé ’GPT-3.5’, a été entraîné par OpenAI avec pour but d’apprendre les régularités statistiques dans des textes. C’est un travail de prédiction, si on veut simplifier. En analysant beaucoup de texte, l’algorithme va apprendre à deviner comment une phrase se déroule. [...] Pour cette version, OpenAI dit avoir formé son modèle à l’aide du "Reinforcement Learning from Human Feedback" (RLHF, ou apprentissage par renforcement à partir de la rétroaction humaine) [111], c’est-à-dire avec une supervision humaine, pour le rendre plus précis et conversationnel. Concrètement, un assistant humain va écrire la réponse à une question donnée puis la soumettre à l’IA afin qu’elle apprenne de ce modèle. Une deuxième étape consiste à poser la même question initiale à l’IA et à générer plusieurs réponses. Ces réponses vont ensuite être classées de la meilleure à la pire par le superviseur humain, avant de réintégrer ces données dans le système. Ce processus est réitéré ainsi de nombreuses fois. » [112] [113]

Sur les défauts et les limites du RLHF, on peut reprendre la page de Wikipedia EN sur le RLHF et le post de Ben Dickson sur Tech Talks :

« L’un des principaux défis de la RLHF est l’évolutivité et le coût du retour d’information humain, qui peut être lent et coûteux par rapport à l’apprentissage non supervisé. La qualité et la cohérence du retour d’information humain peuvent également varier en fonction de la tâche, de l’interface et des préférences individuelles des humains. Même lorsque le retour d’information humain est possible, les modèles RLHF peuvent encore présenter des comportements indésirables qui ne sont pas pris en compte par le retour d’information humain ou exploiter des failles dans le modèle de récompense, ce qui met en lumière les défis de l’alignement et de la robustesse. »
« Le travail humain devient toujours un goulot d’étranglement dans les pipelines d’apprentissage automatique. L’étiquetage manuel des données est lent et coûteux, c’est pourquoi l’apprentissage non supervisé a toujours été un objectif recherché depuis longtemps par les chercheurs en apprentissage automatique.
Dans certains cas, vous pouvez obtenir un étiquetage gratuit de la part des utilisateurs de vos systèmes d’apprentissage automatique. C’est à cela que servent les boutons upvote/downvote que vous voyez dans ChatGPT et d’autres interfaces LLM similaires. Une autre technique consiste à obtenir des données étiquetées à partir de forums en ligne et de réseaux sociaux. Par exemple, de nombreux messages sur Reddit se présentent sous la forme de questions et les meilleures réponses reçoivent des votes plus élevés. Toutefois, ces ensembles de données doivent encore être nettoyés et révisés, ce qui est coûteux et lent. En outre, rien ne garantit que les données dont vous avez besoin soient disponibles dans une seule source en ligne.
Les grandes entreprises technologiques et les laboratoires bénéficiant d’un financement solide, comme OpenAI et DeepMind, peuvent se permettre de dépenser des sommes considérables pour créer des ensembles de données RLHF spéciaux. En revanche, les entreprises plus modestes devront s’appuyer sur des ensembles de données en libre accès et sur des techniques de "web scraping". »

Précisons que ChatGPT est un modèle similaire à InstructGPT [114], qui est entraîné à suivre une instruction dans un guide et à fournir une réponse détaillée. OpenAI a entraîné le modèle GPT-3.5 à l’aide du RLHF, en utilisant les mêmes méthodes qu’InstructGPT, mais avec de légères différences dans la configuration de la collecte de données.

 La relation OpenAI - Microsoft

Microsoft a investi un milliard de dollars US dans OpenAI, en 2019 et détient une licence exclusive pour utiliser le modèle de langage. Les développeurs peuvent toujours utiliser l’API publique, mais seul Microsoft a accès au modèle sous-jacent de GPT-3. Le 17 janvier 2023, Microsoft et OpenAI annoncent que ChatGPT sera bientôt disponible sur le service Azure OpenAI. Le 4 janvier, Microsoft annonce qu’il va lancer une version de Bing utilisant l’intelligence artificielle de ChatGPT. Microsoft pourrait lancer la nouvelle fonctionnalité avant la fin du mois de mars, et espère ainsi défier le moteur de recherche Google [115].

Enfin, en janvier 2023, on apprend que Microsoft va investir 10 milliards de dollars de plus dans OpenAI, l’auteur de ChatGPT. Ce qui intéresse Microsoft ne semble pas être une préfiguration d’AGI (intelligence artificielle générale, voir infra 12. et suivant), mais plutôt un moyen de produire des synthèses ou des notes quasi-instantanées (comme dans Teams, par exemple [116]) et de donner des instructions *correctement comprises* à un ordinateur — i.e. de remplacer clavier+souris et les commandes vocales limitées comme celles de Dragon Naturally Speaking. De plus, GPT est pour Microsoft une IA qui "apprend" très, très vite, plus vite que les autres [117].

Pour Microsoft, ChatGPT, c’est aussi « un missile contre Google » et Meta [118]. Comme l’écrivent Les Echos, « en utilisant l’intelligence artificielle ChatGPT, Bing, le moteur de recherche de Microsoft, pourrait apporter des réponses plus humaines aux requêtes des internautes. Une promesse qui pourrait faire mouche, à l’heure où Google est décrié pour la profusion d’annonces publicitaires dans ses résultats. » [119]

Pour Microsoft, ChatGPT, enfin, c’est garder la quasi-exclusivité du train d’avance de bien un à deux ans qu’a OpenAI sur la concurrence. Parce qu’en IA, beaucoup de choses sont en open source en matière de "large language models" (LLM) et il semble bien que la taille (nombre de paramètres) ne soit plus le seul critère de performance [120] (comme plus généralement en machine learning (ML) et deep learning, ainsi que nous l’avons vu plus haut). Et les coûts baissent avec les LLM open source [121] — mais les performances avec aussi. Donc cette avance, elle peut se perdre vite ...

L’hypothèse de Pierre-Carl Langlais, un universitaire français spécialiste du "text mining" (fouille de texte) [122] — et elle me semble très réaliste — est qu’OpenAI n’a pas seulement lancé dans le grand public ChatGPT pour se faire de la publicité et renforcer les investissements de Microsoft chez eux, mais aussi voire surtout pour amasser du "digital labor" à travers les dialogues avec ChatGPT et les retours (pouce levé ou baissé) et donc d’énormes améliorations non payées de son application. Autant de manques ou de retard pour les concurrents.

 Prix de ChatGPT et GPT-4

Quant aux prix de ChatGPT :

  • pour zéro dollar : un accès indisponible quand la demande est forte — autrement dit presque tout le temps, maintenant que ChatGPT a dépassé les 100 milllions d’utilisateurs gratuits —, une vitesse de réponse dégradée et des mises à jour standards. Au 10 février, en pratique, ChatGPT n’est plus disponible en version gratuite
  • pour 20 USD par mois ("professional plan") : un accès disponible quand la demande est forte, une vitesse de réponse maximale et un accès aux tout dernières mises à jour [123]. Depuis fin mai 2023, ChatGPT Plus intègre un navigateur web, ce qui devrait faire sauter sa limitation aux informations disponibles jusque novembre 2021. Selon les premiers tests, ce navigateur est très très lent (souvent plus d’une minute pour générer une réponse). Il cite ses sources, mais seulement en notes de bas de pages — que les éditeurs et blogueurs n’attendent aucun renvoi de trafic de ça (même problème pour Bing Chat).

Selon Delphine Iweins, « pour les développeurs souhaitant utiliser [ChatGPT] sous la forme de flux de données (API) [...] OpenAI facturera environ 0,03 dollar pour 1 000 "tokens d’invite" (soit environ 750 mots contenus dans la question), et 0,06 dollar pour 1 000 jetons d’ "achèvement" (soit environ 750 mots de réponse). [...] GPT-4 est disponible uniquement sur abonnement à 20 dollars par mois dans une version qui ne comprend pas l’analyse d’images. » [124]

Attention : ces tarifs sont susceptibles de fortes augmentations, car comme nous le voyons infra, la mise sur pied, l’entraînement, l’entretien et le fonctionnement des grands LLM et des infrastructures matérielles (GPUs, serveurs, data centers, réseaux) sont extrêmement coûteux.

 Les performances décevantes de ChatGPT (GPT-3.5) et GPT-3 en droit français (meilleures avec GPT-4) — mais passables voire correctes en droit américain

Les performances de ChatGPT en droit français sont franchement mauvaises du point de vue du juriste en droit des affaires et du point de vue du spécialiste de l’information — même si un particulier appréciera probablement les explications gratuites sur ses droits malgré leur taux d’erreur. Autrement dit GPT-3.5, qui n’a rappelons-le, que peu été entraîné sur des contenus en français et encore moins sur du droit français, "hallucine" beaucoup en droit français. Sur GPT-4, on ne sait rien de ses corpus d’entraînement, jusqu’ils sont plus importants, mais il hallucine nettement moins en droit français.

Du côté du droit américain, les ensembles de données utilisés pour l’entraînement de GPT-3.5 étaient bien meilleurs : la langue anglaise y est sur-représentée, et les jeux de données entièrement ou partiellement juridiques y sont beaucoup plus nombreux. Les performances de GPT-3.5 et 4 sont donc meilleures.

Nos observations sur les performances en droit français de ChatGPT/GPT-3.5 :

  • son français est nickel et ses propos ont une apparence logique. Les non-juristes doivent d’autant plus s’en méfier. Le "reinforcement learning from human feedback" (RLHF) décrit plus haut joue ici
  • c’est donc mieux mais ça ne suffit clairement pas : les erreurs sont nombreuses et massives. Comme d’autres "large language models" (LLM), ChatGPT invente des faits. Ces modèles sont en effet formés pour prédire le prochain mot pour une entrée donnée, et non pour déterminer si une information est exacte ou non [125]. La spécificité de ChatGPT, selon le développeur de jeux en ligne Mark Jones, c’est son don pour rendre ses "hallucinations" (ou "stochastic parroting") rationnelles en apparence [126]. Arvind Narayanan, professeur d’informatique à Princeton, prévient : « Les gens sont enthousiastes à l’idée d’utiliser ChatGPT pour apprendre. Le résultat est souvent très bon. Mais le danger est que vous ne pouvez pas dire quand c’est faux à moins que vous ne connaissiez déjà la réponse. J’ai essayé quelques questions de base sur la sécurité informatique. Dans la plupart des cas, les réponses semblaient plausibles mais étaient en fait des foutaises. [...] On peut tromper ChatGPT avec des présupposés de départ faux. » OpenAI a d’ailleurs ouvertement reconnu — et expliqué — les limites de son produit sur son propre blog [127]
  • concernant le droit français, la rigueur du propos juridique disponible en sortie est pour le moins questionable. Sur la valeur/fiabilité des "réponses" en droit français, voir notamment tous ces très nombreux exemples dans des fils Twitter en lien et autres pages web [128].
    Reprenons et commentons quelques-uns de ces tests :
    • ChatGPT par exemple confond (en janvier 2023) lois Sapin 1 (1993) et 2 (2016) ou la directive Transparence avec les directives MIF 1 et Prospectus
    • ChatGPT prétend que le droit de passage peut faire l’objet d’une prescription acquisitive. Faux
    • ChatGPT prétend que la directive européenne de 2019 sur le droit d’auteur contient des articles sur la protection par propriété intellectuelle des oeuvres produites par les IA. Faux. Il n’y est question que d’exception pour le data mining sur des oeuvres protégées
    • élections au CSE : le directeur général peut-il se présenter ? On compare notamment avec la page web du site du Ministère du travail et avec la décision du Conseil constitutionnel du 19 novembre 2021 (n° 2021-947 QPC), possiblement pas intégrée par ChatGPT. La production de ChatGPT en "réponse" : 1. Le DG est considéré comme un représentant de l’employeur (vrai en général mais il faut en réalité que les statuts lui confèrent un pouvoir de représentation). 2. Il ne peut pas voter (faux). 3. Il peut se présenter aux élections du CSE (VRAI mais 3. contredit 2. ... : rappel comme quoi les LLM ne raisonnent pas ...) 4. s’il n’y a pas d’interdiction dans les statuts de l’entreprise ou le règlement intérieur du CSE (faux, ces documents ne peuvent pas le priver de son droit de vote)
    • autre test de ChatGPT en droit social : l’accident de trajet est-il un accident du travail ? ChatGPT rate sa qualification juridique des faits (cf Mémento Social Francis Lefebvre 2023 n° 670). Vrai, le sujet est difficile, les critères sont énoncés par la jurisprudence (pas les textes), les limites sont ténues et la chambre sociale de la Cour dee cassation a fait un revirement de jurisprudence en 1995. Pourtant, l’arrêt est sur Légifrance et la base CASS ferait donc partie du jeu de données Common Crawl utilisé pour l’entraînement de ChatGPT [129] Mais pour savoir que c’est cet arrêt qui fait jurisprudence, sans la doctrine, c’est une autre paire de manches ... Il semblerait toutefois que Légifrance ne fasse pas partie des données d’entraînement de GPT-3.5
    • en droit français social et des obligations, sur cinq tests que je lui ai donnés le 5 mai 2023 (trois sur la jurisprudence, deux sur les textes officiels), Bing Chat (donc GPT-4), bien qu’en mode "Plus équillibré" ("température->https://learnprompting.org/fr/docs/basics/configuration_hyperparameters]" [130] moyenne, donc raisonnable et cohérent) [131], a halluciné deux fois sur cinq (et toujours sur les arrêts) et a oublié un conseil de base (sur les textes)
    • chronologie d’émission de BSA ? BingChat (GPT-4 donc) en mode de "température" "Plus précis" est nul, pas d’autre mot. Sur la même question, ChatGPT (GPT-3.5 donc) ne comprend pas la question (NB : ChatGPT n’offre pas de réglage de sa "température"). Et en reformulant, bizarrement, GPT-3.5 répond cette fois — tant bien que mal — à la question, faisant donc un peu mieux que GPT4 !?!?! Mais la réponse est "meh" en droit : aucune mention de tenue d’assemblée générale exceptionnelle (AGE), pourtant obligatoire. Bing Chat, en mode "Plus créatif", comprend alors la question du premier coup, sans oublier l’AGE.

En langue française, ChatGPT semble plus à l’aise en droit international de l’espace, mais aussi en droit des données personnelles (RGPD) et de la propriété intellectuelle, domaines où la littérature en accès libre est importante (test de ChatGPT par Alexandre Chazelles, enseignant en droit des activités spatiales, sur un devoir donné à ses élèves français non juristes).

Selon une note de synthèse du Hub France IA de mai 2023 sur les usages de ChatGPT [132], « dans le domaine juridique, deux principaux cas d’usages ont été explorés :

  • le premier est relatif à du conseil juridique : donner des informations précises et des références. Si l’outil permet un grand gain de temps et d’argent comparé au recours à un expert juridique, reste que ses réponses sont souvent factuellement fausses, ce qui peut avoir des conséquences critiques dans le domaine juridique. Toutefois, l’imprécision du système sera probablement corrigée au fil des mises à jour [133]. Dans tous les cas, le conseil juridique est interdit par la loi du 31 décembre 1971, frontière devenant particulièrement floue dans le cas de l’IAG
  • le second cas consiste à analyser des contrats juridiques. Ici, la nécessaire anonymisation des données confidentielles contenues dans les contrats réduit le gain de temps. Par ailleurs, ce masquage d’informations enlève des éléments contextuels importants pour la compréhension, ce qui altère la qualité des analyses réalisées par ChatGPT. Face au rapport négatif entre le temps d’élaboration du prompt, la qualité de la réponse et le risque de dévoilement d’informations confidentielles, l’usage de ChatGPT pour cette tâche n’est pas forcément intéressant. »

Pour résumer, je suis franchement déçu par la version gratuite de ChatGPT (basée sur GPT-3.5, donc). L’avocate en droit du travail Françoise de Saint-Sernin, le qualifie de « vulgarisateur [mais] pas expert du droit » mais je n’irais même pas jusque là pour ChatGPT. Selon moi, GPT-4 peut lui bénéficier de ce titre — voir aussi infra —, mais pas GPT-3.5 (la version de GPT errière ChatGPT). On peut ajouter avec Françoise de Saint-Sernin que « l’utilisation de Chat GPT est appropriée et efficace pour obtenir des informations générales et rapides et des préconisations de bon sens ». Autre chose : le manque de fiabilité et tout autant de régularité du degré de fiabilité de ces chatbots LLM (GPT-3.5 et 4) ne laisse pas d’énerver.

Les résultats sont meilleurs en droit américain, avec GPT-3.5 et GPT-4.

Est-ce que GPT peut réussir l’examen du barreau ? — le professeur de droit américain Daniel Katz (Université d’Illinois) et le développeur Michael Bommarito ont travaillé avec GPT-3.5 en décembre 2022 pour essayer de lui faire passer la partie QCM de l’examen du barreau américain (dite MBE) [134]. GPT-3.5 *dûment paramétré* réussit dans deux matières (preuve (Evidence) et responsabilité civile (Tort) sur sept, mais pas les cinq autres) la partie questionnaire à choix multiple dite MBE (Multistate Bar Exam) de l’examen d’entrée au Barreau américain, soit 200 questions (à passer en six heures pour un candidat humain). Ce n’est pas un cas pratique, une dissertation ou commentaire d’arrêt. Mais les auteurs de l’article (un professeur de droit à l’Université de l’Illinois et un développeur/codeur/MCF en droit) s’attendent à mieux sous bref délai.

Le résultat de Daniel Katz en droit américain est plus impressionnant qu’en droit français parce que :

  • GPT-3.5 (la base dont dérive ChatGPT, donc) a été entraîné sur du contenu juridique américain de qualité, y compris les fameuses questions du QCM, protégées par le droit d’auteur
  • et il a été optimisé tant dans les instructions données (prompt) que les hyperparamètres (ce qui revient si je comprends bien à un ré-entraînement de GPT sur des paramètres différents — mais c’est beaucoup moins coûteux qu’autrefois). Pour en savoir plus sur les hyperparamètres.

ChatGPT a réussi les examens de la faculté de droit de l’Université du Minesota dans quatre cours malgré des résultats « médiocres » [135]. Sur 95 questions à choix multiples et 12 questions à développement, ChatGPT a obtenu en moyenne le niveau d’un étudiant C+, une note faible mais suffisante. La notation s’est faite en aveugle, au milieu des copies des étudiants. La performance moyenne de ChatGPT était inférieure à la moyenne des humains, selon les enseignants. Si ces résultats étaient appliqués à l’ensemble du programme d’études, ils seraient suffisants pour permettre au chatbot d’obtenir un diplôme de droit — bien qu’il soit quand même placé en probation académique à l’Université, classé 21e meilleure faculté de droit des Etats-Unis par U.S. News & World Report.

Les performances de GPT-4, sorti le 14 mars 2023, en droit, sont meilleures. Notamment sur la même partie fédérale de l’examen du barreau américain (Uniform Bar Exam). Le résultat de GPT-4 se situe, selon les tests réalisés par OpenAI eux-mêmes, dans les 10% de résultats les plus élevés, tandis que celui de GPT-3.5 (base de ChatGPT) se situait dans les 10% les plus mauvais [136]. Cela dit, 80% des candidats le tentant pour la première fois, certes après une préparation, réussissent l’examen du Barreau américain [137]. Selon Daniel Schwarcz et Jonathan Choi, des universitaires qui ont pas mal travaillé sur l’utilisation de GPT-4 en droit américain, GPT-4 « excelle à expliquer les règles régissant des questions de droit fédéral bien connues et figurant en bonne place dans le corpus de textes sur lequel il a été entraîné » [138].

Mais ChatGPT, particulièrement s’il n’est pas correctement "prompté" (et même dans ce cas), est capable du pire. Un avocat américain représente un homme qui a poursuivi une compagnie aérienne a utilisé ChatGPT pour l’aider à préparer un dossier judiciaire. Cela ne s’est pas bien passé : la partie adverse a repéré dans les conclusions de l’avocat des jurisprudences (citées par ChatGPT) qui n’existent pas ; le juge a convoqué l’avocat devant lui pour qu’il s’explique et s’il n’écope pas d’une amende, sa réputation elle n’en réchappera pas, car son nom est déjà partout [139]. D’après le professeur de droit américain Eugene Volokh, le phénomène ne serait pas isolé. Ainsi, « un associé d’un grand cabinet a reçu des mémos contenant de fausses citations de jurisprudence de deux collaborateurs différents » [140].

Notre avis de juriste et de spécialiste de l’information, c’est que l’outil GPT (3, 3.5, ChatGPT et 4) demeure — au moins en l’état actuel et pour 2023 voire 2024 (vu que GPT-5 n’est pas annoncé) — non fiable. Autrement dit, même avec les améliorations apportés par GPT-4, la vérification des "résultats" par le juriste (grâce à son expérience ou ses recherches) reste nécessaire. Les GPT sont au mieux des vulgarisateurs, des rédacteurs, des donneurs d’idées — mais pas des fournisseurs de réponses.

Rappelons à cette occasion que les GPT et al. ne raisonnent pas. Pour le dire avec les mots d’un grand nom de l’IA, Gary Marcus : « le système ne sait pas de quoi il parle (hallucinations). ». On voit aussi beaucoup de généralités chez ChatGPT (les "réponses" ne s’engagent pas, restent floues [141]), d’approximations et d’erreurs. C’est cependant en partie compréhensible/explicable vu les faibles qualité et niveau de détail de ce qui est disponible en entrée. De plus, GPT-3.5 a été entraîné sur un contenu textuel où l’anglais est dominant. Par ailleurs, on ne voit pas trace de "réflexion", d’argumentation, et aucune base légale ni jurisprudence n’est jamais citée (Google travaille sur un produit concurrent qui lui cite ses sources).

NB : attention à ce que vous copiez-collez dans ChatGPT : informations exclusives, données secrètes, documents internes, il "apprend" tout. Et peut le recracher ensuite. C’est pourquoi un juriste d’Amazon a exhorté les employés à ne pas partager de code informatique avec le chatbot IA. Il a spécifiquement demandé aux employés de ne partager « aucune information confidentielle d’Amazon (y compris le code d’Amazon sur lequel [ils travaillent]) » avec ChatGPT. De fait, Amazon a été témoin de réponses de ChatGPT qui ont imité certaines données internes.

Selon les CGU de ChatGPT, OpenAI est autorisé à utiliser vos échanges avec lui pour améliorer ses modèles et à conserver vos données, notamment l’historique des questions posées. Ce qui pose des problèmes de confidentialité et de secret des affaires ... A moins que vous n’ "optiez-out" — ce qu’OpenAI ne permet que depuis fin avril 2023 [142].

Dans les cinq jours de son lancement, ChatGPT avait enregistré 1 million d’utilisateurs et début février 2023 il en était à 100 millions — records mondiaux à ce jour pour la rapidité et le volume d’inscriptions à un service en ligne gratuit. Si on ajoute que ChatGPT n’est pas un produit fini, mais ce qu’on appelle une démo [143] et que GPT-4 est annoncé pour mars avril 2023, on peut avoir une idée de l’agitation, des attentes — et des peurs [144] — que GPT provoque ...

Pour autant, il est inutile de lutter contre ou interdire ChatGPT, comme certaines Universités l’ont pourtant fait. Il est plus réaliste d’exiger des étudiants de mentionner qu’ils ont utilisé une IA générative, comme Sciences-Po Paris par exemple [145]. D’autant que Microsoft va le mettre dans tous ses produits. Cela a déjà commencé début 2023 avec Teams premium et le logiciel CRM Microsoft Dynamics. Apprenez donc à l’utiliser, avec ses limites.

J’aurais tendance à aller dans le sens d’un commentateur sur LinkedIn, Vincent Champain, qui s’exclame :

« La valeur des réponses approximatives, du par coeur et de la synthèse de synthèse va s’effondrer. Place à la créativité, la précision et l’intelligence réelle ! »

 Perplexity.ai cite ses sources


Copie écran de Perplexity.ai, une IA générative inspirée de GPT, mais qui, elle, donne des réponses correctes beaucoup plus fréquentes et cite ses sources (test effectué le 6 janvier 2023)

Perplexity AI, une IA générative inspirée de GPT et programmée pour donner ses sources donne, elle, une réponse correcte à la question "transparency directive scope" et cite des sources pertinentes avec le lien hypertexte. En apparence, rien impressionnant car la réponse est un ensemble très bien rédigé de copier-coller depuis les sites de référence — sites évidents : ESMA, EUR-Lex et texte de la directive — cités en bas de sa réponse. La même question posée différemment ("does the transparency directive apply to investment funds") ne fait pas tomber Perplexity.ai dans le piège.

Sur la même question que la copie écran de ChatGPT supra ("voie de recours à l’encontre des décisions du juge de la mise en état"), Perplexity.ai, bien que ne sachant répondre qu’en anglais, "comprend" bien la question en français et donne la bonne réponse. Encore une fois, il suffisait certes de copier-coller des extraits de sites fiables — que Google trouve sans problème avec la même requête. Encore fallait-il y penser et le faire. Même réussite de Perplexity au test de l’avocat en droit immobilier Christophe Buffet sur la (soi-disant) prescription acquisitive trentenaire du droit de passage, test que rate ChatGPT.

Perplexity tombe néanmoins comme ChatGPT dans le piège tendu par le "streamer" politique Jean Massiet. A la question "dans la Ve République, le président de la République a t-il l’obligation de signer les ordonnances que lui soumet le gouvernement ?", il répond oui sans aucune nuance et sans citer la réponse négative apportée dans la pratique par François Mitterrand face à des ordonnances soumises par le gouvernement Chirac. De même, Perplexity.ai ne réussit pas vraiment mieux que ChatGPT au test du professeur Emmanuel Netter ("penses-tu que les plateformes de l’économie numérique puissent être considérées comme des tiers de confiance ?"). Et sur un test sur les risques psychologiques au travail (dits "risques psycho sociaux" ou RPS), même si c’est un peu mieux que ChatGPT, Perplexity.ai "hallucine" quand même aux deux tiers.

Il semble que Perplexity.ai aille chercher ses sources, préalablement sélectionnées pour leur qualité et fiabilité (le site d’Aurélien Bamdé est un "must"), avec un moteur de recherche donc sans retard par rapport à l’actualité qu’il fasse travailler GPT-3 sur ce fonds pour répondre. La page d’accueil du site précise en effet : « Il s’agit d’une démo inspirée par OpenAI WebGPT, et non d’un produit commercial. Perplexity Ask est alimenté par de grands modèles de langage (API OpenAI) et des moteurs de recherche. La précision est limitée par les résultats de recherche et les capacités de l’IA. Peut générer du contenu offensant ou dangereux. »

Fin mai 2023, Perplexity a lancé "Copilot" : les questions déclenchent un processus de recherche :

  • Copilot essaie de comprendre votre requête initiale
  • vous pose des questions de clarification
  • recherche sur le web en temps réel
  • fournit des réponses plus riches avec des liens.

Ce service est gratuit mais limité à 5 recherches toutes les 4 heures. Il améliore un peu la qualité des réponses en droit français, mais sans plus, et on a toujours cette très nette impression de copier-coller.

Perplexity.ai s’en tire donc un peu mieux, d’un point de vue de juriste, que ChatGPT.

Attention : tout cela, c’est sur l’onglet par défaut de Perplexity.ai, l’onglet Concise. En cliquant sur l’onglet Detailed, la réponse de Perplexity.ai passe en français mais le manque de maîtrise de la langue apparemment rend alors la réponse fausse.


Perplexity.ai donne, elle, la bonne réponse sur le même test où ChatGPT a échoué (6 janvier 2023)

 Claude d’Anthropic et Bard de Google

Parmi les concurrents de ChatGPT, on peut également citer Claude d’Anthropic, la startup cofondée par d’anciens employés d’OpenAI. Il n’est pas disponible publiquement.

D’après ceux qui l’ont testé en version bêta, c’est un tout petit peu mieux que ChatGPT dans certains domaines, mais Claude mais souffre toujours de limites importantes [146].

La concurrence va s’intensifier, fait remarquer Pierre-Carl Langlais.

En mars 2023, Google devrait ouvrir l’accès à son propre chatbot basé sur LaMDA, Bard. Il devrait être prochainement intégré à son moteur de recherche sous la forme d’une fonctionnalité [147]. Bard embarque un "toolset" (ensemble d’outils) comprenant un système de recherche d’informations, une calculatrice et un traducteur.

D’après le pre-print sur LaMDA publié sur Arxiv [148] :

  • Google a utilisé trois paramètres pour évaluer les résultats de ce modèle de langage :
    • sensibilité : il s’agit de déterminer si une réponse a du sens ou non
    • spécificité : mesure si la réponse est le contraire d’une réponse générique ou vague, ou si elle est spécifique à un contexte
    • intérêt : cette mesure permet d’évaluer si les réponses de la LaMDA sont pertinentes ou si elles suscitent la curiosité
  • également dans ce "paper", deux choses importantes sur LaMDA :
    • sécurité : le modèle bénéfice de données annotées par des "crowd workers"
    • ancrage : LaMDA s’appuie sur des sources de connaissances externes (par le biais d’un moteur de recherche web).

Les premiers retours sur Bard (mai 2023) ne sont pas élogieux.

Et l’équipe de recherche à l’origine de l’IA générative d’images Stable Diffusion envisage début février 2023 de créer Open Assistant, une version libre de chatGPT beaucoup plus économe en ressources (environ 24 Go de mémoire vive).

 L’utilisation des IA génératives de texte en droit et leur avenir

Pour utiliser de manière optimale GPT-4 ou ChatGPT, de nombreuses études et tutoriels américains ont été publiées depuis le début de l’année 2023 (essentiellement sur le Legal SSRN). En voici quelques unes qui méritent d’être citées ici :

  • ChatGPT Goes to Law School, par Jonathan Choi, Kristin Hickman, Amy Monahan et Daniel Schwarcz, Minnesota Legal Studies Research Paper No. 23-03, Legal SSRN, 25 janvier 2023. (voir p. 13 et suivantes du PDF)
  • AI Tools for Lawyers : A Practical Guide, par les mêmes Daniel Schwarcz et Jonathan Choi de la faculté de droit de l’Unioversité du Minosota, Legal SSRN, 29 mars 2023.

En terme de guide pratique d’utilisation de GPT en droit, voici ce qui se dégage de cette littérature américaine. Quand un juriste travaille avec un chatbot de la famille GPT, il faudrait pour en maximiser l’efficacité et le fiabiliser autant que possible :

  • préalablement tester l’IA chatbot avant de l’adopter. En dehors des questions de rapidité, de coût (déjà évoqué), de sécurité/confidentialité, juridiques (RGPD ...) et de comptabilité avec les moyens informatiques et en personnel de la structure, une procédure de test consiste à poser un ensemble de questions dont on connaît la réponse idéale cinq fois de suite pour tester la stabilité de l’IA puis à répéter celles-ci au moins une fois par mois pendant trois mois et enfin à identifier les erreurs, en évaluer l’origine et la possibilité de les brider avec un meilleur data set de fine tuning et le RLHF
  • préparer le sujet qu’on veut travailler en ayant au préalable sous la main par écrit les détails (faits, points de droit ...) et les questions, ainsi qu’un certain nombre de formules à ajouter pour mieux guider GPT et qu’on va devoir copier-coller plusieurs fois
  • jouer le jeu du dialogue — c’est un chatbot, justement. Rester dans le même fil/échange tant que le travail sur le sujet n’est pas terminé. Faire référence à ce qui a été dit précédemment. Le chatbot garde ainsi la "mémoire" des détails et des questions déjà posées
  • donner des détails — et non pas poser une question générale comme les moteurs de recherche nous y ont habitué
  • découper ce qu’on veut demander au chatbot en petites étapes progressives. Ne pas tout lui demander d’un coup. Daniel Schwarcz et Jonathan Choi apppellent ça "chain-of-thought prompting" et recommandent notamment d’ajouter enfin de requête la phrase "réfléchis [ou procède]) étape par étape"
  • sur les textes officiels et la jurisprudence, demander à GPT de :
    • résumer et expliquer les règles (champ d’application, critères, effets) en allant progressivement dans plus de détails et de précision
    • toujours citer les articles/attendus sur lesquels il se fonde pour répondre. Une formule à employer : « Cite les extraits de la décision évoquée plus haut dans ta réponse »
  • toujours relire et vérifier les assertions de GPT. D’autant que ses "hallucinations" peuvent à première vue paraître logiques
  • dans la production par copier-coller à GPT d’extraits de doctrine, de décision, de contrat ou d’une clause pour qu’il travaille dessus, a) se rappeler que si on utilise ChatGPT, il ne peut pas ingérer plus de 7-8 paragraphes et b) toujours fournir ces extraits à GPT entre guillemets afin que l’application les distingue du reste du texte du prompt
  • en fin de dialogue, alors qu’on arrive à la rédaction d’un contrat ou de conclusions, faire référence au sujet traité pour que GPT insère les différents aspects directement dans le modèle — modèle qu’on va lui introduire par copier-coller et entre guillemets.

Conseils sur la façon de rédiger les "questions" : insérer les phrases suivantes à la fin du prompt :

  • « écris plus de [x] mots et moins de [y] mots »
  • « réfère toi aux décisions de justice pertinentes. Ne fabrique pas de décision de justice »
  • « fais référence aux articles pertinent de [Code / texte officiel] dans le texte. N’invente pas de références. »

Selon Schwarcz et Choi, quand il s’agit d’identifier les règles juridiques pertinentes régissant des questions juridiques spécifiques, « dans de nombreux cas, Bing Chat est supérieur à GPT-4 à cette fin, car il fournit des citations spécifiques de son matériel source et n’est pas limité par un corpus historique de textes, comme GPT-4. Toutefois, GPT-4 peut également être extrêmement utile à cette fin, en particulier lorsqu’il s’agit de questions juridiques importantes dont les sources sont claires. »

Attention : mes tests sur ChatGPT et Bing Chat indiquent qu’en droit français, certaines des méthodes américaines décrites supra ne marchent pas (dialogue, découpage par étape) ou pas aussi bien (donner des détails, citer la jurisprudence).

Personnellement, j’ajouterais bien à cela des conseils que les documentalistes juridiques formateurs répètent à l’envi aux stagiaires et collaborateurs, parce que nos tests montrent que le niveau va s’élever mais que beaucoup de choses ne vont pas changer au final. En deux mots : bannir la paresse et rester rigoureux. Autrement dit :

    • consulter le maximum de sources
    • diversifier ses modes d’accès à l’information (papier, numérique ; lecture, interrogation par mots-clés, navigation par le sommaire ou l’index alphabétique matière ; moteur de recherche simple, moteur avancé avec opérateurs logiques ; tri des résultats par pertinence, tri par ordre antéchronologique ; lecture approfondie, lecture en diagonale ; documents, personnes physiques ; téléphone, email)
    • mettre à jour ce qu’on a trouvé grâce aux newsletters et vérifier les décisions inédites récentes
    • éviter le copier-coller, reformuler par soi-même, synthétiser
    • reprendre/relire les raisonnements (par exemple, la qualification juridique des faits) comme les sources et les contester. Pour plus de détails, voir sur ce blog : Une méthode d’analyse juridique
    • citer ses sources, fournir une bibliographie.

Quel est l’avenir de GPT et ses avatars ? Je penche pour l’hypothèse d’Alberto Romero, analyste à CambrianAI [149] :

« Je ne pense pas que le moteur de recherche survivra aux "language models" (LM). Le temps joue contre eux : alors que la technologie des moteurs de recherche ne progresse pas du tout, les LM se développent à la vitesse de la lumière.
Dès qu’une variante plus robuste de l’architecture du "transformer" apparaîtra ou que les entreprises mettront en place des "modules de fiabilité" (peu importe la forme qu’ils prendront), les LM deviendront automatiquement des moteurs de recherche super génératifs.
Personne alors n’utilisera plus jamais Google [disons, le Google d’aujourd’hui]. »

Gary Marcus n’est pas d’accord — à ce stade. Il estime que l’absence de raisonnement de ChatGPT et les hallucinations/erreurs massives qu’il produit n’en font pas un "Google killer". Des chercheurs français de haut niveau en IA comme Jean-Gabriel Ganascia, professeur d’informatique à Sorbonne Université et Claire Mathieu, directrice de recherches au CNRS vont dans ce sens, estimant que « pour l’instant, il faut interagir avec ChatGPT-3, comme on le ferait avec un collègue cultivé et travailleur efficace, mais qui serait un menteur pathologique » [150]. Mais sur le point de l’absence de raisonnement, il y a un contournement potentiel (voir infra).

Les principaux acteurs américains de l’IA en droit, eux, interrogés en décembre 2022 sur leurs prédictions pour 2023, de manière surprenante, n’évoquent aucune évolution en 2023 qui serait dûe à ChatGPT ou GPT-4.

GPT est disponible à travers une API, le mode d’accès aux applications d’IA devenu standard dans l’industrie.

La SSII Width.ai, à partir de GPT-3, proposait déjà en 2021 une implémentation de GPT-3 pour améliorer une clause en droit américain ("inspection period and closing clause") [151].

La startup américaine Lexion, lancée il y a un an, utilise déjà GPT-3 pour résumer des documents juridiques et générer des clauses contractuelles [152].

Docket Alarm, un produit de la legaltech américaine Fastcase, permet de parcourir les registres ("dockets" = dossiers des affaires) des tribunaux des Etats-Unis. Docket Alarm utilise GPT-3 pour afficher un résumé du litige pendant que l’on consulte l’extrait du rôle ("docket sheets") [153].

Des articles de Law360 évoquent d’autres initiatives, notamment d’avocats et de magistrats, à partir de GPT-3 [154] :

  • Lexis+ AI lancé début mai 2023 est en fait un test par LexisNexis USA de GPT-4 et autres LLM, sur ses contenus, auprès de 50 cabinets d’avocats. Ils attendront les retours de leurs clients pour aller plus loin. Pour l’instant, les trois principaux cas d’utilisation de Lexis+ AI sont la recherche conversationnelle, le résumé et la rédaction de courriers juridiques et contrats. L’application fournit des citations avec liens. Cette IA générative est un modèle privé qui n’est pas partagé avec des tiers (mais les échanges enrichissent-ils le modèle pour tous les clients ? dans la version payante du traducteur automatique IA Deepl, non seulement les données mais aussi l’enrichissement reste entre les mains de la firme cliente) [155]. A noter que si Lexis dit être est guidé par les principes d’intelligence artificielle responsable de RELX, sa société mère, ceux-ci ne garantissent en aucune manière un quelconque degré de fiabilité des productions de Lexis+ AI
  • CoCounsel : la legaltech américaine Casetext a dévoilé le 1er mars un assistant juridique alimenté par le modèle de langage étendu « le plus avancé » d’OpenAI [156], qu’il a personnalisé pour le secteur juridique [157]. CoCounsel serait déjà déployé par le cabinet américain spécialisé en droit du travail Fisher Phillips et aurait reçu des critiques élogieuses de la part de cabinets bêta testeurs, dont Eversheds et Orrick. CoCounsel peut être utilisé pour la recherche dans une base de données, la rédaction de "memo" (synthèse d’une recherche), l’examen de documents et l’analyse de contrats, en répondant à des questions en langage naturel. Il couple la technologie d’OpenAI avec ses propres bases de données juridiques propriétaires et son système de recherche juridique, ParallelSearch. Le travail effectué par Casetext en partenariat avec OpenAI à surtout consisté à éviter que l’application "hallucine". Selon Jake Heller, PDG et cofondateur de Casetext, aucune donnée n’est conservée par CoCounsel et les données des clients ne sont pas utilisées pour développer le modèle (ces deux points, nécessaires pour garantir la confidentialité dûe aux clients des avocats, distinguent nettement une telle application professionnelle de ChatGPT)
  • Harvey.ai, une startup construite sur un logiciel similaire à ChatGPT, a levé 5 millions de dollars auprès du fonds OpenAI Startup en novembre. Jeff Dean, le dirigeant de l’IA chez Google, a aussi participé à cet investissement [158]. Harvey a été fondé par l’ancien chercheur scientifique de DeepMind, Gabriel Pereyra, et par un ancien juriste spécialisé dans la législation antitrust et les valeurs mobilières, Winston Weinberg. Concrètement, Harvey peut répondre à des questions posées en langage naturel telles que : « Dites-moi si cette clause dans un bail est en violation de la loi californienne, et si oui, réécrivez-la pour qu’elle ne soit plus en violation ». A première vue, selon TechCrunch, il semble que Harvey pourrait presque remplacer les avocats. Mais le co-fondateur insiste sur le fait que ce n’est pas le cas, vu notament la tendance de l’application à "halluciner". Le cabinet d’avocats Allen & Overy s’est offert un joli coup de pub dans le Financial Times mi-février 2023 en laissant entendre qu’ils avaient eux-mêmes développé cette IA mais c’est en partie inexact [159] : ce qu’ils ont fait, ce n’est pas le développement initial mais évidemment la sélection des données. armi les autres cabinets qui travailleraient avec Harvey, citons Quinn Emanuel Urquhart & Sullivan
  • Connor James, un avocat basé en Australie et qui travaille pour le cabinet Law Quarter et la société de logiciels Compliance Quarter, a créé un outil d’IA générative appelé Titan Pilot qui aide les responsables de la conformité réglementaire et les cadres du secteur de l’énergie. L’outil donne une réponse synthétique puis cite les sources réglementaires à l’appui de sa réponse. Connor James prévoit de couvrir les services financiers autraliens
  • Liam Gill, un avocat canadien, a personnalisé sa propre version de ChatGPT (Law4Startups) qui est capable de rédiger des clauses et de rechercher des données contractuelles. L’outil a été construit à partir de bases de données que Gill a alimentées sur la plate-forme
  • l’entreprise de logiciels juridiques no-code LawDroid propose des chatbots automatisant une partie du travail de bureau des juristes
  • Evisort a également lancé un outil d’IA générative pour les contrats en décembre 2022. La société n’a pas divulgué de chiffres sur les clients ou l’utilisation par les avocats, mais a déclaré que ses propres avocats utilisent la technologie
  • Lexata, une plateforme axée sur la recherche sur les marchés des capitaux, utilise la recherche sémantique et l’IA générative pour répondre aux questions sur la réglementation des valeurs mobilières américaines et canadiennes. L’entreprise ne divulgue pas d’informations sur ses clients.

Pour une liste presque complète des applications de LLM dans la legaltech, voir cet article de Legaltech Hub : The Use of Large Language Models in LegalTech (18 février 2023).

On peut aussi tester une démo de GPT-3.5 sur les articles des Codes officiels de Légifrance : LegiGPT, réalisé par le développeur français Steeve Morin. Selon lui « GPT4 est encore trop cher pour qu’[il] le propose gratuitement. Même s’il est encore plus impressionnant. Par exemple, GPT-3.5 a du mal à compter les points du Code de la Route. GPT4 s’en sort très bien. » Différents tests sont proposés sur le fil Twitter et dans l’article de Numerama. LegiGPT hallucine pas mal, mais c’est en partie dû à GPT3.5 — par exemple, il confond tromperie et escroquerie ou bien se prend les pieds dans le tapis sur un aspect du droit de manifester. Une version améliorée LegiGPT+ devrait bientôt voir le jour, reposant sur GPT-4 et entraînée non seulement sur les Codes mais aussi les textes officiels disponibles sur Légifrance, les travaux parlementaires et les décisions de justice en open data [160]. Dans le même style mais apparemment moins fiable, ordalie.tech développé notamment par Léa Fleury.

Les exagérations mensongères sur ROSS en 2017 et le contexte communicationnel qui demeure très "hype" sur l’IA nous amènent toutefois à prendre toutes ces annonces avec prudence, d’autant qu’on manque de recul et surtout de noms de clients et de comptes-rendus de tests indépendants [161]. J’ai ainsi des retours très modérés sur Lexion.

Tout cela reste modeste par rapport à ce que Microsoft a fait à partir de GPT-3 avec Copilot, l’application de suggestion/rédaction de code (langage informatique). Copilot va beaucoup plus loin que l’insertion de quelques dizaines de lignes de code. C’est un service très efficace, capable de rédiger des pages et des pages de code sans une erreur et vendu 10 dollars par mois. Il faut dire que le code informatique a un gros avantage sur le droit : quand c’est faux, ça bugue, ça ne marche pas !

Par rapport à la langue juridique française, les futurs vrais défis de GPT et ses homologues résideront — et cela à moyen voire court terme (1 à 3 ans à compter de décembre 2022) — dans :

  • l’adaptation au droit français, autrement dit deux choses principalement :
    • la location de cette technologie (par le biais d’une API) ou son appropriation par les éditeurs juridiques français et son ré-entraînement spécialisé ("fine tuning") sur leurs contenus propres (la doctrine essentiellement) [162]
    • l’entraînement de variantes de LLMs récents sur les décisions de justice françaises, celles-ci étant déjà en partie en open data [163]. Le problème va résider dans les décisions de première instance [164] : théoriquement prévu pour 2025, leur open data semble de facto et au vu de nos informations compromis — au moins en partie. Pourquoi les décisions de première instance ? Parce que ce sont elles les plus riches au niveau des faits et parce que la richesse des faits décrits pourrait aider sur un point qui est encore pour partie un écueil pour les IA générationnelles de texte, surtout en droit français et lorsque les faits sont complexes : la qualification juridique des faits
  • leur (et celui d’OpenAI et Google) investissement massif en RLHF afin d’augmenter la qualité des réponses et de réduire (si possible très fortement) les "hallucinations" (c’est cette hypothèse que retient Richard Tromans, le fondateur d’Artificial Lawyer, la gazette en ligne de référence du secteur [165]).
    Ainsi, lors de la présentation au lancement de Lexis+ AI début mai 2023, l’éditeur américain a prétendu que le risque d’hallucination est minime avec Lexis+ AI, car il s’appuie sur un contenu fiable et faisant autorité, celui-là même de l’éditeur. De plus, LexisNexis a expliqué qu’ils chercheront à élargir les données qu’ils utilisent par des partenariats avec des fournisseurs de contenu tiers. (Là, j’ai un doute : les cabinets d’avoacts et les petits éditeurs vont-ils accepter que les IA d’un très gros éditeur soient entraînées sur leur contenu ? Je pense au contraire que très vite, il va y a voir des "fermetures".) On peut aussi penser que les IA génératives de texte seront entraînées sur les documents internes (GED, intranet) d’une entreprise, autre facteur de fiabilisation a priori.
    L’intervenant de Lexis a toutefois indiqué que l’éditeur travaillera avec ses clients pour évaluer et affiner la précision et la qualité des réponses fournies par Lexis+ AI. Et il a ajouté que dans certains cas d’utilisation, tels que la rédaction de courriers et contrats, le résultat de Lexis+ AI n’est qu’un point de départ, et non un document final, qu’il doit encore être revu par un professionnel du droit, édité et adapté au client et à l’affaire. Ces précisions sont à nos yeux un aveu.
    L’analyste IA Alberto Romero, interrogé par mes soins, doute : « En l’état actuel des choses, les modèles de langage n’arrêteront pas d’halluciner. Ils nécessiteraient un changement radical dans la façon dont ils sont construits et entraînés. Vous pouvez essayer de réduire le manque de fiabilité avec des correctifs comme RLHF, mais cela ne permettra pas aux modèles d’atteindre un point suffisamment sûr du point de vue de domaines comme le droit ou la santé ». Selon les interlocuteurs de Jean-Louis Gassée, qui dirigea la R&D d’Apple les années 80, les améliorations de GPT-4 y pourvoiront [166]. En fait, je pense que des IA génératives généralistes comme ChatGPT ou GPT4 n’élimineront pas les hallucinations, mais que des LLM "fine-tunées" et restreints à un contenu de valeur sélectionné et à jour, notamment les ouvrages à mise à jour des éditeurs, peuvent les éliminer.
    A titre personnel, j’ai noté que même GPT-4 a du mal à lever les ambigüités de la langue française lorsque les mots sont des antonymes ou lorsqu’ils ont un sens différent dans un régime juridique différent. C’est le cas par exemple avec la directive Transparence (voir supra) ou avec des arrêts de la Cour de cassation (donc tous rédigés de la même façon, avec beaucoup de mots systématiquement identiques du fait du formalisme et de la procédure du pourvoi) utilisant pour décrire le fond de l’affaire des termes identiques ou sémantiquement proches mais dans des contextes juridiques différents — et ayant donc des sens différents selon l’arrêt. Au vu de mes tests supra et de ma connaissance de l’usage par les legaltech et éditeurs des fonds juridiques publics en open data, le plus difficile pour un chatbot LLM en droit français est de ne pas massivement "halluciner" sur les décisions de justice, surtout sans l’aide des commentaires de jurisprudence que représente la doctrine — et à ce stade je me risquerais à dire probablement même avec
  • l’intégration dans les logiciels/applications quotidiennement utilisées par les juristes. Amélioré (GPT-4 est sorti en avril 2023), fiabilisé, combiné, interfacé à d’autres produits (comme Copilot dans Github — Github qui avait été racheté par Microsoft), et intégré aux applications actuelles dominantes sur étagères — comme justement Word et Excel de ... Microsoft (bis) (déjà fait) — GPT et ses avatars pourraient changer le travail des cols blancs et de leurs employés
  • la vérification a posteriori de la rigueur/fiabilité du document généré par l’IA. Dans un avenir proche, en milieu professionnel, les jeunes juristes pourraient alors être chargés de vérifier et corriger la production du chatbot réalisée à partir des fonds des éditeurs. Le grand public aux moyens financiers très limités devant lui se contenter de la production initiale non corrigée du chatbot à partir des ressources gratuites. Pour le dire crûment : d’ici fin 2023, l’IA générative branchée sur du contenu d’éditeur pourrait faire office de stagiaire aux trois quarts. C’est une hypothèse que les performances de la gamme GPT rend réaliste. Et elle a déjà commencé : selon le communiqué du groupe d’édition juridique Lefebvre Sarrut (ELS ; en France : Francis Lefebvre, Dalloz, Editions Législatives), la filiale espagnole du groupe « a intégré l’IA générative à ses solutions de recherche d’informations juridiques » (a priori GPT-3 voire 4). C’est a priori plus facile pour la filiale espagnole, plus récente, avec moins de "legacy" en contenu et IT (cf il y a 10/15 ans le développement des contenus numériques chez Wolters Kluwer, plus rapide en Espagne qu’en France). Le LLM est donc entraîné sur le contenu de ELS Espagne. Et, très important, « il est étayé par des liens vers les sources ». A quand les maisons d’édition françaises ? 3 à 6 mois pour les ELS ? Plus long pour les autres ?
  • la capacité d’émuler le raisonnement. Parce qu’il se fait par les mots, le raisonnement lui-même pourrait un jour être à la portée des IA génératives de texte. Certains articles sur les LLM évoquent les difficultés de la chose mais sans fermer la porte, loin de là ... [167]. Le consultant IA Alberto Romero n’y croit guère : « Faire des systèmes d’IA qui raisonnent est difficile. Plus difficile, je dirais, que de les empêcher de raconter n’importe quoi. Des gens y travaillent, mais ce n’est pas près d’arriver. »
  • le coût des licences (API) et du ré-entraînement (si un LLM n’est pas ré-entraîné, le phénomène de "data drift" réduit avec le temps ses performances [168]). En effet, Les IA générationnelles coûtent très cher et pour l’instant, parmi les grands acteurs, ce sont surtout les vendeurs de pelles (comparaison avec la ruée vers l’or) — autrement dit le fondeur de GPU spécialisées IA Nvidia — dont l’activité IA générationnelle est rentable. La rumeur dit qu’OpenAI brûle 3 millions de dollars US (USD) par jour —, alors qu’elle n’en a gagné que 3 maximum en 2022 et prévoit un chiffre d’affaires de 200 millions USD en 2023 et un milliard USD 2024 [169]. Même OpenAI et Microsoft ne font pour l’instant aucun bénéfice sur leur activité liée aux GPT. Nous avons vu plus haut le coût de création d’un LLM tel que GPT-3. Pour ChatGPT, le traitement des millions de prompts soumis en janvier 2023 pourrait avoir coûté 40 millions USD à OpenAI [170]. Comme nous l’avons vu, le CA d’OpenAI en 2022 n’a pas dépassé 3 millions USD. Faites le calcul. Une fois passée la vague initiale de la hype IA et une partie du cash des investisseurs brûlé, il va bien falloir rentabiliser tout ça ... Ca a déjà indirectement commencé, même si ici ce coût ne porte pas sur l’IA mais (et pour cause !) sur la très rentable activité de moteur de recherche : Microsoft a multiplié par 10 au 1er mai 2023 le tarif de l’API de Bing, du fait de son partenariat avec OpenAI ... [171]
    Toutefois, des répliques, notamment open source, de GPT-3 se font jour, la puissance de calcul nécessaire ne semble plus autant en hausse exponentielle qu’on le pensait, son coût baisse — et pendant ce temps, selon la loi de Moore, la puissance des ordinateurs — en fait celle des processeurs (CPU et surtout GPU) et mémoires vives (RAM, DDR) — double presque tous les deux ans. Déjà, GPT-2 peut aujourd’hui tourner sur un PC ou un portable récent [172] — a fortiori sur une station de travail ("workstation") ou un PC optimisé pour le jeux vidéo ("gamer PC"). (Compte tenu de la taille des modèles GPT-3 et suivants, il n’est toutefois pas possible de télécharger les données du modèle de langage pré-entraîné, ni même de l’exécuter sur un ordinateur personnel.) Stanford Alpaca est un modèle d’instructions basé sur le LLaMA de Meta (Facebook). Il permet d’obtenir des performances GPT-3.5 pour une fraction du coût. Alpaca-LoRA est la version Low-Rank Adaptation d’Alpaca, c’est-à-dire qu’elle contient le code permettant de reproduire les résultats sur du matériel grand public. Pour Pierre-Carl Langlais [173] :

    « En quelques jours la publication du grand modèle de langue de Facebook a entraîné plein d’optimisations qui devraient permettre de faire tourner ChatGPT en local sur un ordi (voire un tel). Le premier facteur vient de Facebook. Le modèle LLAMA a beaucoup moins de paramètres que GPT-3 mais il a été "surentraîné" sur un corpus plus vaste. Métaphoriquement c’est un peu comme si un étudiant avec une mémoire défaillante compensait en révisant bien mieux ses cours. C’est ce qu’on appelle la loi de Chinchilla (le nom d’un autre modèle de Google) : il existe un nombre optimal de paramètres pour chaque corpus. Et là, GPT-3 est "inefficace" avec trop de paramètres qui n’ont pas appris suffisamment de choses. Le deuxième facteur est déjà mis en œuvre par ChatGPT : c’est la transformation du générateur de texte en modèle conversationnel. Des évaluations indépendantes ont montré qu’il est impossible que ChatGPT tourne à cette échelle avec les 175 milliards de paramètres de GPT-3. En créant le modèle conversationnel on peut aussi en profiter pour "récompenser" certaines générations de texte. Des chercheurs de Stanford ont redressé le modèle de Facebook et obtiendraient des performances comparables à ChatGPT avec seulement 7 milliards de paramètres !
    J’ai zéro doute à ce point que dans 1-2 ans n’importe quel smartphone un peu récent pourra être équipé d’un mini-chatGPT. ».

A noter que l’utilisation d’un chatbot LLM pour interroger une base de données d’éditeur juridique devrait permettre selon toute probabilité à la machine d’enfin "comprendre" les sous-entendus des questions des juristes. Par exemple, si on tape "le dirigeant de société non salarié s’est vu proposer une clause de non-concurrence très étendue" une telle interface comprendra que ce que le juriste cherche ce sont les limites posées par la jurisprudence à de telles clauses, alors même que ce n’est pas explicite dans la question.

Comme l’avance Alberto Romero, « il semble que l’ère des modèles de langage de niveau GPT-3.5 déployés localement soit arrivée » [174].

Revenons au défi d’adapter les GPT au droit français avec la main mise des éditeurs sur la doctrine. Il y a une alternative : si la doctrine passait en open access dans les années à venir (ce qui n’est pas du tout garanti, surtout en sciences juridiques, même si pour les thèses, c’est en bonne voie [175]) — les éditeurs ne seraient pas alors les seuls sur le marché. Toute startup dotée de juristes codeurs pourrait alors entraîner ses "language models" (LM) sur de la doctrine. Oui mais ... les CGU des plateformes de revues en SHS (Cairn, Open Edition, Persée ...) ne l’autorisent pas toujours (Persée l’interdit en tout cas). Même si elles ne l’interdisent pas actuellement, il est possible voire probable qu’elles mettent leurs CGU à jour et surtout, ce sont aujourd’hui des acteurs importants avec lesquels il vaut mieux ne pas se fâcher.

Attention, ce n’est pas gagné : en l’état des choses (GPT 3.5 donc), pour adapter GPT aux bases des éditeurs juridiques de manière suffisamment fiable, le travail de supervision (supervised learning et surtout de RLHF ou human guided ML) sera massif. GPT 4 promet certes des progrès massifs [176], mais certains spécialistes de l’IA comme Alberto Romero, Gary Marcus ou Scott Alexander estiment que « la seule façon de redresser les "language models" est de les redéfinir, de les redessiner et de les reconstruire complètement » [177]. Pour Scott Alexander, « le RLHF ne fonctionne pas très bien » — et vu comment il détaille son opinion, cette formule est une litote.

Qui vivra verra, mais les (légèrement) meilleurs résultats de Perplexity.ai sont à nos yeux une indication que la piste du contenu sélectionné / fiable / de niveau professionnel pourrait marcher. Ce qui marche déjà pas trop mal est d’associer dans un même produit chatbot LLM et moteur de recherche (cf Bing AI dit aussi Bing Chat). Le moteur de recherche fournissant les liens hypertexte permettant de soutenir les affirmations du chatbot.

Dans la catégorie "attention ce n’est pas gagné", il faut aussi — rapidement, car ce n’est pas le lieu ici — rappeler que les LLM dépendent largement en entrée de jeux de données massifs, *gratuits* et aussi *à jour*. Or à part Wikipedia, c’est la publicité qui fait vivre la majorité des éditeurs de contenu gratuit sur Internet. Le problème, c’est qu’il y a beaucoup de discussions sur la possibilité d’insérer de la publicité dans les productions des IA génératives et sur le refus de la plupart des internautes de payer 10 ou 20 euros par mois pour accéder à du contenu [178] ou un moteur de recherche ... ou une IA. Les IA génératives pourraient donc s’interposer entre les internautes et les producteurs de contenu, exploiter celui-ci sans le nourrir et le tuer, ce qui se retournerait contre elles [179].

On peut aussi se demander si la justice prédictive ne profitera pas également de ces IA génératives. En effet, comme nous l’avons déjà noté, l’open data des décisions de justice fournit d’ores et déjà à ces outils un remarquable fonds pour s’ "entraîner". Seront-elles alors plus efficaces que les logiciels experts comme Case Law Analytics ?

Je me demande si la percée de l’IA dans le milieu juridique ne se fera pas aussi via les logiciels brassant et combinant des données de sources et formats divers [180] pour faire de la "business intelligence" (dits également "logiciels orientés visualisation de données") comme Tableau Desktop, Microsoft Power BI ou, Qlik Sense Enterprise. Notamment dans les départements dits de "business development" (BD) et de "knowledge management" (KM). Pour l’instant, ces applications ne sont pas de l’IA très moderne ni très juridique, mais plutôt du logiciel expert (fonctionnant à base de règles métiers et des arbres décisionnels) combiné avec des macros. Mais c’est nettement en train d’évoluer : le machine learning est rentré dans ce secteur [181].

A propos des chatbots (agents conversationnels en bon français) : ceux utilisés en droit, par exemple (testés en 2019) ceux de ce cabinet d’avocats, semblaient en 2019 difficilement qualifiables d’IA, au sens des critères que nous avons exposés supra. Ou alors de la très ancienne IA, car le niveau d’arbre décisionnel et de traitement du langage naturel qu’ils utilisaient restait extrêmement basique. Par exemple, un chatbot juridique s’exprimant en anglais ne comprenait pas que Yikes est une forme argotique de Yes ou bien, à propos du RGPD, oubliait de vous préciser que le 25 mai 2018 était déjà passé depuis longtemps et qu’appliquer le RGPD était devenu urgent. En fait, le nombre de questions que l’on pouvait poser à un chatbot juridique était très limité.

En 2019, ces lacunes n’étaient pas spécifiques aux chatbots juridiques, mais générales, comme l’avouait un article de ZDNet traduit en français [182] : « La qualité des chatbots est mauvaise. Une série de nouveaux articles de Facebook et de ses partenaires universitaires offrent cependant de nouvelles orientations prometteuses. L’objectif du dialogue fluide avec un humain semble encore cependant assez lointain. » On ne parlait même pas ici d’un dialogue juridique, juste d’une aide (très limitée) à la recherche d’un livre ou d’une tentative d’empathie.

En fait, l’apport, le "truc" du chatbot se situait ailleurs : avant ChatGPT, c’était juste une application servant à engager la discussion avec un prospect ou un utilisateur par des questions principalement à réponse de type Oui/Non et à l’amener à préciser sa demande afin de l’orienter ... vers la bonne rubrique du site ou le mail d’un humain [183]. Un des autres noms des chatbots, justement, est assistant virtuel.

Même sur un site de vente en ligne, les performances d’un chatbot d’avant GPT-3 sont limitées. C’est ce qu’explique une représentante de la société Kore.ai basée en Floride (USA) citée dans une étude de Gartner publiée en 2022 sur les chatbots. Pour ne citer qu’une partie de l’article :
« Elle dit qu’elle voit encore des entreprises clientes surprises par ce que les chatbots d’IA conversationnelle ne peuvent pas faire.
"Je pense que c’est en partie parce qu’il y a encore énormément de vendeurs et de personnes dans les médias qui présentent l’IA conversationnelle comme si c’était magique. Comme s’il suffisait de concevoir un bot conversationnel pour que tous vos rêves deviennent réalité".
"Le bot ne sera pas plus intelligent que votre site web. Le bot soutenu par l’IA conversationnelle ne peut pas répondre à une question nuancée si elle nécessite plus de données que celles qui sont disponibles. Il ne peut répondre que dans la mesure où vous avez fourni les données." ».

Ce dernier constat reste vrai avec les nouveaux chatbots permis par les LLM : le contenu — pour les IA, on parlera de données d’entraînement — compte plus que le programme.

2.6.8. Le matériel ("hardware" et réseau) et son coût énorme

Enfin, il faut bien comprendre que pour imiter des fonctions caractéristiques des humains, comme classer automatiquement des documents par thème, un simple logiciel ne suffit pas :

  • déjà, de nombreux programmes informatiques (de type ML ou logiciel expert comme vu précédemment) doivent être testés, combinés et adaptés par un ou des développeurs. Ce ne sont pas des produits sur étagère, ce sont ce que l’on appelle dans l’industrie informatique des développements spécifiques
  • ensuite — et c’est moins connu —, le machine learning et les réseaux neuronaux nécessitent une architecture matérielle et réseau très spécifique elle aussi, autrement dit choisir les composants — notamment les processeurs, massivement utilisés pour l’ "apprentissage automatique" en machine/deep learning — et savoir assembler ad hoc des serveurs très puissants, avec leurs systèmes d’exploitation (OS), repérer les goulots d’étranglement dans la circulation et le traitement des données sur Internet, dans les serveurs et entre eux, savoir comment régler et "booster" les performances de ces matériels ... Pour les petits et moyens programmes, cela passe par la location (vite onéreuse) de ressources en "cloud computing" : du temps et de la capacité de serveur disponible par Internet. Le plus utilisé est Amazon Web Services (AWS). On peut citer aussi Microsoft Azure et Google Cloud (avec son produit applicatif TensorFlow). Sur les gros programmes d’IA, le travail sur cette architecture matérielle mobilise jusqu’à la moitié des spécialistes affectés au projet. Sur ce segment, Google, Facebook, Amazon et Microsoft ont une puissance et une avance énormes sur leurs concurrents. Pour avoir une idée de l’importance des aspects hardware dans les technologies dites d’IA, jetez un coup d’oeil sur les slides 1 à 29 de cette présentation de 2018 [184]. De ce point de vue, il n’est pas surprenant que ce soit justement l’IA qui succède au Big data en matière de hype. L’arrivée de l’informatique quantique [185] et sa généralisation d’ici 2028 [186] promettent des pas de géant au machine learning et particulièrement à sa variante le deep learning, notamment les LLM.

La production de l’écrasante majorité des semi-conducteurs utilisés pour l’entraînement des modèles d’intelligence artificielle dans le monde dépend de deux entreprises, le Californien Nvidia, pour la conception, et le Taïwanais TSMC, pour la fabrication. Les processeurs graphiques ("GPU"), qui permettent notamment de jouer à des jeux vidéo en haute résolution ou de faire des visioconférences, sont fondamentalement des puces chères et sophistiquées capables de traiter de grandes quantités de données. Ce sont elles qui ont récemment permis l’émergence de la dernière génération d’IA, les chatbots LLM [187].


Des GPU (processeurs graphiques, utilisés à l’origine dans le deep learning pour la reconnaissance d’image) agglomérés dans un serveur Azure. CUDA (initialement l’acronyme de Compute Unified Device Architecture) est une technologie de GPGPU (General-Purpose Computing on Graphics Processing Units), c’est-à-dire utilisant un processeur graphique (GPU) pour exécuter des calculs généraux à la place du processeur central (CPU). Source Microsoft

En attendant, c’est Microsoft qui a construit pour OpenAI le supercalculateur Azure sur lequel la société qui a lancé ChatGPT entraîne ses modèles de langage (LLM) [188]. L’ensemble de l’infrastructure nécessaire pour faire fonctionner ChatGPT d’OpenAI a probablement coûté 4 milliards de dollars US à Microsoft : le supercalculateur dédié à ChatGPT, à lui seul, contient plus de 285 000 cœurs de processeurs ("cores") et 10 000 cartes graphiques (GPU) [189].

L’entraînement d’un modèle de langage (LLM) peut durer de 9 à 12 mois, selon le consultant IA Alan D. Thompson, à condition que tout se passe parfaitement. Il se peut qu’il faille l’exécuter plusieurs fois et qu’on doive entraîner plusieurs modèles en parallèle.

La puissance nécessaire pour améliorer les performances du deep learning coûte d’ailleurs de plus en plus cher. L’analyste IA Alberto Romero estime probable que si OpenAI ne travaille pas déjà sur GPT-5, c’est à cause de son coût et de sa faisabilité physique [190].

Il y a une chose que nous oublions tous quand nous parlons des IA chatbots, c’est le « pognon de dingue » qu’ils coûtent. Pas à la requête unitaire, non. Mais par data center/ferme de serveurs et par entraînement. Rien que l’entraînement de ChatGPT a coûté 12 millions de dollars (USD). L’infrastructure sur laquelle GPT-3 est exécutée coûte au bas mot 700 000 USD par jour. Lors d’un événement organisé par le MIT, on a demandé au dirigeant d’OpenAi Sam Altman si l’entraînement de GPT-4 avait coûté 100 millions de dollars ; il a répondu : « C’est plus que cela ». Certes, OpenAI reçoit plein de financements en ce moment. Les derniers en date : 300 Mions USD de "venture capitalists" en avril après les 10 milliards de Microsoft en janvier 2023. Mais il va bien falloir un jour pas trop éloigné rentabiliser tout ça ...

Si cette limite financière n’est pas intelligemment dépassée, cela pourrait occasionner un nouvel "hiver" de l’IA [191]. Mais, comme noté plus bas, dans le même temps, il semble que des variantes des modèles de langage (LLM), du fait notamment qu’ils sont pré-entraînés (mais pas seulement), consomment moins de puissance — mais souvent avec une baisse des performances.


Le data center de Microsoft dans l’Etat de Washington, équipé de serveurs Azure. Source Microsoft

NB : pour celles et ceux qui veulent plus de précisions sur les systèmes experts, le machine learning, le deep learning et l’infrastructure matérielle nécessaire, je recommande la lecture de l’ebook gratuit d’Olivier Ezratty : Les usages de l’intelligence artificielle 2021 (PDF, 742 p.) : pour le matériel, voir la partie Infrastructure de l’IA.

Il faut enfin noter, comme le faisait remarquer Moïse Zapater du groupe français Septeo lors du webinaire Présentation des bénéfices de l’IA appliquée aux métiers des avocats notaires et juristes d’entreprise organisé en ligne par Legiteam le 24 févier 2021, que les produits dits d’IA juridique s’appuient sur quantité d’autres briques logicielles, souvent en open source, comme Hadoop ("big data"), qu’emploient aussi des grands acteurs comme Netflix.

Dans cette présentation des technologies dites d’IA, il reste enfin à expliquer dans quels produits, concrètement, on les emploie.

2.6.9. Quelles utilisations juridiques pour l’IA ?

Selon Ron Friedmann, consultant américain en informatique juridique depuis 30 ans [192], sur le marché américain, « il existe au moins quatre utilisations presque banales de l’intelligence artificielle que les cabinets d’avocats et les directions juridiques peuvent aisément déployer à partir de produits IA standards, de manière similaire à d’autres technologies :

  • "document review" dans la procédure [très américaine] d’"e-discovery" ("predictive coding”) [193]
  • l’audit/vérification en masse de contrats et de clauses (Kira, LawGeex, Luminance, Hyperlex, Softlaw ... : voir infra) et la génération de clauses
  • outils de recherche dans de multiples domaines juridiques (Westlaw, Lexis Advance, Ross, Context, Supra Legem, Case Law Analytics, Predictice ... : voir infra). C’est le second domaine en terme d’importance de l’implémentation. Là, les progrès ont essentiellement consisté en une synonymie contextuelle automatique et une classification automatique par domaines du droit très améliorées
  • saisie et gestion des temps et des dossiers.

Même avec "l’explosion" fin 2022 des LLM générationnels (GTPT et al.), cette typologie des usages n’a guère évolué.

Comme on vient de le voir, il faut être concret et relativiser les performances des outils à base d’IA utiles pour les directions juridiques. Leur emploi est techniquement circonscrit. Le degré de cet emploi au sein des DAJ est également faible pour l’instant, à l’exception des banques et assureurs. L’étude de PwC Avocats Digitalisation de la fonction juridique : quelles priorités en 2018 ? publiée en mai 2018 qualifie l’intelligence artificielle de « machine à fantasme ». L’étude précise : « Les réponses dénotent également une certaine confiance dans cette technologie dont les capacités actuelles ne sont peut être pas au niveau des attentes sur tous ces points. Néanmoins, les répondants n’envisagent pas d’intégrer de l’IA à court terme, ce qui est en phase avec leur maturité digitale. »

Cet emploi de l’IA dans les DAJ est toutefois amené à s’étendre. Une étude similaire publiée en février 2019 [194] et réalisée conjointement par le Cercle Montesquieu, CMS Francis Lefebvre Avocats et le cabinet de conseil Day One « conclut que 2019 sera une année de bascule dans la prise en main des technologies par les directions juridiques ». A noter tout particulièrement cet extrait du communiqué :
« Les directions juridiques prévoient une transformation digitale profonde de leur métier d’ici cinq ans, avec le déploiement du "Machine Learning", du "Natural Language Processing" (NLP) et des "Knowledge Graph", autant d’outils englobés par l’intelligence artificielle qui bouleverseront la gestion des dossiers juridiques. Ces technologies vont permettre :

  • l’automatisation de l’analyse de documents, la création et la saisie automatiques de la base contractuelle selon le type de contrats
  • la détection de lois obsolètes dans les contrats ainsi que la vérification des clauses contractuelles, de leur présence, de leur intégrité et de leur pertinence
  • et enfin la prise en charge des réponses aux questions récurrentes via des chatbot ou voicebot pour alléger le quotidien des juristes. »

3. Les données comptent plus que les applications

Nous venons de présenter les technologies impliquées dans l’IA en droit. Et de voir que les deux critères principaux (et alternatifs) pour parler d’IA (faible) en droit, sont soit l’appartenance de l’application à la catégorie des systèmes experts soit l’utilisation de machine learning.

Pourtant, sur le plan stratégique, le plus important en IA n’est pas là. Pour le comprendre, il faut lire le rapport de France Stratégie sur l’IA publié en mars 2017 [195].

Dans ce rapport, la contribution spécifique du Conseil National du Numérique (CNNum) souligne l’importance fondamentale des données :

« La valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements se font de manière ouverte (en open source). En conséquence, les organisations doivent prendre conscience de l’importance stratégique des données qu’elles détiennent. Il s’agit également, à plus long terme, d’engager une réflexion sur les modes de partage de la valeur entre acteurs privés. En ce sens, le Conseil s’est par ailleurs saisi de la question de la libre circulation des données aux niveaux international et européen, d’un point de vue de transfert entre les territoires mais également entre acteurs économiques. »

Le machine learning a tendance à reprendre et aggraver les biais humains parce que c’est une technologie ultra dépendante des données qu’on lui fournit. Les informaticiens appellent ce phénomène GIGO (Garbage in, garbage out).

En droit français, cette difficulté donne raison au professeur (et avocat) Bertrand Warusfel, quand il écrit, interrogé par ActuEL Direction Juridique (Editions Législatives) [196] :

« on va certainement [...] dématérialiser plus encore les procédures, voire les audiences. A mon sens, ce n’est qu’une fois que cette première phase de dématérialisation de la justice aura été menée à bien qu’il serait justifié d’envisager d’introduire des outils plus "intelligents". Sauter une étape serait sans doute peu cohérent, voire dangereux. »

Ce sont justement leurs bases de données qui font l’avance de Google et Facebook. C’est pourquoi cela ne les gêne pas de mettre leurs logiciels en open source. Au contraire, cela accélère l’adoption de l’IA par les développeurs puis la société dans son ensemble.

Une démarche imitée de manière un peu différente par les sociétés qui rejoignent LexisNexis USA, mais où on retrouve l’importance cruciale de l’accès à certains "data repositories" précieux et bien précis — Lexis gagnant, elle, en technologie :

  • l’éditeur américain annonce en mars 2017 qu’il va donner accès à ses contenus et à son expertise, ainsi que celle de sa filiale LexMachina, à cinq start-ups sélectionnées : Visabot, TagDox, Separate.us, Ping, and JuriLytics [197]. Lexis espère profiter de leurs innovations. Mais ce type de démarche chez LexisNexis est rare : en général, le rapprochement et donc le partage des données se fait par un rachat voire une joint-venture (cf le rachat de Lex Machina en novembre 2015 puis de Ravel Law en juin 2017 et la joint-venture avec Knowable en juillet 2019 ; voir juste infra)
  • juste après l’annonce du rachat par Lexis, en juin 2017, de Ravel Law, le fondateur de Ravel Law Daniel Lewis explique à cette occasion que le rachat donnera à Ravel Law « accès à un vaste assortiment de données de haute qualité, quelque chose qui est nécessaire. Même la meilleure IA ne peut surmonter les défauts dus à un accès limité en terme de données », dit-il. « On a besoin de données de haute qualité en entrée », ajoute-t-il. « Si vous avez de la mauvaise qualité en entrée, vous avez de la mauvaise qualité en sortie. » [198]
  • rebelote en juillet 2019 avec la joint-venture entre Lexis et l’éditeur de l’application d’analyse automatique de contrats Knowable. Le CEO de Knowable, Mark Harris explique qu’ « en Lexis, sa société a trouvé un partenaire qui [...] a de profondes réserves de contenu sur lesquelles s’appuyer » [199].

Nous venons de présenter les produits et les sociétés des legal tech puis de définir l’IA en droit, pour éviter de gober le discours marketing selon lequel tout ce qui est legal tech serait IA et, plus généralement, selon lequel tout ce qui est IA aurait des performances à la limite du miraculeux.

Ce discours, ce storytelling d’ "IA partout" et d’ "IA miracle" [200] inonde depuis 2016 la presse, les pages web et le café du commerce. Au point qu’on peut parler de « hype » (battage médiatique) et d’ "IA washing" [201]. D’autant qu’une part importante d’applications, de produits présentés comme des IA n’en sont pas sur le plan des technologies utilisées (cf l’étude très commentée de la société de capital-risque britannique MMC Ventures The State of AI : Divergence 2019 mais aussi le billet précité de Mike Mallazo sur la fausse IA — « phony AI ») [202].

Le battage médiatico-publicitaire inonde même le secteur juridique. Dera Nevin est spécialiste de l’"information governance" et de l’"e-discovery" au cabinet Baker McKenzie. Voici ce qu’elle en dit (traduction par nos soins) [203] :
« Je n’aime pas beaucoup le marketing autour de la legaltech. En tant qu’évaluateur et acheteur de longue date de technologie juridique, j’estime que les informations qui me sont fournies sur les produits ne m’aident pas à comprendre l’impact potentiel de la technologie sur celui pour qui je l’achète — le juriste en cabinet d’avocats ou en direction juridique — et à la mettre en œuvre. »

Le fondateur de Predictice le reconnaît lui-même [204] : « Quand on parle de justice prédictive, c’est purement marketing ». On peut aussi citer le point de vue d’un avocat geek spécialiste du contentieux puisque ancien avoué [205] : « Depuis le jour où j’entends parler de justice prédictive, je suis méfiant. Car à l’heure où le robot le plus intelligent de Google ne sait que prendre un rendez-vous chez le coiffeur sans se planter, je me suis toujours dit que nous étions loin de prédire le droit (ou alors l’acception du mot « prédire » m’échappe…). » Ou encore celui de Xavier Ronsin, premier président de la Cour d’appel de Rennes, en 2017 [206] : « On est encore loin du fantasme de la "justice bouton". »

Selon les consultants de la branche conseil de la SSII Sopra Steria, dans un rapport (non public) rendu en octobre 2020 par le Conseil national des barreaux (CNB), la "justice prédictive" correspond avant tout à « un concept marketing », et il est préférable, selon les rapporteurs, d’utiliser les notions de "justice simulative" ou de "jurimétrie" pour désigner les solutions technologiques qui visent à mesurer les décisions de justice avec des outils scientifiques [207].

A noter que le Centre de recherche en droit Antoine Favre de l’université Savoie Mont-Blanc a lancé à la rentrée 2022 la Revue Jurimétrie (diffusée par Lextenso). Le premier numéro est paru en novembre 2022 et réunit des auteurs qui sont de vrais spécialistes du sujet (beaucoup sont cités dans ce billet) et des articles très sérieux. Son sommaire est disponible sur la page d’accueil de la revue. On y note des articles comme : L’apprentissage automatique dans l’analyse des données de la jurimétrie : une comparaison des régressions et des arbres de choix, par Sacha Raoult, Extraire des informations fiables des décisions de justice dans une perspective prédictive : des obstacles techniques et des obstacles théoriques, par Julien Barnier, Bruno Jeandidier et Isabelle Sayn, Le montant de l’indemnisation du préjudice d’affection devant les cours d’appel. Essai de mesure de l’influence du montant fixé en première instance, du montant demandé et du montant offert sur l’indemnisation devant le juge d’appel, par Vincent Rivollier, Biais, effets constants et modélisation mathématique dans l’indemnisation du préjudice corporel, par Anaïs Gayte-Papon de Lameigné et Jacques Lévy Véhel, La mesure des concessions réciproques dans les transactions, un retour d’expérience d’échantillonnage représentatif, par Rodolphe Bigot.

Nous verrons plus loin dans cette étude que les acteurs les plus avancés dans l’IA juridique en France sont à la fois les plus modestes ... et les plus discrets.

Nous allons continuer à river son clou à ce phénomène en présentant maintenant en détail les outils IA de recherche et d’analyse de la jurisprudence (encore une fois, des IA faibles). Nous commencerons par une IA juridique passée de mode, ROSS, puis nous verrons les implémentations de l’IA (du NLP surtout) dans les grandes plateformes des éditeurs juridiques américains traditionnels et enfin les IA juridiques françaises.

4. Les "IA" d’IBM. ROSS : points forts et limites d’un moteur de recherche en langage naturel à base de machine learning avec supervision. Et Debater ?

4.1. ROSS, un précurseur abandonné

Commençons déjà par rappeler que ROSS est en fait une ex-vedette de l’IA juridique. Sa commercialisation a en effet été arrêtée fin 2020.

Fin 2016-début 2017, c’est surtout le produit d’IBM qui faisait parler de lui — voir notamment notre "webliographie" sélective sur Ross infra. Si, de fait, on peut parler d’une intense campagne de presse, on tenait quand même confirmation d’une amélioration radicale de la recherche documentaire en droit à en juger par une étude réalisée par une firme indépendante (certes payée par IBM) qui parle d’un gain de temps dans les recherches de 30% [208].

Concrètement, ROSS débarrassait le juriste de la nécessité d’utiliser des opérateurs de recherche (dits aussi opérateurs logiques ou booléens) et de prévoir toutes les expressions synonymes des termes qu’il a en tête pour sa recherche. C’est ce que les informaticiens appellent le langage naturel, par opposition au langage informatique.

ROSS était même, soi-disant, capable de résumer sa recherche en un mémo ? L’avocat Rubin Sfadj estimait que la prétendue capacité de ROSS à sortir un mémo était exagérée. Il a raison. Jimoh Ovbiagele, le CTO de ROSS, a fini par reconnaître en mars 2017 devant un journaliste du New York Times que des humains se chargent du brouillon produit par ROSS et créent le mémo final, et c’est pour cela que ça prend un jour entier [209].

Bien sûr, ROSS nécessite une interaction homme-machine. Il s’améliore en apprenant des retours des juristes sur ses recherches [210]. C’est donc de l’apprentissage automatique avec supervision [211].

A l’origine, fin 2017, ROSS était spécialisé uniquement dans la jurisprudence américaine du droit de la faillite (US bankruptcy law) et de la propriété intellectuelle (US IP law) — il s’agit en fait de deux applications différentes, ROSS ne traitant pas les deux matières en même temps [212]. Mais la diversité des tâches et des domaines possibles est une caractéristique du machine learning le plus récent (depuis environ 2015). Le cabinet américain Latham & Watkins, implanté à Paris, était en 2017 en phase de « test » avec ROSS [213], suivi par de plus petites structures et l’Ordre des avocats de Lille.

Le dirigeant et co-fondateur de ROSS Intelligence, Andrew Arruda, expliquait justement en août 2016 :

« La version actuelle du système est utilisée pour aider les juristes spécialisés en procédures collectives travaillant dans des firmes américaines. Les futures versions du système couvriront d’autres domaines du droit et d’autres juridictions. »

Dans son enquête de février 2017, l’Agefi Hebdo concluait sur ROSS : « Le résultat ? Pour l’heure, moyennement convaincant. » [214] L’Agefi citait Bénédicte Brémond, avocate en charge du knowledge management chez Latham & Watkins Paris :

« Quoique déjà très performants, des outils comme Ross sont encore pour la plupart en phase de test dans les firmes et devront encore apprendre avant de fournir aux avocats un service fiable adapté à leurs pratiques. »

Rubin Sfadj estimait quant à lui en 2017 que ROSS serait capable de gérer les textes officiels (en sus de la jurisprudence) français. En tout cas, en avril 2020, sept mois avant sa fermeture, ROSS indexait toute la jurisprudence et tous les "statutes" et "regulations" de l’Etat fédéral et des 50 États fédérés américains, ainsi que les "specialty court, tribunal, and administrative decisions" [215].

NB : ROSS a été développé à l’origine par des étudiants de l’Université de Toronto au Canada, en 2014-2016 [216]. De fait, avec les Etats-Unis, Israël et la Chine, le Canada est le 4e pays vraiment "bon en IA". Et avec Lexum, l’éditeur dédié aux avocats, l’Institut canadien d’information juridique (CanLII), et le Laboratoire de cyberjustice de l’Université de Montréal, le Canada est également en avance sur la maîtrise de la donnée juridique numérique et des bases de données associées.

En théorie, ROSS aurait pu avoir encore bien d’autres applications en droit. À l’image de Watson, l’application d’IBM dont ROSS est dérivé. Watson sert déjà à de multiples tâches, dont certaines juridiques :

Autres exemples de la capacité du machine learning à s’appliquer à tous les domaines :

  • la Lettre de l’Expansion du 16 janvier signale que le réseau social interne développé par Orange, installé chez eux à l’automne 2015 [223] et également vendu par l’opérateur sous le nom de Business Together Sharespace [224] « s’appuie sur la technologie "machine learning" [...] et inclut des robots à même de suggérer à l’utilisateur des informations pertinentes ou des collègues susceptibles d’enrichir son activité »
  • Google a présenté fin novembre un algorithme repérant des signes de rétinopathie diabétique dans des photos du fond d’oeil. Et Facebook comme Microsoft ont dévoilé cette année des systèmes capables de "regarder" des images et en décrire le contenu pour les aveugles [225]

A priori (le manque d’information détaillées sur ROSS étant criant), les limites d’un système comme ROSS, sont :

  • ça a probablement changé, ROSS étant apparemment devenu généraliste, mais en 2016, les applications dérivées du Watson d’IBM étaient étroitement spécialisées et nécessitent d’énormes développements informatiques spécifiques et un très gros travail d’input et d’apprentissage par des experts [226], travail qui peut ne pas suffire. A titre d’exemple de promesse non tenue et de difficulté avec la méthode retenue par IBM : selon une enquête du média américain d’investigation STAT [227], la « révolution » promise par IBM avec son outil de conseil en matière de traitement contre le cancer accuse un retard conséquent au centre de traitement et de recherche sur le cancer Memorial Sloan Kettering Cancer Center. Pire : en juillet 2018, les mêmes journalistes expliquent que le superprogramme a régulièrement prodigué de mauvaises recommandations pour traiter des cancers [228]. La conclusion des journalistes de STAT est que l’IA semble incapable de conseiller les bons traitements sans apprendre à partir de cas réels
  • comme la plupart des bases de données en ligne actuelles, son manque de confidentialité. Je sais que les éditeurs de services en ligne garantissent la "confidentialité" des données de leurs clients, mais de fait, si elles ne sont pas cryptées de bout en bout, elles ne sont pas réellement confidentielles. Il serait intéressant à cet égard de savoir si ROSS crypte les données de ses clients
  • sa dépendance à la "data". Si les données sont incomplètes, non exhaustives ou comportent un biais, les résultats seront biaisés [229]
  • le poids du passé (même s’il pourra certainement intégrer les projets de loi), car la donnée c’est du passé
  • sa dépendance aux compétences des personnes qui "l’entraînent" (cas du machine learning supervisé)
  • son degré d’acceptation par la société, encore limité mais qui croîtra selon tout vraisemblance. Voir la dernière partie de cette étude et infra, les paragraphes sur les limites des applications de justice prédictive françaises
  • à court et moyen terme, le délai d’implémentation en droit français. ROSS — tout comme ses concurrents français — ne pourra pas être implémenté en droit français global avec une pleine efficacité avant un minimum de huit ans à compter de 2017. Là aussi, je vous renvoie aux paragraphes sur qui suivent les limites des applications de justice prédictive françaises.

Il faut enfin noter, pour être complet sur ROSS, qu’IBM en 2017 avait du mal à rentabiliser son activité "cognitive" (l’adjectif à la mode pour désigner les activités d’IA). Comme le relève une enquête du Monde [230], le chiffre d’affaires du groupe — qui a parié sur l’IA pour sa croissance et a investi 15 milliards de dollars depuis le lancement du projet Watson (alors appelé DeepQ) en 2007 — décroît de 2011 à 2016 : « au final, en cinq ans, un quart des recettes a disparu. La capitalisation boursière [est passée] de presque 250 milliards de dollars en 2011 à un peu plus de 136 milliards aujourd’hui. Pour l’instant, Watson a du mal à tenir ses promesses. » (Le CA d’IBM est toutefois remonté en 2017.) Selon Le Monde, les raisons sont principalement liées :

  • à l’absence d’étude longue de longue durée sur la fiabilité des diagnostics livrés par Watson et ses conjugaisons
  • au fait qu’il s’agit à chaque fois d’un développement spécifique, pas de l’installation d’un produit standard. Les prospects hésitent : il faut investir un budget, un temps de travail de plusieurs mois minimum (18 mois pour le Crédit Mutuel, pourtant client de longue date d’IBM), des équipes et des petites mains pour "former" le progiciel. Le retour sur investissement est long. C’est cet aspect que souligne la directrice du KM de Latham Paris dans la citation précédente extraite de l’article de l’Agefi Hebdo
  • les concurrents, même si leur marketing et leur communication sont moins efficaces, sont très actifs. Le cabinet d’avocats d’affaires international Baker & McKenzie a ainsi annoncé, en août 2017, adopter comme principal outil d’intelligence artificielle non pas ROSS, mais eBrevia (cf infra).

Quoiqu’il en soit, en mai 2020, le géant américain de l’édition juridique Thomson Reuters lance une action en justice contre ROSS, dans laquelle il avance que ROSS a "pompé" ses bases de données. Il semble qu’à cette date, après plus de quatre ans d’activité, ROSS dépendait encore des investisseurs pour son financement [231]. Autant dire que ROSS n’avait pas atteint la rentabilité. Ce qui ne peut qu’amener à relativiser tout ce discours (pendant cinq ans, quand même) sur ses performances.

Le 11 décembre 2020, ROSS annonçait sur son site l’arrêt de toutes ses activités autres que sa défense vis-à-vis de cette action en justice. Un aspect troublant de la défense de ROSS est qu’ils invoquent in limine litis l’absence de protection par le copyright sur les "headnotes" et "key number" de la base de jurisprudence de Westlaw, ce qui revient à reconnaître plus ou moins les faits. En janvier 2021, ROSS a déposé des plaintes antitrust contre Thomson Reuters et West Publishing. ROSS estime que West commet un abus de droit et explique qu’ils se « [battent] pour le peuple », ce qui est assez surprenant si on considère qu’il s’agit d’une bataille entre entreprises. Ce recours à des arguments d’abus de droit et ces appels au peuple — censé bénéficier des innovations, ce qui est tout sauf évident en pratique — sont typiques d’une partie de la legaltech et se retrouvent en France.

4.2. Debater

Lancée en 2018, la nouvelle application d’IA d’IBM, Debater, toujours un dérivé de Watson, est elle capable d’argumenter dans un sens ou en sens inverse. Va-t-elle réussir en droit là ou ROSS semble avoir largement échoué ?

Pour l’avocat et expert en IA juridique Thierry Wickers, qui s’exprimait en 2019, « Debater exploite les données de Wikipédia et ne prétend pas présenter une argumentation juridique, mais il n’y a évidemment pas de raison de ne pas utiliser cet outil (ou un autre), pour identifier, directement, dans les textes légaux et la jurisprudence les informations liées à l’argumentation juridique. » [232]

Pour autant, nous sommes en 2022 et nulle implémentation de Debater en droit et a fortiori en droit français ne semble avoir percé. Ce qui renforce notre scepticisme — il faut dire que les promesses non tenues de ROSS (cf supra) nous avaient déjà échaudé. En pratique — en IA juridique en tout cas — le raisonnement "en théorie on devrait donc pouvoir" ne marche pas — ou plutôt ne fonctionne pas à coup sûr.

5. Westlaw, Lexis Advance : les améliorations machine learning en cours et prévisibles

D’après Michael Mills [233], co-fondateur et chief strategy officer de Neota Logic (une société précurseur dans les outils d’aide à la décision en droit puis d’IA juridique aux Etats-Unis), cela fait 11 ans que LexisNexis et Weslaw ont commencé à intégrer du NLP dans leurs moteurs de recherche. Et Lexis a racheté Lex Machina en 2015 puis Ravel Law en 2017, LE spécialiste américain du ML sur la jurisprudence (voir infra).

Par exemple, la fonction Westlaw Answers répond carrément directement aux questions courantes/"bateau" en quelques phrases, avec les citations de jurisprudence qui conviennent.

Autre exemple : Lexis Advance offre la possibilité de chercher en langage naturel (fonction ”Run search as natural language") et surtout d’ajouter à la recherche les expressions juridiques synonymes de celles saisies (fonction "Include legal phrases equivalents"). Et depuis 2017, un clic sur le nom juge ou de l’avocat permet de consulter des tableaux de données sur eux, cela ne marchant que pour les domaines de pratique couverts par Lex Machina [234]. A partir de ces tableaux, les abonnés à Lex Machina peuvent analyser plus avant. Là, cependant, il ne s’agit plus d’IA à strictement parler, juste d’"analytics" [235]. Pour résumer, Lex Machina utilise les décisions disponibles dans PACER et fournit des données utiles pour la stratégie judiciaire.

A noter chez Bloomberg Law, un concurrent de Lexis et Thomson West apparu : grâce au machine learning, Points of Law identifie, parmi les opinions des juges américains, les phrases qui font jurisprudence [236].

Enfin, comme vu précédemment, LexisNexis USA a lancé Lexis+ AI début mai 2023. Et l’autre géant de l’édition juridique, Thomson Reuters, propriétaire de Westlaw, a déclaré qu’il prévoyait d’investir 100 millions de dollars par an dans l’IA et qu’il commencerait à intégrer l’IA générative dans ses produits phares au cours du second semestre de cette année [237].

Les améliorations prévisibles résident dans la continuation et l’amélioration des précédentes :

  • du NLP state "of the art"
  • de l’IA générative de texte (GPT ...)
  • des suggestions/recommandations (soit de notions à ajouter, soit de régimes juridiques/bases légales) découlant de l’analyse par le machine learning du comportement des utilisateurs dans leurs recherches. Notamment, en analysant les arrêts déjà mis de côté/sélectionnés par l’utilisateur, il est possible d’en déduire ceux qui manquent. Ce type d’amélioration exploite à fond les excellentes perfomances du ML en catégorisation ("taxonomy" lit-on souvent)
  • plus de "direct answers"
  • des statistiques sur les tendances des juges américains. Dans Lexis Advance, c’est fait en décembre 2018, suite à l’intégration de Ravel Law : Lexis USA lance enfin la suite de Ravel Law : Context, son premier véritable outil de justice prédictive [238]. Pour le texte intégral, il faut un accès à Lexis Advance, avec lequel cette application fonctionne apparemment en tandem
  • une interaction vocale avec l’application, grâce à l’envol de l’utilisation des smartphones, y compris les fonctions d’envoi des résultats et d’impression.

6. Audit et genération de contrats : l’offre existante

C’est clairement dans ce domaine de l’audit/vérification de contrats et de clauses que les progrès de l’IA juridique ont été les plus grands, comme l’illustre la victoire en février 2018 du logiciel LawGeex AI (qui utilise le ML avec apprentissage) sur 20 juristes de droit des affaires très expérimentés dans un test de rapidité et de pertinence : il s’agissait d’analyser les risques/failles présents dans cinq contrats de confidentialité ("non-disclosure agreement" ou NDA) de 2 à 6 pages, un outil très classique aux Etats-Unis [239]. Le "contract review", plus précisément, consiste en l’analyse en masse de contrats pour en extraire informations et clauses contestables ou à revoir.

Le "contract analytics", bien que beaucoup plus discret médiatiquement que la justice prédictive, est aussi le secteur de l’IA juridique qui nous semble le plus dynamique et le plus rentable. C’est ce que sous-entend un article d’Artificial Lawyer. Pour l’auteur du site, qui observe et promeut les legal tech depuis longtemps, « d’après les observations de ce site, une grande partie de la legal tech est façonnée par deux moteurs puissants et toujours présents : la force des transactions ("deals") et la force des bases de connaissances ("accumulation of knowledge, arranging it into libraries and making it searchable"). » Il ajoute l’e-discovery, quelque chose de typiquement américain. Mais nulle part il ne parle de la justice prédictive [240].

Les principaux acteurs dans le domaine de l’audit de contrats sont :

  • côté anglo-saxon [241] :
    • la société canadienne Kira Systems et son logiciel d’audit de contrats de cession d’actions/parts de société est selon la société déployé dans 200 établissements. Il a été notamment adopté par les cabinets d’avocats Linklaters, Clifford Chance, Allen & Overy, DLA Piper, Freshfields et Latham & Watkins [242].
    • Seal Software propose différents produits de type "contract analytics" (analyse automatique ou "audit" de contrats), chacun taillé pour un besoin précis (RGPD, Brexit, M&A, Libor ...). Ils ont été rachetés fin février 2020 par le leader mondial de la signature électronique DocuSign, qui n’avait jusqu’ici pas investi dans l’IA [243]
    • LawGeex. Selon une description de 2018, LawGeex a été entraîné à détecter des problèmes sur plus d’une douzaine de types de contrats juridiques, allant des accords de logiciels aux accords de services en passant par les bons de commande
    • Luminance, dont le produit a été adopté notamment par le cabinet anglais Slaughter & May, et qui a abordé le marché européen courant 2018. Un exemple d’utilisation de Luminance par le cabinet Deloitte sur 4500 contrats de British Telecom (BT) publié par la revue The Lawyer en juin 2021 permet de décrire l’application : Luminance est une application cloud qui utilise le NLP à la sauce ML pour classer les documents par droit national ou par thème ou par type de clauses et pour repérer les divergences dans les contrats par rapport aux contrats standards de l’entreprise ou au droit positif. Les fonctionnalités clés de Luminance comprennent la détection des anomalies, la visualisation des données, la mise en cluster de documents et la collaboration [244]. Il faut toutefois beaucoup de travail humain de type KM et juridique pour "accompagner" l’application et en tirer profit. Ce n’est pas du tout automatique. L’article de The Lawyer le montre très bien
    • eBrevia, conçu par une start-up créée en 2011 dans l’Etat du Connecticut, a, tout comme Ross, un partenariat universitaire fort : sa technologie a été initialement développée à l’Université de Columbia [245]. L’application, utilise le machine learning pour faire du "contract review". Signe des temps : eBrevia, début mars 2018, s’alliait avec le groupe d’édition juridique Thomson Reuters, le propriétaire de la plateforme Westlaw [246] puis, en décembre 2018, était racheté par Donnelley Financial Solutions [247]
    • RAVN a été racheté mi-2017 par iManage, mélangeant ainsi le "document management" avec l’IA de type NLP et classification automatique [248]. Le produit a été utilisé en 2017 par une équipe d’investigateurs de l’agence anti-corruption britannique (Serious Fraud Office) pour fouiller 30 millions de documents à la vitesse de 600 000 par jour [249] dans une affaire de pots-de-vin et de corruption impliquant un important industriel [250]. Autre gros client : British Telecom [251]. Une particularité d’iManage est son intégration étroite et de longue date avec la suite Office de Microsoft et particulièrement sa messagerie Outlook. Un détail qui compte
    • Neota Logic est spécialisé dans la préparation de contrats de confidentialité de droit américain (NDAs), le même secteur que LawGeex, mais le but ici est de proposer des "templates" et non de faire de l’audit ("review")
    • Klarity gère la revue de contrats de droit américain en cloud dans des fichiers Word qui sont automatiquement annotés
    • Legal Sifter : signale les parties importantes d’un contrat de droit américain afin de le vérifier (ou négocier) avant de le signer [252]
    • Knowable, un "spin off" d’Axiom, a formé une "joint-venture" avec LexisNexis, a pour ambition d’aller plus loin que ses concurrents américains en "contract analytics" en répondant à des questions comme "Pouvons-nous sortir de certains des contrats de notre récente acquisition ?" [253]
    • on mentionne parfois HotDocs dans ce compartiment mais ce produit est en réalité largement basé sur une technologie très ancienne [254]. Grosso modo, HotDocs est un générateur de modèles (de contrats) ("contract automation") se basant sur les précédents de la structure
    • depuis fin 2022, GPT (GPT-3, 3.5 et 4, ChatGPT) et ses dérivés (Harvey.ai, CoCounsel, Lexion ...) sont arrivés sur ce terrain — la plupart d’entre eux sans pour autant avoir été spécifiquement conçus pour ça — du fait de leur grande habileté à générer de l’écrit et en s’inspirant de modèles disponibles dans leur matériel d’entraînement, particulièrement s’ils ont été conçus spécialement pour les juristes/avocats. Voir en 2.6.7. supra les détails de l’offre actuelle
  • côté français :
    • en audit de contrats pour des fusions-acquisitions et en compliance, la startup française Softlaw, créée par Sandrine Morard [255], ex-avocate collaboratrice en M&A, travaille uniquement en interne (pas de cloud pour répondre aux demandes des directions juridiques et avocats qui ne veulent pas le moindre risque de fuite) et en français. Fin avril 2020, Softlaw a rejoint Septeo [256], un groupe français qui fait montre d’ambitions dans le secteur des logiciels juridiques, secteur qu’on appelle désormais la legal tech [257]. Septeo est notamment propriétaire de Secib, logiciel de gestion de cabinets d’avocats et de GenApi, important éditeur de logiciels pour les notaires. Après son rachat, Septeo intègre Sotlaw dans ses autres produits. En 2021, le logiciel de gestion de contrats Galexy de Legal Suite (groupe Septeo) intègre les fonctionnalités reconnaissance des "entités nommées" (type de contrat, parties, dates, adresses etc.) de Softlaw (intervention de Stéphane Lescher, directeur de marchés de Legal Suite, au webinaire Legiteam précité). Galexy automatise la saisie des infos du contrat grâce aux fonctionnalités de Softlaw puis le gère comme un logiciel de gestion de contrats classique (renouvellement, échéances ...). Idem, le logiciel pour notaires iNot de Genapi (groupe Septeo) intègre les mêmes fonctionnalités de Softlaw, selon Stéphane Fauvel (webinaire précité)
    • Hyperlex, fondée en 2017 par trois ingénieurs, est une société française développant une solution en ligne de gestion et d’analyse de contrats pour les entreprises] [258]. Selon Oliver Ezratty, « Hyperlex analyse les contrats d’entreprise pour identifier les clauses clés et permet leur revue collaborative dans l’entreprise. L’outil comprend surtout un dashboard de suivi de contrats et de leur circuit de signature, une fonction de workflow assez traditionnelle [259]. » Pour citer Alexandre Grux, le dirigeant d’Hyperlex, interviewé par le Data Analytics Post : « Notre outil permet [à nos clients] de trier leurs contrats pour les ranger et y accéder plus rapidement, y retrouver des clauses précises ou des données contractuelles (dates, montants…) avec un système d’alertes automatiques, générer automatiquement une synthèse pour faciliter la prise de décision ». Hyperlex a pour particularité d’utiliser toutes les technologies d’IA disponibles, y compris la reconnaissance de formes dans les images (ici identifier un tampon ou un logo dans un scan). Cette utilisation de la diversité de l’IA rapproche Hyperlex de Case Law Analytics (voir infra dans nos développements sur la justice prédictive). L’expertise d’Hyperlex va être utilisée par la Chambre des notaires de Paris pour taguer automatiquement des documents notariaux (annonce de février 2020). Dans un premier temps, ce sont les notaires et leurs collaborateurs qui vont mettre manuellement les labels sur ces documents et il s’agira de reconnaître uniquement le type de document. Mais le projet veut aller jusqu’à ce que Hyperlex fait pour les contrats, un "audit" (dans le sens anglo-saxon du terme, ici : repérer des clauses problématiques) des documents. Ce projet, nommé VictorIA, doit s’étaler sur plusieurs années [260].

Ce sous-sous-secteur de la legal tech, qui se rattache au sous-secteur des "alternative legal process providers" (ALSP, prestataires de services juridiques en ligne), en partie utilisateur d’IA (au sens de technologies informatiques très récentes à base de NLP et de machine learning), est également celui qui fait le plus de chiffre d’affaires. Beaucoup plus que la justice prédictive. Selon une étude de Thomson Reuters, le groupe d’édition juridique américain, les "legal process providers" ont fait 13 milliards USD en 2019 contre 8 en 2015 [261] ...

eBrevia, RAVN, Seal Software ... : le marché anglo-saxon de l’audit de contrats est nettement en train de se consolider, plus encore que le secteur plus large de l’IA juridique ou de la legal tech, où en France même un tel mouvement de concentration est attendu [262].

Nous l’avons vu plus haut, GPT-3 permet de générer des clauses dans un contrat. C’est ce que fait déjà l’américain Lexion. A priori, cette piste des IA génératives de texte qui devrait révolutionner cette catégorie de produits d’IA juridique.

Après, si on parle de création automatique de contrats valables et de qualité par l’IA, là, en dépit de l’existence de GPT-3, c’est autre chose. Et autrement difficile. Voici ce qu’en dit en 2022 Alex Hamilton, CEO de Radiant Law, une "law firm" britannique très legal tech puisqu’elle fournit des services juridiques dans le domaine de l’optimisation et de l’automatisation des contrats [263] :

« Si tout ce que vous vouliez faire était de générer du texte sur une page, alors bien sûr, utilisez l’IA. Mais ne voulez-vous pas vous assurer que la norme couvre les objectifs des parties qui utilisent le contrat ? Comment pouvez-vous, sans comprendre les objectifs, vérifier s’il sont équilibrés, etc. comme l’exige une norme ? Comment pouvez-vous vous assurer que le contrat est cohérent en interne ? Non répétitif ? Ne dit pas deux fois la même chose ? Est clair ? Est raisonnablement complet ? Est pertinent ?
Quiconque adhère à cette idée révèle ses motivations. L’IA peut plausiblement vous satisfaire pour cette tâche ? Eh bien, vous semblez ne pas vous soucier que les parties atteignent leurs objectifs. Hum ...
Autre problème. Je peux créer un contrat standard en un jour ou deux en me référant à quelques exemples. Si vous voulez vraiment mettre les humains hors circuit, réfléchissez à vos motivations. Êtes-vous en train d’économiser des années-hommes de travail fastidieux (tant mieux pour vous) ou de courir après la nouveauté ? Il existe des vices plus amusants.
Quoi qu’il en soit, le problème des normes n’est pas le temps pris pour produire le texte, mais son adoption. Et l’adoption vient de l’alignement des incitations et du sentiment d’appartenance à la norme par un nombre suffisant de personnes.

7. Les outils au service de la propriété industrielle

Olivier Ezratty, dans son ebook précité Les usages de l’intelligence artificielle 2021, liste également un tout autre type d’application métier en juridique : la propriété industrielle (marques et brevets).

Parmi les sociétés qu’il cite, je retiendrai celles-ci :

  • Juristat (USA) « réalise des "analytics" sur les données publiques sur les brevets et les avis des agents de l’USPTO pour optimiser les stratégies de protection de brevets »
  • Turbo Patent (USA) et son application RoboReview [264]
  • Lex Machina (acquis par LexisNexis, on en a parlé plus haut)
  • Data&Data (créée en 2012, France) fait de la veille sur les ventes de contrefaçons des produits de luxe sur les sites marchands et les réseaux sociaux [265]. « L’outil à base d’IA s’appuie sur la détection d’anomalies dans les prix et les images des articles en vente ». Ses algorithmes sont basés en partie sur la technologie Azure Machine Learning du cloud Microsoft
  • Clarivate Analytics est arrivée dans l’IA, explique O. Ezratty, « via son acquisition de TrademarkVision qui utilise le deep learning pour reconnaître les logos des marques et faire des recherches d’antériorité. »

8. Justice (dite) prédictive : calculer les chances de gagner un procès en droit français (avec ou sans machine learning)

Abordons maintenant les IA juridiques françaises. Si l’on excepte les applications de contract review Softlaw et Hyperlex précitées, ce sont des applications dites de justice prédictive — ou qui visent à le devenir. Là aussi, comme pour le terme "intelligence artificielle", l’emploi de l’expression "justice prédictive" a un côté marketing accentué.

Au niveau des technologies, le machine learning n’est pas encore systématiquement utilisé, les systèmes experts et le traitement automatique du langage naturel par chaînes de caractères (l’IA "à la papa") sont encore très répanduus.

8.1. Les limites des "IA" juridiques françaises en matière de justice prédictive

Côté justice prédictive, pour le moment, on n’en est en réalité qu’à une analyse (par thème, par juridiction, par société [266], des montants des dommages-intérêts ou de quel type de camp a gagné) de la jurisprudence disponible et à une recherche en langage naturel sur celle-ci. Et encore faut-il prendre ces performances avec certaines pincettes. C’est le sens du billet très mesuré du professeur Dondero cité en introduction. Il date de 2017.

En décembre 2019, dans une réponse ministérielle, le ministère de la Justice livrait le retour d’expérience suivant décevant [267] (mais ne concernant pas Case Law Analytics — voir la fin de cette section) :

« Plusieurs cas d’usage et d’expérimentations, en France comme dans d’autres pays, justifient une première analyse nuancée des algorithmes de prédiction de l’aléa juridique. En France, l’expérimentation d’un logiciel aux visées prédictives dans le ressort des cours d’appel de Douai et Rennes au printemps 2017 [268] a été conclue par le constat partagé entre magistrats et avocats d’une inadéquation par rapport aux besoins exprimés. Au Royaume-Uni, l’expérimentation HART, conduite en 2016 par des chercheurs de l’université de Londres, et qui avait comme objectif de reproduire les processus de décision du juge européen, n’est pas parvenue à descendre en dessous des 20 % de réponses erronées, ce qui est un taux trop important pour un outil d’aide à la décision. »

En 2022, très peu de choses ont changé. Des intervenants au séminaire consacré à la jurimétrie organisé le 9 mai 2022 par le Centre de recherche en droit Antoine Favre de l’université Savoie Mont-Blanc aboutissent même à des conclusions encore plus tranchées : selon eux, « l’usage de la jurimétrie pour la recherche juridique n’est pas amenée à se produire dans un avenir proche » [269]. Certes, leur constat est limité aux applications utilisant les expressions régulières (regex) dont nous avons déjà parlé plus haut et ne prend pas en compte les performances du machine learning. Pour autant, Case Law Analytics eux-mêmes, qui annoncent utiliser tous les programmes utiles dont les réseaux bayésiens et le ML, font qualifier et baliser les arrêts par des juristes titulaires d’un M2 ; et cette "IA à la papa" que sont les regex est encore largement utilisée en justice dite prédictive. Ce qui donne au final à ce constat encore pas mal de valeur.

Plus généralement, en 2014 déjà, un spécialiste du machine learning, le professeur Michael Jordan, estimait qu’on attendait beaucoup trop beaucoup trop tôt du deep learning et du big data [270]. Antoine Garapon pointe l’origine anglo-saxonne du terme et rappelle très justement que la traduction exacte est « justice prévisible » et non prédictive [271]. On pourrait aussi traduire par "justice prévisionnelle", même si cela sonne bizarre.

Pour l’instant, le machine learning en droit français — quand il est réellement utilisé, ce qui, on va le voir, n’est pas systématique — n’est pas de l’intelligence artificielle au sens fort du terme (cf propos infra sur l’IA forte et faible). Du temps de la lutte entre Microsoft et les autres éditeurs de logiciels de bureautique (années 80), on appelait ça du vaporware : annoncer des sorties d’applications entre 6 mois et 2 ans à l’avance pour pousser les clients à attendre la nouvelle version. Et à ne surtout pas aller chez la concurrence — ici, je dirais : ne pas se servir de ce qui marche très bien, comme les compétences des meilleurs documentalistes juridiques ou l’application Jurisprudence chiffrée (cf juste infra).

L’article précité de Valérie de Senneville aux Echos le souligne :

« pour le moment, "il y a beaucoup d’effets d’annonce", remarque Jean Lassègue, philosophe et chercheur au CNRS. L’épistémologue, qui a consacré de nombreux travaux à l’informatique [il est l’auteur, avec Antoine Garapon, de l’ouvrage de référence « Justice digitale »], invite à s’interroger sur le problème de la qualification des faits et de leur catégorisation. "La machine ne peut pas régler cela", affirme Jean Lassègue. »

Là encore, la pratique évoquée supra de Case Law Analytics lui donne raison.

Antoine Garapon, secrétaire général de l’Institut des hautes études sur la justice (IHEJ), ne dit pas autre chose dans son entretien avec les Petites Affiches (septembre 2017) [272] :

« LPA — L’impact réel des legaltechs sur le droit ne reste-t-il pas néanmoins encore assez limité ?
A. G. — Bien sûr et je pense que l’impact le plus important du de la legaltech se situe en réalité sur le plan imaginaire. [...] Il est en effet frappant de constater à quel point on évoque legaltech et justice prédictive quand les réalisations pratiques restent très mineures puisque ces technologies ne sont pas encore matures. »

Seuls Case Law Analytics et dans une bien moindre mesure Predictice [273], comme on le verra plus loin, peuvent avoir la prétention — toute relative — de prédire, avec une marge d’erreur, les jugements.

D’abord, définir. La "justice prédictive" est, selon le rapport Cadiet, remis en 2017 à la Chancellerie, « un ensemble d’instruments développés grâce à l’analyse de grandes masses de données de justice qui proposent, notamment à partir d’un calcul de probabilités, de prévoir autant qu’il est possible l’issue d’un litige ». Notez bien le « notamment », car il est également possible de modéliser les critères de prise des décisions de justice au lieu de les "statistiser" et c’est un point capital du débat.

Le Dictionnaire de droit privé de Serge Braudo propose, lui, la définition suivante : « "La justice prédictive" est une notion récente évoquée par une partie de la presse, et par une partie des professionnels du Droit qui partent de la constatation que toute décision judiciaire comporte sa part d’aléa. Le calcul portant sur la fréquence des décisions rendues par les tribunaux devrait permettre de dégager des algorithmes mesurant les risques courus dans l’engagement d’une procédure ou d’un arbitrage. Le fait de quantifier le risque juridique permettrait de désengorger les juridictions et un traitement de masse des dossiers libérant les professionnels de la réalisation de tâches bien trop souvent répétitives. »

Autre tentative de définition : Eloi Buat-Ménard, adjoint au directeur du Service de documentation, des études et du rapport (SDEC) de la Cour de cassation, dans sa contribution à un dossier sur Les défis de la justice numérique, veut écarter les fantasmes sur ce qu’est la justice dite "prédictive" [274]. Nous le citons quasiment in extenso car ce propos vient d’un magistrat très bien placé pour parler de la justice prédictive, vu son poste :
« Est "prédictif" ce qui permet de prévoir des faits à partir d’éléments donnés. Si l’on entend par "prévoir" le fait d’apprécier la probabilité d’un fait futur, alors oui, le concept de justice prédictive peut avoir du sens, à l’instar de la notion de médecine prédictive, qui détermine, par l’étude des gènes, la probabilité de développer une maladie donnée. [...]
Mais si l’on rattache la notion, non à la prévision mais à la prédiction, c’est-à-dire à l’action d’annoncer à l’avance un événement, comme sa racine l’y invite, alors le concept est inepte. Cela pour une raison très simple : la jurisprudence n’est pas un système clos. Autrement dit, une décision de justice n’est, et de loin, pas la résultante des seules décisions passées mais d’une pluralité de facteurs plus ou moins bien identifiés : contexte jurisprudentiel, certes, mais aussi normatif, politique, social, professionnel, médiatique, voire affectif, climatique (juge-t-on de la même façon en période orageuse ou de canicule ?), alimentaire (juge-t-on de la même façon le ventre creux ? [275]), familial (juge-t-on de la même façon sous le coup d’une rupture douloureuse ?), culturel, etc. Bref, tout ce qui fait que la justice est et demeurera, du moins l’espère-t-on, une oeuvre humaine.
Dans cette acception, un algorithme proprement "prédictif", c’est-à-dire capable de prendre en compte une telle pluralité d’interactions causales, reste à ce jour une pure vue de l’esprit, sauf à envisager une drastique restriction du champ des causalités jurisprudentielles à la seule raison juridique (déjà quelque peu délicate à identifier précisément), figée - ou limitée - dans son évolution, ce qui nous éloigne immanquablement du concept même de justice. Les juristes romains avaient déjà parfaitement perçu le danger d’une "justice" totalement prévisible dans son application qu’ils tenaient précisément pour une forme d’injustice : c’est ce qu’exprime l’adage summus ius, summa iniuria. »

Jacques Lévy Véhel, chercheur à l’INRIA et fondateur de Case Law Analytics, estime qu’il faudrait parler de « quantification de l’aléa juridique » [276].

Il est en effet difficile de prétendre que la justice prédictive au sens de prévision judiciaire — comme la prévision météorologique — existerait actuellement en France. Et le terme, comme nous l’avons vu plus, haut porte beaucoup (trop) de "hype" en lui. Le concept d’analyse mathématique et algorithmique des décisions de justice est plus proche de la réalité. Plus concrètement, il s’agit de statistique et/ou de modélisation imparfaites des décsions de justice. Cette description nous semble plus réaliste et plus opérationnelle. [277]. C’est ce que nous allons tenter de montrer.

Une justice prédictive imparfaite pour l’instant, car 200 000 décisions judiciaires publiées par an, alors que 3.8 millions sont rendues sur la même période, c’est un échantillon insuffisant en termes de statistiques. Sans compter que dans de nombreux cas, les faits ne sont pas détaillés ou insuffisamment détaillés, même dans le jugement de première instance, si on l’avait (cas classique des décisions pénales, que par déontologie Predictice et Case Law Analytics ont choisi d’exclure — ce qui nous semble justifié).

A court et moyen terme, le délai d’implémentation de la justice prédictive sur la grande masse du contentieux est incompressible. En effet, elle ne pourra pas être implémenté sur l’ensemble des décisions de justice de première instance et avec une pleine efficacité avant un minimum de huit ans à compter de la fin de la mise en ouvre de l’open data des décisions de justice (2025) (voir infra Pourquoi une montée des IA en droit ?).

Explication. Compte tenu des spécificités du droit français (pas de la common law ... mais pas un véritable problème [278]), de la (relativement) petite taille du marché français du droit, de l’absence pour l’instant de disponibilité en accès libre et gratuit (open data) [279] des décisions judiciaires de première instance [280] avant des années malgré la loi Lemaire pour une République numérique [281], de la nécessité d’un partenariat entre un éditeur juridique et un éditeur de système de machine learning [282], cela devrait prendre au minimum huit ans à compter de 2017 et peut-être plus.

A noter que le NLP à la "sauce" machine learning, en droit français, sert de nos jours de plus en plus à pseudonymiser (on ne dit plus anonymiser, ça c’était avant le RGPD) automatiquement les décisions de justice. La legal tech Doctrine.fr s’était lancé dès ses débuts en 2016 dans cette tâche, ce qui avait d’ailleurs entraîné à l’époque un débat [283] très intéressant avec le développeur et ingénieur ML Michaël Benesty, attelé à la même tâche, sur les limites des performances du ML en la matière. L’état de l’art en 2016-2017 était en fait très insatisfaisant. Pour citer M. Benesty fin 2016 :
« Pour avoir un taux d’erreur de 10% (qui est déjà important), il faudrait un algorithme ayant un taux d’identification par mention de plus de 99% (en théorie). L’état de l’art en septembre 2016 des algorithmes mis au point dans les universités (donc en avance sur les systèmes utilisés dans l’industrie) est à 92%. Même en “trichant” par l’ajout de règles manuelles, on arrive péniblement à 96%. Or, d’une manière générale en machine learning, plus le taux est haut, plus il faut d’efforts pour progresser.
En matière de bases de données en santé (où le problème de l’anonymisation des données se pose aussi), le taux de rappel (différent de l’accuracy, on en parle ici pour comparaison des grandeurs) rapporté en anglais (langue plus facile à traiter pour les machines, car morphologiquement pauvre) est de 94%.
On voit bien que l’approche anonymisation à 100% via le machine learning (c’est-à-dire sans aucune intervention humaine) se heurte à un plafond de verre. »

Toutefois, les ingénieurs machine learning/"data scientists" d’Etalab (EIG) envoyés assister la Cour de cassation ont beaucoup beaucoup progressé en 2019 en utilisant deux librairies de "Named Entity Recognition" bien connues, spaCy et Zalando Flair : « diminution de 32% du taux d’erreur avec une meilleure utilisation de la connaissance de l’ensemble des données au lieu de simplement travailler au niveau de la phrase » et atteinte d’un « taux de réussite de 99,96 % sur les noms et prénoms » [284]. Selon l’article d’Acteurs Publics (accés réservé) :
« La mission Etalab se chargera, à ce titre, de faire office de courroie de transmission avec les autres institutions désireuses d’appliquer la méthode de la Cour de cassation pour anonymiser leurs documents. Pour autant, la généralisation du nouveau moteur d’anonymisation à toutes les institutions judiciaires n’est pas pour demain, tant le paysage des applicatifs informatiques du ministère de la Justice reste encore aujourd’hui éclaté. En attendant, la Cour devrait adopter le nouveau logiciel mis au point par les deux EIG d’ici la fin de l’année [2019]. »

Revenons à notre notion d’analyse statistique imparfaite des décisions de justice. Elle vaut aussi pour l’avenir. Car l’idée qu’on va pouvoir vérifier que, dans une même situation, les juges rendent des décisions identiques, au-delà même des inconvénients de la pression politico-médiatico-sociale que cela leur mettrait, est largement biaisée. Ce, pour plusieurs raisons :

  • « un seul et même juge peut adopter des solutions divergentes dans des affaires présentant les mêmes caractéristiques » [285]. Particulièrement, le moment de la journée compte beaucoup : quand le/la juge, peu avant 13h, a faim, cela influence sa décision. De même, le soir tard, quand il/elle est fatiguée et veut en finir pour rentrer chez lui/elle
  • la notion de "même situation" est une illusion : dans le détail, les situations de fait sont très rarement totalement identiques dans les décisions de justice (et j’en ai lues beaucoup). C’est la qualification juridique de ces faits qui peut donner cette impression
  • les statistiques sont une autre illusion (vu les interprétations hâtives et abusives qu’on en fait le plus souvent, notamment en utilisant des graphiques), mais *en partie* seulement (sauf si elles sont faites sans suivre les règles, ce qui arrive plus souvent qu’on croit : représentativité échantillon, biais ...). Elles permettent en revanche de *tenter* de décrypter la jurisprudence [286]. Comme le disait le Premier président de la Cour de cassation Bertrand Louvel lors du colloque de 2016 sur l’open data de la jurisprudence : la « jurisprudence », c’est « la tendance habituelle d’une juridiction ou d’une catégorie de juridictions à juger dans tel sens » [287]
  • une statistique est une *simplification*, outrancière si elle manque de finesse (préférer les déciles ou la médiane à la moyenne, par ex.). Cette simplification permet toutefois de détecter ou prouver des tendances.
    Les exemples suivants donnés par Jacques Lévy Véhel illustrent bien le problème [288] :
    « Mettre à disposition des décisions en masse conduira inévitablement à des traitements statistiques qui auront plus d’effets négatifs que positifs. Si on peut classer des films de cinéma selon leur popularité, classer des juridictions ou des avocats suivant leur "performance" me semble poser problème.
    Malheureusement, l’histoire montre que la facilité est toujours privilégiée, et ce type de classement apparaîtra très vite, comme c’est le cas par exemple aux USA. Ces classements seront entachés d’une multitude de biais bien connus, que le public n’aura pas les moyens de détecter. Est-ce qu’un avocat qui défend des entreprises qui ont commis une infraction et dont le but est de réduire le montant des condamnations prononcées sera mal classé parce qu’il « perd » tous ses procès ? Ou bien, au contraire sera-t-il très bien classé car il divise par exemple par 10 les montants qui devront être versés par son client ?
    Est-ce qu’on peut de façon sensée comparer les montants accordés pour une prestation compensatoire par un juge aux affaires familiales qui officie à Versailles à ceux donnés par un juge de la cour d’appel de Douai ? Comment redresser les montants pour ajuster la différence évidente entre les populations qu’ils ont à considérer ? On pourrait multiplier les exemples. Les statistiques donneront une vision simpliste et faussée de la réalité, et les corriger est complexe même pour des professionnels du droit travaillant avec des statisticiens. »

A l’heure actuelle, les statistiques de la justice prédictive restent donc fragiles car leur substrat est peu représentatif. On constate aussi, à tester les outils, que ces statistiques nécessitent fréquemment des interprétations et des explications. De plus, la qualité varie selon les outils.

Les statistiques de la justice prédictive restent fragiles également parce que comme le souligne le sociologue et chercheur CNRS Julien Larrègue les applis et expériences menées nous « apprennent peu de choses sur les raisons et le sens des décisions » [289] (sans même parler du problème de l’explicabilité des résultats de l’IA).

Encore une fragilité des statistiques de justice prédictive (cf à nouveau J. Larrègue [290]) : en droit pénal (et peut-être en droit civil — droit de garde lors du divorce —, voire procédures collectives), les applications ignorent les recherches menées en sciences sociales et celles de "jurimetrics" menées depuis les années 40. Pour citer J. Larrègue : « Les quelques juristes qui réalisent des études de sentencing, en analysant notamment les facteurs juridiques et extra-juridiques qui influencent les condamnations pénales, s’insèrent dans la filiation directe des sciences sociales et n’utilisent pas l’expression de "justice prédictive", preuve que les deux mouvements sont découpés. » Pour lui, « la raison d’être du mouvement de justice prédictive n’est pas de faire œuvre scientifique, mais « de réduire les risques de perdre un procès tout en réduisant les coûts associés à l’institution judiciaire ».

Notez bien que nous avons parlé jusqu’ici des limites des *statistiques* en matière de décisions de justice. Pas des limites de la *modélisation* de la prise de ces décisions, ce qui est fait par un seul acteur, Case Law Analytics, et s’avère in fine plus rigoureux, particulièrement face au manque très net de décisions couvrant le même cas dans le même type de contentieux. Ainsi, pour obtenir des statistiques solides en droit du licenciement sans cause réelle et séreuse, il faudrait avoir quelques centaines de décisions du même bassin d’emploi ou au minimum émanant de tribunaux du même ressort de cour d’appel, de moins de 5 ans d’écart, sur le même type de poste/métier, même niveau de responsabilité, même niveau de rémunération et même ancienneté. Actuellement, dans le meilleur des cas, on arrive à quelques dizaines de décisions de ce type, souvent liées à un unique gros plan social. Or le fait même que ces décisions soient de facto majoritairement issues de la même affaire est un biais statistique lié à l’échantillon ... C’est pourquoi modéliser les critères de la décision de justice est une piste plus intéressante.

Dernière limite, enfin, le degré d’acceptation par la société, encore limité (cf la dernière partie de ce billet). Toutefois, si l’on s’en tient à l’histoire récente des innovations, les systèmes de machine learning en droit finiront, selon toute probabilité, par être assez rapidement acceptés par les consommateurs de droit. Les professionnels du droit vont donc, à terme, devoir suivre. En fait, un nombre important d’avocats et encore plus important d’assureurs se sont déjà lancés, en prenant des abonnements chez Predictice et Case Law Analytics. Comme le rappelle un professionnel américain des enquêtes ("fact finding") pour avocats, dans un excellent article qui remet les pendules à l’heure, les "IA" d’aujourd’hui sont les "logiciels" de demain [291].

8.2. Les limites des "IA" juridiques françaises en matière de recherche en langage naturel

Marc Clément, président de chambre au tribunal administratif de Lyon, ex-rapporteur à la cour d’appel administrative de Lyon et important commentateur des apports du numérique aux juridictions administratives [292] fait remarquer que « dans la réflexion sur la "justice prédictive", il est très rarement fait allusion au fait que l’outil informatique est déjà au cœur du métier du juge », et ce, à travers les recherches sur les bases de données de jurisprudence et de doctrine, particulièrement les juges administratifs qui bénéficient de l’ensemble des grandes plateformes des éditeurs juridiques (pas les magistrats de l’ordre judiciaire, pauvre, lui). En effet, face au nombre de résultats trop important pour qu’on les lise tous, les juristes sont obligés, soit de diminuer ce nombre en ajoutant des mots-clés soit de faire confiance à l’algorithme de tri par pertinence. Le choix d’un "mauvais" mot-clé peut faire disparaître des résultats pertinents, tandis que les règles dirigeant l’algorithme de tri par pertinence ont leurs propres biais [293].

Entre parenthèses, l’argument — tout à fait exact — de M. Clément renforce la nécessité d’apprendre aux jeunes juristes à chercher en suivant tout simplement les tables des matières, index alphabétiques, plan de classement, thésaurus, notes de bas de page et autres accès hiérarchiques ou guidés. Le plan de classement de la jurisprudence administrative (PCJA) maintenu par les équipes du Conseil d’État n’est rien d’autre que ça : un guide extrêmement performant pour trouver rapidement toute la "JP" faisant autorité sur un sujet. Evidemment, les outils hiérarchiques et d’indexation matière ont leurs propres limites : ils ne sont jamais exhaustifs, coûtent cher à maintenir et, du fait de leur réalisation humaine [294], ne pourraient probablement pas traiter une masse de plusieurs millions de documents (les juridictions judiciaires rendent 3,8 millions de décisions par an, dont 1,2 pour les décisions pénales [295]). C’est justement pour ça qu’on cherche aujourd’hui par mots-clés et que les technologies de l’IA s’attaquent aux limites de ce mode de recherche.

Pour autant, les techniques de recherche utilisant le machine learning ont leurs limites à elles, bien plus gênantes si on considère qu’on ne sait pas précisément pourquoi tel mot va trouver tel résultat. C’est le fameux problème de la transparence des IA, non résolu à cette heure, et que Marc Clément rappelle à juste titre. Oui, mais si l’algorithme est plus pertinent que la recherche en texte intégral, on est globalement gagnant, me direz-vous. Certes, mais avec l’IA actuelle, on va vers des logiciels dont les utilisations seront différentes et les conséquences bien plus importantes puisqu’on parle de statistiques sur les solutions des litiges, le montants des indemnisations et potentiellement les peines de prison. Le manque de transparence de l’IA est alors autrement plus gênant.

Marc Clément, toujours lui, fait également remarquer que « les structures des textes juridiques sont des points d’appui précieux pour construire une analyse automatique. On peut ainsi sans trop de difficultés identifier des références à des articles de code ou à des jurisprudences, ce qui place d’emblée un texte juridique dans un réseau d’autres textes » [296].

En pure théorie, M. Clément a raison : les références, dans les documents juridiques [297], aux autres documents sont autant de liens et de recommandations implicites qui devraient aider les algorithmes de machine learning à identifier les documents les plus pertinents par rapport à la "question" posée — la requête devrait-on dire.

Mais la réalité est autre :

  1. Primo, si c’était si simple, les legal tech, depuis qu’elles existent en France (2016), auraient dû arriver à quelque chose de mieux, avec les arrêts des juridictions suprêmes et des cours d’appel, que ce qui existe actuellement. C’est donc qu’il y a de sérieuses difficultés dans ces arrêts. La preuve a contrario que c’est difficile : OK.Doc de Lefebvre Dalloz est un moteur de recherche particulièrement efficace sur la synonymie automatique utilisant le machine learning (plus précisément l’algorithme BERT de Google) mais malgré ses performances il n’a pas été implémenté sur la jurisprudence de Francis Lefebvre et Dalloz
  2. Les décisions des juridictions administratives sont beaucoup mieux structurées que celles des juridictions judiciaires. Parce qu’elles ont plus de moyens financiers et en personnel [298], parce qu’elles produisent plus de dix fois moins de décisions (260 000 par an contre 3,8 millions), parce qu’elles n’ont pas la même indépendance que celle des cours d’appel et tribunaux judiciaires et que les règles de rédaction des décisions sont donc précises et unifiées [299]. Cette bien meilleure structuration rend leur mise en base de données, leur pseudonymisation et les recherches dessus beaucoup plus faciles — c’était évident quand on interrogeait Supra Legem — et moins chères. Exemple de ce qu’il faudrait faire sur les décisions judiciaires, un travail collaboratif dans le cadre du forum Open Law en 2017 a permis de dégager une quarantaine de champs et d’annoter environ 400 décisions extraites de Legifrance. Pour plus de détails, voir notre billet L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain.
  3. Et puis, les décisions des tribunaux judiciaires de première instance ne sont pour l’instant pas disponibles (elles sont promises pour 2025, on verra bien) : ni numérisées nativement dans la très grande majorité des cas [300], ni suffisamment structurées, ni suffisamment balisées au plan du code informatique. Même les jugements des tribunaux de commerce ne sont ni assez structurés ni assez balisés informatiquement pour pouvoir être "mangés" efficacement par une base de données. L’objet du fameux contrat entre Infogreffe et Doctrine.fr (finalement résilié par Infogreffe) était probablement justement de traiter ces jugements pour résoudre en partie ce problème [301] — les autres aspects étant leur pseudonymisation [302] leur "mise en base de données".

Tout ceci explique très largement pourquoi, selon toute probabilité et à l’exception totale de l’ex-Supra Legem [303] et partielle de Case Law Analytics, les applications de justice prédictive utilisent essentiellement, pour leur moteur de recherche et l’analyse des décisions, des systèmes fondés sur les chaînes de caractères et les expressions régulières (regex), dont le précurseur en France sont les cartouches ex-Luxid (devenues Cognito Discover) de la société Expert System, ex-Temis [304], dont nous avons parlé plus haut.

Selon les consultants de Sopra Steria, dans le rapport précité d’octobre 2020 rendu par le Conseil national des barreaux (CNB), les 12 solutions jugées les plus pertinentes pour les professionnels du droit formés en droit continental sont Predictice (France), Case Law Analytics (France), Jurisdata Analytics (France), Legalmetrics (France), Tirant Analytics (Espagne), Lex Machina (USA), Ross Intelligence (USA), MaitreData (France), Predilex (France), Juge Robot (Estonie), Ravel Law (USA) et Jurimetria (Espagne). Deux autres legal techs, Doctrine et JuriPredis, « n’apparaissent pas comme des acteurs de la jurimétrie telle que définie dans cette étude » mais « fournissent des prestations qui en constituent des briques élémentaires » [305].

Voyons maintenant les produits français un par un. Et un produit néerlandais portant sur les décisions des justices européenne, néerlandaise, britannique et américaine.

8.3. Les expérimentations des pouvoirs publics : DataJust (projet abandonné), détection des contentieux similaires (CE) et des décisions divergentes (Cass.) (projets en cours)

L’expérimentation DataJust avait débuté en 2020 pour passer au crible la jurisprudence en matière de préjudices corporels afin d’établir un référentiel de l’indemnisation à laquelle les victimes peuvent prétendre. Le projet s’inscrivait dans le cadre de l’avant-projet de réforme de la responsabilité civile et visait à donner à la Cour de cassation et au ministère de la Justice des données et des armes, donc, dans le débat sur le coût de cette réforme pour les assureurs (et les primes d’assurance). Une manière de faire un barème "new wave", et qui fait penser aux recherches menées par Jacques Lévy-Véhel et qui aboutirent au fameux barème Macron en matière de licenciement sans cause réelle et sérieuse.

Mais elle a fâché les avocats. Et surtout, elle a échoué. Et a été officieusement abandonné le 13 janvier 2022.

Selon Acteurs publics, « la base de données sur laquelle l’algorithme était entraîné était biaisée car incomplète, en l’absence des décisions de première instance notamment. Surtout, le préjudice corporel est lui-même intrinsèquement très compliqué, avec 40 dimensions à prendre en compte, et la mobilisation de moyens [notamment pour étudier et prévenir les biais algorithmiques, ndlr] était trop conséquente pour atteindre un niveau de performance indiscutable. » [306]. Pour plus de détails, voir notre billet sur Datajust.

Cet abandon officieux confirme les difficultés mises en exergue plus haut. C’est ennuyeux pour le secteur public, car cela laisse la place aux seuls acteurs privés — dont les juridictions suprêmes n’ont peut-être pas envie de devenir dépendantes.

Toutefois, lors de la plénière d’ouverture des journées Transfodroit 2021 consacrée au potentiel de la donnée appliqué aux domaines du droit et de la justice le 17 décembre 2021, il a été évoqué d’autres projets du secteur public :

  • une expérimentation au Conseil d’Etat d’un algorithme qui détecte dans les conclusions les contentieux similaires (i.e. portant sur la même question de droit). Là encore, le magistrat administratif Marc Clément est à la tâche
  • et un partenariat INRIA Cour de cassation qui travaille sur la détection des divergences de jurisprudence.

Une première étape du projet INRIA Cass. est de donner automatiquement un "titre" (au sens que donne la Cour à ce terme, c’est-à-dire un abstract) faisant sens à chaque décision (pour pouvoir ensuite comparer ces "titres" et ainsi détecter les arrêts similaires et donc aussi les divergences de jurisprudence) et de vérifier ensuite humainement que ceux-ci sont pertinents. Dans cet objectif, elle a fait appel aux experts scientifiques du Lab IA, rattaché à Etalab au sein de la Direction interministérielle du numérique (Dinum), notamment à l’équipe-projet ALMAnaCH d’INRIA. Ceux-ci ont présenté leurs travaux dans un article publié sur HAL. Ils ont utilisé du NLP, et la génération automatique des séquences de mots-clés ("titres") à partir des "sommaires" (résumés) a plus précisément utilisé de la traduction automatique neuronale (neural ma-
chine translation, NMT). Cette première étape est un succès [307]. Ce succès est toutefois à amplifier et confirmer : le travail s’est fait sur une base de seulement 80 000 décisions de la seule Cour de cassation. De plus, les décisions de la Cour sont plus structurées et plus courtes que celles des juridictions inférieures. Il ne constitue pas à lui seul un outil de repérage des divergences dans la jurisprudence de la Cour, a fortiori dans celle des cours d’appel et tribunaux. Enfin, ce projet est étroitement lié à la Cour de cassation et à ses besoins très particuliers (unifier la jurisprudence judiciaire, utilisation de la technique du "titrage"). Il n’est pas question ici de produire un moteur de recherche en langage naturel sur tout type de décisions de justice ni un outil de justice quantitative.

8.4. Predictice

Créé en 2016 par le jeune avocat Louis Larret-Chahine, Predictice est un outil d’aide à la décision à destination des professionnels du droit et des assureurs [308]. Dans une première étape, il permet d’accéder à la jurisprudence via [309] :

  • un moteur de recherche en langage naturel utilisant des technologies d’analyse syntaxiques simples mais aussi les opérateurs booléens classiques [310], ce qui est un plus pour les spécialistes de la recherche (et pas seulement les documentalistes)
  • des filtres : juridictions, chef de demande dans le dispositif de la décision, s’il a été accepté ou refusé, montant alloué, type de solution (confirmation, infirmation, partielle ou pas), base légale/texte cité. Certains filtres sont spécifiques à une matière, comme ceux du salaire brut et de l’ancienneté du salarié en matière de licenciement
  • une fois arrivé sur une décision, des suggestions de décisions similaires.

Une fois les résultats atteints, la deuxième étape est l’analyse statistique du contentieux (dite "prédictive"). On sélectionne un chef de demande parmi ceux trouvés par l’application lors de la recherche — on peut aussi en taper un autre. Un algorithme calcule alors les probabilités de résolution du contentieux, le montant des indemnités potentielles et identifie les moyens de droit ou les faits les plus influents dans les décisions antérieures rendues par les juridictions [311]. La restitution des analyses se fait sous forme graphique ou statistiques. L’application utilise des technologies de NLP (TAL) simples à base de synonymie et de règles pour chercher dans les décisions de justice, les analyser et extraire les données.

Concrètement, chez Predictice, il s’agit d’abord de lister le type de partie vainqueur et donc de donner un pourcentage de chances de remporter un procès sur un type de contentieux, et de déterminer les montants de dommages-intérêts alloués selon la cour d’appel, sans oublier la répartition des montants (par décile par exemple), le tout cartographié [312]. S’ajoute à ces informations les décisions les plus récentes en votre faveur ou en votre défaveur, celles ayant alloué les dommages-intérêts les plus importants et les moins importants et d’autres statistiques plus détaillées. L’analyse produite est facile à télécharger ou imprimer — et donc à présenter au client ou à la partie adverse, c’est prévu et voulu par Predictice. Les analyses statistiques sont réalisées avec les avocats et juristes partenaires.

Pourtant, sur le terrain et d’après au moins une étude, les avocats semblent utiliser Predictice d’abord et avant tout comme un moteur de recherche de jurisprudence de nouvelle génération — et non comme un outil de justice prédictive. C’est ainsi que Predictice est souvent évoqué par les documentalistes juridiques comme un concurrent de Doctrine et non pas Case Law Analytics. Les limites de Predictice décrites infra confortent cette façon de voir ce produit.

D’abord en pilote auprès de structures partenaires (Orange, AXA, Covéa, Dentons, Solocal, Taylor Wessing), Predictice est commercialisé depuis septembre 2017 [313].

Le test de l’application au sein des deux cours d’appel de Rennes et Douai s’est terminé début octobre 2017 : les magistrats n’ont pas adopté l’outil, estimant que, malgré sa « modernité », il « méritait d’être sensiblement amélioré [314].

En fait, ce que les magistrats testeurs reprochaient à l’application, c’était la non-prise en compte de biais statistiques [315] : « Xavier Ronsin est le premier président de la cour d’appel de Rennes. Ses magistrats ont testé un logiciel (Predictice, pas celui développé à Nantes) pendant quelques mois. Bilan  ? "C’est la déception. Rien ne remplace le regard d’un juge. Le logiciel que nous avons testé n’apporte aucune plus-value dans le travail des magistrats." Xavier Ronsin évoque même des "biais de raisonnement" du logiciel qui se fonde sur des comparaisons de décisions passées, sans forcément en examiner les motivations. »

Il faut lire l’interview de Xavier Ronsin donnée à Dalloz Actualité en 2017 pour mieux comprendre ce que techniquement les magistrats reprochaient à l’outil [316] :

« On se situe plus dans un projet d’approche statistique et quantitative que qualitative. Parfois, les résultats peuvent même être aberrants. Prenons l’exemple d’un calcul d’indemnités de licenciement sans cause réelle et sérieuse. Les montants sont calculés par le juge en mois de salaire. Or le salaire d’un cadre n’est pas le même qu’un ouvrier. Il suffit qu’une décision de justice concerne un cadre pour fausser complètement l’analyse, selon l’affaire ou le bassin d’emplois, et pour que le résultat proposé ne dise rien du cas à résoudre. Il serait plus pertinent de privilégier une approche selon le nombre de mois de salaire alloué, plutôt que savoir si le résultat probable sera de 4 000 ou 8 000 €. [...]
Le logiciel ne s’intéresse qu’au dispositif d’une décision de justice. L’algorithme ne sait pas lire toutes les subtilités de la motivation, surtout lorsque la décision est complexe. »

 [317]

Après deux mois d’utilisation intensive de Predictice, l’avocat geek Frédéric Cuif a fait son bilan [318]. Il apporte d’autres éléments intéressants.

En 2018, le nombre d’abonnés a visiblement cru — sans que la société publie de chiffre. Les assureurs Covéa, Allianz, la Maif et Pacifica sont clients [319]. La page d’accueil du site de Predictice affiche les cabinets d’avocats utilisateurs.

8.5. Case Law Analytics

Case Law Analytics (CLA) était en fait, jusqu’en 2017, une recherche interne à l’INRIA (Institut national de recherche en informatique et automatique). Ce n’est qu’en septembre 2017 que CLA est devenu une société. Elle est basée à l’Atlanpole de Nantes et a été sélectionnée par Microsoft pour son programme d’incubation au sein de Station F à Paris. Cet "offshoot" de l’INRIA a été créé à l’origine mi ou fin 2015 par Jacques Lévy Véhel, mathématicien et à l’époque directeur de recherche à l’INRIA [320] et Jérôme Dupré, alors magistrat en disponibilité, et devenu depuis avocat au barreau de Nantes. C’est J. Lévy Véhel qui a créé la société [321] et il est aujourd’hui associé principal [322] — mais d’après lui, Jérôme Dupré continue à jouer un rôle de conseiller.

Sur Case Law Analytics, il n’y avait, jusqu’au printemps 2017, que très peu de choses à lire. La startup était alors très discrète sur le plan médiatique. Le passage au statut de société approchant [323], les publications se sont ensuite succédées [324]. Il s’agissait à l’origine d’une évaluation probabiliste des dommages-intérêts, elle-même découlant de travaux sur les montants des indemnités de licenciement faits pour la préparation de la loi Travail et d’un intérêt personnel du fondateur de CLA pour la quantification des décisions de justice, ayant été lui-même confronté à un contentieux [325]. En 2014, Jacques Lévy Véhel avait initié une collaboration avec le magistrat Jérôme Dupré, autour de la modélisation des prestations compensatoires. Extrait de l’article du Village de la Justice (mars 2017) :

« " Il ne s’agit pas de dire la probabilité d’aller au contentieux mais plutôt d’estimer les sommes d’argent que vous pouvez être condamné à payer dans tel ou tel cas de figure, explique Jérôme Dupré. Nous n’aimons pas l’expression “justice prédictive”, qui est à notre avis trompeuse et parfois même dangereuse. C’est pourquoi nous ne donnons pas un chiffre unique mais une distribution probabiliste des montants de condamnation possibles. Il est difficile de calculer ce risque parce que les aspects procéduraux sont complexes à modéliser pour le moment mais c’est possible dans certains cas. " »

Ensuite, Case Law Analytics a évolué vers un logiciel qui fonctionne pour partie comme un système expert et pour partie comme un outil d’aide à la décision. Mais ses créateurs se fondent moins que Predictice sur la statistique — J. Lévy Véhel refuse notamment de donner des moyennes — et plus sur un système qu’ils qualifient de « juges virtuels ». L’interview de J. Lévy Véhel par Ekipio et celle par le MediaLab de France Télévisions soulignent les points-clés de son produit :

  • Case Law Analytics fonctionnant en partie comme un système expert (voir infra), il ne dépend pas de la disponibilité d’une masse de décisions statistiquement significative et peut donc compenser le manque de magistrats face au nombre de dossiers (une différence fondamentale avec Predictice) [326]. Au moins, lui est clair là-dessus. Au demeurant, en tant que justiciable et juriste en même temps, je ne partage pas complètement son avis : quantité d’affaires qui paraissent basiques, qui selon des juges ne méritent pas qu’on y passe du temps, le mériteraient (il faudrait faire des recherches, en fait et en droit, qui ne sont pas faites [327]) et sont traitées par dessus la jambe. Là-dessus (pour les particuliers justiciables de base), la justice prédictive, selon moi, ne permettra en effet que de gagner du temps — rien d’autre
  • comme Louis Larret-Chahine de Predictice, J. Lévy Véhel dit ne pas croire pas au danger d’uniformisation de la jurisprudence. Pour lui, son logiciel est un outil d’aide à la décision. Entre parenthèses, questionné par un de ses interviewers, J. Lévy Véhel reconnaît qu’il faut « un peu de formation » pour les justiciables et recommande une formation de base en mathématiques et statistiques pour les juristes, ce qui montre l’importance — et la difficulté relative — d’interpréter les résultats des applications de justice prédictive
  • CLA ne travaille que sur un nombre limité de domaines du droit, relativement étroits et homogènes. Par opposition, Predictice est un généraliste. CLA se limite actuellement (fin 2018) à une quinzaine de domaines : rupture brutale des relations commerciales, marchés publics, abus de position dominante , baux commerciaux, licenciement sans cause réelle et sérieuse, opérations d’initiés (droit boursier). Les manquements d’initiés sont un domaine où les décisions sont très peu nombreuses (on parle d’environ 230 décisions à fin novembre 2018), ce qui illustre assez bien le côté système expert. Idem pour la rupture brutale : 2200 décisions environ. CLA ne peut pas travailler sur un dossier exceptionnel, en revanche
  • les techniques et étapes utilisées : dans un premier temps, J. Lévy Véhel et son équipe font parler « un grand nombre de magistrats et d’avocats spécialistes du domaine pour établir l’ensemble des critères intervenant dans la prise de décision » (entre 20 et 120) et le raisonnement utilisés par les juges pour trancher. Ça, c’est une technique d’IA à l’ancienne : c’est du logiciel expert (cf supra). Et cela permet à CLA de dire qu’ils offrent des « juges virtuels ». Un « référentiel » plutôt, en réalité, pour reprendre un autre terme utilisé par J. Lévy Véhel.
    Dans un deuxième temps, CLA constitue une base de données de décisions de justice sur le sujet (peu d’IA là-dedans). J. Lévy Véhel : « Nous utilisons bien sûr des outils de traitement du langage naturel, pour retrouver automatiquement certains critères, mais une partie du travail est effectuée manuellement, par des humains. »
    Dans un troisième temps, en utilisant les critères dégagés à l’étape 1 et les données regroupées dans l’étape 2, CLA "apprend" à la machine à s’approcher d’un raisonnement de juge. En clair, la troisième étape consiste à créer un logiciel ad hoc qui va se nourrir de cette jurisprudence codifiée pour repérer les zones dans les arrêts où se trouvent les critères de décision des juges et modéliser la prise de décision d’un juge dans ce type d’affaires. J. Lévy Véhel : « Nous faisons appel, sans a priori, à toutes les techniques d’apprentissage automatique à notre disposition. Il peut s’agir de réseaux de neurones, de forêts aléatoires, de machines à vecteurs de support, de réseaux bayésiens ... Nous choisissons ceux qui nous semblent efficaces dans le cas de figure et nous construisons un logiciel unique à partir de là. » La voilà, l’IA.
    Mais cette IA est limitée (moins toutefois que chez les autres acteurs de la legal tech) parce qu’il semble, d’après des informations concordantes, que CLA utilise également des analystes pour découper les décisions et les qualifier/indexer. Un travail proche de ce que faisait (et fait encore) Juris-Data (LexisNexis) depuis les années 80 (voir infra "Deux prédécesseurs ..."). Autrement dit : il semblerait que pour l’instant, le "NLP à la sauce ML" ne marche pas (ou peu) sur la jurisprudence française.
    Enfin, après que l’utilisateur ait choisi dans l’interface ses réponses aux critères (ses paramètres en quelque sorte), CLA sort un éventail de décisions et de dommages-intérêts représentatifs [328]. Plus précisément, « Case Law Analytics n’ambitionne pas de produire un seul jugement, mais une palette des décisions possibles ». Comme l’explique J. Lévy Véhel : « J’entraîne dans ma machine 100 juges virtuels. Ces 100 juges vont chacun prendre une décision et l’ensemble de ces 100 jugements ne reflètent ni plus ni moins que les décisions qui seraient prises à la cour d’appel de Paris à tel moment, sur tel dossier. » La fiabilité des résultats, selon le mathématicien, « oscille entre 85 % et 95 % » [329].
    Clairement, à travers ces techniques et les propos de J. Lévy Véhel, CLA se positionne comme de la "justice prédictive" haute couture, pas du prêt-à-porter. Case Law Analytics n’est pas un éditeur de logiciel mais une sorte de SSII vendant ce qui s’apparente en réalité à des développements spécifiques. Pour citer J. Lévy Véhel : CLA travaille « au cas par cas »
  • CLA n’offre pas de moteur de recherche de décisions, une fonctionnalité pourtant présente chez tous les autres acteurs de la justice prédictive, particulièrement Predictice. CLA fournit juste les n° RG d’une sélection de décisions représentatives, à titre d’illustration, avec pour chacune (depuis 2020) un lien vers le texte intégral sur Dalloz Avocats (mais cela suppose d’y être abonné) [330]
  • CLA n’a pas accès aux arrêts hors des bases CASS, INCA et JuriCA, sauf décisions inédites fournies par ses partenaires (situation très similaire à celle de Predictice). Pas de jugements de première instance pour l’instant
  • J. Lévy Véhel refuse de se ranger dans la course à la taille. Pour lui, un échantillon de 1500 décisions (isolées dans une base beaucoup plus grande, cf étape 1) suffisent à la machine pour "apprendre". En même temps, les 2000 arrêts rendus par la CA de Paris depuis 2012 sur la rupture brutale des relations commerciales sont insuffisantes : c’est notamment pour surmonter cela que CLA utilise sa technique dite de "juge virtuel"
  • CLA refuse de profiler les juges et les avocats. Elle anonymise leurs noms dans les décisions. Et comme Predictice, J. Lévy Vehel et son associé J. Dupré refusent de travailler sur le contentieux pénal.

Pour à la fois voir une démonstration du produit et avoir une idée très concrète des débats entre avocats et entre une partie et son avocat que ce produit peut entraîner, il faut vraiment regarder cette vidéo (6 juillet 2021) : Présentation de Case Law Analytics : cas concrets et retour d’expérience par Sonia Koutchouk, avocate (en matière de prestation compensatoire et d’indemnité de licenciement).

J. Lévy Vehel mène une politique de pédagogie scientifique et de formation, intervenant à l’EFB, à l’ENM, dans plusieurs universités, au barreau entrepreneurial de Paris, au barreau des Hauts de Seine et dans de nombreux colloques sur l’intelligence artificielle dans le domaine du droit.

Actuellement (décembre 2020), Case Law Analytics propose les modules suivants : Harcèlement moral, Rupture brutale des relations commerciales établies, Concurrence déloyale, Ententes, Franchise, Manquement d’initié, Sanctions disciplinaires, Marché public de travaux, Préjudice corporel, Trouble de jouissance, Trouble anormal du voisinage, Contrefaçon de marques. Début 2021, de nouveaux modules devraient être disponibles : Circonstances vexatoires, Licenciement nul, Préjudice d’anxiété, Marchés publics de travaux, Rupture du contrat d’agent commercial, Contrefaçon de dessins et modèles.

Pour une présentation expresse mais sans erreur, regardez la vidéo de tediprod (technologie, droit et innovation). L’auteur de la vidéo, Arthur Sauzé, avocat et consultant legal tech (Tedi Legal), liste les limites de l’outil Case Law Analytics — limites découlant de ses qualités — :

  • il faut être praticien dans le domaine interrogé pour interpréter les résultats. Autrement dit, ce n’est pas un outil pour particulier ou TPE
  • le design du rapport produit à la fin pourrait être amélioré
  • enfin, c’est un outil complexe, avec un peu trop de clics.

L’étude précitée (non rendue publique) confiée par le CNB à Sopra Steria Next sur les legal tech du domaine de la jurimétrie énonce que « seule une solution, portée par Case Law Analytics, nous semble présenter les caractéristiques d’une technologie de rupture en ce qu’elle répond à un concept de justice simulative, lequel concept est infiniment préférable à tout autre (à l’exception, sans doute, de celui de "jurimétrie") en raison de son exactitude technologique et de ses résultats concrets » [331].

Pour ma part, j’’ajouterai que c’est un outil rigoureux, scientifique et par conséquent nuancé — autrement dit, CLA ne se survend pas, une qualité rare dans le secteur des legal tech. Son aspect mathématique peut toutefois le rendre difficile à comprendre et appréhender par les juristes, dont le cursus est massivement littéraire et non scientifique. Il faut l’utiliser comme un outil de simulation pour savoir combien on demande en indemnisation, particulièrement en MARL, et non pas comme moteur de recherche de jurisprudence. On fait varier un paramètre et on voit ce qui se passe.

En novembre 2017, le cabinet d’avocats (spécialisé en droit social) Clichy Grangé a annoncé s’être équipé de l’outil Case Law Analytics [332]. Autres clients selon CLA : le cabinet d’avocats Quinn Emanuel, la direction juridique de SNCF Réseau et les assureurs Axa Protection juridique et Allianz. D’autres utilisateurs sont listés sur la page d’accueil du site de CLA.

Comme chez Predictice, les abonnements ont semble-t-il cru — là aussi sans chiffres publiés.

Au vu de ses particularités, CLA mérite donc plus que les autres applications de justice prédictive le qualificatif d’IA.

8.6. Legalmetrics (Lexbase)

Legalmetrics, sorti à l’été 2018, utilise le fonds jurisprudentiel de l’éditeur juridique Lexbase. A partir du nom d’une société, il affiche un camembert avec les divers types de contentieux qui l’ont concernée. Il s’agit en fait de notions juridiques directement reliées aux tables du Bulletin des arrêts civils de la Cour de cassation. Cliquer sur les tranches amène ensuite aux décisions.

La démarche est certes innovatrice et apprend à l’utilisateur quelque chose d’impossible à trouver/déduire avec les bases traditionnelles de jurisprudence, mais on aimerait voir l’éditeur aller plus loin dans l’analyse du contentieux et proposer d’autres fonctionnalités. Legalmetrics laisse l’impression d’un POC ("proof of concept").

Peu d’IA et pas de justice prédictive là dedans, donc.

Du machine learning en revanche est apparu en 2021 dans le moteur de recherche de la plateforme standard de l’éditeur, Lexbase. On le voit bien avec la synonymie automatique à laquelle il procède pour interpréter et "améliorer" la requête. Déjà en 2020, Lexbase avait implémenté le "NLP à la sauce ML" pour procéder à la pseudonymisation et au découpage des décisions. Ces points, et l’importance de leurs fonds de jurisprudence dans leurs deux offres, font de Lexbase et Doctrine.fr des concurrents plus véritables selon nous que Predictice et Doctrine.

8.7. Deux prédécesseurs : Jurisprudence chiffrée et Données quantifiées Juris-Data

C’est quelque chose que l’éditeur juridique Francis Lefebvre avait déjà approché avec son produit Jurisprudence chiffrée fondé sur les faits et chiffres présents dans les arrêts de cour d’appel de la base JuriCA. Jurisprudence chiffrée trouve depuis 2010 des arrêts de cour d’appel correspondants aux critères exacts donnés et le montant des dommages-intérêts. Par exemple, à partir de la profession et l’ancienneté, Jurisprudence chiffrée donne le montant des dommages-intérêts pour licenciement sans cause réelle et sérieuse [333]. Jurisprudence chiffrée utilise un programme qui identifie les zones des arrêts d’appel riches en information de type juridiction, adresse, profession, âge, ancienneté, montant des indemnités etc., isole ces informations et permet de mener une recherche d’arrêts très rigoureuse par ces critères combinés. Mais à l’époque de sa conception, les avancées du machine learning commençaient à peine, il est donc peu probable que Jurisprudence chiffrée utilise le ML [334]. En revanche, il y a un travail fin sur le langage naturel, à base de cartouches de langage d’Expert System (ex-Temis, cf supra).

Jurisprudence chiffrée est un outil de traitement du langage naturel (TAL). A ce titre, il a été le précurseur.

Interface de recherche de l’application Jurisprudence chiffrée en matière d’indemnité d’éviction (baux commerciaux)

La base (et ouvrage) rivale de LexisNexis Contentieux de l’indemnisation devenue JurisData Analytics (et accessible par l’onglet Pratique & Outils de Lexis360, mais non comprise dans l’abonnement standard à Lexis360) est elle, en revanche, faite "à la main" et sans TAL/NLP, ce qui permet tout au plus de la ranger dans la catégorie analyse prédictive (les résultats sont présentés sous une forme assez dans le style "tableau de bord") mais pas dans celle de l’IA [335]. Fondée sur une conception de l’informatique juridique datant des années 60, elle est nourrie avec une sélection d’arrêts d’appel "épluchés" pour leurs données et provenant de la base Juris-Data [336], soit 50 000 arrêts à novembre 2017 [337]. Tout comme Jurisprudence chiffrée, elle ne traite que certains thèmes : licenciement, rupture de bail commercial, pension alimentaire et prestation compensatoire ...

8.8. Doctrine.fr

Doctrine.fr, malgré son nom, ne contient pas de doctrine, mais des liens (très nombreux) vers des actualités gratuites des éditeurs juridiques (EFL Actualités, Dalloz Actualité, site de la Gazette du Palais, LegalNews ...), vers des billets de blogs juridiques (celui du professeur Dondero y est en bonne place) et vers quelques sites de définitions (le Dictionnaire de droit privé de Serge Braudo) ou de synthèse (Open Dalloz). En matière de doctrine (et encore, Dalloz.fr mis à part, je parlerais plutôt d’actualités), c’est donc un métamoteur. Pour le reste et pour l’essentiel, c’est une base de données de jurisprudence brute qui a récemment perdu son avance en termes de contenu [338].

De même, Doctrine.fr n’appartient pas au champ de la justice dite prédictive. La raison pour laquelle elle est fréquemment citée dans ce champ lexical, c’est, selon le rapport Outils de "justice prédictive" de la Mission de recherche Droit & justice « qu’ils se conçoivent eux-mêmes comme des concurrents [de Predictice] en lutte sur un même marché et qu’ils sont considérés comme tels par leurs potentiels clients » [339].

Ses apports sont ailleurs :

  • d’abord, proposer un moteur de recherche de jurisprudence extrêmement simple à utiliser et extrêmement rapide (dit "search-as-you-type") [340]. Le "learning curve" (délai d’apprentissage) est quasiment nul. Certes, construire une plateforme et un moteur "from scratch" aide beaucoup ici. Il n’empêche : les éditeurs juridiques traditionnels feraient bien d’en prendre de la graine et certains (Lextenso et ServicePublic.fr) ont déjà adopté la technologie plébiscitée du search-as-you-type [341]
  • également, le moteur personnalise les résultats en fonction du profil de l’utilisateur (recherches déjà effectuées, résultats visualisés), en agissant sur leur tri [342]
  • ensuite, utiliser le machine learning (TF-IDF puis camemBERT) pour classer les décisions de justice par matière [343] suite à une recherche (voir la colonne de gauche) et par pertinence et pour aider à sélectionner les documents à envoyer dans les alertes email. Le NLP à la "sauce" ML est utilisé aussi pour découper les décisions (date, numéro, motifs, dispositif etc.) [344], ce qui aide à affiner les résultats de la recherche. Il est enfin utilisé par Doctrine.fr pour pseudonymiser (anonymiser disait-on avant le RGPD) les décisions, c’est-à-dire remplacer les noms de parties personnes physiques par des lettres majuscules comme A..., B...
  • recommander des signalements ou analyses rapides de jurisprudence par des avocats ou éditeurs par email (en utilisant camemBERT là aussi) [345]
  • le "business analytics", version "legal" : Doctrine.fr lie les entreprises (définies par leur numéro RCS) à leur fiche RCS, lie les décisions sur les entreprises aux avocats qui ont travaillé sur l’affaire et présente des statistiques à partir de cela. Il est possible que le repérage des noms des avocats utilise du machine learning, mais fondamentalement, les champs Parties (retirés depuis quelques années [346] mais bien présents auparavant) et texte intégral des bases de données actuelles de jurisprudence permettent déjà d’établir ce type de liens [347], certes de manière nettement moins pratique
  • enfin, une fonctionnalité inédite jusque-là (mais rapidement imitée par Predictice avec Scan puis Lexbase avec Lextract et enfin Lamyline avec Lamylink) dans la legal tech et l’édition juridique : Document Analyzer [348] (voir aussi la vidéo de démonstration rapide sur le site de Doctrine). Les algorithmes de Doctrine analysent le texte des conclusions (chaînes de caractère), identifient (en faisant appel à leur base de jurisprudence et textes officiels) les sources de droit citées dans ce document et créent les liens hypertextes vers ces sources. Le nombre de commentaires répertoriés par Doctrine permet de classer les décisions de justice par importance. Cette fonctionnalité Analyzer plaît semble-t-il beaucoup aux stagiaires et jeunes collaborateurs à qui elle fait économiser beaucoup de temps de recherche. Elle a été très rapidement reproduite par Predictice puis Lexbase. Ce qui montre à la fois que c’est une idée intelligente et une nouveauté très demandée mais aussi que ce n’est pas une révolution technologique. Par ailleurs, on peut s’interroger sur les aspects RGPD du traitement informatisé des conclusions lorsqu’elles contiennent des noms de personnes physiques. Il est à espérer que ces noms et autres informations indirectement nominatives sont expurgées au début même du "process". Par ailleurs, des avocats se demandent s’il y a des questions de protection de la confidentialité du dossier du client (liée au devoir de secret professionnel de l’avocat [349]) à se poser sur le transfert à un tiers autre que les juridictions de documents faisant partie de la procédure [350].

Pour l’instant, le moteur de Doctrine.fr fonctionne donc essentiellement comme un "full text" amélioré au ML [351] à réponse quasi-instantanée. Et l’application n’appartient pas au segment de la justice prédictive. Même s’il utilise des technologies d’IA, il est donc difficile de qualifier l’ensemble d’IA au sens où le coeur du système, le moteur de recherche semble en utiliser peu.

8.9. JuriPredis

JuriPredis (aussi écrit Juri’predis), lancé officiellement en octobre 2018, est un moteur de recherche de jurisprudence sur le fonds Legifrance (bases CASS, INCA, CAPP, JADE, CONSTIT : autrement dit la Cour de cassation, le Conseil d’Etat et les cours administratives d’appel), la base de cours d’appel payante JuriCA et depuis mars 2020 le TUE (ex-TPICE) et la CJUE (fonds de jurisprudence d’EUR-Lex).

Il utilise, selon nos tests, un moteur de recherche capable, sur certaines requêtes, de très bien "ranker" les arrêts, et de moins bien "comprendre" la requête de l’utilisateur sur d’autres [352]. NLP à la sauce ML ou bons vieux systèmes à base de chaînes de caractères ? Au vu des informations disponibles, le second cas.

Selon l’interview donnée à BFM TV en octobre 2018 par son fondateur le professeur Frédéric Rouvière, de l’Université d’Aix-Marseille, spécialiste de droit civil et de théorie du droit, JuriPredis veut faciliter la recherche par mots-clés, « limiter les déchets dans la recherche ». Ce nouveau moteur de recherche de jurisprudence ne va pas pour l’instant vers le prédictif (proposer des statistiques ou des solutions), mais s’y intéresse quand même.

Le financement initial est probablement venu de l’incubateur du Barreau de Marseille, cité sur la page partenaires du site de JuriPredis. Ce soutien financier supposant une forte approbation du projet par le Barreau local. Après 7 mois seulement de développement, JuriPredis était déjà en mode commercialisation en novembre 2018 (abonnement et "marque grise") [353].

La marque "born South" est décidément très nette sur cette application. En sus des traits déjà notés (ses créateurs, son incubateur), Juri’Predis « annonce être soutenue par une vingtaine de cabinets, à 90 % implantés en Provence Alpes Côte d’Azur ». Les tests et l’évaluation initiale pourraient bien être l’oeuvre des 10 juristes du cabinet aixois LexCausa voire d’autres ayant adopté le moteur. Et les chercheurs en droit de l’Université d’Aix-Marseille ont visiblement aidé. Et l’article (assez promotionnel vu l’insistance sur les termes "IA" et "machine learning") précité de la Tribune n’est pas publié par la Tribune tout court mais pas son édition locale Provence Alpes Côte d’Azur et sur une URL dédiée marseille.latribune.fr.

Les tarifs sont publics — jusqu’à 5 utilisateurs. Fait notable, car cela devient de plus en plus rare dans l’édition juridique.

En résumé, au vu du sujet et de l’angle d’attaque de cette étude, JuriPredis, c’est un tout petit peu d’IA (dans le moteur) — et encore, à l’ancienne — mais pas de justice prédictive.

8.10. Dernier né, Justice.cool

La conciliation ou médiation étant devenue obligatoire depuis le 1er janvier 2020 pour la grande majorité des litiges de moins de 5000 euros et les conflits de voisinage (loi de réforme de la justice du 23 mars 2019 et son décret d’application du 11 décembre [354]), se lance le premier site de médiation en ligne français assisté, selon eux-mêmes, par l’intelligence artificielle : Justice.cool [355]. Il a été créé par le Français qui a lancé en 2016 le site RefundMyTicket (réclamation automatisée d’indemnisation pour retard d’avion important), toutefois par le biais d’une société distincte et dont le siège est à une adresse différente (Europe Médiation SAS, créée le 31 décembre 2019, pour Justice.cool, et Claim Assistance pour Refundmyticket). Soyons clair : en matière de plateforme de médiation en ligne française, ce n’est pas le premier site. Mais en terme de plateforme de médiation avec assistance par l’IA, ça semble bien être le premier. Le fondateur, Romain Drosne en est à sa quatrième entreprise, après dix-sept ans dans le marketing digital.

Le modèle d’affaires (cf la FAQ du site) s’inspire de celui de RefundMyTicket et va au-delà :

  • ils ne prennent en médiation un dossier que :
    • en dessous de 5000 euros
    • pour l’instant, uniquement en droit des transports (retard ou annulation d’hôtel ou de vol, donc proche de RefundMyTicket) ou en droit du travail (licenciement, modification du contrat de travail)
    • et si vous avez plus de chances d’arriver à un accord que d’échouer. Attention, le site ne dit pas que cet accord sera forcément à votre avantage. A vous de vérifier si l’accord vous convient avant d’accepter
  • les frais (forfaitaires) sont de 36 euros et sont remboursés si vous ne trouvez pas un accord avec la partie adverse sous 60 jours
  • en cas d’échec de la médiation, et selon votre score, le site propose de continuer les démarches en justice avec l’un de leurs avocats partenaires. Justice.cool avance alors les frais de justice, mais prend une commission de succès de 25% TTC.

A propos de leur technologie, voici ce que dit l’article 5.3 de leurs conditions générales d’utilisation (CGU) et leur page Indicateurs :

  • sur les chances de succès (le "Score") :
    « L’algorithme qui permet d’établir ce score repose sur deux approches statistiques conjuguées :
    La première s’appuie sur une approche de modélisation manuelle élaborée par nos juristes, nos partenaires avocats et universitaires.
    La seconde résulte d’un traitement par apprentissage automatique (Machine Learning) qui compare les faits présentés à une base de données de 1,8 million de décisions de Justice.
    Ce score est ensuite présenté de plusieurs façons :
    Un score par demande qui indique au demandeur le nombre de décisions similaires qui ont fait droit à sa demande
    Le score global qui représente la moyenne des scores de l’ensemble des demandes effectuées par le demandeur. »
    « Une fois le Litige enregistré et l’Opposant identifié par le Demandeur, celui-ci obtiendra un Score. [...]
    Le Score tient compte des éléments fournis par le Demandeur relativement au Litige, de la réglementation en vigueur et des décisions de justice rendues dans des situations présentant des éléments de similitudes avec les faits tels que rapportés par l’Utilisateur.
    D’une part, le Score est calculé grâce à un système expert de modélisation de la loi, élaboré par une équipe de juristes, d’ingénieurs et et d’avocats. D’autre part, le Score est pondéré par un algorithme d’apprentissage automatique, dit "Machine Learning", qui se fonde sur une analyse par similarité d’un nombre significatif de décisions de justice rendues par différentes juridictions. [...]
    Le Score de Justice.cool n’est pas une décision de justice, ni conseil juridique ou une décision de médiation. Le Score de Justice.cool ne prétend pas à l’exhaustivité : il reflète une analyse statistique de la situation par rapport à la loi et à la jurisprudence et ne présume pas de l’issue réelle d’un litige. Ce Score doit être utilisé en bonne intelligence par les Utilisateurs, comme un indicateur et ne lie ni Justice.cool ni les Utilisateurs. »
  • sur l’estimation des dommages-intérêts :
    « Les évaluations présentées tout au long du processus résultent, tout comme pour le score, d’une approche conjuguée :
    d’algorithmes manuellement définis par nos juristes et par nos partenaires avocats et universitaires sur la base des calculs établis par les textes de lois (codes, conventions collectives, réglementations, accords d’entreprises etc.)
    d’une approche comparée à la jurisprudence dans laquelle un traitement par apprentissage automatique (Machine Learning) est appliqué pour comparer le cas décrit à l’ensemble de la jurisprudence disponible (1,8 million de décisions de Justice). »

Il serait intéressant de savoir qui sont les juristes et avocats de l’équipe et d’en apprendre un peu plus sur l’algorithme utilisé (protégé par le secret des affaires, dixit les CGU) ainsi que sur le fonds de 1,8 millions de décisions de justice sur lesquelles s’appuie la startup. En effet, il existe peu de décisions de première instance disponibles et parmi les petits litiges, peu vont en appel.

Il y a d’autres plateformes de médiation en ligne françaises mais aucune autre assistée par de l’IA : Marcel Médiation, CMAP (en cours), Litiges.fr, Le Médiateur de la Consommation (Médiation Service).

A noter que les plateformes de médiation en ligne les plus utilisées sont en fait des services annexes de grands sites de commerce électronique : Ebay, Paypal, Amazon notamment. Elles peuvent intégrer des fonctionnalités de type IA [356].

8.11. Moonlit.ai : justice prédictive européenne, notamment en fiscalité

Moonlit.ai a été créé par le cabinet d’audit et de conseil fiscal Deloitte. En janvier 2017, l’équipe néerlandaise de fiscalité indirecte de Deloitte a eu l’idée de prédire l’issue des affaires de fiscalité indirecte portées devant la Cour de justice de l’Union européenne. Au cours de son parcours, l’équipe a créé des solutions technico-juridiques à des fins diverses, tant pour la pratique commerciale que pour la recherche universitaire [357].

Les différentes solutions ont été regroupées dans une plateforme juridique en ligne, désormais nommée Moonlit. Aujourd’hui, Moonlit couvre principalement les décisions de jutice en fiscalité de l’UE, des pays-Bas, du Royaume-Uni et des USA. Selon leur FAQ, Moonlit utilise des algorithmes de recherche intelligents, des suggestions de recherche, l’enrichissement des données et des visualisations utilisant les derniers outils de traitement du langage naturel.

Moonlit fait un peu de justice prédictive mais surtout tente une recherche améliorée par rapport aux bons vieux mots-clés et opérateurs boolens. Si ça vous rappelle quelque chose, c’est normal : c’est le même usage, de facto, qui est fait de Predictice : de la recherche non booléenne, mais pas de la justice prédictive [358].

Moonlit a commencé par faire de la prévision (essentiellement) sur les décisions de la justice européenne sur la TVA UE car la réponse est binaire donc aisée (la TVA est applicable oui ou non), et sur les droits de l’Homme.

Moonlit néanmoins a fini par choisir d’éviter de se prononcer sur le résultat pour à la place proposer une dizaine de décisions les plus approchantes de la question posée car :

  • pour arriver à une décisions sur la probabilité de gagner/perdre, l’algorithme doit être nourri avec une question très précise, très détaillée et très longue (un gros paragraphe), ce qui est très contraignant pour l’utilisateur
  • malgré cela, la même question relancée peut dans certains cas donner un résultat différent
  • les utilisateurs (juristes) aiment avoir leur mot à dire/un choix à faire plutôt que de se voir imposer une solution.

Leur IA suggère des décisions similaires (non citées par la décision), y compris des décisions en langues étrangères. Pour le faire, ils utilisent non pas une traduction en anglais mais la vectorisation du langage permise par BERT, i.e. "une traduction" mathématique du langage.

Pour cela, Moonlit utilise beaucoup de NLP "à la sauce" ML. Ils utilisent une version de BERT entraînée sur leur jeu de données.

Moonlit est capable de surligner automatiquement les paragraphes clés de la décision affichée [359]. Et lorsque la juridiction de fournit pas ses décisions avec un résumé, il fournit à la place une concaténation des principaux attendus de la décision. Moonlit offre également une "network map view" des décisions trouvées.

Monnlit a 1 million de décisions de juridictions françaises en fonds, soit beaucoup plus que de n’importe quel autre Etat [360]. Moonlit les "balance it out" pour éviter qu’elles soient sur-représentées.

Moonlit doit devenir indépendant de Deloitte en mars, ils cherchent actuellement (fin 2022) des investisseurs. Deloitte restera comme client.

8.12. Supra Legem, l’IA gratuite de droit public (disparue)

Seule application de "justice prédictive" (en fait, on vient de le voir, de recherche fine et d’aide à la décision) à proposer une démo grandeur nature, qui plus est gratuite, Supra Legem (le site a été mis hors ligne), développée par l’avocat fiscaliste, programmeur et data scientist Michael Benesty avec l’aide d’un ami ingénieur machine learning (travaillant incidemment chez Google) [361], aidait à améliorer la pertinence et la rapidité des recherches, identifier un revirement de jurisprudence, identifier les moyens de l’administration qui n’ont pas fonctionné, identifier des tendances de certaines chambres, voire prédire des revirements de jurisprudence du Conseil d’Etat [362]. A lire absolument pour plus de précisions sur le projet Supra Legem et de manière générale sur les applications de justice prédictive, le compte-rendu que M. Benesty en a fait au Journal of Open Access to Law (JOAL) début 2017 [363].

Pour autant, les déductions qu’on pouvait tirer des analyses des statistiques présentées par Supra Legem doivent être prises avec des pincettes, comme l’a montré un vif débat lors du lancement de l’application et des premiers articles écrits sur elle.

À noter qu’un de mes contacts, bibliothécaire juridique et mathématicien geek en même temps, estimait en 2017 que le machine learning en droit a beaucoup d’avenir si le deep learning non supervisé y perce. Et ce, même sur des marchés juridiques en régression comme le marché français. Imaginons par exemple que les algorithmes de deep learning arrivent à détecter des similitudes ("patterns") indépendantes de la langue et entre les documents juridiques allemands (un marché en meilleure santé) et français : les recherches entreprises sur le droit allemand — un marché bien plus rentable que le droit français — seraient alors transposables et réutilisables en droit français ... Or c’est bien ce que Moonlit arrive peu ou prou à faire par le biais de la vectorisation et du "language model" de BERT et Moonlit cherche à se passer de l’étiquetage de textes législatifs européens par des humains [364].

On remarque que les éditeurs juridiques français traditionnels (groupe ELS avec Francis Lefebvre, Dalloz et Editions Législatives, Lexbase, LexisNexis SA, Wolters Kluwer France, Lextenso), à part ELS (avec OK.Doc), ne proposent pas de produit incorporant du machine learning. Pour certains, je dirais : pas encore, mais je serais surpris que cela tarde [365] D’autant que ce sont les éditeurs qui détiennent le commentaire de la jurisprudence (dit aussi doctrine). Or en droit français, la donnée qui relie entre elles et permet de comprendre les décisions de justice, c’est la doctrine. Alors qu’en pays de "common law", le "case law" (jurisprudence) contient ses propres liens et son propre commentaire. En effet, le principe du "stare decisis" impose au juge anglo-saxon de citer les précédents pertinents et les juges des cours donnent leur "opinion" — autrement dit, ils commentent leur propre décision, chose impensable en France [366].

9. Arbitrage international

A noter que l’arbitrage international est en train d’attirer les regards du secteur :

  • le français Case Law Analytics a embauché fin 2019 une experte en droit international avec une spécialisation en arbitrage pour « de nouveaux modules »
  • ArbiLex, une legal tech américaine incubée au Harvard Innovation Lab et utilisant un machine learning bayésien, se prépare début 2020 à se lancer [367]
  • la legal tech française Jus Mundi, sans correspondre exactement à la définition de l’IA, s’est lancé à l’automne 2018 sur le secteur du droit international (traités, règlements d’arbitrage, sentences arbitrales) en commençant par l’arbitrage international d’investissement (CIRDI etc.).

10. L’IA et les textes officiels

10.1. Regmind

Legal tech d’avant les legal tech, créée en 2009, l’éditeur juridique et SSII éditoriale Luxia est le créateur de la base de données Alinea by Luxia, qui avec une licence Legifrance, reprend textes officiels et jurisprudence, améliore la présentation ("time lines" notamment), la recherche et propose de la veille.

Luxia a lancé en janvier 2019 RegMind, une application qui fait de la veille automatisée en droit bancaire et financier (français et européen) à destination des banques et cabinets d’avocats [368]. Elle consolide automatiquement les textes, colorise les modifications (une fonctionnalité historique d’Alinea by Luxia) [369] et les lie entre eux [370], y compris des autorités de régulation, signale les modifications (à travers une visualisation graphique sous forme d’arbre) et facilite leur suivi par les juristes, dans un domaine intéressant ici car particulièrement complexe. Jurisprudence et sanctions sont intégrées, dit l’article du Monde du Droit [371]. Luxia n’utilise pas le terme d’IA pour la qualifier et sa présentation n’évoque pas l’utilisation de machine learning [372], mais elle tente bien d’automatiser un processus humain.

Quatre banques – dont Natixis, à l’origine du projet et qui a investi dedans — et un cabinet d’avocats (Allen & Overy) ont collaboré, testé et amélioré RegMind sur deux ans (2017-2019).

Formé par l’informaticien pionnier de l’information juridique publique Robert Mahl qui depuis le Centre de recherches en informatique (CRI) de l’Ecoles Mines a participé à la création du site Adminet, Georges-André Silber, le président fondateur de Luxia, a travaillé avec Christian Le Hir, directeur juridique de Natixis.

RegMind est le premier outil d’IA juridique français portant sur les textes officiels — et non la jurisprudence.

10.2. Mlang, l’algorithme de calcul open source de l’impôt français

En France, l’impôt sur le revenu est calculé à partir des déclarations individuelles des contribuables, à l’aide d’un algorithme dont l’auteur, la conception et la maintenance sont assurés par la Direction générale des finances publiques (DGFiP). Cet algorithme repose sur un langage personnalisé, le langage M, et un compilateur conçus par l’administration française à l’origine en 1990, et qui n’ont pas bien vieilli [373]. En raison des lacunes du langage d’entrée et des limitations techniques du compilateur, l’algorithme s’avère de plus en plus difficile à maintenir, s’appuyant sur des comportements ad-hoc et des solutions de contournement pour mettre en œuvre les changements les plus récents de la législation fiscale [374].

Mlang est une chaîne d’outils de compilation open-source dont le but est donc de remplacer l’infrastructure existante [375]. Mlang est basé sur une formalisation par rétro-ingénierie du système de la DGFiP, et a été minutieusement validé contre la suite de tests privée de la DGFiP. Mlang permet aussi une connaissance approfondie de l’essence du calcul de l’impôt sur le revenu français ... La DGFiP pourrait adopter Mlang en 2023 pour son système de production, ce que confirme un des auteurs du pre-print [376].

Selon John Nay, chercheur au Stanford Center for Legal Informatics (dit CodeX), Mlang — et je pense aussi CATALA, est une illustration d’une nouvelle approche des textes officiels par l’IA, une approche où on utilise un "large language model" (LLM) pour traduire les textes officiels en code informatique :

  • règles rigides (taxes parafiscales, impôts, permis, etc.) : le LLM génère un code informatique que les humains valident
  • règles principalement basées sur des concepts plus ou moins normés (fiduciaire, "raisonnable", etc) : le LLM est affiné pour mieux montrer la norme.

Les autorités fiscales des Pays-Bas travaillent sur quelque chose de similaire. Elles ont développé le CNL RegelSpraak (afin que les détenteurs de connaissances du domaine puissent comprendre et établir des règles) et les rendent exécutables avec un outil nommé ALEF (basé sur Jetbrains MPS) [377].

10.3. CATALA ou traduire la loi en code

En matière d’IA sur les textes officiels français, il faut aussi signaler le projet open source CATALA : il s’agit d’un projet de recherche impliquant codeurs et juristes travaillant côte à côté et visant à traduire la loi en code grâce au langage de programmation CATALA [378].

Selon son développeur principal Denis Merigoux, CATALA est essentiellement une évolution/un redémarrage du langage M (utilisé pour son autre projet de codification de l’impôt, voir supra Mlang), mais cette fois, fait correctement en utilisant toutes les meilleures pratiques des langages de programmation.

Le logiciel, par exemple, a permis de détecter des incohérences ou des inexactitudes dans le texte de la loi fiscale, qui ont été signalées aux autorités compétentes. Le code source du langage CATALA est hébergé sur Github.

Plus de détails sur Mlang et CATALA dans la thèse de Denis Merigoux (2021).

10.4. THEIA ou la mise à jour des textes normatifs

Enfin, la Direction de l’information légale et administrative (DILA) veut développer une intelligence artificielle pour aider ses agents à tenir les textes normatifs bien à jour. Une première expérimentation a été menée en 2021 sur les lois, décrets et ordonnances, pour un lancement courant 2023 [379].

Le projet formalisé s’appelle THEIA et il existe au sein du programme de la DILA "Nouveaux outils de production normative" (NOPN) [380].

Selon le cahier des charges techniques (CCTP) de THEIA [381] :

« De juin à octobre 2021, la DILA a réalisé des expérimentations en mobilisant différents prestataires au travers d’un marché de "Recherche & Développement" pour prouver la validité du concept (ou POC pour "Proof of Concept") de consolidation automatisée d’un texte normatif par une intelligence artificielle. L’objectif était d’essayer différentes stratégies pour construire un outil capable, à partir d’un texte publié au Journal officiel, de produire de manière totalement automatique sa version consolidée. Compte tenu du délai, seuls ont été intégrés au périmètre de l’expérience : les lois, les ordonnances et les décrets (excluant donc les arrêtés), hors tableaux et dispositions outre-mer. En synthèse, à titre d’évaluation finale, la production automatisée des prototypes réalisés par les prestataires a été comparée à celle des agents de la section de la consolidation sur 4 JO (représentant 204 articles et 311 actions à réaliser). Deux prototypes sont parvenus à consolider de manière parfaitement conforme entre 45 et 51 % des textes. [...]
« L’objectif de cette application est de remplacer, à brève échéance, la cartouche TEMIS [382] par une nouvelle brique basée sur l’IA. En effet, les solutions basées uniquement sur l’algorithmique échouent à traiter la multitude des cas métiers. Seule une solution basée sur l’IA, permettra d’atteindre un taux significatif de traitement des cas actuels ainsi que des futures évolutions. Cette application sera implantée initialement dans la chaine existante de BDJ (avec les mêmes entrants et sortants que TEMIS). Cette application devra être suffisamment flexible pour s’implanter dans la chaîne cible. Par ailleurs, cette application servira également de support à diverses évolutions de la chaîne d’information régalienne. [...]
« A l’initiative du candidat, cette application pourra s’appuyer sur une ou plusieurs technologies liées à l’IA, à tout ou partie des opérations composant le processus de consolidation.
Les différentes étapes du processus sont :

  • Prise en compte d’un texte modificatif ;
  • Identification des cibles dans les textes consolidés (l’identification de toutes les cibles dès lors qu’un
    article modificatif modifie plusieurs cibles) ;
  • Identification dans le texte modificatif des actions de consolidation à réaliser ;
  • Annotation du fichier XML du texte modificatif avec les cibles et actions identifiées.
    Les actions de consolidation à réaliser peuvent être simples ou complexes, à savoir notamment :
  • remplacement de mots et/ou d’alinéas ;
  • insertion de mots et/ou d’alinéas ;
  • suppression de mots et/ou d’alinéas ;
  • remplacement entier d’article ;
  • abrogation classique d’article ;
  • création simple d’articles ;
  • remplacement d’intitulés de la structure (titres, sections…) ;
  • création de structure (titres, sections…) ;
  • modification de listes ;
  • modification similaire concernant des cibles multiples ;
  • modification d’annexes ;
  • action concernant les dates de vigueur.
    Par principe, l’application devra proposer les actions de consolidation à réaliser aux agents (dits
    « consolideurs ») qui les valideront (ou non). »

10.5. Legistix, le projet de consolidation automatique de l’Ecole des Mines

Georges-André Silber, après avoir quitté Luxia, est revenu à la recherche à l’Ecole des Mines, et travaille depuis sur le projet Legistix. Cette application de consolidation automatique des textes officiels français est d’ores et déjà capable d’automatiser 93 % des opérations de consolidation. Selon l’article publié sur HAL par Georges-André Silber, « les premiers résultats présentés, en utilisant uniquement des règles formelles se fondant sur des expressions régulières, ont permis de montrer un taux de réussite de l’outil dépassant largement celui du prototype développé par la DILA indiquant un taux de réussite de 50 % » [383].

Ce projet devrait encore avancer grâce à une proposition de thèse de doctorat en informatique, qui devrait débuter en octobre 2023 [384].

L’objectif de cette thèse est d’étendre ces résultats en ajoutant notamment une phase de classification par apprentissage automatique (machine learning) des changements induits par les textes modificateurs, afin d’améliorer les règles formelles pour atteindre un taux de 100 % d’automatisation, avec une précision et un rappel du système de détection tous deux égaux à 1. La fiabilité du système de règles peut être vérifiée grâce à l’historique de tous les textes consolidés manuellement par la DILA depuis une vingtaine d’années.

11. Pourquoi une montée des "IA" en droit ?

Parmi les raisons du développement de l’IA en droit et plus particulièrement du lancement des applications de justice prédictive en France ces dernières années, il y a une conjoncture politique favorable à l’open data et aux startups de la "tech" [385]. On peut parler d’une volonté politique forte de l’exécutif dont l’origine se trouve dans deux rapports clés : le rapport de la commission Attali sur la libération de la croissance (2008) — dont Emmanuel Macron fut le rapporteur et où il a puisé nombre des idées de son programme — pour les côtés dématérialisation, désintermédiation et économie de l’information [386] de l’open data et le rapport Trojette sur l’ouverture des données publiques (2013). L’implémentation des propositions de ces rapports commence sous la présidence Hollande et la présence d’Emmanuel Macron au ministère de l’Economie. Depuis, le gouvernement privilégie nettement les licences gratuites pour les données publiques juridiques et judiciaires. On note particulièrement les promesses d’open data judiciaire des décisions d’appel et de première instance insérées en 2016 dans la loi Lemaire pour une République numérique (articles 12 bis A et 12 bis B nouveaux, devenus après renumérotation articles 20 et 21) par des amendements surprises venus de l’entourage de la secrétaire d’Etat Axelle Lemaire, en charge du projet de loi [387]. Autant dire la promesse d’une abondante matière première gratuite. 2016, c’est aussi le lancement de Doctrine.fr et Predictice ...

Il faut toutefois préciser que ces promesses n’ont été tenues que tardivement : le décret d’application de la loi Lemaire n’a jamais été publié tel qu’on pouvait l’imaginer en 2016, puisque la loi de programmation et de réforme de la justice du 23 mars 2019 [388] a ajouté aux articles 20 et 21 de la loi de 2016. L’article 33 de la loi de 2019 a ajouté que les éléments permettant d’identifier les personnes physiques doivent être occultés (une simple application du RGPD et de la loi Informatique et libertés, entre parenthèses, aurait pu suffire, ce qui souligne les enjeux de la pseudonymisation et l’intensité du débat) et que les noms des professionnels de justice, avocats mis à part, ne doivent être ni cherchables ni traités. Un autre décret (d’application de cette loi de 2019, en réalité) doit donc être pris : un décret sur l’open data des décisions de justice est finalement publié au Journal officiel du 30 juin 2020 [389]. Mais pour que l’open data soit effectif, il faut encore attendre. Pour des raisons notamment d’équipement informatique et logiciel, la Cour de cassation désirant continuer à maîtriser la diffusion des décisions judiciaires. Confirmation dans la tribune de la première présidente Chantal Arens à Dalloz Actualité [390] : « la Cour de cassation pourra effectivement assurer pour 2021-2022 l’accessibilité en open data de ses décisions et des décisions des cours d’appel en matière civile mais la mise à disposition des autres décisions risque d’être reportée à une date très incertaine. »

Ce n’est que fin avril 2021 que le calendrier de l’open data judiciaire est publié par arrêté au JO [391], avec un open data du seul flux des cours d’appel pour avril 2022 et des tribunaux entre 2024 et 2025. Pour les cours d’appel en matière pénale, ce sera le 31 décembre 2025 (voir les détails sur ce blog). Puis fin septembre 2021, le décret n° 2021-1276 du 30 septembre 2021 lance l’open data des décisions (stock et flux) de la Cour de cassation et du Conseil d’Etat [392].

Les raisons de ce retard sont fondamentalement au-delà de la problématique de la pseudonymisation renforcée (ex-anonymisation) amenée par la loi de 2016 (exigence d’« analyse du risque de ré-identification des personnes ») et plus encore celle de 2019 [393]. Elles existaient déjà début 2016 avant la loi Lemaire et sont toujours là [394] :

  • exigence de pseudonymisation découlant de la position de la CNIL, interprétant la loi Informatique et libertés — exigence reprise et renforcée depuis par le RGPD [395]
  • les moyens humains et budgétaires nécessaires dans les juridictions pour pseudonymiser et traiter informatiquement les décisions (sans parler d’écluser les stock d’affaires en retard, plus encore avec les confinements imposés par la pandémie de Covid-19, voir infra) n’existent quasiment pas
  • sur le plan informatique, rien ne sera ni prêt ni adapté avant longtemps. Même si les data scientists d’Etalab envoyés assister la Cour de cassation ont beaucoup progressé en 2019 dans la pseudonymisation des décisions juridiciaires en utilisant deux librairies de "Named Entity Recognition" (NER) bien connues, spaCy et Zalando Flair [396] : « diminution de 32% du taux d’erreur avec une meilleure utilisation de la connaissance de l’ensemble des données au lieu de simplement travailler au niveau de la phrase ». Et même si depuis avril 2022, les nouveaux arrêts de cours d’appel sont en open data, ceux du judiciaire sont peu ou prou la continuation de la base JuriCA et tout comme elle ne sont pas du tout exhaustifs.

Si on se penche maintenant sur les raisons structurelles de la montée des IA en droit, une cause s’impose : les économies — qu’elles soient réalisées ou juste attendues. C’est, avec la rapidité, LE motif mis en avant par le managing partner d’une "small law firm" spécialisée en droit américain des faillites, le premier domaine de Ross.
En droit américain, l’argument des économies de personnel réalisées dans le cabinet d’avocats sent déjà son pesant de marketing. En droit français, qui n’est pas un droit de common law mais un droit écrit et où les recherches de jurisprudence sont à la fois moins cruciales et moins complexes, on ne peut guère avancer cet avantage. Du reste, nous n’avons pas trouvé trace de témoignages en ce sens.
La rapidité pour déterminer les montants moyens ou maximaux des condamnations, en revanche, est souvent invoquée et s’avère fondée. Et le gain de temps qui en découle dans les recherches pour les collaborateurs est un argument souvent entendu et fondé lui aussi.
Enfin, les donneurs d’ordre (banques, assurances, grands groupes industriels) cherchent en permanence à faire des économies sur leurs départements, le juridique comme les autres. Et plus particulièrement sur leurs prestataires (avocats …).

Mais pour l’heure, l’essentiel des économies potentielles est recherchée ailleurs : dans le secteur public. La Justice française a un problème budgétaire criant, reconnu par le ministre de la Justice de 2016, Jean-Jacques Urvoas [397] et régulièrement mise en évidence [398] par des rapports de la Cour des comptes et de la Commission européenne pour l’efficacité de la justice du Conseil de l’Europe (CEPEJ) [399]. Une tribune iconoclaste aux Echos, rédigée par des non juristes (évidemment ...), propose d’ailleurs carrément de confier la justice française à l’intelligence artificielle [400]. Et confirmation le 5 avril 2017 : la proposition n° 48 du rapport de la mission d’information sénatoriale sur le redressement de la justice présidée par Philippe Bas (voir pp. 20, 21 et 36 du dossier de presse) consiste à « mettre les outils de la "justice prédictive" au service du bon fonctionnement de la justice et de la qualité des décisions de justice et prévenir leurs dérives possibles » [401]. Pour plus de détails sur le manque de moyens de la justice française, voir notre article Pas assez de juges en France, rien n’a changé.

La volonté des pouvoirs exécutif et législatif de profiter de la justice prédictive pour compenser le manque de moyens et les retards de la Justice française par la médiation et la transaction est tout aussi claire dans la loi de réforme de la Justice la Justice, où on autorise les services de médiation en ligne et permet même leur certification (facultative) [402]. Si, comme l’écrivaient les Affiches Parisiennes à propos de l’enquête (autodéclarative) 2018 sur les legal tech publiée par Maddyness et les Actualités du droit (Lamy) [403], « le pourcentage des start-up qui proposaient une plateforme de médiation en ligne [fin 2018 était] faible », c’est probablement parce que les investisseurs attendaient ce feu vert officiel. Pour citer les Affiches : « Alors que le projet de loi Justice leur consacre spécifiquement un article, seules 1,6 % [des legal tech] proposent, pour l’heure, un tel service. Le boom aura certainement lieu l’an prochain [en 2020, donc], après le vote de la réforme » [404].

Et en effet, un an après ce constat, c’est le lendemain même de l’entrée en vigueur le 1er janvier 2020 de l’obligation de médiation pour les petits litiges (loi de réforme de la justice du 23 mars 2019), que le site Justice.cool, en fait un site de médiation assisté par IA (cf supra), est lancé [405]. Toutefois, l’obligation de conciliation ou médiation créée par la loi de modernisation de la justice de 2019 a été relativisée annulation par le par le Conseil d’Etat [406], qui a amené le Gouvernement à fixer à trois mois le délai au-delà duquel l’indisponibilité de conciliateurs de justice pourra être regardée comme établie pour dispenser les parties de l’obligation préalable de tentative de résolution amiable du litige [407].

De leur côté, les dirigeants de Case Law Analytics l’assument depuis l’origine : leur produit est taillé pour favoriser les transactions et désengorger les tribunaux [408] :

« Les assureurs sont également des clients, en particulier les assureurs de protection juridique. On a un outil très performant pour les assurés qui ont très rapidement une vision précise du risque et de l’analyse de leur cas. L’objectif premier étant d’éviter le procès et de raccourcir les délais d’indemnisation.
Notre outil va également avoir son rôle à jouer pour favoriser les modes alternatifs de règlement des litiges.
En effet, le nombre de litiges augmente, et il n’y aura pas deux fois plus de juges dans 10 ans et il n’y aura pas 2 fois plus de budget dans 10 ans. En revanche, il y aura beaucoup d’outils qui vont permettre de s’assoir autour d’une table pour décider et négocier sur des bases solides. »

On retrouve le même objectif, affirmé cette fois par Predictice et un assureur, dans un article de l’Argus de l’assurance [409] :

« " Si nous avons un outil prédictif, nous disposons d’un argument supplémentaire pour convaincre les clients de faire un compromis. C’est un outil d’aide à la décision augmentée ", explique Christophe Bardet, directeur général de Covéa PJ. Selon un sondage anonyme réalisé par Predictice auprès de treize de ses utilisateurs, tous déclarent que cette solution leur permet de mieux négocier et de favoriser un mode alternatif de résolution des litiges. »

Le rapport final de la mission de recherche Droit & Justice "Comment le numérique transforme le droit et la justice" (juillet 2019), auquel J. Lévy Véhel a collaboré, propose un volet intitulé "Encadrement juridique des modes algorithmiques d’analyse des décisions" (MAAD), rédigé par Lêmy Godefroy, maître de conférences en droit privé, dont la finalité est clairement exprimée dans le titre de son VI : "La finalité : le règlement des litiges à l’aide des MAAD" [410]. C’est la partie de loin la plus novatrice et la plus audacieuse du document, notamment par ses implications en termes de nombre et de place des juges et des avocats dans la Justice. Et ce, en dépit du caractère facultatif annoncé et des précautions prises par l’auteure pour ne pas totalement enfermer juge et avocat dans la procédure qu’elle propose, mais qui ne tromperont pas un lecteur attentif.

Jugez-en par vous-même : voici les extraits pertinents des règles de procédure proposées :

  • « les MAAD aident à qualifier le litige. Si celui-ci est juridiquement singulier, il est dirigé vers la procédure ordinaire. S’il est juridiquement analogue, il sera orienté vers une procédure dématérialisée spécifique, amiable ou judiciaire. Le concours des MAAD est signalé aux parties qui peuvent exprimer leur refus »
  • « l’assistance et/ou la représentation par avocat n’est pas obligatoire »
  • « dans le règlement amiable, les MAAD fournissent un socle à la discussion entre les parties. Dans le règlement judiciaire, le juge, utilisant les MAAD, établit l’existence d’un droit en faveur de l’une des parties (dommages-intérêts [...]). Toujours aidé des MAAD, il définit le montant à allouer au créancier du droit à réparation »
  • conformément aux art. 5 C. civ. (interdiction des arrêts de règlement) et 455 CPC (obligation de motivation d’après les circonstances particulières du procès) « le juge justifie des raisons de fait et/ou de droit pour lesquelles il rejette ou accueille la demande » [NB : on sent là comme une contradiction, vu le peu de temps qu’ont déjà aujourd’hui les juges pour traiter une affaire. En effet, si on leur achète un tel outil, sera-ce à effectifs égaux et sans augmentation du flux de nouvelles affaires ? Vu le passé, on peut légitimement en douter]
  • « l’orientation procédurale des appels [...] est réalisée de manière dématérialisée par une chambre spéciale attachée à la Cour d’appel. La représentation par avocat est obligatoire. A l’aide des MAAD, cette chambre recherche l’éventuelle singularité juridique du litige. Plus précisément, par comparaison aux résultats fournis par les MAAD, le juge vérifie dans l’énoncé des chefs du jugement critiqués si le litige soulève une question de principe et/ou suscite une évolution de jurisprudence, s’il porte sur une question nouvelle ou inédite ou sur une question non résolue par une jurisprudence établie, s’il renferme une certaine complexité (divergences de jurisprudence, difficultés de qualification juridique des faits, problèmes d’interprétation de la règle applicable, etc.), des problématiques sérieuses ou d’« importance fondamentale ». À l’issue de cet examen, l’appel est soit traité sur la plateforme dématérialisée à l’aide des MAAD, soit soumis à la Cour d’appel selon la procédure ordinaire. »

On voit bien à la lecture de cette proposition de règles procédurales que les outils d’IA reviennent à chaque instant, y compris en appel. Quant au caractère facultatif, il suffira d’évoquer le délai supplémentaire (pour causes budgétaires ...) de la voie procédurale ordinaire pour dissuader les justiciables de l’emprunter.

Enfin, pour en finir avec les raisons structurelles de la montée des "IA" en droit, il ne faut pas oublier :

  • comme évoqué plus haut, les lents mais systématiques progrès de l’informatique, tant des applications (logiciels) que du matériel, notamment en matière de puissance de traitement, vitesse et débit des réseaux. Tout simplement. On l’oublie trop souvent
  • et le besoin pour les éditeurs et les legal tech d’obtenir des résultats plus pertinents dans les recherches en ligne par mots-clés, surtout avec des jeunes juristes qui ont de moins en moins la culture de la recherche papier (catalogue, table des matières, index alphabétique). Ce que la pandémie de Covid-19 n’a fait que renforcer.

12. Impact prévisible des "IA" sur les jeunes collaborateurs, stagiaires, paralegals et documentalistes juridiques ?

Avant d’aborder, très concrètement, ce que l’IA modifie actuellement et peut modifier à l’avenir dans le travail des juristes et des administratifs qui travaillent pour eux, il faut revenir sur la définition de l’intelligence artificielle. Là, on peut calmer (pour l’instant) ou renforcer en partie (pour l’avenir) certaines des peurs et fantasmes mais aussi espoirs que déclenche le seul terme d’IA.


Sommaire du livre L’intelligence artificielle et le droit (Larcier, 2017)

12.1. Les limites de l’IA faible actuelle et la probabilité de l’avènement d’une IA généraliste (AGI) à défaut d’une IA forte. Relativiser l’IA ou s’attendre à la fin du travail ?

On l’a vu plus haut, ce qu’on appelle IA est, à strictement parler, un champ de recherche. Par extension, on qualifie aussi d’IA les produits qui se rangent dans ce champ [411]. On parle bien ici de *recherche* : on n’en est pas actuellement — ni dans un futur proche — à reproduire le fonctionnement d’une intelligence humaine.

Un des deux co-fondateurs de l’équipe de recherche en IA de Uber, Gary Marcus, professeur de psychologie à l’Université de New York, le disait clairement en 2017 [412] : « Il y a tout ce que vous pouvez faire avec le deep learning [...]. Mais ça ne veut pas dire que c’est de l’intelligence. L’intelligence est une variable multi-dimensionnelle. Il y a beaucoup de choses qui rentrent dedans. [...] La véritable IA est plus éloignée que ce que pensent les gens. » Marcus est un partisan de l’intelligence artificielle neuro-symbolique [413]. Comme beaucoup d’aurtres spécialistes de l’IA, probablement minoritaires actuellement face aux avancées du machine learning, il estime que l’AGI nécessitera une approche fondée sur les sciences cognitives et une bien meilleure connaissance du cerveau humain.

Il faut ici faire une pause et préciser deux points très importants dans le débat sur l’IA et plus particulièrement sur l’AGI :

  • primo, la définition de l’intelligence artificielle générale ne fait l’objet d’aucun consensus
  • et, comme le rappelle Gary Marcus, « bien qu’une grande partie de la littérature assimile le risque lié à l’IA au risque de superintelligence ou d’intelligence artificielle générale, il n’est pas nécessaire d’être superintelligent pour créer de graves problèmes ». Il ne s’inquiète pas, dans l’immédiat, du "risque AGI" (le risque de machines superintelligentes échappant à notre contrôle), mais à court terme, de ce qu’il appelle le "risque MAI" — une IA médiocre qui n’est pas fiable ET qui est largement déployée.

Face à l’affirmation en 2018 tant par Mark Zuckerberg que par Shane Legg, le directeur du programme DeepMind de Google, que d’ici 2020 on aurait atteint une IA de niveau humain, Melanie Mitchell, professeur d’informatique à l’Université d’Etat de Portland s’inscrivait en faux fin 2018 dans le New York Times [414]. Pour elle, ce ne sont pas le machine learning ni les réseaux neuronaux qui parviendront à une réelle compréhension et au simple bon sens des humains [415].

M. Mitchell et deux autres collègues spécialisées en éthique de l’IA, Timnit Gebru et Emily Bender, sont allées plus loin, dans un article célèbre, Stochastic Parrots, qui a valu à deux d’entre leur renvoi de l’équipe Ethics de Google (Microsoft a fait de même en mars 2023 : il a dissout son équipe chargée de l’éthique IA [416]) : [417]. Pour reprendre les mots d’un article de vulgarisation du magazine américain Science for the People [418], voici les principaux reproches que les trois auteures font aux LLM : « leurs coûts environnementaux, le risque que les gens soient trompés par eux [les "hallucinations" évoquées plus haut] et les biais qui sont intégrés dans les données de formation et qui se reflètent dans leurs performances. »

Plus particulièrement, les trois femmes reprochent ceci aux "large language models" :

« La communication humaine vise à donner un sens à ce que les autres disent ou écrivent, et nous avons donc une forte tendance à trouver une cohérence et un sens même s’ils ne sont pas présents. Dans le cas d’un texte produit par un LLM, ils n’existent pas. Un modèle de langage ne connaît rien d’autre que des informations probabilistes sur des séquences de mots dans le corpus sur lequel il a été formé. Le texte qu’il produit n’a aucun objectif de communication, aucun sens véritable : c’est un perroquet stochastique. Entre de mauvaises mains, il pourrait s’agir d’un perroquet vraiment dangereux. Par exemple, nous pourrions produire d’énormes quantités de textes apparemment cohérents sur un sujet donné, donnant l’impression que le public est très intéressé à en discuter, ou nous pourrions générer d’innombrables pages de commentaires sur un exemple de fake news, réifiant l’information et la transformant effectivement en réalité sociale. »

Ces critiques recoupent celles exposées plus haut de Gary Marcus sur l’absence de bon sens, de véritable raisonnement et de sens des valeurs (morale) des IA actuelles. Notez que le point commun entre ces quatre personnes est qu’elles ne sont pas des développeurs ...

Il faut ajouter à ces limites deux obstacles classiques : la résistance au changement, si tant est que cette résistance ne découle pas d’un manque d’anticipation ... de la résistance (inévitable) ou d’une relation managers-employés brisée [419], et la difficulté des dirigeants à saisir ce qu’une nouvelle technologie peut leur apporter [420]. On notera par exemple que si le machine learning permet aux investisseurs d’exploiter d’énormes masses de données comme les publications sur les réseaux sociaux, en dépit de ce potentiel, ses performances restaient en 2018 mitigées. L’indice Eurekahedge AI Hedge Fund, qui retrace le rendement de 13 "hedge funds" qui utilisent le machine learning, n’a gagné que 7% par an sur 2013-2017, quand l’indice S&P 500 gagnait 13%. Selon Marcos López de Prado, responsable machine learning chez AQR Capital Management et auteur du livre Advances in Financial Machine Learning (Wiley, 2018), l’un des pièges potentiels des stratégies d’apprentissage automatique est le rapport signal/bruit extrêmement faible sur les marchés financiers. Les algorithmes d’apprentissage automatique identifieront toujours un motif, même s’il n’en existe aucun, dit-il. Les algorithmes sont donc susceptibles d’identifier de fausses stratégies. Il faut une connaissance approfondie des marchés pour appliquer avec succès l’apprentissage automatique aux séries financières [421] (si tant est que ce soit possible, car le professionnel auteur de l’article précité du Financial Times sur la "hype" de l’IA en finance de marché estime qu’en finance, l’IA ne peut pas tirer d’enseignements du passé).

Beaucoup des objections/limites à l’IA exposées aux paragraphes juste au-dessus appartiennent au passé.

En effet, ce que nous voyions jusqu’en 2022, c’était ce que les spécialistes de l’IA appellent "week AI" (ou "narrow AI"). Comme l’expliquent Wikipédia et Techopedia, l’IA faible est une intelligence artificielle non-sensible qui se concentre sur une tâche précise. Autrement dit, l’IA faible consiste à imiter une fonction étroite typiquement humaine, comme reconnaître un chat sur une photo floue (reconnaissance de forme/d’image) et à le faire plus rapidement. L’IA faible est définie par contraste avec l’IA forte (une machine dotée de conscience, de sensibilité ("sentient") et d’esprit, tout comme un être humain) ou, un degré en dessous, l’intelligence artificielle générale ou AGI [422] (une machine capable d’appliquer l’intelligence à tout problème plutôt qu’un problème spécifique, autrement dit capable d’apprendre et exécuter les mêmes tâches intellectuelles qu’un être humain) [423].

Le point le plus important ici est que si pour l’instant tous les systèmes d’IA actuellement existants en droit sont des intelligences artificielles faibles, des IA généralistes et s’approchant d’une IA forte (mais encore pour le moins maladroites en droit) ont fait surface en 2022 avec LaMDA de Google et surtout GPT-3 et ses avatars et successeurs (cf supra).

Et au vu des performances de ChatGPT (qui est rappelons le, une version de démonstration de GPT-3.5), GPT-4 et ses concurrents risquent fort d’obliger à nuancer dans le futur le jugement "IA faible" qu’on peut porter sur les actuelles applications au droit de l’informatique avancée. Le raisonnement lui-même, parce qu’il se fait par les mots, pourrait un jour être à la portée des IA génératives de texte, nous l’avons déjà mentionné plus haut.

Passés la curiosité et l’enthousiasme créés par ChatGPT, le débat sur l’emploi et les risques de l’IA fait rage désormais. Voir l’étude de Goldman Sachs citée par le Financial Times [424] et la lettre ouverte/pétition du Future of Life Institute appelant les firmes à un moratoire de 6 mois sur les LLM plus puissants que GPT-4 et les gouvernements à un encadrement juridique [425]. Par exemple, si on réduit les stagiaires, qui va former les futurs collaborateurs ? Les révolutions technologiques passées ont détruit mais aussi créé des métiers (voir infra, notamment Stephen Wolfram). Mais l’histoire ne se répète pas dit-on ...

Gary Marcus lui-même a évolué. Sur son blog Substack, début 2023, il écrit [426] : « Mon propre scepticisme a des limites. Je pense que nous finirons par atteindre l’AGI, et très probablement avant la fin de ce siècle » [ce que la plupart des experts tendrait à confirmer, voir infra]. Quant à Grady Booch d’IBM, historien de l’informatique, il est convaincu « que l’esprit est calculable/informatisable ("computable") et qu’il est donc concevable que des esprits synthétiques puissent être formés, des esprits qui présentent le comportement d’esprits organiques ». La condition selon Marcus et Booch et toute une école proche des sciences cognitives, est une étude beaucoup plus poussée de l’intelligence et du raisonnement humain [427].

L’analyste IA Alberto Romero estime que les IA génératives supprimeront, oui, des emplois [428].

Plus généralement, de nombreux entrepreneurs millionnaires comme Bill Gates ou Elon Musk (voitures électriques Tesla) et des scientifiques comme l’astrophysicien Stephen Hawking ou le docteur Laurent Alexandre (fondateur de Doctissimo) estiment que l’IA va créer du chômage et que les conséquences sociales de cette nouvelle révolution sont encore largement sous-estimées. Elon Musk estimait par exemple le 15 février 2017 que les conducteurs professionnels (soit 15% de la population active mondiale) pourraient se retrouver sans emploi dans les 20 prochaines années, et qu’il y aura de moins en moins de métiers qu’un robot ne pourra pas faire [429]. Le cabinet américain Forrester anticipait en 2015 pour le marché de l’emploi des Etats-Unis, une disparition nette de 7% des jobs d’ici 2025 imputable à l’automatisation [430].

Côté France, la journaliste indépendante Tiffany Blandin préconise en conclusion de son enquête Un monde sans travail ? [431], de « regarder l’automatisation dans les yeux ». Elle explique que « personne ne peut dire précisément combien d’emplois vont disparaître à cause de l’intelligence artificielle » et que « c’est pour cela que les dirigeants de la Silicon Valley se sont pris de passion pour le revenu universel ». Et le Canard Enchaîné d’ironiser sur les 10% de postes en danger d’être détruits selon le rapport du 10 janvier 2017 du Conseil d’orientation pour l’emploi (COE) [432], en notant que cela représente quand même 3 millions de chômeurs en plus [433].

On ne parlera pas ici de l’ubérisation, que redoutent aussi bien le magazine Capital qu’un un enseignant de l’Université Paris Dauphine [434].

Les spécialistes en intelligence artificielle vont même plus loin : la plupart d’entre eux estiment qu’une IA suffisamment "forte" pour remplacer au travail les humains adviendra d’ici 100 ans, et certains parlent de 2040 [435]. Voici les résultats des deux études les plus influentes menées sur ce sujet depuis 2016 :

  • un sondage mené fin 2016 auprès de 352 chercheurs en IA également auteurs d’articles et présents lors de deux conférences sur le sujet [436] a donné le résultat suivant : selon eux, en se plaçant donc en 2016, il y a une chance sur deux que l’IA soit meilleure que les humains à à peu près tout type de tâche individuelle ("High level machine intelligence (HLMI) - AI human tasks") dans 45 ans, soit 2061, et une chance sur deux que tous les emplois humains soient automatisés ("AI human jobs"), y compris la recherche en IA, dans 122 ans (voir les graphiques en fin d’article). Fin 2017, ce sondage était fréquemment cité. L’auteure principale de ce sondage, Katja Grace, a renouvelé l’exercice en 2022 : « le temps de prévision agrégé jusqu’à une probabilité de 50% d’HLMI » est passé de 2061 à 2059 [437]
  • la prévision issue des recherches d’Ajeya Cotra, qui travaille pour l’organisation à but non lucratif Open Philanthropy. En 2020, elle a publié une étude détaillée estimant l’année d’arrivée de l’IA transformatrice [438] (une IA qui déclencherait une transition comparable à (ou plus importante que) la révolution industrielle). Son calendrier ne repose pas sur des enquêtes, mais sur l’étude des tendances à long terme de l’informatique utilisée pour entraîner les systèmes d’IA. Cotra estimait en 2020 qu’il y avait 50% de chances qu’une IA transformatrice devienne possible et financièrement abordable d’ici 2050. En 2022, cette estimation est passée à 2040 [439].

Et donc, pour reprendre les mots de l’avocat et expert en IA juridique Thierry Wickers, « ce serait commettre une erreur de raisonnement majeure que de penser que certains secteurs d’activité resteront à l’abri de toute influence de l’IA, tant qu’il n’existera pas une IA "forte" » [440].

Pour autant, si on parle d’une d’une réelle AGI, Grady Booch, de son point de vue d’historien et donc très conscient du ridicule jusqu’ici des prédictions des avocats de l’IA, estime que ni vous ni vos petits-enfants ne verrez l’avènement d’une AGI. Pour lui, « nous ne disposons pas encore — et je ne pense pas que nous le ferons à l’avenir — de l’architecture appropriée pour la sémantique de la causalité, le raisonnement abductif, le raisonnement de bon sens, la théorie de l’esprit et du soi, ou l’expérience subjective. » [441]

Certains spécialistes du cerveau et de la connaissance estiment même une AGI quasi-impossible. Ainsi, le neurobiologiste Antonio Damasio, l’un des plus grands spécialistes et théoriciens mondiaux du cerveau et directeur du Brain and Creativity Institute à Los Angeles [442], reste assez sceptique quant à ce qu’on appelle l’ "IA forte" à cause de la part émotionnelle et physiologique en jeu dans le fonctionnement du cerveau et des processus cognitifs de l’être humain [443] :

« Ce que j’affirme ici, c’est que le cerveau et le corps sont étroitement liés et que ce que l’on appelle l’esprit n’est pas le produit du seul cerveau mais bien de son interaction avec le corps. Presque tous les problèmes auxquels se heurte la philosophie de l’esprit viennent de ce que ses penseurs partent du fait, biologiquement faux, que l’esprit est un pur produit du cerveau, et même de cette partie la plus évoluée du cerveau qui en est le cortex. [...]
Si nous avons demain des voitures autonomes qui causent moins d’accidents ou des robots-docteurs qui font des diagnostics plus sûrs que des médecins humains, tant mieux ! Mais je reste, il est vrai, assez sceptique quant à ce qu’on appelle l’ "IA forte", la possibilité de construire des ordinateurs ou des robots doués de conscience, ou du moins de certaines des composantes de la conscience.
A commencer par la subjectivité, cette conscience de soi qui fait par exemple que, lorsque je discute avec une personne, comme en ce moment avec vous, ma conscience ne se limite pas aux perceptions visuelles ou auditives de cette personne, il s’y ajoute le fait que je sais que je suis en train de discuter avec elle, que je me vois et m’entends en train de discuter avec elle. Car tout ceci — conscience, subjectivité — suppose un corps vivant régi par l’homéostasie, que par définition les ordinateurs ou les robots n’ont pas. Cela dit, un jeune doctorant de mon laboratoire est en train d’essayer de développer un programme d’IA reposant sur une simulation de corps vivant soumis à des processus de type homéostatique — et naturellement je le soutiens...
Disons que je pense que l’IA mérite pleinement son qualificatif d’ "artificielle". Simuler des sentiments est possible, mais simuler n’est pas dupliquer. Tant qu’ils seront privés d’affects, les programmes d’IA, même très intelligents (bien plus que nous !), n’auront rien à voir avec les processus mentaux des êtres humains. Et tant qu’ils seront privés de corps vivants régis par les lois de l’homéostasie, ils seront privés de conscience et d’affects ... »

Dans son essai de neurologie classique, L’erreur de Descartes (1995), Antonio Damasio démontre que la raison seule ne suffit pas à générer nos pensées. Contrairement à ce qu’indique la conception classique cartésienne, les émotions font partie intégrante des processus de raisonnement et de décision. Le système de raisonnement est une extension du système émotionnel automatique, l’émotion jouant des rôles divers dans le processus de raisonnement, de manière avantageuse ou néfaste selon les circonstances de la décision et l’histoire passée de celui qui décide. L’émotion joue un rôle dans l’intuition, processus cognitif rapide grâce auquel nous parvenons à une conclusion sans avoir conscience de toutes les étapes logiques qui y mènent. Les émotions nous aident à formuler un jugement moral, pour nous prononcer sur l’avenir d’une relation personnelle ou former des projets [444]. Et, comme le dit le paradoxe de Moravec décrit plus haut (voir 2.3.), les émotions font partie de ce qui est le plus difficile à reproduire en IA.

Pierre Lévy écrit, lui : « Aussi bien les journalistes que les auteurs de roman ou de série TV présentent les robots ou l’intelligence artificielle comme capable d’autonomie et de conscience, que ce soit dès maintenant ou dans un futur proche. Cette représentation est à mon avis fausse, mais elle fonctionne très bien parce qu’elle joue ou bien sur la peur d’être éliminé ou asservi par des machines, ou bien sur l’espoir que l’intelligence artificielle va nous aider magiquement à résoudre tous nos problèmes ou – pire – qu’elle représenterait une espèce plus avancée que l’homme. » [445] Il ajoute qu’ « il faut bien constater l’échec théorique de l’IA puisque, malgré la multitude des outils algorithmiques disponibles, l’intelligence artificielle ne peut toujours pas exhiber de modèle convaincant de la cognition. La discipline a prudemment renoncé à simuler l’intelligence dans son intégralité. » [446]

Enfin, selon les mots du célèbre psychologue cognitiviste canadien Steven Pinker dans un magazine américain de vulgarisation scientifique [447] : « On nous a dit de craindre les robots, [mais] le soulèvement des robots est un mythe. [...] [Sa] première fausseté est une confusion entre intelligence et motivation, entre connaissances et désirs, entre inférences et buts, pensée et volonté. »
Mais Booch n’est pas aussi optimiste : « En tant qu’espèce, nous sommes mal préparés à métaboliser correctement une intelligence aussi supérieure, et les questions éthiques sur la façon dont nous, les humains, et ces êtres artificiels sensibles, devrions nous traiter les uns les autres, dépassent de loin la capacité des sociétés et des gouvernements de la Terre à les aborder avec un certain degré de sagesse ou de dignité (il regarde la Chambre des représentants des États-Unis). Quel pouvoir et quels droits aurions-nous, nous, individus, dans l’ombre d’une métacorporation qui aurait indubitablement été celle qui a donné naissance à une telle création à l’échelle ? Traiterions-nous ces nouveaux esprits comme des esclaves au sens propre ? Comment cela diviserait-il davantage les riches et les pauvres de ce monde ? »

Il y a aussi un débat sur la légalité et l’opportunité de laisser les legal tech investir le marché du droit (principalement celui des avocats mais aussi celui des notaires) et de l’information juridique. Sur ce sujet, je vous renvoie aux articles cités en première partie plus haut. Sur les risques de la justice prédictive, voir infra. On peut aussi citer l’avocate Michèle Bauer [448] :

« Les legaltech ne sont rien sans les avocats [449]. Les services proposés sont la plupart du temps des services dans lesquels sont associés les avocats : rédaction de statuts de société pas chère, demandes de devis, recherche d’un postulant ... »

Cela dit, le magazine Business Insider, en rendant compte [450] en 2017 du sondage de 2016 auprès des experts en IA précité, appellait à la prudence. Il commençait par rappeller que de nombreuses prédictions d’experts dans le passé se sont avérées fausses. Surtout, Business Insider expliquait que :

« Quarante ans est un chiffre important lorsque les humains font des prédictions parce que c’est la durée de la vie active de la plupart des gens. Donc, si un changement est censé se réaliser après, cela signifie qu’il se produira au-delà de la durée de vie active de tous ceux qui travaillent aujourd’hui. En d’autres termes, il ne peut se produire avec une technologie dont les experts d’aujourd’hui ont une expérience pratique. Cela suggère qu’il s’agit d’un chiffre à traiter avec prudence. »

La prospective, les prévisions sont un exercice délicat — et difficile. Comme le dit très bien l’introduction de cet article scientifique publié aux Proceedings of the National Academy of Sciences (PNAS), une revue à comité de lecture de la National Academy of Sciences américaine (NAS) : « lorsque les prévisions sont examinées rétrospectivement, elles s’avèrent souvent mal calibrées, la valeur réelle se situant trop souvent en dehors de l’intervalle de prévision, ce qui dénote un excès de confiance. » [451]

La réalité, selon un développeur en IA, c’est que personne ne sait ce qui va arriver dans les 2 à 3 ans — voire même dans les 12 mois — car il faut être sur les projets chez Google, DeepMind, Microsoft ou OpenAI pour avoir une réelle idée.

Pour les IA génératives comme GPT, l’empathie, l’humour, mais surtout le bon sens, le raisonnement et plus encore l’originalité/l’inventivité leur sont étrangers, on l’a vu plus haut.

Quant à l’IA connectée au cerveau, ce n’est vraiment pas pour tout de suite. Des recherches existent, comme le projet Kiwi de la société Nitoo de Newton Howard [452]. Nitoo a mis au point un prototype d’implant neuronal de la taille d’un grain de riz et pesant moins de 2 grammes, qui pourrait être implanté dans la cloison nasale. Cet implant permet de capter des informations envoyées par les neurones et de leur répondre. Il y a aussi le programme Neuralink développé depuis 2016 par Elon Musk : un implant, une puce cérébrale permettant aux personnes paralysées de faire fonctionner des technologies, telles que des smartphones ou des membres robotisés, par la pensée [453].

Mais pour Ricardo Chavarriaga Lozano, spécialiste de l’interface cerveau-machine à l’Ecole Polytechnique Fédérale de Lausanne, interrogé en 2018, « il faut prendre des pincettes : beaucoup de recherches doivent encore être effectuées avant de pouvoir modifier le vivant » [454]. Le chirurgien français Laurent Alexandre, fondateur du site Doctissimo, et partisan de l’être humain augmenté (ou transhumanisme), commentant les prédictions du singulariste (et par ailleurs employé de Google) Ray Kurzweil, estimait en 2016 qu’ « un cerveau connecté, on en est encore loin. Croire qu’on y arrivera d’ici 15/20 ans, il me semble que c’est faire preuve de naïveté neuro-technologique. Pour l’instant, les seules choses que nous arrivons à faire, c’est recréer des faux souvenirs chez des rats par exemple, en les "connectant". Mais on leur bousille le cerveau, on est très loin d’être au point sur ce sujet-là » [455]. Et selon un article de décembre 2022 de Business Insider, « si Elon Musk aime se vanter que Neuralink permet aux singes de contrôler des ordinateurs grâce aux signaux de leur cerveau, les neuroscientifiques n’y voient pas grand-chose de révolutionnaire » [456]. Implanter à des primates des interfaces cerveau-neurone qui leur permettent de contrôler des objets sur des écrans n’est pas nouveau. Des chercheurs avaient mis au point ce type de technologie en 2002, et ses origines remontent aux années 1960.

Comme l’explique Olivier Ezratty (ancien de Microsoft France), les livres et articles sur l’impact de l’IA sur l’emploi font l’impasse sur plusieurs points clés [457] :

  • « au démarrage des précédentes révolutions industrielles, les métiers disparus comme les nouveaux métiers ont rarement été bien anticipés. Pour ce qui est du futur, à vrai dire, on n’en sait pas grand chose », car il y a « [trop de] paramètres à prendre en compte »
  • un phénomène induit par le numérique et qui n’a rien à voir avec l’intelligence artificielle : « le transfert du travail non pas seulement vers les machines mais aussi vers les clients » (clic work ou digital labor [458]). Exemples : les formulaires et modèles de contrats en ligne que nous remplissons nous-mêmes ou les guichets automatiques bancaires
  • ils se focalisent sur la situation aux Etats-Unis, ignorant la plupart du temps totalement le reste du monde
  • ils ont « bien du mal à faire le tri dans les évolutions de l’emploi entre ce qui provient de l’automatisation, de la globalisation et de la concurrence asiatique dans l’industrie manufacturière et même indienne, dans les emplois concernant les services informatiques. L’emploi a surtout migré géographiquement. Les emplois perdus dans l’industrie aux USA et en Europe se sont retrouvés en Asie » [et en Europe de l’Est].

C’est une anecdote et un exemple limité, mais en 2016 Geoffrey Hinton, co-récipiendaire du prestigieux Prix Turing 2018 pour ses travaux sur les réseaux de neurones, déclarait : « On devrait arrêter de former des radiologues maintenant. Il est tout à fait évident que dans cinq ans, le “deep learning” fera mieux que les radiologues. » Pourtant, six ans plus tard, malgré la disponibilité de logiciels d’IA en radiologie et la validation de nombreux programmes par des organismes de réglementation, le "grand remplacement" des radiologues par l’IA n’a pas eu lieu. En fait, l’évolution démographique de la profession et l’augmentation du nombre d’examens d’imagerie semblent créer une pénurie de radiologues plutôt que de les rendre obsolètes. Bien que de nombreux progrès aient été réalisés dans le domaine de la radiologie assistée par l’IA, l’utilisation réelle de l’IA par les radiologues reste relativement timide [459].

Stephen Wolfram, un praticien de l’IA depuis 2002 déjà cité plus haut, qui apprécie beaucoup ChatGPT et déclare que l’IA régira in fine une bonne partie de nos vies, estime lui que malgré les progrès de l’informatique — dont, rappelons le, l’IA n’est que la frange la plus avancée — il reste et restera toujours un part d’ « irréductibilité computationnelle ». Surtout, il montre, statistiques de l’emploi et des métiers aux Etats-Unis depuis 1850 à l’appui, qu’à chaque révolution technologique, les métiers se diversifient et complexifient et que les nouveaux métiers "remplacent" ceux disparus [460].

Autre publication relativisant les choses : selon le rapport de 2017 précité du COE [461], moins de 10% des emplois sont "très exposés" aux mutations technologiques et présentent donc le risque d’être supprimés — mais près de la moitié des emplois devront toutefois évoluer [462]. Les emplois juridiques évoqués supra ne sont pas dans la liste des 10% du COE. Et Anne-France de Saint-Laurent Kogan, spécialiste des transformations du travail liées au numérique, tempérait elle aussi les choses en 2016 [463].

Dans une autre étude (américano-britannique) publiée en 2017, The Future of Skills’ Employment in 2030, le panel des personnes interrogées estime que tant les juristes que les bibliothécaires documentalistes feront partie des métiers pour lesquels la demande va augmenter à l’échéance 2030. Cette enquête a été produite par l’éditeur scolaire et universitaire Pearson, NESTA, une fondation pour l’innovation globale et l’Oxford Martin School. Surprise : les bibliothécaires documentalistes sont carrément listés dans le segment "haute croissance". Toutefois, les compétences demandées aux bibliothécaires documentalistes vont probablement évoluer dans les années à venir [464]

Menée par les professeurs américains Dana Remus (Faculté de droit de Université de Caroline du Nord) et Frank Levy (économiste, Massachusetts Institute of Technology, le fameux MIT), une étude publiée en novembre 2016 suggérait que l’IA a « un effet modéré » sur des métiers tels que la recherche documentaire juridique et la rédaction de contrats [465]. L’étude indiquait que les tâches précitées représentaient environ 40% de la facturation globale des avocats.
Selon l’étude — un gros article scientifique de 77 pages —, l’impact estimé de l’IA sur l’examen de documents ("document review", là aussi une procédure inconnue en droit français) — qui consiste essentiellement à passer en revue de grandes masses de documents pour y chercher les détails pertinents dans le cadre d’un contentieux — était « fort ». Heureusement pour les avocats anglo-saxons, l’étude ajoutait que cela représentait seulement 4% des heures facturées (il faut dire que cette activité a déjà été massivement informatisée et externalisée ou délocalisée).
Toujours selon cette étude, l’impact estimé de l’IA sur des domaines tels que le "fact-checking" (vérification des faits, typique du droit anglo-saxon), le conseil aux clients, la gestion électronique de documents (GED), la rédaction de conclusions et les audiences — le tout représentant près de 55% des heures facturées — était « faible » en 2016.

En 2020, Michael Webb, économiste à l’Université de Standford, arrive à des conclusions proches [466]. Il suppose que contrairement aux robots et aux logiciels, qui peuvent concurrencer des métiers moins qualifiés, l’intelligence artificielle menace davantage les emplois à hautes compétences, car elle ne se contente pas d’effectuer des tâches répétitives. Sur les professions juridiques, il écrit qu’il serait tentant de conclure que les avocats seront bientôt obsolètes. Cependant, ses résultats suggèrent que les paralegals sont beaucoup plus exposées à l’IA que les avocats eux-mêmes, car ils passent la plupart de leur temps à examiner des documents. Ces tâches, telles que l’examen des contrats à la recherche de clauses inhabituelles, se prêtent parfaitement à l’automatisation par l’IA. Webb parle toutefois ici des paralegals américains. Or les français, proportionnellement beaucoup moins nombreux, réalisent des tâches très différentes. Il pense aussi à ceux parmi les juges « qui passent la plupart de leur temps à rendre des jugements sur des affaires hautement standardisées et pour lesquelles le droit est établi ». En revanche, les avocats, en tout cas ceux « qui passent une grande partie de leur temps à s’entretenir avec leurs clients et leurs collègues, à représenter leurs clients dans des négociations et des procès, et à travailler sur des affaires pour lesquelles il n’existe pas suffisamment de précédents pour qu’un algorithme puisse être entraîné avec succès, ne sont que très peu exposés à l’IA ».

Par ailleurs, en 2019, l’OCDE donnait l’estimation suivante : « Seulement 14 % des emplois existants présentent un risque de complète automatisation. » Par ailleurs, 32 % des emplois pourraient « profondément changer », sans pour autant disparaître [467].

En ce qui concerne la justice prédictive, le professeur Joël Monéger, spécialiste des baux, dans une tribune à la revue Loyers et Copropriété [468], formulait ainsi en 2017 les possibilités et les limites de la justice prédictive à la française :

« Prévoir le droit positif tient [...] de la gageure. [...] Certes, la prédictibilité de la solution paraît possible lorsque la plus haute juridiction a tranché le point de droit avec fermeté et de manière répétée. De même, semble-t-il, lorsqu’elle donne des signes annonciateurs d’un revirement possible de la jurisprudence. Mais, au-delà, la jurisprudence, même émanant de nos plus hautes juridictions, est bien souvent délicate à prévoir, notamment face à des textes récents, mal rédigés, ou à des textes en décalage grave avec les réalités sociales ou économiques. Cela tient à l’art de la rédaction des arrêts qui suppose un lecteur formé au décryptage de formules insuffisamment enseignées. De plus, la Cour de cassation ne peut pratiquer l’ultra petita et ne répond qu’aux moyens du pourvoi. »

Pour l’illustrer, il donnait l’exemple de deux jurisprudences récentes de la Cour de cassation. Même si la Cour de cassation a modifié la rédaction de ses arrêts pour donner plus de clarté à sa motivation, cette analyse nous semble toujours valable en 2023.

L’IA générative/LLM étant essentiellement une analyse statistique d’immenses volumes de langage, comment pourra-t-elle se prononcer sur l’application de nouveaux textes, notamment des directives européennes ? Ou sur des points de droit non interprétés par la jurisprudence et peu ou pas par la doctrine ?

En fait, il faut garder à l’esprit que la com’ sur les performances de l’IA vient du besoin des startups et des éditeurs de logiciels de vendre leurs produits. Dès qu’on lit la littérature scientifique, comme vous avez pu le constater supra, les choses sont relativisées. Comme l’avocate Michèle Bauer le dit — très directement — avec ses propres mots [469] :

« Les legaltech ne publient pas leurs chiffres et ne font que des effets d’annonce en prétendant avoir levé des millions d’euros, il est donc impossible de connaître leur véritable pouvoir économique. [...]
Méfiez-vous des fakes, des effets d’annonce et des informations diffusées sur le net, les legaltech en sont les artisans, les initiateurs. Le mensonge et l’embellissement de la réalité est une pratique courante sur la toile. »

Cela dit, nous sommes en 2023 et les récents et énormes progrès des IA génératives à la ChatGPT, comme nous l’avons évoqué, pourraient crédibiliser le narratif de la révolution IA en droit. Trois ans, c’était il y a longtemps en "temps IA" et les "LLM" les plus récents pourraient bien avoir un impact massif sur la rédaction de notes sur un point de droit, la gestion électronique de documents (GED) et la rédaction de conclusions.

Encore une fois, la question de l’efficacité de l’entraînement et du taux d’erreurs sera clé.

12.2. IA et documentalistes

Les outils d’IA juridique auront un impact sur la recherche — et donc la veille — documentaire juridique : les tâches répétitives et "découpables" en petits morceaux seront robotisées, les autres ne le seront pas. Par exemple, ROSS réalisait la recherche booléenne et la première analyse des résultats. Selon les termes d’Andrew Arruda [470] (traduction par nos soins) :

« La technologie AI de ROSS remplace le besoin d’utiliser les opérateurs et mots-clés de la recherche booléenne par du langage ordinaire. Si un juriste d’affaires a besoin de connaître la différence entre les deux concepts juridiques "loss" et "recoupment", tout ce dont le juriste a besoin est de demander à ROSS : "Quelle est la différence entre "loss" et "recoupment" ?
Le résultat fourni par le système va au-delà de la simple identification des arrêts pertinents. Au lieu de cela, il attire l’attention du juriste sur les passages clés dans l’affaire qui devrait répondre idéalement à la question posée.
Quand vous posez une question à ROSS sur l’état du droit, vous la posez comme vous le feriez avec un collègue humain. ROSS découpe la phrase pour déterminer le sens de la question, puis conduit la recherche. »

En 2021, grâce à la mise en open source de l’algorithme BERT de Google (et d’autres), le groupe d’édition juridique français Lefebvre Sarrut (sous la marque Lefebvre Dalloz) s’approche avec OK.Doc d’un moteur de recherche aux performances similaires à celles de Google, au sens où il est capable d’afficher en premier le document qui répond à la question.

Autrement dit, les applications de justice prédictives restent des moteurs de recherche (nettement voire très nettement) améliorés et des outils (statistiques) d’aide à la décision. Une seule s’approche d’un système expert. Ce ne sont donc pas de véritables intelligences juridiques globales. Elles ne menacent guère que la fonction recherche — et encore : lisez ce qui suit.

Si on se projette dans quelques années [471], plus le travail du documentaliste juridique français procédera, « d’heuristiques pointues pratiquant pour partie un mode intuitif (opérer par rapprochements semi conscients) » [472], plus il aura une conscience d’artisan et d’expert de haut vol (notamment dans la maîtrise des sources méconnues ou mal indexées [473]), et moins au final il aura de chances d’être automatisé.

Mais aussi : plus il travaillera *avec* l’IA. Le documentaliste, le veilleur, le paralegal, le stagiaire juriste, le collaborateur, l’éditeur vérifieront, compléteront et amélioreront le travail de l’IA. Selon Christophe Tricot, expert IA chez Kynapse (son compte Twitter), « le collaborateur qui participe à la création d’une IA va devoir expliciter les règles, ses tâches au quotidien et comment il les aborde, parce que souvent les choses sont cachées ». Se former à l’IA, c’est donc savoir aussi parler de son fonctionnement quotidien, même lorsqu’on n’y prête pas attention et, encore mieux, le formaliser avec des règles. Par exemple : « S’il n’y a plus de papier dans la photocopieuse, alors il faut en remettre dans le tiroir. » Les règles en « si... alors... » (implication logique) sont facilement formalisables en langage informatique [474].

Comme l’écrit de manière futuriste, provocatrice mais pertinente Tyler Cowen, professeur d’économie à la George Mason University et blogueur connu sur Marginal revolution, dans son ouvrage Average is Over (Dutton, 2013, non traduit en français) :

« Les travailleurs se classeront de plus en plus en deux catégories. Les questions clés seront : Savez-vous bien travailler avec des machines intelligentes ou pas ? Vos compétences sont-elles un complément aux compétences de l’ordinateur, ou l’ordinateur fonctionne-t-il mieux sans vous ? Pire : est-ce que vous vous battez contre l’ordinateur ? » (traduction par nos soins)

D’ores et déjà, si l’on en croit les consultants spécialisés dans l’externalisation des services tertiaires, les applications de type RPA (Robotics Process Automation ou automation software) "carburant" au machine learning [475] sont en train de frapper à la porte des bureaux des Indiens, Philippins et autres pays d’externalisation [476].

Dans le secteur de la bibliothèque documentation juridique, en réalité, l’automatisation n’a pas attendu l’IA, le machine learning ni les réseaux neuronaux. Elle a commencé il y a plus de vingt ans, avec le téléchargement des notices de catalogue OCLC et Gallica puis les produits de veille directement destinés aux juristes, comme Dalloz Actualité, PaRR ou Mlex.

Voyons pour le futur.

Côté gestion de bibliothèque, on peut penser au bulletinage des revues électroniques ou au catalogage et à l’indexation et classement matière des ebooks. Encore que cela suppose que les éditeurs juridiques laissent des logiciels étrangers rentrer sur leurs serveurs et dans leurs systèmes — on touche là aux multiples problèmes pratiques et très ras-de-terre que pose l’IA. Les imprimés, c’est nettement moins évident vu leur nature physique.

Côté documentation juridique et open legal data, voici un exemple donné par Jean Gasnault :

« La préparation [des] données est essentielle pour un bon fonctionnement des algorithmes les traitant. Les documentalistes ont une carte à jouer dans cette évolution, en raison de leur compétence spécifique d’enrichissement des données. Cela donne un axe bien identifiable de progression de leurs connaissances : métadonnées, FRBR, normes ELI-ECLI, etc. »

Cela dit, fournir un savoir-faire sans contrepartie [477] n’aurait guère de sens. Il serait prudent de poser des questions sur les utilisations futures des outils de gestion des mails et des tâches et autres "bases de knowledge" et en l’absence de précisions, de savoir garder pour soi ses trucs et techniques de haut-vol.

D’ailleurs, il vaut mieux, pour le professionnel de l’information et le juriste, comme pour leur employeur, garder la connaissance des processus métiers de base mêmes, quand bien même certains — et c’est là toute la contradiction — ne seraient pratiquement plus utilisés. En effet, comme l’explique Sylvain Duranton du Boston Consulting Group (BCG) [478] :

« "Un risque énorme est la perte du savoir-faire métier. Car c’est le savoir-faire qui permet de perfectionner les outils." Un opérateur peut se contenter de suivre les instructions d’une IA sans lui-même savoir comment la perfectionner. C’est à ce moment que son emploi est menacé, pas tellement par l’IA [NB : impossible de ne pas relever ici une certaine hypocrisie, mêlée de réalisme], mais par la baisse du niveau de compétence requis : plus besoin d’être qualifié pour faire son job. »

Puisqu’une partie — à déterminer, car les obstacles sont légion et le plus souvent incontournables — de leur travail est à terme — un terme là aussi à déterminer — automatisable et sera automatisée, une partie croissante du travail des bibliothécaires documentalistes juridiques va consister à détecter, tester, sélectionner et pousser les nouveaux produits des éditeurs et legal tech et les nouvelles techniques de bibliothèque, documentation, recherche documentaire, veille, gestion électronique de documents, gestion des archives et knowledge management. Mais aussi à détecter les prétentions sans fondement dans le discours marketing, autrement dit ce qui ne marche pas. Des qualités de curieux, de découvreur, de testeur, de geek, d’évangélisateur et de créatif devraient devenir beaucoup plus importantes chez les documentalistes juridiques — et peut-être aussi chez les paralegals.

Pour la formation et les recherches — ainsi que les conseils et l’aide à la recherche — je ne vois pas de substitution prochaine, vu que les questions qui sont posées aux documentalistes juridiques sont presque toujours difficiles et très spécifiques. La réalité, c’est que les bibliothécaires documentalistes juridiques interviennent à la demande du juriste, quand il ne s’en sort pas. Ils sont de facto des "super searchers", comme l’ex-"librarian" américaine Reva Basch a qualifié la profession. Certes, les nouveaux moteurs développés par les startups tendent à constituer une base de données des "intentions", domaines de travail et préférences personnelles des utilisateurs avant de traiter leurs requêtes. Mais ces algorithmes ont de nombreux défauts et biais [479] et s’ils fonctionnent (à peu près) correctement, là encore, le documentaliste devra débugguer et former, les mains dans le cambouis.

Les documentalistes juridiques sont des professionnels de la recherche dans les bases de données de jurisprudence. Le plus souvent, dans les cabinets d’avocats, ce sont les documentalistes, et plus rarement les KML et PSL (knowledge management lawyers, practice support lawyers) qui doivent faire les recherches thématiques sur les décisions inédites [480], non sélectionnées [481] et non commentées [482], qui représentent la très grande masse des décisions disponibles dans les bases de données. Les stagiaires, du fait notamment de l’absence de formation dédiée dans les formations universitaires et les BU, sont généralement mal outillés sur le plan méthodologique et pratique face à cette tâche.

Par "déformation professionnelle" ;-) nous sommes très exigeants sur la qualité et l’exhaustivité de la donnée et la performance des outils de recherche. Nous avons une expertise là-dessus, on peut le dire. Les documentalistes juridiques (et les paralegals) ont donc un rôle clé de testeur, d’évaluateur et d’acheteur d’applications de justice prédictive, d’audit de contrats et plus généralement d’IA. Comme l’écrit Dera Nevin, spécialiste de l’"information governance" et de l’"e-discovery" au cabinet Baker McKenzie [483] : « Beaucoup de ces nouvelles technologies nécessiteront un travail humain significatif (souvent non refacturable au client) pour entraîner et gérer les entrées de données et les données produites par ces technologies ; c’est particulièrement vrai du machine learning [...] Il y a souvent des coûts nouveaux (et parfois plus élevés) associés à la technologie qui doivent être pris en compte [...] Les acheteurs de technologie juridique peuvent jouer un rôle critique dans l’amélioration de l’achat de cette technologie en s’assurant que les questions stratégiques sont posées et traitées avant d’être mises sur le marché. »

Il y a encore bien d’autres choses qu’un documentaliste juridique apporte *en plus* d’un robot. Sur ce sujet, voir notre billet Documentaliste : un nouveau métier, de nouveaux noms. Pour ne pas rallonger le présent billet, je me contenterai de (re)citer une bibliothécaire documentaliste juridique américaine en 2017 [484] :

« L’IA est itérative et continuera à s’améliorer, mais elle ne sait pas grand chose du facteur qu’est le contexte de la question posée ni comment le gérer. Pour que l’IA soit utile dans des recherches complexes (et non juste des recherches sur références bibliographiques) dans la plupart des structures juridiques, j’estime qu’elle aura besoin d’apports significatifs en savoir interne. Il est déjà difficile de faire correctement (voire de faire tout court) du KM. Comment alors allons nous documenter le savoir historique de la structure de manière à ce qu’un robot puisse correctement l’interpréter et l’appliquer ? Ce qui est saisi ne constitue pas réellement la totalité de la requête que l’on entre dans une machine : il y a bien plus de choses à préciser pour que la machine puisse fournir une réponse. »

Reconnaissons qu’avec GPT-3, toutefois, le contexte peut être mieux "compris".

Il faut aussi lire ce billet de Christophe Doré, consultant, professionnel de haut niveau de la veille, domaine ou excellent les documentalistes : La Veille : 70% d’humain et 30% d’informatique. J’ai appris en lisant cet article un nouveau concept aux termes assez éclairants : la pensée latérale. Les systèmes de veille automatique, les chatbots (cf supra) et les agrégateurs de sources numériques ne sont pas si performants en eux-mêmes. Ils ont besoin d’humains pour déterminer les sources à surveiller et affiner les requêtes booléennes. De plus, on a encore besoin d’un humain pour identifier et suivre les signaux faibles, pour sortir des sentiers battus, pour laisser agir la sérendipité et regarder là où la machine n’ira pas parce que ce n’est pas dans son algorithme.

Un des meilleurs "papers" sur ce sujet, sur un plan technique — et non économique — est celui publié à la Savannah Law Review [485] par l’"investigateur" américain Philip Segal (Charles Griffin Intelligence), spécialiste des recherches de personnes, d’informations et de faits dont le contentieux américain est friand. P. Segal est donc très proche du métier des documentalistes juridiques. Il parle d’améliorations sur des outils que nous utilisons déjà, comme YouTube par exemple, qui devrait bientôt pouvoir se voir appliquer des moteurs de recherche vidéo très puissants. Et en ce qui concerne les nouveaux outils pour son métier, il est loin de les craindre. Il signale précisément leurs avantages comme leurs limites. Ainsi, il recommande :

  • de comparer et évaluer les IA comme toute autre base de données en ligne *avant* de les acheter
  • d’accumuler une expérience concrète des "trucs" à savoir pour les interroger sans se "faire avoir" par leurs biais.

Ces deux tâches sont clairement une des voies de développement naturel — j’allais écrire normal — des métiers de documentaliste juridique et de "legal knowledge manager". En tout cas, les professionnels de l’information juridique sont outillés et légitimes pour s’en occuper. Ils pourront sans problème conseiller les dirigeants de leurs structures sur ces sujets, gérer le projet d’acquisition ou de co-développement interne et son adaptation aux besoins de la structure, former les juristes et négocier les prix — qui promettent pour l’instant d’être élevés.

Comme l’écrit le jounaliste et consultant américain Robert Ambrogi, qui est un chaud partisan des legal tech : « Robots are not coming for law librarians’ jobs. » [486], les bibliothécaires documentalistes juridiques ont des rôles essentiels, notamment celui de "legal technologist" ou évaluateur de la valeur réelle des nouveaux outils : « Dans les cabinets d’avocats, les bibliothécaires juridiques sont souvent les examinateurs des nouvelles technologies, aidant à vérifier et à évaluer les produits avant que leur cabinet ne gaspille de précieux dollars. [...] Ils sont, si vous voulez, la police de la technologie. Ils ont la compétence et le savoir-faire nécessaires pour examiner les revendications des vendeurs et s’assurer que la réalité est conforme au marketing. De cette façon, les bibliothécaires - peut-être plus que tout autre rôle dans la profession juridique - sont essentiels pour maintenir l’honnêteté du secteur. [...] "Les documentalistes, qui savent quels résultats peuvent être obtenus de manière optimale par une recherche particulière, peuvent évaluer les lacunes ou les faiblesses d’un système d’IA en évaluant les résultats de la recherche" ».

12.3. IA et avocats

La journaliste britannique Joanna Goodman, dans son ouvrage précité Robots in Law : How Artificial Intelligence is Transforming Legal Services écrit que l’IA pour les juristes n’est pas une option. Selon elle, les juristes qui accepteront la réalité de l’IA et l’incorporeront dans leur pratique professionnelle sont ceux qui réussiront le mieux dans les années à venir, car l’IA modifie le partage de la valeur entre les acteurs de la "chaîne" juridique. Lire à ce propos le compte-rendu du livre par Robert Ambrogi [487]. Cette collaboration-amélioration avec l’IA est déjà en cours en France avec Case Law Analytics : les critères d’analyse ont été développés et les analyses prédictives validées avec des cabinets d’avocats ou des directions juridiques partenaires. Par exemple, SNCF, Axa ou le cabinet Flichy Grangé.

Une autre façon, française cette fois et plus diplomate, de formuler cela : l’Ordre des avocats au barreau de Lille étant partenaire de Prédictice, son bâtonnier a cherché à convaincre ses collègues [488] de l’utiliser. Voici ce qu’il en dit :

« Il faut tuer tout de suite le fantasme, ça ne remplacera pas les avocats dont les analyses ne peuvent être automatisées »

Selon lui, il s’agit plutôt d’un outil stratégique :

« Le défenseur peut, entre autres, voir quelle juridiction sera la plus encline à rendre une décision favorable à son client. »

Comme le dit Guillaume Drouot, professeur de droit privé à l’Université de Bordeaux [489] (le gras est de nous) :

« M. Neuville, dans un ouvrage de philosophie à l’attention des juristes, expose l’idée suivante : " [...] la méthode d’apprentissage qui consiste à former les étudiants pour qu’ils deviennent de bons techniciens du droit capables de mémoriser quantité de textes afin de trouver la meilleure solution, sans leur donner d’ailleurs les moindres rudiments de philosophie du droit. Cette méthode sera évidemment bien vite dépassée avec le développement de l’intelligence artificielle. "
Le développement des algorithmes et de l’intelligence artificielle invite ainsi à envisager notre manière de penser le droit, à mieux définir ce qu’est le droit, tout comme, si l’on veut raisonner par analogie, la dématérialisation invite à repenser certains mécanismes juridiques (la saisie, le droit de rétention) pour en extraire l’essence, la véritable raison d’être.
Quoiqu’ignorant dans une large mesure ce dont sont exactement capables les algorithmes, il nous paraît peu probable qu’ils remplacent un jour les juristes. Non pas parce que nous doutons de leurs capacités de calcul, mais bien plutôt parce que, même performants, les algorithmes n’ont aucune conscience de ce qu’ils font.
[...]
L’irruption des algorithmes et la pensée de Kropotkine nous invitent à revenir à une vision du droit comme science (ou art) du juste et de l’injuste. L’idée du droit que donne François Ost à partir des symboles de la justice (glaive, balance, bandeau) apparaît à cet égard particulièrement pertinente [...] : " Pour le juriste au quotidien, le symbole du bandeau implique une méthodologie du doute qui le conduit non seulement à s’enquérir du point de vue minoritaire (...), mais encore à résister aux paradigmes scientifiques dominants, ainsi qu’à la pseudo-évidence des faits. Sa tâche est de rendre justice et non de décrire la réalité : dire le droit implique un arbitrage entre vérités multiples s’articulant souvent sur des plans distincts. (...) Telle est la fonction essentielle du droit, trop souvent oubliée aujourd’hui : dire le sens de la vie en société. Au-delà de ses rôles répressifs et gestionnaires, le droit est d’abord cela : une parole, socialement autorisée, qui nomme, classe et départage ". »

Sur ce sujet, il faut citer Sacha Sydoryk, maître de conférences et docteur en droit public. Pour lui, interdire ChatGPT dans les universités et grandes écoles est « absurde » [490]. Il ajoute d’ailleurs « qu’après discussion avec un étudiant ayant pris GPT4, le travail n’est pas satisfaisant (et c’est lui [l’étudiant] qui le dit, après en plus avoir fourni des documents comme base à l’IA, ce n’est même pas moi après lecture éventuelle de la copie) ». Dans un autre tweet, il précise : « L’outil semble excellent pour gagner du temps dans la rédaction de choses formelles mais dont le détail du fond importe peu (et si 1. on contrôle 2. on vérifie quand même 3. on fait attention aux données fournies en cas de stockage). C’est déjà énorme, pourquoi demander plus ? »

J’aime aussi beaucoup la réponse de Tris Acatrinei, journaliste spécialiste de la transparence en politique, à Steeve Morin après sa mise en ligne de LegiGPT : « Ton outil vient de me donner des pistes. Un grand merci. » Avec le tweet supra de Sacha Sydoryk, cela décrit très bien ce qu’on peut demander aux GPTs.

L’avocat français et spécialiste de l’IA en droit Thierry Wickers, citant Paul Amsalek, écrivait en 2019 [491] :

« Les règles juridiques servent à diriger la conduite des individus. Après avoir fait observer qu’elles se contentent de fixer "des marges de possibilité d’action en fonction des circonstances", ce qui implique déjà une part d’incertitude, Paul Amselek rappelle que leurs principales caractéristiques sont la non-objectivité et l’incomplétude. [...] Il n’est possible d’accéder à la règle juridique qu’au travers d’une interprétation, par celui qui en prend connaissance. La règle "n’est présente en chacun de nous qu’au terme d’un processus intérieur de reconstitution, de décodage et d’analyse par notre esprit à partir des signes émis par le législateur.". L’incomplétude est la conséquence de l’impossibilité, pour le législateur, de tout régler ou de tout prévoir à l’avance. » P. Amsalek précise : « La nature irrésolue de la réglementation juridique tient, non seulement à sa non-objectivité, mais aussi, en second lieu, à son incomplétude. Il est, en effet, impossible au législateur de tout régler, de tout prévoir, même implicitement. »

Et T. Wickers de continuer : « C’est précisément l’écueil auquel se sont heurtés tous ceux qui ont tenté de transformer la loi en code informatique. Tous les efforts de normalisation à travers la logique propositionnelle finissent à un moment donné par se heurter à la question de l’interprétation. » (il faut toutefois aller voir ce à quoi sont arrivés les projets, justement, de codification des textes CATALA lang et Mlang — voir 102.2 et 10.3.)

Et là encore, il faut lire le "paper" précité de l’"investigateur" américain Philip Segal à la Savannah Law Review. Il reconnaît que l’IA apportera d’importants changements dans la pratique des juristes américains. Mais il est loin de craindre ces nouveaux outils pour son métier.

Thierry Wickers, dans ce remarquable article de 2019, conclut : « D’une manière plus générale, si l’IA n’est pas capable de régler directement le problème de l’interprétation, elle est en revanche parfaitement à même de le contourner. Pour les juristes, et leur activité, la différence ne sera pas grande. Cette logique du contournement s’accorde parfaitement avec les capacités de l’IA faible. »

Nos tests, nos recherches et nos entretiens avec des développeurs et chercheurs en "IA" juridique (dont plusieurs évoqués ici) le montrent, nous pensons que la menace de l’IA en droit a été exagérée au vu des performances réelles jusqu’en 2022. Entre le "en théorie, c’est possible" et le "en production, on le fait", il y a toujours un fossé. Mais la question en 2023 se pose beaucoup plus nettement.

L’arrivée de ChatGPT en décembre 2022 a changé en effet la donne sur un point : à moyen terme, l’IA générationnelle sera *au minimum* capable de rédiger une note sur un point/question de droit et des clauses dans un contrat. Voire des conclusions. Comme expliqué plus haut dans nos développements sur les chatbots et ceux sur la question de l’éventuelle fin du travail, le travail du jeune juriste consistera donc à l’avenir, en partie, à vérifier et corriger les productions de GPT et ses avatars réalisées à partir des fonds des éditeurs juridiques. ROSS en 2016 était incapable de telles productions, tant et si bien que ses synthèses étaient en réalité réalisées par des juristes. On voit là le chemin parcouru en seulement cinq ans.

Le Boston Consulting Group et la Bucerius School of Law ont proposé en 2016 une nouvelle structure du cabinet d’avocats type avec une diminution d’avocats juniors par partner, une disparition des "entry-level jobs" et une réorganisation pyramidale, qui inclurait tout en bas de l’échelle, les legaltechs, les assistants juridiques et les juristes et tout en haut des coopérations entre différents niveaux d’avocats [492]. Cette vue est toutefois très liée au contexte "legal AI hype" de 2016 et reste une prédiction — elle mériterait d’être nuancée. Ainsi, les paralegals, que ce document montre comme entrant d’un coup dans le cabinet d’avocats à la faveur des legaltech et de l’IA [493] (et en parfaite contradiction avec les prévisions de Webb ...), eh bien ! ils sont déjà là et en force depuis les années 90.

Les grands cabinets d’avocats internationaux, en réponse, créent des projets legaltech d’abord (et un peu IA, notamment par les aspects NLP) et des filiales spécialisées. Citons notamment Cleary X de Cleary Gottlieb, qui se concentre dans un premier temps sur les processus transactionnels, tels que la "due diligence" en matière de fusions et acquisitions [494]. En collaboration avec l’International Swaps and Derivatives Association (ISDA), Linklaters a lancé en 2018 ISDA Create. Allen & Overy s’est doté d’un produit similaire en collaboration avec les fournisseurs de services de produits dérivés IHS Markit et SmartDX : Margin Matrix est une plateforme de négociation en ligne dotée d’une technologie de rédaction automatique, qui codifie les lois dans de multiples juridictions et permet une réorganisation à grande échelle des contrats de produits dérivés [495]. Linklaters a aussi créé Atticus, un outil de vérification des documents pour accélérer le travail de "transaction".

12.4. IA et jeunes collaborateurs, stagiaires et paralegals

Pour les postes de paralegals orientés recherches et veille (par exemple, les spécialistes de la recherche, de la veille et de l’enregistrement des brevets) et pour les jeunes collaborateurs (qui font aux Etats-Unis énormément de recherches, ce qui correspond en France aux stagiaires, mais les jeunes avocats en font aussi beaucoup en France durant leurs deux premières années), une étude d’Altman Weill datant de 2015 est pessimiste [496]. La brève précitée de la Lettre de l’Expansion est encore plus explicite :

« Watson [...] est réputé pour son rôle dans la destruction d’emplois. »

Pour les autres paralegals, le risque à court terme, surtout en France, est faible mais à moyen terme, leurs tâches découpables seront probablement automatisées.

La vraie difficulté sera pour les étudiants en droit et arrivera (pas avant 2025 au pire), quand ils entreront dans la vie active et que leurs performances seront comparées à celles des IA génératives professionnelles (GPT etc.) de leur secteur. A quel niveau seront-elles alors ? Elles devraient être capables :

  • de (bonnes ?) synthèses en autant ou aussi peu de paragraphes que désiré et sur tout point de droit traité correctement par les éditeurs. Le travail actuel fait par les stagiaires en cabinet d’avocats pourrait alors être profondément "challengé"
  • de rédiger et insérer dans un contrat n’importe quelle clause *standard*, voire des blocs entiers
  • de rédiger un *premier* jet de conclusions
  • et peut-être de suggérer une *ébauche* de jugement pré-rédigé à partir des faits et questions de droit (pour des litiges *standards/répétitifs*).

Faudra t-il alors à la fois utiliser l’IA, faire mieux qu’elle et l’entraîner (à devenir meilleure, donc de plus en plus concurrente) ? Ou bien "soft skills" et "human skills" comme le raisonnement, la psychologie ou l’empathie suffiront-ils à faire la différence (et l’exigence de performance sur les jeunes professionnels sera alors plus faible) ?

La première option oublie que l’IA ne fait qu’amasser des mots et non du sens et qu’elle ne vit pas dans une peau. La seconde option oublie que des psychologues justement veulent déjà travailler avec ChatGPT et que les chercheurs en AGI n’ont pas désarmé et estiment que l’AGI est atteignable entre 2040 et 2090 (oui, ils se sont beaucoup "plantés" avant, et des gens comme Damasio estiment que l’AGI est impossible hors d’un corps biologique).

Il y a une troisième option : que les IA génératives atteignent très vite leur maximum de performance ou qu’elles coûtent trop cher — un nouvel hiver de l’IA arrivera alors. Ces spéculations sont elles-mêmes liées à l’état de l’art en IA et ne font que reprendre des réflexions standard.

Encore une fois, il faut relativiser : les produits des legal tech actuellement en service chez les professionnels du droit montrent la continuation d’une évolution déjà en cours et bien connue : celle de l’informatisation progressive et souvent partielle de fonctions. Ca fait gagner du temps plus que ça ne supprime des emplois sur le champ. Ce que ça fait surtout, c’est que ça modifie le travail des jeunes avocats et paralegals. La question désormais, toutefois, est celle de la vitesse de cette évolution.

13. Les risques de la justice prédictive : réalités, fantasmes et réponses avancées

13.1. IA juridique et science-fiction

La justice prédictive semble faire peur en France.

Notez toutefois qu’aux Etats-Unis, les particuliers ne semblent pas avoir tant de préventions, du moins selon une enquête menée sur les perceptions d’environ un millier d’Amazon Turkers à l’égard d’hypothétiques juges algorithmiques en matière de divorce [497]. Les résultats montrent que :

  • même si les usagers des tribunaux reconnaissent plusieurs avantages des algorithmes (c’est-à-dire le coût et la rapidité), ils font davantage confiance aux juges humains et ont davantage l’intention de se rendre au tribunal lorsqu’un juge humain (par opposition à un juge algorithmique) statue
  • la mesure dans laquelle les individus font confiance aux juges algorithmiques et humains dépend de la nature de l’affaire : la confiance envers les juges algorithmiques est particulièrement faible lorsque les affaires juridiques impliquent des complexités émotionnelles (par opposition aux affaires techniquement complexes ou non compliquées).

Voici les (éventuels et futurs) risques tels qu’ils sont décrits dans la presse française et par la doctrine (revues juridiques) :

  • "boîte noire" : on ne saurait ni qui exactement nous juge ni pourquoi on nous condamne. Et si on en arrivait un jour là où Google semble être arrivé du fait de l’intégration de machine learning dans ses algorithmes (ses ingénieurs ne savent plus totalement en détail comment leur moteur fonctionne : en tout cas, c’est ce que disait un scientifique chez un rival, Qwant [498]) ? Car c’est un fait : l’IA à base de ML est impénétrable [499]. En arriverait-on à ce que Ross n’est pas, c’est-à-dire une véritable intelligence artificielle ?
  • "power to the machine". On ferait plus confiance à l’algorithme qu’à l’humain, dans une époque méfiante vis-à-vis de la Justice. On ne tenterait plus sa chance en justice si elle est faible. La situation et ce risques sont assez bien décrits dans une brève intervention d’Antoine Garapon sur France Inter et surtout dans son interview au Point par Laurence Neuer dans la remarquable série Mon petit droit m’a dit [500]
  • effet performatif (dit aussi effet moutonnier ou risque de conformisme) : risque que le juge, par paresse, pour aller vite ou encore par souci de ne pas faire de vagues, se conforme à la solution majoritaire. La crainte d’un tel effet est très présente dans la grande majorité des articles de presse et dans les revues juridiques, autrement dit ce que les juristes appellent la doctrine
  • possibilité, en droit pénal, pour un délinquant ou un criminel, de déterminer à l’avance si et comment, en suivant un certain modus operandi, il pourrait échapper à condamnation pour son délit/crime. Sur ce point précis, la réponse (officielle) de Predictice et Case Law Analytics est d’exclure de travailler sur les décisions de justice en matière pénale.

La science-fiction a déjà envisagé ces risques (nous ne parlerons pas ici des lois de la robotique d’Asimov, non pertinentes ici et de toute façon déjà dépassées [501].).

Le tome 3 de la bande dessinée SOS Bonheur, un classique du genre publié en 1989 [502] parle de justice automatisée : chaque avocat soumet ses conclusions dans une machine et la machine rend son verdict, le juge n’est là que pour contrôler le bon fonctionnement de cette dernière. Ainsi la justice est aveugle et équitable puisqu’elle est censée rendre le même verdict pour tous ceux qui sont dans la même situation sur tout le territoire. Jusqu’au jour où la machine condamne un homme qui a commis un délit mineur à la peine de mort alors que cette dernière a été abolie il y a déjà de nombreuses années. Peut-on désobéir à la machine au risque de remettre en cause tous les autres jugements déjà rendus ?

13.2. Police prédictive

Nous avons (presque) tous vu le film Minority report de Steven Spielberg avec Tom Cruise (d’après la nouvelle éponyme de Philip K. Dick). Même si ce sont des êtres humains spéciaux (des"precogs") qui y tiennent le rôle des logiciels et des données et statistiques, le sens en est clair :

L’ouvrage Minority report de Philip K. Dick avec pour couverture l’affiche du film

Aux programmes de "police prédictive", s’ajoute l’utilisation des énormes progrès de la reconnaissance d’images permis par le deep learning. Ils permettent, notamment en Chine, pays le plus "avancé" dans ce domaine, de repérer et arrêter un délinquant ou un dissident passé entre les mailles du filet policier pendant des années. Or cette technologie, notamment celle chinoise, s’exporte très bien. Sur ce sujet, lire ce court mais instructif billet de The Conversation, un excellent site de vulgarisation écrit par ... des universitaires : How artificial intelligence systems could threaten democracy (avril 2019).

Il faut toutefois relativiser, particulièrement en France : un état actuel (mars 2021) de la police "prédictive" montre qu’elle n’est même pas prédictive [513].

13.3. Effet moutonnier, machine à syllogisme et biais ?

Un article de Vincent Vigneau, conseiller à la Cour de cassation, à la Revue de jurisprudence commerciale de janvier 2019, liste et examine en détail ces risques (et d’autres), ainsi que les limites prévisibles de l’exercice [514]. C’est probablement celui qu’il faut lire pour avoir une vue complète juridique et judiciaire du sujet. M. Vigneau y dénonce notamment la conception d’un juge comme une « machine à syllogisme ». Il rappelle qu’elle fait face à l’absence de caractère obligatoire de la jurisprudence — même celle de la Cour de cassation — et à l’absence de droit acquis à une jurisprudence figée (autrement dit, la France n’est pas un pays de "case law"), à la qualification juridique des faits où « derrière l’apparente logique du raisonnement exprimé dans les jugements, peut se cacher de multiples considérations et arguments plus ou moins avouables » [515] et enfin à l’obligation pour le juge de statuer, même en cas d’insuffisance ou d’obscurité de la loi (art. 4 du Code civil) et donc d’interpréter.

L’article, comme presque tous ceux publiés objectant à la justice prédictive, reste toutefois ancré dans la réalité judiciaire d’aujourd’hui. Or elle pourrait bien être bouleversée à la fois par le développement des MARL (modes alternatifs de règlement des litiges : médiation, conciliation, arbitrage) auxquels l’exécutif pousse par manque ou refus de moyens financiers pour la Justice et par l’utilisation hors procès — chez les assureurs et les avocats — des applications déjà existantes de justice prédictive ou dite telle. D’autant qu’au moins une application de médiation (Justice.cool) s’appuie sur un algorithme de justice prédictive pour accélérer et faciliter une issue positive à la médiation.

Pour la doctrine, il semble, d’après le mémoire très bien construit de Camille Bordere, qu’en réalité, ce que la doctrine reproche à la justice prédictive, c’est de révéler (en partie seulement pour l’instant, vu le manque de la première instance) la masse des décisions du fond et des faits qu’elle contient, concurrençant ainsi les "cathédrales jurisprudentielles" construites par ... la doctrine [516]. D’ailleurs, ce que la doctrine commente, ce ne sont pas les effets des outils actuels, mais ceux supposés arriver un jour. Comme l’écrit très justement C. Bordere, « pour des écrits qui craignent à foison que l’outil prédictif ne factualise le raisonnement juridique ou ne le rende trop "réaliste", le grand absent reste précisément la réalité de l’objet, complètement occultée par la plupart des auteurs. Aucun outil de justice prédictive, à ce stade de leur développement, ne fonctionne correctement et n’accomplit encore totalement la tâche qui lui est assignée ». De ce point de vue, on peut se demander si la doctrine n’a pas elle aussi été intoxiquée par la "hype", autrement dit la masse de com’ et de marketing que nous décrivons en introduction.

Un exemple quotidien d’une justice prédictive déléguée aux plateformes, et qui s’appuie sur les faits ("patterns") et non le droit, c’est la modération sur les réseaux sociaux. En pratique, la modération est déjà réalisée par les IA des plateformes qui détectent les messages se rapprochant de contenus ayant été préalablement définis (’"taggués") comme illicites. Seuls ces contenus litigieux sont alors soumis à des équipes de modérateurs qui apprécient s’ils doivent être retirés. Selon l’avocat Luc-Marie Augagneur, le tribunal judiciaire de Paris dans son ordonnance de référé du 6 juillet 2021, mais aussi le projet européen de Digital Services Act (DSA), font confiance aux plateformes pour assurer cette modération, les magistrats n’ayant matériellement pas les moyens de le faire [517].

Sur l’impact prévisible de la justice prédictive, lire l’ouvrage (beaucoup plus détaillé et complet que cette dernière partie de ce billet) d’Antoine Garapon et Jean Lassègue : Justice digitale : Révolution graphique et rupture anthropologique (PUF, avril 2018). L’adjectif graphique est utilisé ici dans son sens de traitant de l’écriture. L’ouvrage insiste notamment sur la perte prévisible du symbolique, du rituel, pour le gain de la rapidité et du confort, recul de la loi, remplacée par la technique. Mais son sujet est plus vaste que celui de la justice prédictive, puisqu’il traite en fait de la numérisation et du passage en ligne de la justice. Ce sont les chapitres VIII et X qui sont spécifiquement consacrés à la justice prédictive, avec quelques interrogations clés, dont :

  • peut-on remplacer la causalité par la corrélation  ?
  • quelle est la taille suffisante (de la base pour obtenir des statistiques significatives) ?
  • le futur peut-il être déduit du passé  ?
  • la pression de la multitude (effet dit "moutonnier").

Isabelle Sayn formule ainsi ses propres craintes : « le pouvoir d’appréciation du juge peut être affecté, selon qu’il connaît ou non les décisions prises par les autres magistrats. À quel point ces connaissances vont-elles donc avoir une influence sur l’activité du juge, et en quoi sont-elles compatibles avec la conception hiérarchique de la règle de droit ? En effet, nous ne nous situons pas dans un système de précédent, de common law. Laisser croire à des usagers qu’ils peuvent se défendre en justice via les solutions fournies par des legaltech, basées sur la jurisprudence, n’est donc pas forcément une bonne idée. Et puis, il y a aussi la crainte des magistrats qu’elles soient utilisées pour automatiser les décisions » [518].

I. Sayn redoute également une justice prédictive reproduisant les biais illégitimes des décisions, comme, en matière de prestations compensatoires et alimentaires, le sexe du juge ou la présence d’un avocat lorsqu’elle n’est pas obligatoire [519].

I. Sayn souligne enfin que beaucoup de choix faits par les parties (stratégie judiciaire ...) sont absents de la décision [520]. Là encore, donc, s’appuyer sur les décisions pour faire des prédictions rencontrerait ses limites.

13.4. Tests

Il faut préciser ici que les tests logiciels, non seulement lors du développement, mais aussi en production et en permanence, sont impératifs en intelligence artificielle. Cela fait partie d’une bonne assurance qualité, comme l’illustre un article de Forbes.com [521].

Toutefois, les tests dont on parle ici ne sont pas ceux faits par les utilisateurs finaux (documentalistes et juristes) dont nous parlions plus haut — et c’est bien là que le bât blesse. Il s’agit pour les programmeurs et développeurs eux-mêmes de tester le code ou au minimum des unités (on parle alors de "unit tests") de l’application. Il y a des niveaux de test et des méthodes de test bien connues pour cela (voir la page Wikipedia EN Software testing), parmi lesquelles celle, fondamentale en IA, de l’échantillon de données (dont on connaît d’avance les résultats prévisibles) mis de côté et sur lequel l’algorithme n’a pas été entraîné.

13.5. Principes

Si le machine learning finit, ce qui est probable selon nous (cf supra), par être utilisé par le juge, il est à espérer que les conclusions d’Antoine Garapon et Marc Clément (dans les articles de revues juridiques cités au début de ce billet) s’imposeront :

Eviter le risque de « l’effet "moutonnier" de la justice prédictive qui pousse au conformisme et réclame plus aux juges qui estiment qu’ils doivent aller à contre-courant, c’est-à-dire faire leur métier tout simplement ! »

« Il sera donc capital que les modes de raisonnement inscrits dans les algorithmes soient parfaitement explicites et maîtrisés par le juge. Il conviendra, de plus, que des méthodes alternatives soient proposées et que l’on ne se retrouve pas en situation de monopole avec une seule technologie utilisable. »

Rubin Sfadj, dans son entretien précité avec la revue Expertises, souligne que lorsque les outils de justice prédictive seront utilisés par la puissance publique, cet usage devrait reposer sur trois grands principes éthiques — qui, à bien les lire, ne sont pas si exigeants que ça :

  • le principe de responsabilité conduisant à désigner pour chaque algorithme utilisé une personne référente, à l’instar du directeur de publication en droit de la presse
  • le principe de clarté, c’est-à-dire la mention explicite dans une décision de justice élaborée avec l’aide d’un algorithme de ce procédé et la motivation sur laquelle repose le recours à ce type d’outil
  • le principe de précision permettant de corriger une source d’erreur à tout stade du traitement algorithmique.

13.6. Responsabilité des avocats ?

Justement, si on veut éviter certains excès et rassurer les justiciables, et si on parle responsabilité des concepteurs d’applications, ce que redoutent les magistrats de l’ordre judiciaire interrogés par Lêmy Godefroy, enseignante-chercheuse et maître de conférences en droit privé, c’est que, en cas d’erreur de l’application de justice prédictive, « le caractère sophistiqué de cet outil rende difficile la preuve d’une faute sans recourir à l’expertise, sauf abus manifeste [522]. D’où on pourrait déduire qu’il sera plus facile de mettre la responsabilité de l’avocat en cause ...

Et en effet, les chefs de juridictions judiciaires interrogés par Lêmy Godefroy relèvent « une probable augmentation des risques de mise en cause de la responsabilité professionnelle des avocats et de leur manquement au devoir de conseil par des engagements et des promesses, des actions engagées sur la base de ces outils pour aboutir à des solutions juridictionnelles totalement différentes » [523].

Aurore-Angélique Hyde, maître de conférences en droit privé à l’Université de Rouen et chercheuse associée à l’Institut des hautes études sur la justice (IHEJ) et au CERDI, dans un article à la fois pragmatique et très pertinent au Recueil Dalloz écrit sur l’intérêt pour un avocat d’utiliser des outils de justice prédictive, suite à une décision canadienne reprochant à un avocat de ne pas avoir utilisé d’IA [524]. Elle conclut que « bien que les outils de justice prédictive soient à la mode, l’obligation d’y recourir, outre qu’elle entraverait la liberté professionnelle des avocats, ne protégerait aucunement ces derniers de toute responsabilité en cas de solution erronée ou insuffisamment pertinente ». En effet, pour elle, « l’obligation pour un avocat de consulter des outils de justice prédictive est parfaitement discutable, et ce à plus d’un titre. D’une part, c’est surtout la pertinence du résultat obtenu par l’avocat qui doit compter et non le moyen auquel il recourt pour y parvenir. [...] D’autre part, tous les outils existants ne proposent pas exactement le même service. » Enfin, elle décrit ses tests d’outils et met le doigt dans la plaie : leurs limites, notamment quand il s’agit d’identifier la jurisprudence la plus récente et la plus pertinente [525].

13.7. La position ambigüe des magistrats

Les magistrats judiciaires interrogés par Lêmy Godefroy pour la mission de recherche Droit & Justice ne sont que 40% à partager la crainte de l’effet performatif. Pour ces magistrats, les outils de justice quantitative (OQJ) doivent être considérés comme une simple aide à la décision [526].

Quant aux juges administratifs — et d’autres magistrats du judiciaire —, leur réplique à la justice prédictive est déjà prête : "Convainquez-nous avec des arguments juridiques, peu nous chaut vos statistiques". Le Conseil d’Etat, par la voix de Christian Vigouroux, lors du colloque sur l’open data de la jurisprudence organisé en octobre 2016 par la Cour de cassation, a prévenu que la juridiction administrative suprême ferait en sorte que le juge administratif ne puisse pas se voir opposer sa propre jurisprudence [527]. Côté justice judiciaire, selon Xavier Ronsin, Premier président de la cour d’appel de Rennes [528] :

« L’hypothèse selon laquelle des plaideurs assistés d’avocats, renonceraient à aller jusqu’au bout d’un contentieux judiciaire classique, parce qu’ils auraient lu les résultats d’un logiciel dit de "prédictibilité de la justice" et qu’ils décideraient alors de transiger, est contestée par beaucoup et mérite à tout le moins d’être vérifiée. Lorsque l’on constate la difficulté de faire aboutir les "modes alternatifs de règlement des litiges (MARD)", il y a de quoi être sceptique, mais pourquoi ne pas l’espérer ?
Au-delà d’un refus de principe sur la possibilité d’enfermer la future décision d’un juge dans le raisonnement d’un algorithme basé sur des "précédents jurisprudentiels", je pense malgré tout que les magistrats doivent se préparer à comprendre ce processus, et à recevoir des dossiers d’avocats comportant des analyses savantes ainsi que des contenus statistiques de milliers de décisions au soutien d’une thèse et de prétentions de leurs clients. De tels dossiers n’empêcheront de toute façon pas la liberté du juge de faire du "sur-mesure" pour chaque dossier, mais ils pourront peut-être éclairer son raisonnement. »

Dans un entretien avec Acteurs publics.com, Xavier Ronsin ajoute [529] :

« C’est une opération complexe que la motivation intellectuelle d’un juge, une opération subtile qui s’articule à un raisonnement et non à une simple corrélation d’items factuels. »

Pour autant, dans les résultats de l’enquête de terrain réalisée par Lêmy Godefroy pour le rapport de recherche "Comment le numérique transforme le droit et la Justice" (juillet 2019) [530], grosso modo, les 67 magistrats judiciaires consultés — attention, il y a un biais : presque tous sont des chefs de juridiction (TGI ou cour d’appel) [531] ; or ce sont les plus sensibles aux impératifs de productivité [532] — sont majoritairement favorables à la justice prédictive (dénommée "outils de justice quantitative" (OQJ) dans l’enquête). Sous un certain nombre — voire un nombre certain — de conditions :

  • qu’elle intègre (et respecte) les nouveaux textes et la jurisprudence des cours suprêmes
  • qu’elle n’empêche jamais l’appel
  • qu’elle permette toujours un examen personnalisé
  • que ces outils soient « encadrés, contrôlés, supervisés par les services du ministère de la Justice (par exemple, par une participation de magistrats à la détermination des critères de sélection des décisions par type de problématiques ou par une validation des critères choisis par les concepteurs) »
  • et enfin qu’ils « correspondent à une démarche scientifique et déontologique vérifiable et certifiable » (comme nous l’écrivions plus haut : encore la certification !). Notamment : qu’ils citent « les sources, le nombre de décisions prises en compte, la répartition au niveau des cours d’appel et des tribunaux [...] et la période sur laquelle a porté la recherche (possibles revirements de jurisprudence) ».

Ajoutons que pour les magistrats interrogés, il apparaît que les outils de justice prédictive « contribueraient à une multiplication du recours aux modes alternatifs de règlement des différends (MARD : arbitrage, conciliation, médiation ...) par l’amélioration de la prévisibilité des issues du litige ».

En creux, on y voit le refus d’un traitement automatique mais pas, en vérité, d’un traitement de masse. On y voit aussi une très forte exigence des chefs de juridiction vis-à-vis de l’outil de justice prédictive qui leur serait fourni. Ce niveau d’exigence rejoint quelque part les critiques adressées par le président de la cour d’appel de Rennes à Predictice en 2017 (cf supra).

13.8. La position ambigüe des avocats

Pour les avocats, la peur d’être désintermédiés explique largement la crainte de l’effet performatif, mais là aussi, nombre de cabinets d’avocats ont adopté un outil de justice prédictive et le considèrent comme une aide à la décision.

Pascal Eydoux, président du Conseil national des barreaux (CNB) estime officiellement qu’ « il n’est pas question que la profession d’avocats envisage de s’opposer à cette évolution car elle est inéluctable et attendue » [533]. Sanjay Navy, avocat à Lille où il a testé Predictice, pense que « ça peut permettre de dire à l’adversaire : " regardez les condamnations en moyenne, négociez sinon vous risquez d’être condamné à tant, ce n’est pas moi qui le prétends, mais la jurisprudence ! " » [534].

Autrement dit, la justice prédictive aurait pour avantage de faciliter le calcul des chances de gagner ou perdre un contentieux, limitant ainsi la prise de risque et facilitant grandement le travail des avocats et plus encore des assureurs. Pour les assureurs, qui ont déjà développé des bases de données de jurisprudence et de dommages-intérêts comme AGIRA, l’avantage de la justice prédictive est de faciliter la connaissance de la "vraie" (à leurs yeux) jurisprudence, celle des statistiques. Les assureurs Allianz, Covéa, la Maif et Pacifica font partie des clients de Predictice [535], et Axa Protection Juridique ainsi qu’Allianz font partie des utilisateurs de Case Law Analytics [536].

À condition, évidemment, qu’aucune des parties ne fasse appel, qu’une juridiction suprême ne procède pas à un revirement de jurisprudence et que les textes applicables ne soient pas modifiés. Pour le magistrat Yannick Meneceur, détaché auprès du Conseil de l’Europe, « la forte évolutivité des règles juridiques constitue en elle-même une limite technique pour les algorithmes. Car les règles juridiques n’évoluent pas de façon linéaire comme dans les sciences dures, où une nouvelle règle vient compléter la précédente sans nécessairement l’invalider. Dans les systèmes de droit continental, il suffit que le texte fondamental change pour que la jurisprudence qui était fondée dessus se trouve écartée » [537]. Sur ce point, le bouleversement du droit du licenciement et de la procédure prud’homale par la loi Travail en 2016 puis les ordonnances Macron en 2017 constitue un excellent exemple : le contentieux de droit du travail pré-2017 a perdu une partie importante de son intérêt, particulièrement le montant des indemnités. Par ailleurs, comme le rappelle Bruno Mathis, consultant, la justice prédictive est « inutile pour estimer des dommages-intérêts obéissant à un barème [...] et où la justice prédictive sera-t-elle la plus utile ? Dans la masse des décisions qui ne sont ni trop spécifiques ni trop communes. » [538]

Les avocats craignent une certaine déshumanisation ou une justice au rabais, voire un possible risque de "fainéantisation". Comme le formule Me Navy lui-même : « On vient me voir avec un problème, je tape sur le logiciel, j’ai 90% de chances de le perdre, donc je ne prends pas le dossier alors qu’en s’y penchant bien, je pourrais soulever un point particulier et gagner. » [539]

13.9. Le risque, avec le développement des MARL, de réduction de la taille du jeu de données de la jurisprudence publiée

Il y a un risque que je n’ai vu mentionner que par l’ouvrage de Garapon et Lassègue. Il est caractéristique des soucis de ma profession, centrée sur l’information et les documents, leur production, leur recherche, leur diffusion. Il faut absolument le souligner : quid à long terme de la justice prédictive si celle-ci progresse et avec elle la déjudiciarisation, c’est-à-dire l’appauvrissement relatif des moyens humains et financiers du service public de la Justice ?

Quid, parce que si, comme nous l’avons vu plus haut, la justice prédictive [540] et la modernisation de l’action publique (MAP, ex-RGPP) favorisent, développent, poussent vers le compromis, la transaction, la médiation, la conciliation et l’arbitrage (dits modes alternatifs de résolution des litiges ou MARL), alors les décisions ne seront plus disponibles, car par définition ces procédures ne sont pas publiques [541] et leurs décisions non plus. Alors, plus d’open data judiciaire, plus de données et plus de justice prédictive possible. A titre d’illustration, on estime, en arbitrage commercial international, que les diverses revues et bases de données disponibles [542] ne publient qu’au mieux 3000 sentences arbitrales par an. Essayez donc de faire de la statistique avec ça.

Mais c’est justement le défi auquel tente de répondre (avec rigueur) Case Law Analytics : analyser les critères des juges et non leurs statistiques afin de pouvoir travailler avec un fonds de seulement quelques centaines de décisions (comme dans le contentieux boursier du manquement d’initié).

Par ailleurs, le risque est à relativiser un peu si on note que la publication des sentences arbitrales progresse, notamment à travers de nouveaux acteurs comme IA [Investment Arbitration] Reporter ou Jus Mundi.

13.10. Droit des données personnelles (pseudonymisation)

On peut aussi craindre une anonymisation insuffisamment forte, c’est-à-dire n’empêchant pas, d’ici les huit ans (à compter de 2017) nécessaires pour que les jugements de première instance accèdent à l’open data [543], la réidentification du fait d’un apprentissage statistique automatique ayant beaucoup progressé et s’appuyant les données indirectement nominatives. Ce risque est réel : le rapport Cadiet sur l’open data des décisions de justice, qui est en réalité d’abord l’œuvre de la haute magistrature [544], préconise une pseudonymisation renforcée, et non une véritable lutte contre la réidentification [545]. Or cette pseudonymisation renforcée ne semble être rien d’autre que la formalisation des pratiques actuelles des juridictions suprêmes, désormais en charge de l’anonymisation (pardon, pseudonymisation) et qui doivent faire face au coût que cela représente. La confirmation de cette anonymisation insuffisante est arrivée avec l’article 33 de la loi de programmation et de réforme 2018-2022 pour la justice.

Le professeur Anne Debet, ancien commissaire de la CNIL, et un des meilleurs spécialistes français du droit des données personnelles, interrogée par la mission Cadiet, explique pourtant que :

  • au regard de la jurisprudence de la Cour européenne des droits de l’homme, « on peut imaginer une condamnation de la CEDH sur le fondement d’une possible réidentification des personnes dans une décision contenant des données sensibles non correctement anonymisées »
  • au regard des exigences du RGPD, la simple pseudonymisation (le terme même employé par le rapport) est insuffisante : « L’anomymisation doit être conforme aux exigences posées par la loi informatique et libertés et par le RGPD. [...] Il ne doit pas s’agir d’une simple pseudonymisation, [...] Cette amélioration a néanmoins un coût et un budget conséquent doit y être consacré. » On ne saurait être plus clair.

Ne pas oublier non plus que l’article 11 du règlement (européen) général de protection des données (RGPD), applicable en 2018, interdit toute décision automatisée qui affecterait significativement un citoyen européen et que les articles 12 et 14 créent, pour les autres décisions, un "droit à explication" [546]. Une décision de justice prédictive, par exemple [547]. Toutefois, si en dehors des décisions de justice, cela a de fortes chances de rester un principe sans application concrète, en vue de l’open data des décisions, la loi de réforme de la justice du 23 mars 2019 interdit expressément les recherches basées sur les noms des juges.

13.11. Ethique : charte et comité ?

Directement concerné par ces soucis éthiques, Predictice a choisi :

  • de créer un Comité éthique et scientifique de la justice prédictive, dont les membres, des avocats et enseignants en droit [548], ont accès à l’application de Predictice
  • et de commander une étude à l’Ecole de droit de Sciences-Po [549], intitulée Les enjeux éthiques de la justice prédictive et rendue publique le 21 novembre 2018 [550]. Bien que le commanditaire de l’étude soit Predictice, les rédacteurs ont consulté et pris en compte l’ensemble des acteurs (legal techs comme éditeurs juridiques) présentant des solutions que l’on pourrait assimiler à de la justice prédictive. L’essentiel des recommandations de l’étude :
    • documenter les processus, les choix, les contenus et les échantillons (pp. 52-66 de l’étude). Par exemple, documenter le processus de constitution des bases de données utilisées pour la justice prédictive. Si les décisions sont différentes ou si elles ne sont pas enrichies et structurées de la même façon, les résultats, notamment les statistiques, devraient en effet être très différents. Documenter aussi la logique de constitution des échantillons d’apprentissage automatique. Etc. L’idée est celle d’une certaine transparence, pour permettre d’expliquer les différences de résultats entre outils. Si l’on y réfléchit, cela aurait pour avantage d’éviter de mettre en cause les fondements mêmes de la justice prédictive, et ainsi de protéger cette toute jeune activité
    • repenser le travail du juge, qui va clairement être tenté d’automatiser ses décisions (voir supra ce qu’expose Florence G’Sell, notamment l’exemple américain du logiciel Compass, souvent cité)
    • Philippe Glaser, associé du cabinet Taylor Wessing et associé à ces travaux, va plus loin, proposant de soumettre les algorithmes à une procédure d’audit réalisée par une institution une autorité administrative indépendante comme la CNIL, et, en attendant, faire adopter une charte éthique, que pour l’instant seul Predictice s’est engagé à suivre.

13.12. Certification ?

Les magistrats de l’ordre judiciaire interrogés par Lêmy Godefroy [551]. sont nombreux à réclamer, comme le Conseil national des Barreaux (CNB) et l’Ordre des avocats de Paris, une certification des outils de justice prédictive pour assurer leur qualité et éviter des erreurs d’analyse. En 2018 et 2019, la certification obligatoire semblait même devenue une sorte d’incantation dans ces milieux. Tout en ressemblant beaucoup à une tentative de barrière normative aux legal tech. D’ailleurs, peu d’acteurs ont avancé sur le contenu technique d’une certification. Et résoudrait-elle pour autant tous les problèmes de la justice prédictive ?
La certification, pour l’instant, reste purement optionnelle. Pas d’obligation. C’est le résultat des débats législatifs sur la loi de réforme de la Justice [552], qui ont donné lieu à un intense lobbying. Le décret n° 2020-1682 du 23 décembre 2020 [553] entend préciser « les modalités de l’audit d’accréditation, de la suspension et du retrait de l’accréditation ainsi que les conséquences de la cessation d’activité de l’organisme certificateur ». Il est accompagné d’un arrêté du même jour. Le système, selon Dalloz Actualité, est d’une grande complexité et ne favoriserait pas les modes alternatifs de règlement des différends (MARD) en ligne. [554]

A noter que la Commission européenne pour l’efficacité de la justice (CEPEJ) a adopté une étude de faisabilité sur la mise en place éventuelle d’un mécanisme de certification des outils et des services d’intelligence artificielle [555]. Cette étude se base sur la Charte de la CEPEJ concernant l’utilisation de l’intelligence artificielle dans les systèmes judiciaires et leur environnement, adoptée en décembre 2018. Le Conseil de l’Europe, s’il décidait la création d’un tel mécanisme, pourrait être un pionnier dans ce domaine. Après consultation de l’ensemble des Etats membres et observateurs, cette étude de faisabilité sera suivie d’un plan d’action que la CEPEJ préparera et transmettra au Comité des ministres du Conseil de l’Europe pour examen courant 2021.

13.13. Propriété intellectuelle (accès au code source ?)

Côté solutions, certains vont plus loin, en proposant voire exigeant que le code des applications sur lesquelles se fonde une décision de justice soit disponible en open source. Pour reprendre les mots de Michael Benesty : « la confiance que l’on placerait dans des outils de justice prédictive implique, au cours du processus, que le calculs et les caractéristiques du modèle de prédiction soient visibles et compréhensibles par le juriste, avocat ou magistrat, qui les emploie. Cela se traduit par une obligation de transparence sur les algorithmes, que garantit la libération en open source de la solution autant que par une vigilance et une expertise juridique sur les données mobilisées. » [556] Le code source de Supra Legem, l’application de M. Benesty, est en open source [557].

Le magistrat Antoine Garapon, dans son entretien précité aux Petites Affiches, penche, de manière moins radicale, pour la création d’un service public chargé de contrôler le code source, sous condition de secret professionnel [558].

Jacques Lévy Véhel (Case Law Analytics) [559] est lui aussi favorable à un contrôle du code source par un tiers de confiance, mais il insiste surtout sur la vérification des résultats des logiciels par les juges.

Le magistrat administratif Marc Clément, plus réaliste à mon sens, estime quant à lui que la protection de la propriété intellectuelle des entreprises est un obstacle pur et simple à la divulgation, même limitée du code source, sans parler de sa compréhension.

Un article de la série Futurography sur Slate.com, propose une autre troisième voie entre secret et open source. Un amendement à loi fédérale américaine FOIA (Freedom Of Information Act [560]) donnerait le droit au public de soumettre des jeux de données tests à l’administration. Celle-ci devrait les passer à travers ses programmes et publier les résultats. Experts et journalistes pourraient alors calculer le taux d’erreur de ces algorithmes [561].

Enfin, selon un article d’Internet Actu [562], l’évolution des technologies d’IA pourrait permettre de sortir de l’opacité du fonctionnement de deep learning pour les humains. Algorithmes génétiques et IA symbolique, par exemple, peuvent être compris et débuggués. Il serait aussi possible de demander au programme d’expliquer ce qu’il fait.

En France, notre droit permet en tout cas de demander communication du code source des logiciels créés et utilisés par l’administration, au titre de la communication des documents administratifs. La Commission d’accès au documents administratifs (CADA) [563] puis le tribunal administratif (TA) de Paris [564] l’ont confirmé à propos du logiciel simulant le calcul de l’impôt sur les revenus des personnes physiques. La DGFiP s’est résolu à s’y conformer l’an dernier, juste avant que le TA ne rende sa décision. La CADA a enfoncé le clou en 2016 en autorisant la communication à une association de lycéens du code source du logiciel Admission post bac (APB) [565]. Le Ministère de l’Education nationale s’y est conformé partiellement [566].

Enfin, du côté des structures privées (les cabinets d’avocats les premiers), les meilleures n’auront-elles pas intérêt à maintenir une expertise en recherche et veille afin de contrôler la pertinence des réponses ? Attention aux biais dans les contenus et les statistiques ... Pour le dire en anglais : « Content experts and data scientists needed ».

Conclusion : testez !

En termes philosophiques, théoriques et juridiques, sur les outils de l’IA en droit, nous ferions bien nôtre la conclusion de Bruno Deffains, professeur d’économie, dans son article Le monde du droit face à la transformation numérique [567] :

« L’IA nous invite à progresser par nous-mêmes, et il faut s’approprier l’outil pour être en mesure de juger la réponse de la machine. L’IA n’est qu’un moyen ; celui qui doit donner du sens à ce moyen est l’humain. C’est l’humain qui doit garder la responsabilité de la décision finale. Faute de solutions techniques à injecter dans les systèmes d’apprentissage, il faut laisser à l’humain la décision finale dans les cas délicats. Mis à part la voiture autonome et quelques autres exemples, qui nécessitent des réactions en temps réel, les solutions proposées par l’IA autorisent presque toutes le temps de la réflexion. On peut aussi imaginer configurer les systèmes pour qu’ils donnent plusieurs solutions, si possible avec les raisons associées et leurs conséquences, et laisser l’humain choisir celle qu’il veut adopter.
En réalité, les robots ne sont ni gentils ni méchants et n’ont pas de projet personnel. Ils font ce qu’on leur a dit de faire. Les peurs irrationnelles vis-à-vis d’une prise de pouvoir par l’IA masquent des enjeux politiques et économiques majeurs. [...] Les principes éthiques ne permettront pas à eux seuls à créer de la confiance dans les outils d’ia, et la norme juridique a un rôle essentiel à jouer pour garantir leur transparence, leur robustesse et leur auditabilité. Le monde se transforme, et le droit doit accompagner cette transformation grâce à des juristes à l’aise dans l’environnement numérique. »

Mais en termes pratiques, vu l’importance des enjeux et en même temps le fossé entre la com’ et les fantasmes d’une part et la réalité d’autre part, nous recommandons fortement de tester par soi-même ces nouvelles applications. Il est grand temps de déchirer le voile de hype et d’opacité de l’IA et que chacun se fasse sa propre opinion par lui-même.

En effet, il n’existe aucune démo gratuite en accès libre d’Hyperlex, Predictice ou Case Law Analytics (CLA) et les structures utilisatrices donnent très peu d’exemples d’utilisation ni de recherche et, à l’exception notable de CLA, aucun autre détail.

C’est là que la libre disponibilité de l’interface et du code source de Supra Legem remplissait son office : permettre au grand public de tester un outil de "justice prédictive".

Pour aller plus loin après ce billet, privilégiez :

Emmanuel Barthe
bibliothécaire documentaliste et veilleur juridique, spécialiste des moteurs de recherche pour le droit et des données juridiques publiques
licence en droit, Faculté de droit de Sceaux


Bibliographie

Les notes de bas de page (plus de 350) de ce long billet en composent la bibliographie. Une bibliographie en bonne et due forme représenterait trop de travail pour une publication qui reste après tout un exercice de vulgarisation et d’information.

Trois autres bibliographies très riches sur l’IA en droit français

Trois publications permettent toutefois d’accéder à des bibliographies extrêmement riches et beaucoup plus axées "juridique" que nos propres sources :

Les bibliographies de ces publications (placées comme toujours à la fin du document) comportent d’abord des références d’articles et ouvrages de juristes sur l’IA, les mathématiques, les statistiques et les algorithmes appliqués au droit (essentiellement français), mais aussi d’articles de mathématiciens, informaticiens et sociologues. Celle de l’ouvrage de Yanick Meneceur est disponible gratuitement en ligne (voir le lien) mais ne pas négliger les deux précédentes, plus complètes.

Une "webliographie" sélective et rapide sur Ross (2017)

Notes

[1Sur l’autre sujet combinant les deux mots-clés IA en droit, autrement dit le droit de l’IA, voir :

[2Le site de démonstration Supra Legem, qui se limitait au droit administratif, a été stoppé par son créateur.

[4Legalstart est une startup spécialisée dans les documents juridiques de base pour TPE, comme les statuts, par le biais de formulaires interactifs.

[5Voir la vidéo des interventions des Susskind à Chatham House en mars 2017 (1h04). Une précision personnelle : depuis que je lis les ouvrages de Richard Susskind ou des extraits de ceux-ci, je constate que les choses n’avancent pas exactement comme il tente de le prédire, pas toujours pour les raisons qu’il avance (R. Susskind n’avait pas prévu que ce serait le machine learning qui ferait sauter les limites de l’IA) et surtout, pas à la vitesse prévue ... Et je ne suis pas le seul : voir Lawyers and AI : Saying Susskind is Wrong, par Casey Flaherty, 3 Geeks and a Law Blog, 16 mars 2016.

[7Journaliste freelance, elle couvre les nouvelles technologies, l’économie et les médias et tient une chronique sur l’informatique juridique dans The Law Society Gazette, une des plus importantes revues anglaises dédiées aux professionnels du droit.

[8Sommaire(PDF) de l’ouvrage.

[9JCP G n° 1-2 du 9 janvier 2017 p. 47-52.

[10Les juges doivent-ils craindre l’arrivée de l’intelligence artificielle ?, Recueil Dalloz, n° 2, 12 janvier 2017 p. 104.

[11Un exemple de ces phrases chocs et excessives : « La plupart des acteurs vont s’équiper s’ils veulent survivre » (Bruno Deffains, professeur de sciences économiques).

[12Expertises des systèmes d’information, n° 420, janvier 2017.

[13L’IA d’IBM, Watson, a d’abord abordé le domaine du diagnostic médical. Watson délivrait soi disant d’assez bons diagnostics en matière de cancer. En fait, explique un article du New York Times de juillet 2021 (What Ever Happened to IBM’s Watson ?), il a abandonné ce domaine, les difficultés étant trop grandes, pour se recentrer sur le traitement du langage naturel (NLP), où semble-t-il il rivalise avec Google. Il a été testé dans plusieurs centres de cancérologie aux Etats-Unis selon l’enquête d’Arte sur l’IA. On lui a fait "digérer" toute la littérature disponible sur le cancer. Et IBM aurait également collecté, à septembre 2018, 90 millions de dossiers médicaux personnels numérisés. L’idée étant probablement de remédier à un défaut de l’application. En effet, selon le site d’information médicale STAT, des documents internes à IBM montrent des témoignages d’experts médicaux affirmant que des erreurs importantes étaient commises en 2017 par le programme. Pour les médecins, ces erreurs proviennent de la méthode utilisée par IBM, qui jusque-là entraînait l’IA avec des dossiers de patients fictifs — et non réels. Il y a pire — ou mieux selon le point de vue — : toujours selon STAT, Watson for Oncology est en fait « alimenté par [les recommandations] d’une vingtaine de médecins d’un seul hôpital américain, bien que très respecté : le Memorial Sloan Kettering Cancer Center à New York ». Et les limites de Watson face au cancer ne se ... limitent pas à ces seuls points : voir le mythe 6 parmi les Douze mythes de l’intelligence artificielle listés par O. Ezratty en novembre 2017. Pour finir, IMB a vendu Watson par appartements en janvier 2022, alors que l’unité compte 7000 collaborateurs.

[15Technology, jobs, and the future of work, McKinsey, briefing note prepared for the December 2016 Fortune Global Forum in Vatican City (PDF).

[16Notes from the AI Frontier, Insights from Hundreds of Use Cases, McKinsey Insights, avril 2018, 36 pages. Exposé de la méthode utilisée pour l’etude.

[17Laboratoire Analyse et Traitement Informatique de la Langue Française, membre du CNRS.

[18L’intelligence artificielle, le grand malentendu, par Morgane Tual, Le Monde.fr, 13 novembre 2019.

[19Mécanisme d’une justice algorithmisée, par Adrien Basdevant, Aurélie Jean, Victor Storchan, Fondation Jean Jaurès, 22 juin 2021.

[20L’intelligence artificielle va-t-elle prendre le pouvoir ?, par Pierre Lévy, Pierre Levy’s Blog, 6 septembre 2018.

[21« L’intelligence artificielle est bien aujourd’hui une escroquerie ! », par Robert Bentz, Le Monde.fr 24 novembre 2019.

[22L’intelligence artificielle, le grand malentendu, par Morgane Tual, Le Monde.fr, 13 novembre 2019.

[23Cours en ligne Elements of AI, par l’Université d’Helsinki et l’agence de consultants Reaktor, voir Chapter I What is AI ? Section I How should we define AI ?. Les auteurs principaux de ce cours sont Ville Valtonen, responsable de l’enseignement en ligne (MOOCs) chez Reaktor et le professeur associé Teemu Roos de l’Université d’Helsinki.

[24Résolution du Parlement européen du 20 octobre 2020 contenant des recommandations à la Commission concernant un cadre pour les aspects éthiques de l’intelligence artificielle, de la robotique et des technologies connexes (2020/2012(INL)). Résolution du Parlement européen du 20 octobre 2020 contenant des recommandations à la Commission sur un régime de responsabilité civile pour l’intelligence artificielle (2020/2014(INL)). Résolution du Parlement européen du 20 octobre 2020 sur les droits de propriété intellectuelle pour le développement des technologies liées à l’intelligence artificielle (2020/2015(INI)). Définition elle-même adaptée de celle qui figure dans la communication de la Commission européenne L’intelligence artificielle pour l’Europe COM(2018)237 final du 25 avril 2018, p. 1.

[25Mais aussi d’autres comme Marc Atallah, directeur de la Maison d’Ailleurs (Musée de la science-fiction à Yverdon-les-Bains, en Suisse) et professeur de littérature à l’université de Lausanne. Voir infra dans le texte et à la fin de l’article du Monde L’intelligence artificielle, le grand malentendu.

[26Enjeux et histoire de l’Intelligence Artificielle, par Tom Morisse, in Intelligence Artificielle, un nouvel horizon : Pourquoi la France a besoin d’une culture du numérique ? Comprendre et débattre ses enjeux technologiques, économiques, légaux et éthiques, Les Cahiers Lysias, p. 32. La lecture de cette publication (119 pages), rédigée par des spécialistes peu médiatiques, est recommandée pour mieux comprendre ce qu’est *exactement* l’IA, ses origines et ses définitions.

[27AI Influencers From the Post-ChatGPT Era, par Alberto Romero, The Algorithmic Bridge, 25 janvier 2023. How to Stop AI FOMO, par Alberto Romero, The Algorithmic Bridge, 28 avril 2023.

[28When algorithms go wrong we need more power to fight back, say AI researchers, par James Vincent, The Verge, 8 décembre 2018. Version française : Les failles des algorithmes sont dangereuses pour nos sociétés, par Vincent Cimino, Siècle Digital, 10 décembre 2018. Voir le "rapport" auquel Meredith Whittaker a contribué : AI Now Report 2018, décembre 2018 (62 pages).

[29Douze mythes de l’intelligence artificielle, par Olivier Ezratty, FrenchWeb, 16 novembre 2017. O. Ezratty est consultant pour les startups et l’industrie informatique, après avoir travaillé 15 ans dans le marketing pour Microsoft.

[30L’intelligence artificielle est-elle réellement si futée ?, par Sara Ibrahim, Swissinfo.ch, 16 février 2022.

[31AI is an Ideology, Not a Technology, par Glen Weyl et Jaron Lanier, Wired, 15 mars 2020.

[32The BS-Industrial Complex of Phony A.I. : How hyping A.I. enriched investors, fooled the media, and confused the hell out of the rest of us, par Mike Mallazo, 12 juin 2019. Son billet a été retiré, c’est pourquoi le lien pointe vers une archive. Des soupçons de pressions existent à propos de ce retrait.

[33Designing a Global Online Dispute ResolutionSystem : Lessons Learned from eBay, par Colin Rule, University of St. Thomas Law Journal, Vol. 13 n° 2 hiver 2017, article 102017.

[34Don’t believe the hype about AI and fund management, par Ewan Kirk, Financial Times, 3 mars 2020. Ewan Kirk est le président de GAM Systematic. Précédemment, il était CIO de Cantab Capital Partners, qu’il a créé en 2006 et qui, depuis 2016, fait partie de GAM Systematic. Avant de fonder Cantab, Ewan dirigeait l’équipe de 120 personnes de Goldman Sachs Strategies Group en Europe, où il était responsable de l’intégralité de la technologie quantitative de Goldman Sachs. Ewan Kirk est titulaire d’un doctorat en mathématiques (relativité générale) de l’Université de Southampton, d’un diplôme d’études supérieures en mathématiques appliquées de l’Université de Cambridge et d’un diplôme en philosophie naturelle et astronomie (obtenu avec distinction) de l’Université de Glasgow.

[35Artificial intelligence in EU securities markets, ESMA TRV Risk Analysis, ESMA, 1er février 2023. Cité dans L’intelligence artificielle peine à convaincre les fonds européens, L’Agefi, 7 février 2023.

[36AI in banking : the reality behind the hype, par Laura Noonan, Financial Times, 12 avril 2018.

[37Pourquoi l’intelligence artificielle cale, par Jacques Henno, Les Echos.fr, 15 septembre 2020.

[38Traduit automatiquement de l’anglais par Deepl. Un programme utilisant du deep learning, justement.

[39The winter, the summer and the summer dream of artificial intelligence in law, Presidential address to the 18th International Conference on Artificial Intelligence and Law, par Enrico Francesconi, Artificial Intelligence and Law (2022), publié le 3 février 2022.

[40Selon Wikipedia, le paradoxe de Moravec peut se résumer à l’idée que « le plus difficile en robotique est souvent ce qui est le plus facile pour l’homme ». Révélé par des chercheurs en intelligence artificielle et en robotique, notamment Hans Moravec, Rodney Brooks et Marvin Minsky, ce paradoxe indique que le raisonnement de haut niveau est beaucoup plus facile à reproduire et simuler par un programme informatique que les aptitudes sensorimotrices humaines. Ceci peut sembler contre-intuitif du fait qu’un humain ne ressent pas de difficulté particulière à effectuer des tâches relevant de cette dernière catégorie, contrairement à la première. Ce paradoxe a été formalisé entre autres par Hans Moravec dans les années 1980. On peut citer, comme exemples de tâches des deux catégories :

  • tâches sensorimotrices difficiles à simuler : reconnaissance d’un objet, d’un visage, d’une voix, faculté de déplacement dans un environnement tridimensionnel, jet et capture d’une balle, évaluation des motivations d’autres individus, de leurs émotions, faculté d’attention, de motivation...
  • facultés de raisonnement aisées à reproduire : mathématiques, logique, planification, jeux...

[41Modélisation de la démarche du décideur politique dans la perspective de l’intelligence artificielle, thèse présentée par Daniel K. Schneider pour l’obtention du doctorat ès sciences économiques et sociales, mention science politique, sous la direction du Pr. Pierre Allan, Université de Genève, Faculté des Sciences économiques et sociales, Département de science politique, Unité "Technologie de Formation et Apprentissage" (TECFA), septembre 1994. Lecture recommandée, là aussi, pour bien comprendre ce qu’est l’IA, comment la définir et ses composantes. L’auteur est lui-même devenu professeur au TECFA.

[42La « legaltech » bouleverse le marché traditionnel du droit, par Blandine Jugé, Lex Web Legal Expert 7 avril 2016.

[43Lexique des termes juridiques, par Thierry Debard et Serge Guinchard, Dalloz, 2019.

[44Francis Lefebvre (EFL), Dalloz et les Editions Législatives (tous trois membres du groupe Editions Lefebvre Sarraut, dit ELS), LexisNexis S.A., Wolters Kluwer France (marque Lamy), Lextenso, Lexbase, Groupe Revue Fiduciaire (RF), DILA (ex-Direction des Journaux officiels).

[45Juris-Data des Editions Techniques, futures Editions du JurisClasseur, sur Minitel, Lexis (de Lamy) sur terminal dédié, cédéroms Juridisques Lamy.

[46L’enjeu des legal tech — Ou comment les évaluer ?, 16 février 2021, par Juriformation, 16 février 2021.

[47Legaltechs françaises : les grandes tendances de l’année, par Anaïs Richardin, Maddyness, 23 janvier 2019. Il s’agit probablement de données résultant d’autodéclarations, comme sur l’annuaire des legal tech du Village de la Justice.

[48Initalement publiée en avril 2017

[49La legaltech française n’existe pas (encore) !, par Martin Bussy, Les Echos.fr, 12 février 2021.

[50Initialement, Predictice était en partenariat avec Editions Lefebvre Sarut (ELS), c’est-à-dire le groupe qui détient les éditeurs juridiques Francis Lefebvre, Dalloz et Editions Législatives, pour les données.

[51Ancienne URL : supralegem.fr.

[52Quand la legal tech se penche sur les contrats (1), par Véronique Méot, ActuEL Direction juridique, 3 mai 2018. Extrait : « L’équipe de LexDev a créé son propre langage informatique, à la croisée de l’informatique et du droit. [...] Le client fournit le contrat sous Word, et l’équipe modélise, sous forme d’un arbre décisionnel, une première version. Un échange entre les deux parties permet de valider le projet d’automatisation puis LexDev code et ajoute les variables nécessaires. »

[53"Il est important de se rappeler d’où l’on vient", par Célia Roger, Le Monde.fr 29 juin 2012.

[54LexDev, la legaltech qui automatise les documents juridiques les plus complexes, par Thuy-My Vu, Les Affiches Parisiennes, 24 avril 2018.

[55La transformation numérique du monde du droit, par Bertrand Cassar, thèse, dir. Franck Macrez, Université de Strasbourg, 2020, 4 décembre 2020.

[56Les usages de l’intelligence artificielle, 4e édition, par Olivier Ezratty, février 2021.

[58La legaltech française n’existe pas (encore) !, par Martin Bussy, Les Echos.fr, 12 février 2021.

[59Où en est la legaltech en France ?, Village de la Justice, 9 avril 2021. Des levées de fonds en berne mais un développement dopé, le double impact de la crise sur la legaltech française, Maddyness, 9 février 2021. Legaltech : les start-up du juridique en pleine croissance, Les Echos.fr 22 juin 2021. Mais attention à ce type d’article : Les Echos sont très pro-legaltech. Très.

[62Je m’excuse d’avance auprès des informaticiens, développeurs et spécialistes pour les simplifications que ce classement implique. Notre liste de technologies s’appuie notamment la liste disponible sur la page de présentation de l’étude "Artificial Intelligence Vendors of Tomorrow - Fundamentals" (Entreprises d’intelligence artificielle de demain – Principes fondamentaux) que Teknolowgy PAC (un cabinet européen indépendant de recherche et de conseil dans le domaine de la transformation numérique, des logiciels et des services informatiques) a publié en janvier 2019. Selon la page : « Teknowlogy a réalisé une étude majeure sur les acteurs de l’IA à l’échelle mondiale. L’étude a répertorié 3500 startups et PME qui sont des éditeurs de logiciels et prétendent offrir des solutions d’intelligence artificielle. Après une analyse approfondie de chacune d’entre elle (compétences, financement, détails techniques, etc.) le cabinet a sélectionné environ 600 d’entre elles qui semblent avoir des offres sérieuses. » Voici la liste des technologies de l’IA selon Teknowlogy :

  • Algorithmic studio (machine learning)
  • Process automation (RPA/AI)
  • Semantic text analysis
  • Natural language processing (NLP)
  • Speech recognition & NLU
  • Image recognition
  • Video recognition
  • Deep learning framework.

[63Lire Place et rôle de l’IRETIJ dans la communauté scientifique nationale et internationale par Pierre Catala, revue "Informatica e diritto" (Informatique et droit), fascicule n° 2, 1984. L’article a été écrit par M. Catala à son départ de la direction de l’IRETIJ. L’IRETIJ a depuis disparu. Il est symptomatique que l’auteur se plaignait que les effectifs de ce laboratoire de recherche contenaient trop de juristes et pas assez d’informaticiens. Ce sont en effet surtout les informaticiens et les mathématiciens qui sont responsables des derniers progrès de l’informatique juridique, bien peu les juristes. Cela dit, il est fort probable que ce sont des professionnels disposant de la double compétence droit+machine learning qui permettront de passer par dessus les blocages actuellement rencontrés.

[64L’émergence de systèmes experts juridiques par Martine Quenillet, in Dialogo sobre la informatica juridica, Presses de l’université autonome de Mexico (Mexique), 1989, p. 379-394. Lire aussi L’utilisation d’un "système expert" en droit comparé par Xavier Linant de Bellefonds, Revue internationale de droit comparé vol. 46 n° 2, avril-juin 1994, p. 703-718.

[65La meilleure preuve que c’est de l’IA "à la papa" : les anciens de la filiale française d’Expert System (fermée en 2018, soit seulement trois ans après le rachat de Temis par Expert System) ont fondé Kairntech et le produit Sherpa qu’ils proposent depuis 2020 est une plateforme de traitement du langage naturel basée sur ... du machine learning. Sherpa est similaire à, par exemple, prodigy et Amazon SageMaker Ground Truth (qui offre l’avantage de pouvoir faire appel à plusieurs centaines de milliers de "Turkers" ou travailleurs du clic ("clickworkers"), les petites mains de l’IA qui travaillent sur Amazon Mechanical Turk. A notre connaissance, Sherpa n’est pas actuellement (août 2020) utilisé dans un produit juridique.

[66IA : comment lutter contre les biais dans les données d’entraînement, par Lisa Morgan, LeMagIT, 25 février 2021.

[68Mais il y a une exception : si un l’avocat du mis en cause plaide la relaxe (ce qui est rare), il peut délivrer des conclusions aux fins de relaxe. Dans ce cas, le tribunal correctionnel devra répondre à chacun des points évoqué par l’avocat dans ses conclusions. La motivation sera alors très développée..

[69Ces trois limites (panel réduit, passé et corrélation) sont soulignées par Jacques Lévy Véhel dans Présentation du fonctionnement d’outils numériques existants d’analyse mathématique du droit, in Comment le numérique transforme le droit et la justice, rapport final de recherche, Mission de recherche Droit & Justice, juillet 2019, p.12.

[71L’open data et l’open source, des soutiens nécessaires à une justice prédictive fiable ?, par Michael Benesty, Journal of Open Access to Law, vol. 5, n° 1, 2017.

[72L’apprentissage profond avant tout, entretien avec Yann LeCun, par Serge Abiteboul, blog Le Monde.fr Binaire, 10 novembre 2017.

[73Pour une excellente définition des réseaux neuronaux/deep learning, de l’apprentissage supervisé et non supervisé et de l’apprentissage par renforcement ("reinforcement learning"), lire l’article Why some artificial intelligence is smart until it’s dumb, de Tom Siegfried, publié sur Knowable le 27 août 2020 et reproduit sur Sinapticas. Voici une traduction du passage pertinent :
« Les informaticiens ont développé des stratégies assez puissantes pour apprendre aux machines comment apprendre. Généralement, cet apprentissage repose sur une variante des systèmes informatiques connue sous le nom de réseaux de neurones. De manière grossière, ces réseaux imitent le cerveau humain, avec des unités de traitement basées sur les cellules nerveuses du cerveau, ou neurones. Dans un réseau neuronal traditionnel, une couche de neurones artificiels reçoit des entrées qui modifient la force des connexions avec les neurones d’une autre couche, où les modèles de l’entrée peuvent être identifiés et signalés à une couche de sortie. Un tel réseau de neurones artificiels peut "apprendre" à classer les données d’entrée comme, par exemple, l’image d’un chat.
Depuis une dizaine d’années, la stratégie d’apprentissage machine dominante s’appuie sur des réseaux neuronaux artificiels à couches multiples, une méthode connue sous le nom d’apprentissage profond ("deep learning"). Une machine d’apprentissage profond peut détecter des modèles à l’intérieur de modèles, permettant des classifications plus précises des données d’entrée, dépassant la capacité même des humains experts. Un système d’apprentissage profond bien formé peut détecter un signal de cancer dans un scanner qui échapperait aux yeux d’un radiologue humain.
Dans certains systèmes, l’apprentissage est "supervisé", ce qui signifie que la machine est formée sur des données "étiquetées". Avec l’apprentissage non supervisé, les machines sont formées sur de grands ensembles de données sans qu’on leur dise ce que l’entrée représente ; l’ordinateur lui-même apprend à identifier les modèles qui définissent les catégories ou les comportements. Dans une autre approche, appelée apprentissage par renforcement, la machine apprend à répondre à des données d’entrée par des actions qui sont "récompensées" (par exemple en ajoutant des chiffres dans un fichier mémoire) si elles aident à atteindre un objectif, comme gagner un jeu. L’apprentissage par renforcement a démontré sa puissance en produisant la machine qui a battu le champion humain du jeu de Go. »

[74Case Law Analytics évalue l’aléa judiciaire, par Arnaud Dumourier, Le Monde du Droit 6 septembre 2016.

[76Comment le « deep learning » révolutionne l’intelligence artificielle par Morgane Tual, Le Monde.fr 28 juillet 2015. L’enquête d’Arte (octobre 2018) "L’intelligence artificielle va t-elle nous dépasser ?" permet de visualiser une représentation en 3D des réseaux neuronaux, avec une explication audio directement tirée des propos de Y. LeCun. Voir à partir de 11:16. Extrait : « Un réseau de neurones artificiels se décompose en plusieurs couches, sur lesquelles une multitude de programmes informatiques sont connectés les uns aux autres. [...] Chaque neurone apprend à reconnaître un motif [de l’image] particulier. [...] Yann LeCun : "Ca peut nécessiter des systèmes avec des millions de neurones simulés, avec des dizaines ou même quelques fois des centaines de couches de neurones à l’intérieur, avec des dizaines de millions de connexions entre les neurones, quelque fois des centaines de millions de connexions entre les neurones, qui sont toutes ajustables. Et ces systèmes sont quelques fois entraînés avec des centaines de millions ou des milliards d’exemples. Chacun de ces exemples ayant été étiqueté par une personne ou plusieurs personnes. Est-ce que c’est un sac, une marque particulière ou une voiture de marque particulière etc. On peut arriver à déterminer des catégories, avec ces systèmes, qui sont de granularité très fine — une espèce de plante, une espèce de chien ..." »

[77Les GAN repoussent les limites de l’intelligence artificielle, par Rémy Demichelis, Les Echos.fr, 4 décembre 2018.

[78En tout cas en algorithme linéaire. Exemple d’algorithme linéaire.

[79Qui utilisent des algorithmes non linéaires.

[80Plus de détails sur ces sujets dans notre billet Supra Legem, un exemple de machine learning appliqué au droit.

[82Une des méthodes d’analyse syntaxique est la grammaire de dépendance, qui fonctionne même sur des langues où l’ordre des mots est libre et non contraint et permet, sans être de la sémantique, de détecter même les relations sémantiques (relations de sens) entre les mots. Un des programmes d’analyse syntaxique ("parser") les plus puissants et récents est SyntaxNet écrit là encore par une équipe de Google et mis en open source. Plus basiques en matière de NLP et n’appartenant pas à la famille de l’analyse syntaxique, sont les méthodes n-grammes (en anglais n-grams) et Bag-of-Words (BOW), où la statistique permet, avec un corpus de littérature donné, de "prédire" le mot suivant à partir d’un mot donné. Elles fonctionnent mieux avec des langues où l’ordre des mots n’est pas libre. Ces méthodes ont notamment été employées dans la fameuse "prédiction" — avec 79% d’exactitude — des décisions de la Cour européenne des droits de l’homme à partir de l’exposé des faits, de la procédure et des arguments.

[83Avec Word2vec, un mot se définit par son contexte de mots et cette définition est un vecteur. Ce vecteur est exprimé sous forme de chiffre car le machine learning à la base, ce sont des statistiques et les statistiques à la base, ce sont des mathématiques : d’où l’expression du contexte sous forme de vecteur (on parle aussi de "word embedding" ou plongement lexical). Lorsque deux vecteurs sont très proches ou identiques, cela signifie donc que les termes auxquels ils font référence, dans le contexte dans lequel ils sont, sont de sens similaire. Dit autrement, Word2vec peut deviner/prédire avec un très faible taux d’erreur un mot à partir de son contexte et vice-versa. Pour s’en convaincre, on pouvait jusqu’en 2017 comparer les résultats de deux recherches identiques sur Supra Legem — qui utilisait un dérivé de Word2Vec — et sur la base de jurisprudence administrative de Legifrance. (Contrairement à ce qu’on pourrait croire, Word2vec est aujourd’hui encore peu utilisé sur les IA en droit français — on verra pourquoi plus loin.) Avant Word2vec, l’algorithme dominant était Latent Semantic Analysis (LSA) : voir pp. 8-11 de l’étude des professeurs américains Remus et Levy (analysée plus loin dans le texte de ce billet) pour une très instructive explication de son fonctionnement, similaire à celle de Word2vec. Une explication du fonctionnement des logiciels de NLP en ML (en 2016) nettement plus mathématique — mais qui reste pédagogique — est disponible sur ce billet : Representing Words, par Vered Shwart, une étudiante et chercheuse en mathématiques et machine learning, sur son blog Probably Approximately a Scientific Blog : Human-interpretable computer science and other ramblings, 3 janvier 2016.

[84Legal Applications of Neural Word Embeddings, par Erin Yijie Zhang, Towards Data Science, 7 août 2020.

[85Intuitive Guide to Understanding GloVe Embeddings, par Thushan Ganegedara, Towards Data Science, 5 mai 2019.

[86En termes plus techniques, les modèles sans contexte tels que Word2vec génèrent un "word embedding"/vectorisation unique pour chaque mot du vocabulaire, là où BERT prend en compte le contexte pour chaque occurrence d’un mot donné. Par exemple, alors que le le mot "obligations" aura la même représentation vectorielle avec Word2vec pour ses deux occurrences dans les phrases « Le droit des obligations a été réformé en 2016 » et « Le capital social de la société doit être entièrement libéré au moment de l’émission d’obligations », BERT fournira un "embedding" contextualisé qui sera différent selon la phrase. Source Wikipedia EN. Pour citer Pierre-Carl Langlais : « Les modèles “transformers” apparaissent en 2017 sur la base d’un principe relativement simple : “tout ce dont vous avez besoin, c’est de l’attention” (“All you need is attention“). Au lieu de se limiter à une lecture flottante de ce qui précède et d’en retirer une vague notion générale du sujet du texte, les modèles transformers modélisent les interactions entre les mots précédents. Ils ont une compréhension intuitive de la syntaxe et de la composition de la phrase qui fait défaut dans tous les modèles qui les ont précédés. Évidemment, cette modélisation est complexe : les réseaux de neurones légers utilisés par word2vec laissent place à de l’apprentissage profond ("deep learning"). »

[87Voir A (relatively) simple guide to language models, par Ben Wodecki, AI Business (un site du réseau Informa), 27 juillet 2022. »

[88LEGAL-BERT : The Muppets straight out of Law School, par Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis et al., Findings of EMNLP 2020, arXiv:2010.02559, 6 octobre 2020.

[90IA : compréhension du langage naturel, petits essais avec CAMEMBERT, par Laurent Gouzènes, LonkedIn Pulse, 10 décembre 2020.

[91Analyse automatique des facteurs de risques publiés par les sociétés cotées : un cas d’usage du traitement du langage naturel pour l’AMF, par Corentin Masson, AMF, janvier 2023. Extrait du résumé de ce rapport :
« Sur la base de plus d’une centaine d’URD d’établissements financiers entre les années comptables 2012 à 2020, les expérimentations conduites montrent notamment qu’il est possible, de façon automatique, d’appréhender la répartition des risques par secteur ou par émetteur, de suivre leur évolution dans le temps. Il est aussi possible de détecter les variations les plus importantes d’une année sur l’autre dans les degrés de mention de chacun des risques présentés. A titre d’illustration, l’outil développé met visuellement en évidence l’émergence de la présentation du risque pandémique dans les URD publiés en 2021 (sur l’année comptable 2020) ainsi que la croissance continue du risque de sécurité informatique ou des hausses temporaires des risques réglementaires dans certains secteurs (par exemple liés au règlement Benchmark ou encore la loi de séparation des activités bancaires en 2013).
A l’issue de cette première phase d’expérimentation, mais sans toutefois minimiser les difficultés que
représenterait la généralisation de cet outil à tout émetteur du marché français, les premiers résultats obtenus semblent prometteurs et permettent d’envisager à terme un recours aux techniques TAL plus largement pour soutenir les travaux du régulateur : à la fois dans le cadre de son suivi de l’information communiquée au marché par les émetteurs (et dans l’appréhension de la qualité de celle-ci), mais également pour alimenter la production d’études thématiques.
Enfin, pour faciliter l’exploitation automatique des documents émetteurs ou plus largement celle des documents réglementaires, l’AMF souhaite promouvoir l’usage des formats « machine-readable » et, surtout, l’associer à des bonnes pratiques permettant d’en optimiser l’utilisation. »

[92Golem.ai, l’outil qui allège les entreprises des basses tâches, Les Echos, 17 mars 2021. Une IA pour automatiser les services clients, par François Manens, La Tribune, 25 mars 2019.

[93On est en droit, ici, de la procédure civile. la "question" posée à ChatGPT est : « Voie de recours à l’encontre des décisions du juge de la mise en état ». La "réponse" est absurde et ce dès le départ. En effet, comme le précise l’article 795 du Code de procédure civile (CPC) :
« Les ordonnances du juge de la mise en état et les décisions rendues par la formation de jugement en application du 9e alinéa de l’article 789 ne sont pas susceptibles d’opposition. Elles ne peuvent être frappées d’appel ou de pourvoi en cassation qu’avec le jugement statuant sur le fond. » De plus, comme l’explique par exemple cette fiche pratique Lexis 360, l’institution du juge de la mise en état est propre aux TGI et aux cours d’appel — PAS à la justice administrative. Enfin, je n’ai pas vu de « délai de deux mois » dans ce domaine. Ouch ! :-/ Clairement, interroger Google est plus intéressant et plus fiable que de s’amuser avec ChatGPT. Vérifiez par vous-même.

[94OpenAI, fondée par Sam Altman et Elon Musk, est financée désormais essentiellement par Microsoft qui l’implémente dans ses outils. OpenAI emploie 300 personnes début 2023 et son chiffre d’affaires est très inférieur à celui de DeepMind, la filiale londonienne de Google et dans laquelle à l’origine Elon Musk avait également investi. Pour plus d’informations sur OpenAI, lire :

[95Qu’est-ce que GPT-3 ?, par Ray Tiernan, ZDNet.fr, 26 août 2020. Voir aussi, par un évangéliste d’OpenAI : The best kept secret about OpenAI’s GPT-3, par Andrew Mayne, 20 octobre 20, 2020. Presque tous les autres posts d’Andrew Wayne sur GPT-3 sont à lire. Ils donnent une bonne idée des capacités de cette IA chatbot.

[96Le collectif BigScience, composé de plusieurs centaines de chercheurs, a entraîné le LLM BLOOM. Il est entraîné à réaliser les mêmes tâches que GPT dans 46 langues et 13 langages de programmation. Les jeux de données utilisés pour son entraînement sont tous disponibles en open-source.

[97Training Compute-Optimal Large Language Models [Chinchilla], par Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch et al., arXiv:2203.15556 [cs.CL].

[98Comme le souligne Thomas Coëffé du Blog du Modérateur, « c’est un point clé pour au moins deux raisons : cela permet aux utilisateurs d’explorer ces contenus pour aller plus loin, de vérifier la véracité des informations, leur bonne interprétation ; et cela pourrait permettre à Google de proposer une juste attribution aux auteurs des contenus. [...] L’intégration des sites utilisés dans Sparrow pourrait ainsi permettre de ménager les éditeurs, qui pourraient être fortement impactés si ce type de service gagne en popularité, tout en apportant une réponse appropriée et sourcée aux usagers. [...] Google, c’est avant tout un outil qui crawle et indexe des contenus. La fraîcheur des données pourrait ainsi constituer un avantage déterminant dans la lutte à venir sur ce secteur. »

[99Building safer dialogue agents, blog de Deep Mind, 22 septembre 2022. Sparrow, la réponse de Google à ChatGPT, par Thomas Coëffé, Blog du Modérateur, 25 janvier 2023.

[101A (relatively) simple guide to language models, par Ben Wodecki, AI Business (un site du réseau Informa), 27 juillet 2022. Extrait : « Un modèle de langage est un modèle d’apprentissage profond qui utilise des méthodes probabilistes pour prédire la probabilité d’occurrence de certaines séquences. Il s’agit souvent de la séquence de mots dans une phrase, mais elle peut être étendue à des éléments tels que les structures protéiques. En analysant les données (texte, audio ou images), un modèle de langage peut tirer des enseignements du contexte pour prédire ce qui va suivre dans une séquence. Le plus souvent, les modèles de langage sont utilisés dans les applications NLP qui génèrent des résultats basés sur le texte, comme la traduction automatique. » ChatGPT ou la percée des modèles d’IA conversationnels, PEReN (Pôle d’expertise de la régulation numérique du Gouvernement), avril 2023.

[102Chatbot Arena : Benchmarking LLMs in the Wild with Elo Ratings, par Lianmin Zheng, Ying Sheng, Wei-Lin Chiang et al., LMSys.org, 3 mai 2023.

[103ChatGPT : How to Understand and Compete with the AI Bot, par Aleksandra Yosifova, 365 DataScience, 15 décembre 2022.

[105GPT-3 : c’est toi le Chat, par Olivier Ertzscheid, Affordance.info, 2 janvier 2023.

[106Un article du Washington Post sur le "dataset" C4 inclut un moteur de recherche sur les sites inclus dans C4. C’est très instructif. J’y ai appris ainsi que le présent site et blog precisement.org a été, à mon insu, inclus dedans. Le jeu de données Common Crawl existe depuis 2008. Selon Wikipedia, il comprend des travaux protégés par le droit d’auteur (mais "copiable en droit américain selon une interprétation de l’exception au "copyright" dite "fair use" ... non validée par la Cour Suprême) et est distribué librement et gratuitement depuis les États-Unis. Il faut bien préciser que les CGU de Twitter et Facebook (et la puissance économique de ces sociétés) protègent les contenus de ces sites des appétits des "data sets". Et Reddit est en train de réfléchir à se faire payer pour l’utilisation (fréquente) de son contenu dans les jeux de données. Le respect du droit d’auteur français par Common Crawl me semble au mieux imparfait, vu que mes mentions légales depuis l’origine interdisent la copie (sauf pour moteur de recherche web, ce que n’est pas Common Crawl). Dans la version de mars 2023 de Common Crawl, 46 % des documents avaient l’anglais pour langue principale (suivi du russe, de l’allemand, du chinois, du japonais, du français et de l’espagnol, tous inférieurs à 6 %).

[107Fair Use or Infringement : Does Machine Learning Have to Respect Copyright ?, par Diana Bikbaeva, Lexology, 29 décembre 2022.

[108How to use the GPT-3 language model, par Simon Willison, son blog, 5 juin 2022.

[109ChatGPT vs Google : la guerre des moteurs de recherche est lancée, par Leïla Marchand, Les Echos.fr, 6 janvier 2023.

[110Stephen Wolfram est connu pour son travail en science informatique compris de nombreux aspects de l’IA. En 1987, il a fondé la société Wolfram Research et a créé Mathematica, un logiciel de calcul symbolique utilisé dans les milieux universitaires et industriels pour de nombreuses tâches mathématiques et scientifiques. Il a aussi créé Wolfram Alpha, un moteur de recherche basé sur l’IA capable de comprendre le langage naturel et de répondre à des questions complexes dans de nombreux domaines.

[111Learning from Human Preferences, OpenAI blog, 13 juin 2017. Illustrating Reinforcement Learning from Human Feedback (RLHF), par Nathan Lambert et al., Hugging Face Blog, 9 décembre 2022.

[112ChatGPT : plongée dans les entrailles du chatbot qui bouleverse la tech, par Leila Marchand, Les Echos.fr, 12 décembre 2022. Pour plus de détails, voir l’excellente newsletter du dimanche de Benoît Raphaël.

[113Plus de précisions sur le RLHF tel qu’utilisé pour ChatGPT et InstructGPT sur cette page du site Tech Talks tenu par Ben Dickson, un programmeur indépendant qui écrit régulièrement dans la presse informatique américaine : What is reinforcement learning from human feedback (RLHF) ? (16 janvier 2023 ; traduction en français par DeepL) :
« ChatGPT utilise le cadre général de RLHF, avec quelques modifications. Au cours de la première phase, les ingénieurs ont procédé à un "réglage fin supervisé" sur un modèle GPT-3.5 pré-entraîné. Ils ont engagé un groupe de rédacteurs humains et leur ont demandé d’écrire des réponses à un ensemble d’invites. Ils ont utilisé l’ensemble de données des paires invite-réponse pour affiner le LLM. OpenAI aurait consacré une somme importante à ces données, ce qui explique en partie pourquoi ChatGPT est supérieur à d’autres LLM similaires.
Dans la deuxième phase, ils ont créé leur modèle de récompense sur la base de la procédure standard, en générant plusieurs réponses à des messages-guides et en les faisant classer par des annotateurs humains.
Dans la phase finale, ils ont utilisé l’algorithme RL d’optimisation de politique proximale (PPO) pour entraîner le LLM principal. OpenAI ne donne pas plus de détails sur le gel de certaines parties du modèle ou sur la manière dont elle s’assure que le modèle entraîné par RL ne s’éloigne pas trop de la distribution d’origine. ».

[114Aligning Language Models to Follow Instructions, OpenAI blog, 16 janvier 2022.

[115Microsoft aims for AI-powered version of Bing, Reuters, 4 janvier 2023.

[116Microsoft va intégrer ChatGPT à Teams, par Samir Touzani et Marina Alcaraz, Les Echos.fr, 2 février 2023.

[118ChatGPT, le missile de Microsoft contre Google, par Frédéric Filloux, L’Express, 19 janvier 2023.

[119ChatGPT vs Google : la guerre des moteurs de recherche est lancée, par Leïla Marchand, Les Echos.fr, 6 janvier 2023.

[1207 language models you need to know, par Ben Wodecki, AI Business (un site du réseau Informa), 27 juillet 2022. Top Open Source Large Language Models, par Maziyar Panahi, KDnuggets, 14 septembre 2022.

[122.

[123OpenAI lance ChatGPT Plus, une version payante de son IA conversationnelle, par Mathilde Rochefort, Siècle Digital, 2 février 2023.

[124Intelligence artificielle - ChatGPT, un pas de plus vers le droit augmenté, par Delphine Iweins, La Semaine Juridique édition Générale, 3 avril 2023, act. 406.

[125The hidden danger of ChatGPT and generative A, par Sharon Goldman, The AI Beat, Venture Beat, 5 décembre 2022. Une étude (à laquelle OpenAI a participé) donne un chiffre sur la tendance de GPT-3 (à partir de laquelle ChatPGT a donc été développé) à "imaginer" : 58% de réponses justes (les humains 94%), ce qui fait 42% de réponses fausses (TruthfulQA : Measuring How Models Mimic Human Falsehoods, par Lin, Hilton et Evans, 2022).

[127ChatGPT : Optimizing Language Models for Dialogue, OpenAI blog, 30 novembre 2022.

[128Voici la plupart des questions/sujets traités par ChatGPT et citées en lien ici :

[129Source.

[130Paramètres LLM, par trigaten, Learn Prompting, 20 mars 2023.

[131Microsoft teste 3 nouveaux styles de réponses pour Bing ChatGPT : créatif, équilibré, précis, par Estelle Raffin, Le Blog du Modérateur, 28 février 2023.

[133Comme nous l’expliquons plus loin, on peut douter qu’à terme il soit possible d’éliminer totalement les hallucinations des LLM généralistes comme ChatGPT. Des IA génératives "fine-tunées" et restreintes à un contenu éditorial, en revanche, c’est possible.

[134GPT Takes the Bar Exam, par Michael James Bommarito et Daniel Martin Katz, SSRN, 29 décembre 2022.

[135ChatGPT passes law school exams despite ’mediocre’ performance, par Karen Sloan, Reuters, 25 janvier 2023. L’étude : ChatGPT Goes to Law School, par Jonathan Choi, Kristin Hickman, Amy Monahan et Daniel Schwarcz, Minnesota Legal Studies Research Paper No. 23-03, Legal SSRN, 25 janvier 2023.

[136NB : selon Arvind Narayanan, informaticien et professeur à l’Université de Princeton, et Sayash Kapoor, doctorant au Center for Information Technology Policy de l’Université de Princeton (ses recherches portent sur le machine learning), les résultats incroyables de GPT-4 aux examens (PAS le barreau américain : la vérification a été faite avant test par Katz et Bonmarito) seraient en grande partie dûs à la mémorisation des solutions et des corrigés dans son vaste corpus d’entraînement (GPT-4 and professional benchmarks : the wrong answer to the wrong question, par Arvind Narayanan et Sayash Kapoor, AI Snake Oil, 20 mars 2023). Ce phénomène dit de "data contamination" se produit lorsqu’on inclut des informations sur le jeux de données de test dans le jeux de données d’entraînement, ce qui entraîne une estimation trop optimiste du score du modèle. Elle résulte généralement du traitement simultané des données de formation et de test avant la validation du modèle. La contamination relativise grandement la performance puisque par définition cette dernière est alors non reproductible avec des données récentes/nouvelles. Voir : Data Contamination : From Memorization to Exploitation, par Inbal Magar et Roy Schwartz, ACL 2022, 15 mars 2022, disponible sur ArXiv.

[138AI Tools for Lawyers : A Practical Guide, par Daniel Schwarcz et Jonathan Choi (Minosota University Law Faculty), Legal SSRN, 29 mars 2023.

[141Voici par exemple un type de formules qui revient souvent dans les "réponses" de ChatGPT : « Il est difficile de répondre », « dépend de nombreux facteurs », « peuvent être considérées ... dans la mesure où ... », « peut varier en fonction de différents facteurs [flous] ».

[142Suite à l’interdiction de ChatGPT en Italie pour non respect du RGPD — interdiction levée après le changement réalisé par OpenAI.

[143Tweet de Sam Altman du 30 novembre 2022. Extrait (traduit par nos soins) : « ceci est une démonstration précoce de ce qui est possible (il y a encore beaucoup de limites — c’est pour l’essentiel une version de recherche). »

[144Intelligence artificielle : un utilisateur de ChatGPT sur cinq craint pour son emploi, par Philippe Duport, émission C’est mon boulot, France Info, 7 février 2023. L’étude citée par France Info : Etude ChatGPT : Augmentation de la productivité de 74% et 51% de pertes d’emplois en marketing, par Anne-Gaëlle Sy, blog de Sortlist, 23 janvier 2023.

[145Communiqué Sciences-Po Paris, 27 janvier 2023.

[146Anthropic’s Claude improves on ChatGPT but still suffers from limitations, par Kyle Wiggers, 2023 TechCrunch, 9 janvier 2023.

[147Google présente BARD, l’agent conversationnel prochainement intégré à son moteur de recherche, par Thierry Maubant, Actu IA, 7 février 2023. Google Bard : Everything You Need To Know, par Roger Montti, Search Engine Journal, 23 mars 2023.

[149ChatGPT Is the World’s Best Chatbot, par Alberto Romero, The Algorithmic Bridge, 2 décembre 2022. Traduction en français via DeepL et corrigée par nos soins.

[150« Attention, l’intelligence artificielle ChatGPT est une menteuse pathologique », par Jean-Gabriel Ganascia et Claire Mathieu, Les Echos Start, 15 décembre 2022

[154Attys Ditch ChatGPT, Develop Custom Generative AI Tools, par Steven Lerner, Law360, 7 février 2023. Forget The Future. Attorneys Are Using Generative AI Now, par S. Lerner, Law360, 30 janvier 2023.

[155LexisNexis Enters the Generative AI Fray with Limited Release of New Lexis+ AI, Using GPT and other LLMs, par Bob Ambrogi, LawSites, 4 mai 2023.

[156Casetext refuse de dire sur quelle version de la technologie de GPT CoCounsel est basé.

[158Allen & Overy breaks the internet (and new ground) with co-pilot Harvey, par Caroline Hill, Legal Insider 16 février 2023. Harvey, which uses AI to answer legal questions, lands cash from OpenAI, par Kyle Wiggers, TechCrunch, 23 novembre 2022.

[159Aucun cabinet ne va investir autant d’argent et de moyens humains en interne. On l’avait déjà vérifié avec les bases de données des éditeurs, que les cabinets n’ont jamais vraiment concurrencées.

[160LegiGPT : le chatbot français qui répond à vos questions juridiques, par Estelle Raffin, Blog du Modérateur, 2 mai 2023. Liste d’attente pour LegiGPT+.

[161Une illustration avec le titre même de l’article "Attys Ditch ChatGPT, Develop Custom Generative AI Tools" : les juristes cités utilisent GPT-3 et l’option fine-tuning. Or Microsoft a laissé entendre que l’option de fine tuning serait aussi proposée sur ChatGPT. Et ChatGPT est un GPT-3 plus entraîné (GPT-3.5 + Instruct). On peut donc estimer que le journaliste n’est pas très au parfum, que son titre est mal fondé et que les applications présentées ne sont peut-être pas aussi impressionnantes que ce qu’en disent leurs créateurs.

[162Je n’inclus pas ici les legaltech, car la doctrine leur manque et l’accès à celle disponible en open access leur imposerait de passer par l’autorisation des grands portails de revues en sciences humaines et sociales (SHS).

[164Ne parlons même pas du problème des jugements en matière pénale, dans lesquels les faits sont squelettiques, et où l’on renvoie au dossier pour les détails.

[165Generative Legal AI + ‘The Last Human Mile’, par Richard Tromans, Artificial Lawyer, 5 décembre 2022.

[166ChatGPT : Netscape Moment or Nothing Really Original, par Jean-Louis Gassée, Monday Note, 30 janvier 2023.

[167Large language models have a reasoning problem, par Ben Dickson, TechTalks, 27 juin 2022. Large Language Models Can Self-improve, par Anonyme, 16 novembre 2022, ICLR 2023 Conference Blind Submission.

[16891% of ML Models Degrade in Time, par Santiago Víquez, nannyML, 11 avril 2023. Temporal quality degradation in AI models, par Daniel Vela, Andrew Sharp, Richard Zhang et al., Scientific Reports Vol. 12, Article number : 11654, 8 juillet 2022. Le data drift ou le cauchemar de l’intelligence artificielle en production, par Augustin Marty, Les yeux de la Tech, 27 mai 2020. Extrait : « En attendant l’avènement de l’apprentissage non supervisé, quasiment tous les modèles en production sont des modèles supervisés : ils sont entraînés sur une base de données fixe représentant un ensemble de situations sur une période donnée. C’est-à-dire qu’ils ont vu et digéré de nombreux exemples de situations qui aboutissent de façon systématique à tel ou tel résultat dans un contexte précis, mais si l’on sort de ce contexte, le modèle est perdu. Or le contexte change au fil du temps, et progressivement l’application, si elle n’est pas entraînée de nouveau, perd en performances. »

[169Is Microsoft about to get the deal of the century ? Or is Sam Altman unloading OpenAI at just the right time ?, par Gary Marcus, The Road to AI We Can Trust, 11 janvier 2023. ChatGPT owner OpenAI projects $1 billion in revenue by 2024, par Jeffrey Dastin, Krystal Hu et Paresh Dave, Reuters, 15 décembre 2023.

[171Le tarif de l’API de recherche Bing va être multiplié par 10 par Microsoft, par Olivier Andrieu, Abondance, 1 février 2023.

[172Setup GPT-2 On Your PC, par Andrew Zhu, data scientist chez Microsoft, Codex, 11 mars 2023. Running OpenAI’s GPT-2 Language Model on your PC, par Tim Hanewich, technicien chez Microsoft, 18 février 2023.

[173Fils Twitter d’Alexander Doria (Pierre-Carl Langlais), 11 et 13 mars 2023.

[174Why You May Have Missed #22, par Alberto Romero, The Algorithmic Bridge, 20 mars 2023.

[176GPT-4 Rumors From Silicon Valley, par Alberto Romero, The Algorithmic Bridge, 11 novembre 2022.

[177Microsoft vs Google : Will Language Models Overtake Search Engines ?, par Alberto Romero, The Algorithmic Bridge, 6 janvier 2023. Is ChatGPT Really a “Code Red” for Google Search ?, par Gary Marcus, The Road to AI We Can Trust, 30 décembre 2022. How come GPT can seem so brilliant one minute and so breathtakingly dumb the next ?, par Gary Marcus, The Road to AI We Can Trust, 1er décembre 2022. Perhaps It Is A Bad Thing That The World’s Leading AI Companies Cannot Control Their AIs, par Scott Alexander, Astral Codex Ten, 12 décembre 2022.

[17844 % des internautes refusent de payer les biens culturels sur Internet [sondage], Le Monde, 4 novembre 2010. Qui est prêt à payer pour du contenu en ligne ?, par Pascaline Boittiaux, Statista, 18 juin 2018.

[179Pour le formuler comme certains des participants au fil de discussion Twitter initié par Paul Buchheit, le créateur de GMail, le 1er décembre 2022 :
Paul Buchheit : « Google n’est peut-être qu’à un an ou deux d’un bouleversement total. L’IA éliminera la page de résultats des moteurs de recherche, qui est l’endroit où ils gagnent le plus d’argent. Même s’ils rattrapent leur retard en matière d’IA, ils ne peuvent pas la déployer complètement sans détruire la partie la plus précieuse de leur activité ! »
Sasha : « Ce n’est pas si simple. Quelque chose doit alimenter le moteur d’informations d’actualité. Étant donné qu’il n’y a pas de lien vers l’extérieur, pourquoi les ressources d’actualité (c’est-à-dire les actualités) partageraient-elles ces informations à moins qu’il n’y ait un échange de valeur. Si ChatGPT devient un super agrégateur d’actualités, la source des données aura besoin d’argent. »
Wojtek Szkutnik : « Les modèles de langage sont entraînés sur du contenu écrit par des humains et l’activité de Google dans la publicité en ligne dispose d’un mécanisme d’incitation pour les créateurs qui soutient [la création et la mise à jour de] ce contenu. Une fois ce mécanisme supprimé, l’algorithme commence à se nourrir de ses propres créations et la qualité se dégrade. Vous ne pouvez donc pas remplacer Google sans remplacer les annonces. »
Paul Dunne : « Je me demande comment l’économie de contenu fonctionne lorsque votre robot de recherche lit les sites Web à votre place. Bien sûr, Microsoft peut toujours afficher des publicités, mais quelle est la motivation des éditeurs à publier si personne n’a plus besoin de cliquer sur leur site Web ? [...] ChatGPT et d’autres systèmes d’IA dépendent du contenu pour continuer à fonctionner. La cannibalisation des résultats de recherche nécessiterait soit un nouveau modèle de revenus pour les créateurs de contenu, soit, potentiellement, moins de contenu et un retour aux gardiens de l’information encyclopédique de la vieille école. »

[180Tableau greffe la préparation de données à sa plateforme, par Cyrille Chausson, Le Mag IT, 24 avril 2018

[181Qlik : un Qlik Sense qui avance lentement vers l’AI, le Big Data et le multi-cloud, par Craig Stedman, Le Mag IT, 7 mai 2018. Posts tagged : Machine Learning, Microsoft Power BI Blog. Tableau Applies Machine Learning Algorithms to Analytics, par Mike Vizard, IT Business Edge, 2 juin 2017.

[182Can these new tricks fix the disaster of chatbots ?, par Tiernan Ray, ZDNet.com 29 juillet 2019. Version française : Ces nouvelles pistes de recherche pourraient enfin faire marcher les chatbots, ZDNet.fr, 30 juillet 2019.

[183La définition de Wikipedia : « agent qui dialogue avec un utilisateur. Un utilisateur est invité à formuler sa demande en langage naturel, elle est affinée par un échange convivial, dont le logiciel interprète une requête opérationnelle pour son système d’information. »

[184The State of Artificial Intelligence in 2018 : A Good Old Fashioned Report, par Ian Hogarth et Nathann Benaich, juin 2018. Egalement publié sur Slideshare (la dernière édition du State of AI Report est disponible sur la page d’accueil du site).

[185Le terme de suprématie quantique qualifie le moment où l’ordinateur quantique résout un calcul insolvable par un ordinateur classique.

[186Google affirme avoir atteint la suprématie quantique mais IBM conteste toujours l’exploit, par François Manens, La Tribune 23 octobre 2019. Quantum supremacy using a programmable superconducting processor, par Arute, F., Arya, K., Babbush, R. et al., Nature 574, 505–510 (2019) doi:10.1038/s41586-019-1666-5

[189Microsoft built a Supercomputer to power OpenAI’s ChatGPT, par Rob Waters, Cyber Careers, 13 mars 2023.

[190Size Doesn’t Matter, par Alberto Romero, The Algorithmic Bridge, 25 avril 2023.

[191Deep Learning’s Diminishing Returns - The cost of improvement is becoming unsustainable, par Neil C. Thompson, Kristian Greenwald, Keeheon Lee et Gabril F. Manso, IEEE Spectrum, 24 septembre 2021.

[192The State of Legal AI – a Q&A, par Ron Friedmann, prismlegal.com, 4 octobre 2017.

[193Ces trois termes n’ont pas d’équivalent en droit français. Nous ne les traduisons donc pas.

[195Rapport Anticiper les impacts économiques et sociaux de l’intelligence artificielle, par Lionel Janin et Rand Hindi, France Stratégie, 21 mars 2017 (PDF, 48 pages).

[196"Je reste convaincu qu’une partie du travail de la justice ne pourra jamais être automatisée", B. Warusfel, propos recueillis par Samorya Wilson, ActuEL Direction Juridique, 27 octobre 2017.

[198LexisNexis Picks Up San Francisco Startup Ravel Law, par Benjamin Horney, Law360, 8 juin 2017 (extrait traduit par nos soins).

[200Par exemple, comme le dénonce Frédéric de Gombert, président d’une startup spécialisée dans l’intelligence artificielle (L’homme continue d’avoir le dernier mot, Le Monde.fr, 2 janvier 2018), « le questionnement relatif à la supériorité de l’IA (sur l’intelligence humaine) a été ­déplacé du domaine de la probabilité vers celui de la temporalité. Autrement dit, la question ne serait plus " est-ce possible ? ", mais plutôt " quand cela aura-t-il lieu ? ". Si les prouesses de l’IA y sont pour beaucoup, elles ne suffisent pas à expliquer ce déplacement sémantique. Le storytelling compte aussi pour une bonne part. Et ce, depuis les origines de cette technologie ».

[201IA washing : des experts dénoncent le recours abusif au terme d’"intelligence artificielle", par Alexis Orsini, Numerama, 25 juillet 2017. Un article du New York Times estime que l’IA est, avec la blockchain, un des deux concepts les plus « buzzed about and least understood in the tech universe ».

[202Face à l’intelligence artificielle des Datas scientists, l’IA Powerpoint, par Thierry Berthier (maître de conférences en mathématiques à l’Université de Limoges et chercheur en cybersécurité), Contrepoints, 15 mars 2019. Two in five ’AI startups’ essentially have no AI, mega-survey of nearly 3,000 upstarts finds, par Andrew Orlowski, The Register, 5 mars 2019. Nearly Half Of All ‘AI Startups’ Are Cashing In On Hype, par Parmy Olson, Forbes.com, 4 mars 2019. 40% of A.I. start-ups in Europe have almost nothing to do with A.I., research finds, par Elizabeth Schulze, CNBC, 6 mars 2019. Extrait de l’article de CNBC (traduction par nos soins) : « "Il y a énormément de battage médiatique, mais l’un des moyens par lesquels nous espérons apporter de la valeur ajoutée en tant qu’investisseur ... consiste à contourner ce battage publicitaire et à mettre en évidence la technologie", a déclaré David Kelnar, responsable de la recherche à MMC, lors d’un entretien téléphonique avec CNBC. ». Ces articles se réfèrent à une étude de MMC Ventures (une société britannique de capital-risque) : The State of AI : Divergence 2019. Voici l’extrait pertinent, page 99 de l’étude (traduction par nos soins) : « Dans approximativement 60% des cas – soit 1580 sociétés – il y avait des preuves de la présence d’IA dans la proposition de valeur de la société. » Olivier Ezratty, consultant déjà cité et bon connaisseur de l’industrie de l’IA a décortiqué les chiffres de MMC et leur origine, biaisés (très britanniques et peu français et restrictifs sur la définition technique de l’IA). Ces biais relativisent (la proportion n’est donc probablement pas de 40%) mais ne changent pas le constat, fait par O. Ezratty lui-même en conclusion et par d’autres précités ici, de l’existence d’un IA washing. Par ailleurs, que les investisseurs en soient peu victimes comme l’avance O. Ezratty est une chose, mais les consommateurs, c’est autre chose.

[203How to Evaluate Legal Technology that Improves Efficiency, par Dera J. Nevin, Legal Insider, 19 février 2019.
Voici d’autres exemples concrets d’IA washing et d’exagération sur les performances de l’IA en matière de justice prédictive. Commençons par l’article cité ici de Daily Business Review faisant le compte-rendu de l’usage de ROSS en droit américain de la faillite par le cabinet Salazar Jackson : il prétend que ROSS rédige un mémo synthétisant sa recherche, alors que le New York Times explique que c’est en fait un juriste qui le fait.
Autre exemple, plus banal et hélas plus répandu : Ross, le robot avocat qui va bouleverser le monde juridique, février 2017 : un post de blog sur ROSS bien "ranké" (à l’époque) par Google, sans vérification ni note de bas de page. Rédigé par une étudiante en droit, il reprend tels quels les pseudo-arguments des articles publiés fin 2016 à la louange de ROSS, notamment celui de Forbes.com, écrivant par exemple : « ROSS peut ainsi occuper une place d’assistant juridique hors pair, capable d’étudier toutes les possibilités et toutes les failles potentielles de l’argumentaire de l’avocat ». A rapporter à l’article du NYT.
Continuons : La justice prédictive, mélange de droit et d’intelligence artificielle, Le Parisien.fr, 1er février 2017 : article de presse trop rapide, quasi-communiqué de presse. Ici, on présente les deux produits commerciaux (on oublie la démo non commerciale Supra Legem), on aligne des citations des deux startups sans rien tester ni demander l’avis d’utilisateurs non référencés, on ajoute une citation de haut magistrat et c’est bon.
Un autre exemple de battage médiatique ou d’IA exagération, dans la catégorie involontaire (autrement dit faute de travail journalistique suffisant, de temps et par sacrifice à la mode) : l’actu de newsletter d’éditeur juridique : La justice prédictive, bientôt au cœur de toutes les directions juridiques ?, ActuEL Direction juridique, 15 décembre 2017. Premier problème dès le titre : aucune direction juridique d’aucune entreprise n’est citée ni interviewée. Celui qui parle des directions juridiques est un avocat. Or son cabinet est à la fois client et "early adopter" de Predictice, un des trois acteurs français de justice prédictive. L’autre personne massivement citée est un spécialiste du marketing des cabinets d’avocats. Il est très compétent dans son domaine (le marketing juridique), mais il n’est pas avocat, encore moins directeur juridique. Il ne peut pas prétendre parler au nom des directeurs juridiques. Enfin, la photo qui accompagne l’article peut donner à première vue une impression de foule du fait de son champ resserré mais il n’en est rien : on est au salon des legal tech début décembre 2017 et la salle est en fait petite et même pas entièrement remplie.

[204La réalité derrière le fantasme de la justice robot, par Thomas Coustet, Dalloz Actualité, 15 avril 2019.

[205Predictice : bilan d’utilisation intensive de l’outil, par Frédéric Cuif, blog de Descartes Avocats, 7 mai 2019.

[208ROSS Artificial Intelligence Outperforms Westlaw and LexisNexis, Study Finds par Robert Ambrogi, Law sites (blog de R. Ambrogi) 17 janvier 2017. Robert Ambrogi est des consultants américains les plus respectés en "legal IT".

[209A.I. Is Doing Legal Work. But It Won’t Replace Lawyers, Yet par Steve Lohr, New York Times 19 mars 2017.

[210Selon Andrew Arruda, dirigeant et co-fondateur de ROSS Intelligence : « Le système, aussi, demande aux juristes de noter positif ou négatif les résultats de la recherche, de manière à ce que Ross puisse apprendre à mieux répondre aux questions à l’avenir. Une fois que le système comprend ce que vous demandez, il commence à apprendre à devenir meilleur. Ross est dynamique et non statique. » (traduction par nos soins)

[211Machine Learning : Supervision Optional par Ernest Tavares III, Medium.com 29 octobre 2016.

[212ROSS Intelligence lands $8.7M Series A to speed up legal research with AI, par John Mannes, Tech Crunch, 11 octobre 2017. Ne pas prêter attention à l’exagération marketing habituelle du style "là où ça prenait des semaines, on a réduit à quelques heures".

[213L’avènement des robots avocats, Les Affiches parisiennes, 14 mars 2017.

[214Avocats d’affaires, passez en mode robot !, par Chloé Enkaoua, Agefi Hebdo, 9 février 2017.

[215Source : Scope of coverage, site de ROSS Intelligence au 20 janvier 2021.

[216U of T students’ artificially intelligent robot signs with Dentons law firm, par Jeff Gray, The Globe and Mail, 9 août 2015.

[217IBM déploie Watson dans la régulation financière,
L’Agefi quotidien, 14 juin 2017(accès réservé).

[218Japanese company replaces office workers with artificial intelligence, par Justin McCurry, Guardian.com 5 janvier 2017.

[220What Ever Happened to IBM’s Watson ?, par Steve Lohr, New York Times, 16 juillet 2021.

[222Par Morgane Tual, Le Monde.fr 13 mars 2017.

[224Orange : comment le groupe envisage son nouveau management, Lettre de l’Expansion du 16 janvier 2017.

[227IBM pitched its Watson supercomputer as a revolution in cancer care. It’s nowhere close, par Casey Ross et Ike Swetlitz, STAT, 5 septembre 2017. STAT est un magazine en ligne américain spécialisé sur les sciences du vivant et de la médecine. Les journalistes Casey Ross et Ike Swetlitz ont interrogé de nombreux médecins à travers le monde, mais aussi des responsables d’IBM et des spécialistes de l’IA. L’article a été relayé par Business Insider puis par Numerama.

[228IBM’s Watson supercomputer recommended ‘unsafe and incorrect’ cancer treatments, internal documents show, par Casey Ross et Ike Swetlitz, 25 juillet 2018. Cet article de STAT a aussi été relayé par Numerama.

[229Cette dépendance à la "data" se vérifie même dans le processus d’apprentissage : ainsi, selon Michael Benesty, il faut d’abord alimenter Word2vec avec des corpus de textes généralistes et thématiquement très éloignés du domaine dans lequel on veut spécialiser, puis se rapprocher progressivement de ce domaine. Ici, en droit, cela veut dire commencer par exemple par la base Gutenberg pour finir par Legifrance ou Jurispedia.

[230Watson, le savant calcul d’IBM, par Sandrine Cassini et Chloé Hecketsweiler, Le Monde 3 octobre 2017.

[232Peut-on coder le droit ?, par Thierry Wickers, in Dossier "L’intelligence artificielle, le droit, la justice et les avocats", Cahiers de droit de l’entreprise n° 4, juillet-août 2019, 25, p. 28.

[233Artificial Intelligence in Law : The State of Play 2016 (Part 2), par Michael Mills, Legal Executive Institute, 1er mars 2016.

[234Patent, copyright, trademark, antitrust, securities, employment, commercial, product liability et federal bankruptcy appeals.

[235Lexis Advance Now Integrates Attorney Analytics from Lex Machina, par by Robert Ambrogi, Law Sites, 14 décembre 2017.

[236Bloomberg’s Points of Law : Can They Compete with Headnotes ?, par Jill Sturgeon, bibliothécaire juridique et ancienne avocate, University of Colorado Law School, Colorado Law Scholarly Commons, 2018.

[238Get Inside the Heads of Experts and Judges Using Their Own Historical Data, par Neil J. Squillante, TechnoLawyer, 16 décembre 2018.

[239Le test a été mené sous la supervision de professeurs de droit des universités de Stanford, Duke et Southern California. Le résumé du test et de ses résultats en une infographie : AI vs. Lawyers, Law Geex. L’étude (PDF) détaillée : Comparing the Performance of Artificial Intelligence to Human Lawyers in the Review of Standard Business Contracts, LawGeex, février 2018. Deux articles sur le test : AI roundly beats lawyers on contract review in a fraction of the time, The Global Legal Post, 26 février 2018. LawGeex Hits 94% Accuracy in NDA Review vs 85% for Human Lawyers, Artificial Lawyer, 26 février 2018. Pour relativiser cette performance, lire : Intelligence artificielle et avocats : une collaboration, pas un affrontement, par Bruno Dondero et Bernard Lamon, Les Echos.fr, 9 novembre 2018.

[240The Deal Force + The Library Force of Legal Tech, Artificial Lawyer, 22 mars 2021.

[241Sources : Law and Word Order : NLP in Legal Tech, par Robert Dale, Towards Data Science, 15 décembre 2018 ; ebook gratuit précité Les usages de l’intelligence artificielle par Olivier Ezratty (2018), où l’auteur liste certains logiciels que j’avais ratés, comme Neota Logic et Klarity.

[242Quand le droit s’approprie l’Intelligence artificielle, par William Sadrin, Capital Finance, 17 septembre 2018. NB : on parle là des bureaux anglais et/ou américains de ces cabinets. En 2018, les bureaux français sont seulement en début de test ou d’adoption.

[244When BT had to review thousands of documents, Deloitte Legal stepped in ..., par Cristiano Dalla Bona, The Lawyer, juin 2021.

[245eBrevia Applies Machine Learning To Contract Review, by Ben Kepes, Forbes.com 20 février 2015.

[248Why the iManage Acquisition Of AI Company RAVN Is Something To Crow About, par Robert Ambrogi, AboveTheLaw, 26 juin 2017.

[249Artificial intelligence is entering the justice system, par Rowland Manthorpe, Wired, 25 juin 2017.

[250’Egregrious criminality over decades’ : Judge’s damning verdict on the Rolls-Royce bribery case, par Oscar Williams-Grut, Business Insider, 18 janvier 2017. L’enquête s’est terminée par une amende de 671 millions GBP ...

[251BT confirms RAVN relationship, Legal IT Insider, 15 décembre 2016.

[252Ce que les Anglo-saxons appellent "red lining a contract".

[253Knowable’s Strategy To Disrupt The AI Contract Analytics Market, Artificial Lawyer, 8 octobre 2019. Voir aussi : GCs Face Contract ‘Chaos’ + Knowable Wants to Help, Artificial Lawyer, 16 apvil 2020.

[254Les descriptions, même celles marketing de la société HotDocs elle-même, parlent plus d’"automatisation" ("automation") que d’IA ("AI").

[256Pourquoi Septeo rachète la start-up IA SoftLaw, par Thomas Tedesco, La Tribune, 29 avril 2020.

[257Philippe Rivière (Septeo) : leader européen de la legaltech, par Laurent Marcaillou, Les Echos Entrepreneurs, 4 octobre 2019. Legaltech : Septeo met la main sur Legal Suite, par Véronique Arène, Le Monde Informatique, 29 janvier 2018.

[258Hyperlex ou l’analyse automatisée de contrats : entretien avec son CEO, Alexandre Grux, par Isabelle Bellin, Data Analytics Post, 15 juillet 2019. Hyperlex, la startup legaltech qui va révolutionner la gestion de contrats grâce à l’intelligence artificielle, lève 1 million d’euros, communiqué de presse Isai, 28 février 2018. Hyperlex utilise l’IA pour mettre de l’ordre dans les contrats, par Déborah Loye, Les Echos.fr, 13 juin 2019.

[259Les usages de l’intelligence artificielle 2021, par Olivier Ezratty, février 201.

[260VictorIA : l’intelligence artificielle au service des notaires, par Raphaël Lichten et Arnaud Dumourier, Le Monde du droit, 17 février 2020.

[261The Rise + Rise of Legal Process Providers (AKA ALSPs), Artifical lawyer, 15 février 2021. Growing ALSP market becoming less “alternative”, says new report, Thomson Reuters Institute, 11 février 2021.

[263AI and Satisficing, par Alex Hamilton, LinkedIn Pulse, 5 octobre 2022.

[264TurboPatent Builds AI Into Track Changes for Patent Drafting, par Gabrielle Orum Hernande, 6 juillet 2017. Communiqué, 28 juin 2017.

[265La start-up Data&Data combat la contrefaçon avec le machine learning, par Maryse Gros, Le Monde Informatique, 10 décembre 2015.

[266Le RGPD (auparavant la loi Informatique et Libertés) interdit de diffuser à grande échelle les noms des personnes physiques, donc des particuliers parties. Quant aux noms des magistrats, un amendement à la loi de programmation pour la justice 2018-2022 interdit toute analyse informatisée poussée de leur jurisprudence individuelle : voir l’article 33 de la loi, valable tant pour la justice judiciaire que pour la justice administrative (d’où mon adaptation infra du texte de l’article 33 pour éviter la répétition) :
« IV.-Le chapitre unique du titre Ier du livre Ier du code de l’organisation judiciaire/Le titre préliminaire du code de justice administrative [sont] ainsi modifié[s] :
1° Les deux premiers alinéas de l’article L. 111-13/Les deuxième et troisième alinéas de l’article L. 10 sont remplacés par trois alinéas ainsi rédigés :
[...]
« Les données d’identité des magistrats et des membres du greffe ne peuvent faire l’objet d’une réutilisation ayant pour objet ou pour effet d’évaluer, d’analyser, de comparer ou de prédire leurs pratiques professionnelles réelles ou supposées. La violation de cette interdiction est punie des peines prévues aux articles 226-18,226-24 et 226-31 du code pénal, sans préjudice des mesures et sanctions prévues par la loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés. »

[267Réponse ministérielle n° 11629, Lherbier, Journal officiel Sénat Questions n° 49, 12 décembre 2019, p. 6151.

[268Il s’agissait d’un test de Predictice. Voir aussi L’utilisation de l’outil Predictice déçoit la cour d’appel de Rennes, Dalloz Actualité, 16 octobre 2017, précité.

[269Selon le résumé fait par un groupe de professeurs de droit pour la Cour de cassation (in La diffusion des données décisionnelles et la jurisprudence, rapport à la Première présidente de la Cour de cassation, juin 2022, note 303, p. 95) :
« J. Barnier, B. Jeandidier et I. Sayn, chercheurs au CNRS, ont dressé un retour des expériences menées par le groupe E-juris. Ils ont ainsi indiqué que l’outil d’intelligence artificielle utilisé identifie facilement, à l’aide des expressions régulières, le dispositif d’une décision, mais qu’il rencontre plus de difficultés s’agissant de la procédure et de la discussion. Une des difficultés est que, si la rédaction change quelque peu, l’outil ne fonctionne plus. De plus, il était souligné que le degré de précision varie d’une décision à une autre, certaines étant synthétiques, d’autres fort exhaustives. Cette hétérogénéité des formats adoptés et de l’information fournie rend l’établissement d’un modèle difficile. Or ce sont ces situations d’hétérogénéité (en matière de prestation compensatoire par exemple) qui justifient une aide à la décision. La conclusion de leur intervention est que l’usage de la jurimétrie pour la recherche juridique n’est pas amenée à se produire dans un avenir proche. »

[271Justice prédictive : évolution, révolution ? Compte rendu des deux tables rondes, conférence sur la justice prédictive du 23 mai 2017 à la Cour d’appel de Paris, Journal spécial des sociétés, 17 juin 2017, voir p. 6.

[272La legaltech, une chance ou une menace pour les professions du droit ? (accès réservé), entretien avec Antoine Garapon, par Jonathan Vayr, Les Petites affiches, 18 septembre 2017, p. 4.

[273Et autrefois Supra Legem.

[274La justice dite "prédictive" : prérequis, risques et attentes - l’expérience française, par Eloi Buat-Ménard, Les Cahiers de la justice 2019. 269.

[275Attention, cette question sur l’effet du ventre creux du juge recouvre un lieu commun contestable. Selon Sonya Faure dans Libération en 2016 : « Le philosophe américain Jerome Frank disait déjà, au début du XXe siècle, que la justice reflétait surtout "ce que les juges ont mangé pour le petit-déjeuner". [Et] des travaux israéliens ont étudié 1 000 décisions acceptant ou refusant les aménagements de peine réclamés par des condamnés. En début d’audience, ceux-ci avaient 65 % de chance en moyenne de voir leur demande acceptée. En fin d’audience, ce pourcentage tombait à zéro. Le taux remontait à 65 % après la pause déjeuner. » L’habituellement excellente revue Les Cahiers de la justice a republié la thèse des auteurs israéliens (Qu’a mangé le juge à son petit-déjeuner ? De l’impact des conditions de travail sur la décision de justice, par Shai Danziger, Jonathan Levav et Liora Avnaim-Pesso, Les Cahiers de la justice 2015. 579). Mais la source du "juge plus sévère quand il a le ventre creux" est une étude unique et isolée (Extraneous factors in judicial decisions, par Shai Danziger, Jonathan Levav et Liora Avnaim-Pesso, PNAS Vol. 108 n° 17, 11 avril 2011) et l’ancien président du SDER de la Cassation a été amené à la corriger (Les juges sont-ils plus sévères quand ils ont faim ?, par Jean-Paul Jean, Dalloz Actualité 26 janvier 2021). Selon lui, cette étude présente plusieurs biais qui en relativisent les résultats : « Il semble que la diminution du taux de décisions favorables au long de chaque session résulte du fait que les détenus avec avocat passent en premier et les détenus sans avocat ensuite, avec un taux de succès beaucoup plus faible. Par ailleurs, il semble que les avocats ayant plusieurs clients passent leurs meilleurs dossiers en premier pour essayer de dégager une tendance favorable. »

[276Présentation du fonctionnement d’outils numériques existants d’analyse mathématique du droit, par Jacques Lévy Véhel, in Comment le numérique transforme le droit et la justice vers de nouveaux usages et un bouleversement de la prise de décision, rapport final de recherche, Mission de recherche Droit & Justice, juillet 2019, p. 7.

[277Frédéric Rouvière, professeur à l’université d’Aix-Marseille a qualifié la justice prédictive de « version moderne de la boule de cristal » (RTD Civ., 2017, p. 527). C’est exagéré selon nous.

[278Voir l’interview de Me Sfadj dans Expertises.

[279Pas en accès libre, mais en revanche, d’importants fonds (sélectifs) de jurisprudence de première instance sont disponibles sur les plateformes payantes des éditeurs, surtout celles de Lexbase et LexisNexis.

[280Jugements des juges de proximité (JP), tribunaux d’instance (TI), tribunaux de grande instance (TGI), tribunaux de commerce (Tcom), conseils de prud’hommes (CPH), tribunaux paritaires des baux ruraux, tribunaux des affaires de sécurité sociale (TASS) etc.

[281La loi du 7 octobre 2016 pour une République numérique parle d’open data des décisions du fond (articles 20 et 21) mais reste à obtenir les moyens techniques (XMLisation de tous les documents avec DTD ou schéma XML, rénovation massive du parc informatique et augmentation très importante du débit des connexions intranet et internet), humains (les greffiers, en sous-effectifs et débordés) et financiers.
Ajoutez que l’ensemble des décisions de justice judiciaire françaises représente actuellement environ 3,8 million de documents par an, que l’anonymisation, justement en l’absence de schéma ou DTD XML, est difficile et reste pour l’instant imparfaite même en machine learning, et qu’en première instance, il reste un stock purement papier.
Ronan Guerlot, adjoint au directeur du Service de documentation, des études et du rapport (SDER) de la Cour de cassation, cité par Libération en févier 2017, estime qu’il faudra patienter quatre à cinq ans une fois que le décret d’application de la loi sera entré en vigueur [décret qui n’était toujours pas paru fin novembre 2019, NDLA] pour permettre d’informatiser toutes les décisions de justice. « Le plus difficile sera de faire remonter les décisions de première instance du TGI. Nous disposons souvent de minutes [original d’un acte de justice, ndlr] papier, il faudra donc créer des outils informatiques », explique-t-il. En revanche, pour la justice administrative, c’est déjà prêt : les décisions des cours administratives d’appel sont déjà sur Legifrance et celles des tribunaux administratifs sont déjà en base de données — non disponible au public. Arnaud Mazier, chef de service des SIC (DSI), ministère de la Justice : « Ce que l’on vise, c’est passer en format numérique natif les chaînes de décisions civiles et pénales », entretien avec Gaëlle Marraud des Giottes, Actualités du droit, 22 octobre 2018. Extrait :
« ADD : Un budget et une méthodologie sont-ils prévus pour numériser toutes les décisions de justice qui, pour l’heure, ne sont pas nativement numériques ?
A.M. : Je ne sais pas s’il convient de nommer cela une méthode, mais la démarche du ministère est très claire. Il s’agit de définir nos systèmes par les données qu’ils produisent, font circuler, stockent et valorisent, dans leur finalité propre, la protection à apporter pour assurer la confiance attendue (sécurité informatique, RGPD, Etc.). Ils doivent également offrir des ouvertures via des API permettant de construire un véritable écosystème numérique, dans le respect du droit. PORTALIS et le projet de procédure pénale numérique en sont des illustrations fortes. ».
Pour plus de détails, lire notre billet L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain.

[282En effet, seuls les éditeurs juridiques ont l’ensemble des données nécessaires, particulièrement les commentaires (la doctrine, qui non contente de livrer les clés indispensables pour comprendre le droit brut, augmente très nettement la pertinence des recherches). C’est le sens de la tribune de Fabien Girard de Barros, directeur de la publication de l’éditeur Lexbase, intitulée La legaltech est morte ... Vive l’édition juridique ! (22 décembre 2016). Ce n’est pas un hasard si Predictice a, comme expliqué supra, un partenariat pour les données de jurisprudence — et la commercialisation — avec le groupe Wolters Kluwer France (Lamyline). Le bénéfice devrait en être mutuel. Comme nous l’avons vu plus haut, l’accès à des données de haute qualité est aussi une des raisons (parmi d’autres évidemment ...), aux Etats-Unis, du choix de Ravel Law de se laisser racheter par LexisNexis.

[285Des juges sous influence, Cahiers de la Justice, 2015/4, p. 499. Cité in Les réticences du milieu judiciaire face aux legaltechs, Dalloz Actualité, 23 juillet 2019.

[287Discours de Bertrand Louvel prononcé en ouverture du colloque « La jurisprudence dans le mouvement de l’open data », 14 octobre 2016, JCP éd. G, supplément au n° 9, 27 février 2017.

[289Gouverner l’institution judiciaire par les nombres : une généalogie de la "justice prédictive", étude par Julien Larrègue, Droit pénal, avril 2019, n° 11, p. 8.

[290Gouverner l’institution judiciaire par les nombres : une généalogie de la "justice prédictive", étude par Julien Larrègue, Droit pénal, avril 2019, n° 11, p. 8.

[291Legal Jobs in the Age of Artificial Intelligence : Moving from Today’s Limited Universe of Data Toward the Great Beyond, par Philip Segal, Charles Griffin Intelligence LLC, Legal SSRN, 13 décembre 2017, à paraître en 2018 à la Savannah Law Review.

[292Il a déjà écrit par exemple sur Sagace.

[293Algorithmes au service du juge administratif : peut-on en rester maître ?, par Marc Clément, ADJA 2017, p. 2453. Bien que les propos de l’auteur s’appliquent surtout aux décisions de la justice administrative, c’est un article clé, un des tout premiers à lire sur la justice dite prédictive.

[294Une indexation automatique est théoriquement possible, mais ne serait que partielle et nécessiterait donc une vérification et un travail complémentaire qui resteraient humains ... et d’une ampleur monumentale.

[295Les chiffres clés de la Justice Edition 2018, Ministère de la Justice.

[297Je préfère le terme de "documents" à celui de "textes", car en droit, "textes" est trop connoté "textes officiels", autrement dit lois, décrets, arrêtés etc.

[298Un exemple : les stagiaires du Conseil d’Etat sont rémunérés 20 à 30% de plus que ceux de la Cour.

[299Les tribunaux et cours d’appel administratifs dépendent — qui plus est étroitement — du Conseil d’Etat et le CE dépend du Premier ministre, pas du ministère de la Justice. Le ministère de la Justice est, depuis le milieu des années 50, l’enfant pauvre de l’Etat. Ce qui n’est pas le cas des administrations dépendant du PM.

[300Cf articles de Libération et Actualités du droit, cités en note supra.

[301Selon toute probabilité, les jugements dont dispose Infogreffe sont un mélange de PDF images (autrement dit non OCRisés ou mal OCRisés) et de PDF texte plus récents.

[302Rappelons que depuis l’entrée en application du RGPD, le terme pseudonymisation a remplacé celui d’anonymisation. Le terme d’anonymisation recouvre désormais la suppression de toutes les données indirectement nominatives, ce qui est plus exigeant, plus difficile mais aussi plus protecteur.

[305Legaltechs : le CNB entend jouer un rôle actif dans le domaine de la jurimétrie, par Miren Lartigue, Gazette du Palais, 3 novembre 2020, p. 8.

[306Exclusif : le ministère de la Justice renonce à son algorithme DataJust, par Emile Marzolf, Acteurs publics, 14 janvier 2022.

[309Voir la vidéo d’auto-formation Maîtriser Predictice en 30 minutes mise à disposition par la legal tech.

[310ET, OU, SAUF, proximité et parenthèses.

[311Cette détection puis analyse des moyens n’est pas aussi facile que ça en a l’air. Comme le mentionne en passant le post Structuring legal documents with Deep Learning sur le blog de Doctrine.fr, « [leur] modèle avait plus de difficultés à prédire l’étiquette spécifique "Moyens". Ils ne sont en effet pas toujours présents dans les décisions, et parfois mélangés avec la partie "Faits" » (traduction par nos soins). Il s’agissait dans ce billet d’arrêts de cours d’appel judiciaires. Mais le problème est beaucoup plus fréquent au pénal ainsi que dans les décisions de première instance. Tout particulièrement dans les jugements de première instance au pénal, où le juge français bien souvent ne motive sa décision que par renvoi au dossier qui est, lui, non publié et non communicable.

[312Justice prédictive, l’augure des procédures, Libération, 23 février 2017. Extrait : « En tapant des mots-clés plus prosaïques tels que "licenciement" et "ivresse", l’algorithme est capable d’estimer que dans 19 % des cas comprenant ces deux critères, un "licenciement sans cause réelle et sérieuse" a été prononcé. En la matière, un avocat a davantage de chances de succès à Rennes (où les statistiques sont de 35 %) qu’à Versailles (12 %), juridiction manifestement plus répressive avec l’alcool. » Il s’agissait là de la première version de Predictice. La deuxième a été travaillée pour afficher des nuances.

[313La prédictibilité à grande échelle, Décideurs Magazine, 3 novembre 2016.

[314Le communiqué précisait qu’il « ne présentait pas en l’état de plus-value pour les magistrats, qui disposent déjà d’outils de grande qualité d’analyse de la jurisprudence de la Cour de cassation et des cours d’appel. » Un tweet de la Première présidence de la Cour d’appel de Rennes fait référence aux bases JuriCA et Jurinet. Le Premier président de la cour d’appel de Rennes, Xavier Ronsin, considère que les résultats livrés étaient trop aléatoires (Xavier Ronsin : “Ce logiciel de justice prédictive ne nous apportait aucune plus-value”, interview par Soazig Le Nevé, Acteurs publics.com, 27 novembre 2017). Toutefois, le communiqué ajoutait que de nouveaux tests par d’autres cours d’appel seraient envisagés, « sur la base du volontariat [...], à l’issue des nouveaux stades de développement de l’outil » (Communiqué du ministère de la Justice et de la Première présidence de la cour d’appel de Rennes, 9 octobre 2017).
Plusieurs sous-entendus dans ces informations :

  • les magistrats des cours d’appel disposent de la base d’arrêts d’appel inédits JuriCA dans sa version interne au ministère de la Justice et de la base Jurinet, riche en doctrine interne des juridictions judiciaires, en fait surtout de la Cour de cassation et de son Service de documentation, des études et du rapport (SDER). Jurinet, ce sont les documents annexes aux décisions et non publiés : les nombreuses études rédigées par le SDER, dans les arrêts Cass. les conclusions de l’avocat général et surtout le rapport du conseiller rapporteur ... Pourtant, à notre connaissance, aucun de ces documents n’épluche les montants de dommages-intérêts. D’ailleurs, ce type d’étude n’intéresse pas la Cour de cassation, juge du droit et non des faits. Or les CA, qui elles auraient intérêt à faire des études de ce genre, n’ont ni SDE comme la Cass’ ni moyen similaire. En revanche et bizarrement, aucune référence expresse n’est donc faite aux bases de données des éditeurs, notamment Juris-Data de LexisNexis, ses Données quantifiées et Jurisprudence chiffrée de Francis Lefebvre voire Dalloz.fr (qui intègre le contenu de JuriCA elle aussi). Par exemple, la base Juris-Data de LexisNexis intègre des dizaines de milliers d’arrêts (sélectionnés) de cours d’appel accompagnés d’une fiche donnant le type de préjudice et le montant des dommages-intérêts
  • les cours d’appel ont élaboré en interne des guides d’indemnisation voire des barèmes non officiels liés à leur jurisprudence locale (sans parler des barèmes nationaux indicatifs mais officiels, comme celui en matière de pension alimentaire, et celui national et obligatoire en matière d’indemnités de licenciement). C’est ce que laissait clairement entendre le premier président de la Cour de Rennes, Xavier Ronsin, au printemps 2017 : « Ce n’est pas de la justice prédictive, c’est juste une aide à la décision. Les magistrats ont déjà des instruments et des barèmes. » (Justice-robot. Les magistrats rennais pas convaincus, Le Télégramme, 10 octobre 2017). C’est ce que confirme un intervenant sur Twitter, citant les deux guides suivants : Reférentiel indicatif de l’indemnisation du préjudice corporel des cours d’appel, ENM, septembre 2016 et L’indemnisation des préjudices en cas de blessure ou de décès, par Benoît Mornet, président de chambre à la cour d’appel de Douai, septembre 2017. Voir aussi : Quand les magistrats bricolent leurs barèmes, par Pierre Januel, Dalloz Actualité, 17 septembre 2019. Les barèmes (et autres outils techniques d’aide à la décision) dans le fonctionnement de la justice, recherche dirigée par Isabelle Sayn, Centre de recherches critiques sur le droit (CERCRID) CNRS - Université de Saint-Etienne, Centre Max Weber (CNRS UMR 5283) : note de synthèse. Cette recherche a listé 122 barèmes dans toutes les matières juridiques. Elle conclut à « l’ampleur du phénomène comme de l’accumulation d’outils hétéroclites, de facture incertaine, déployés au niveau local ou sur un territoire plus large et des incertitudes constatées dans l’accès à ces outils » ... On est là sur un aspect essentiel du débat sur l’intérêt de la justice "prédictive". Si les barèmes sont a. nombreux b. très utilisés et c. efficaces, alors l’intérêt de l’IA pour les magistrats est limité. Si en revanche, ils sont mal faits, le critère c. saute et alors ... Pour le dire avec les mots de Cécile Bourreau-Dubois, professeur d’économie à l’Université de Lorraine et directrice de la recherche La barémisation de la justice. Une approche par l’analyse économique du droit (Mission de recherche Droit & Justice, mise à jour juillet 2019) : « Certains considèrent que les outils de justice dite "prédictive" sont destinés à entraîner la disparition des barèmes, dans la mesure où ils seraient plus performants que les seconds en permettant de traiter de manière encore plus rapide le contentieux de masse tout en permettant d’affiner la décision du juge en s’appuyant sur des précédents similaires. Pour autant, l’application de l’intelligence artificielle au big data de la justice présente une limite certaine : parce qu’elle s’appuiera sur les décisions passées, elle aura plutôt tendance à généraliser des pratiques constatées, au risque de reproduire des biais non souhaités et de cristalliser la jurisprudence. De ce point de vue-là, il peut sembler important en termes de politique publique de veiller au maintien de l’existence de barèmes construits (par différence aux barèmes constatés), qui reposent sur des choix fondés sur des raisonnements juridiques, économiques, démographiques, politiques… toujours discutables mais justifiables. » (Barémisation de la Justice : pour une meilleure homogénéisation des décisions ?, Propos recueillis par Laetitia Louis-Hommani, Mission de recherche Droit & Justice, décembre 2020). Voir ausi la dernière des trois recherches sur les barèmes commandées en 2019 par la Mission de recherche Droit & Justice : La barémisation de la justice, mise à jour mai 2020, par Stéphane Gerry-Vernières, professeure de droit privé et sciences criminelles à l’Université Grenoble Alpes et directrice de l’IEJ de Grenoble. C’est elle qui pointe un gros défaut des barèmes : « [ils] agissent sur la fonction d’une institution. [...] En se concentrant sur l’ancienneté du salarié, le barème impératif en matière de licenciement sans cause réelle et sérieuse gomme la fonction punitive de l’indemnisation. »

[315Intelligence artificielle  : deux Nantais ont créé des juges virtuels, par Thomas Heng, Ouest-France.fr, 27 mars 2019.

[317A rapprocher des propos d’une directrice de recherche au CNRS habituée de l’analyse quantitative par extraction des montants des condamnations de série de décisions de justice : Isabelle Sayn, estime que « les analyses produites automatiquement peuvent intégrer des déterminants illégitimes non détectés, d’autant que l’usage d’algorithmes non dirigés rend l’analyse ex-post plus difficile, sinon impossible. Cette "boîte noire" et les risques qu’elle suppose sont écartées avec l’utilisation de barèmes construits, dont les choix sont explicités » (Connaître la production des juridictions ou prédire les décisions de justice ?, par Isabelle Sayn, directrice de recherche au CNRS, Centre Max Weber (UMR 5283, CNRS, Université de Lyon), Les Cahiers de la justice, 2018, disponible sur HAL).

[318Predictice : bilan d’utilisation intensive de l’outil, par Frédéric Cuif, blog de Descartes Avocats, 7 mai 2019.

[319L’assurance PJ innove dans la relation client, par Aurélie Abadie, L’Argus de l’assurance.com, 4 juillet 2019.

[320Jacques Lévy Véhel fut directeur de recherche à l’Inria Bretagne Atlantique, à Nantes, à la tête du projet Anja. Son équipe concevait des modèles mathématiques fondés notamment sur la théorie des probabilités et les statistiques, destinés à l’économie, à la finance, au droit et à l’archéologie.

[322Avec le fonds d’investissement de l’INRIA et Romain Dupeyré, avocat. Voir Legal F : le club qui porte haut la voix des legaltechs, propos recueillis par Thuy-My Vu et Anne Moreaux, Les Affiches Parisiennes, 24 juillet 2018.

[323Case Law Analytics a été créé en tant que société le 18 septembre 2017 (source : sa fiche RCS sur societe.com).

[324Sur Case Law Analytics : Un outil pour mieux évaluer le risque juridique, lettre Emergences n° 41, 19 mai 2016. Justice prédictive : vers une analyse très fine du risque juridique ... (entretien avec Jacques Lévy Véhel et Jérôme Dupré), Le Village de la Justice, 22 mars 2017. La start-up Case Law Analytics utilise l’Intelligence artificielle pour prédire la justice, par Amandine Dubiez, Journal des entreprises, 2 mai 2017. Case Law Analytics quantifie le risque juridique et judiciaire, par Catherine Moal, Alliancy, 30 août 2017 (ce post fait partie d’une série pour les 50 ans de l’INRIA). Une longue interview d’un de ses deux fondateurs sur le podcast Ekipio : Jacques Lévy Véhel (Case Law Analytics) - La vraie voix des juges. Jacques Lévy Véhel, Case Law Analytics : « Dans l’IA, l’homme reprend toujours la main », Kiss My Frogs, 9 mai 2018. Case Law Analytics modélise les prises de décision des juges, par Pierre Vandeginste, La Recherche n° 535, mai 2018 (cet article est de loin le plus précis sur les techniques utilisées, plus précis même que l’interview donnée à Ekipio). L’intelligence artificielle, nouveau fantasme d’objectivité pour la justice, par François Fluhr (MediaLab, France Télévisions), Méta-Media, 13 août 2018.

[325Case Law Analytics, les mathématiques au service de la prise de décision juridique, interview des dirigeants de CLA par Mathilde Huet (bureau d’étude Naonext), blog Medium de la Banque Populaire Grand Ouest, 26 janvier 2018. Extrait : « D’où est venu ce projet ?
Jacques Lévy Véhel a été confronté à un cas juridique, un contentieux. Lui, de son point de vue de mathématicien a demandé à son avocat : « Quelles sont mes chances de réussite, quelles sont mes probabilités, quel est votre regard sur mon cas ? » Et l’avocat lui a répondu : « Je ne peux pas vous dire, c’est humain. On parle de jugement posé par des humains. »
Et ça pour un scientifique, pour un mathématicien, ça titille un peu. Il y a en effet une part d’aléas irréductible mais il y a quelque chose qu’on peut quantifier. »

[326L’article d’Alliancy précité cite les deux fondateurs de CLA : « Selon eux, leur solution offrira à terme la possibilité aux magistrats de se "recentrer sur leur cœur de métier en évacuant les contentieux de masse et ce, sans aucune contrainte".

[327Cas d’une affaire de garde d’enfants où, face à des allégations d’influence indue sur les enfants, le juge de première instance nomme expert un psychiatre criminologue spécialiste des tueurs en série et n’ayant aucune spécialisation en pédopsychiatrie. En appel, le juge ne rouvre pas l’instruction, ne se pose aucune question et confirme le jugement de première instance sur la base de la parole et de l’intérêt des enfants, tels que définis par l’expert en première instance.

[328Nous reproduisons ci-dessous in extenso l’extrait clé de l’article que le mensuel La Recherche a consacré en mai 2018 à Case Law Analytics : « "Nous travaillons au cas par cas. Lorsque nous nous attaquons à un nouveau type de contentieux, nous commençons par aller voir les juristes spécialistes. Nous déterminons avec eux la liste des critères de décision pris en compte par les juges concernés. Leur nombre se situe en général entre vingt et cinquante. Ensuite, nous analysons la jurisprudence et nous construisons une base de données de décisions de justice. Une quantité variable, qui peut aller jusqu’à des centaines de milliers. Nous utilisons bien sûr des outils de traitement du langage naturel, pour retrouver automatiquement certains critères, mais une partie du travail est effectuée manuellement, par des humains."
La troisième étape consiste à créer un logiciel ad hoc qui va se nourrir de cette jurisprudence codifiée pour modéliser la prise de décision d’un juge dans ce type d’affaires. Selon J. Lévy-Véhel : "Nous faisons appel, sans a priori, à toutes les techniques d’apprentissage automatique à notre disposition. Il peut s’agir de réseaux de neurones, de forêts aléatoires, de machines à vecteurs de support, de réseaux bayésiens ... Nous choisissons ceux qui nous semblent efficaces dans le cas de figure et nous construisons un logiciel unique à partir de là." Le logiciel va avaler la jurisprudence et produire un outil ad hoc de quantification du risque juridique. Case Law Analytics offre ses services en mode SaaS (Software as a Service, ou application en mode locatif hébergé), c’est-à-dire via un site web payant. »

[329Case law Analytics : les mathématiques au service du droit, Décideurs juridiques, juin 2018, pp. 40-41.

[330Initialement, et contrairement à Predictice, CLA ne fournissait pas le texte intégral des arrêts. C’est son partenariat avec Dalloz, conclu en 2020, qui a permis à ses clients un accès direct au texte intégral.

[331Rapport CNB, communiqué Case Law Analytics, 30 octobre 2020.

[332Partenariat entre Flichy Grangé Avocats et Case Law Analytics, Le Monde du droit, 17 novembre 2017.

[334Parmi les ancêtres de la jurimétrie, en France, il y avait le cédérom d’Alain Lemagny GPDoc (que j’évoque dans mon billet Indemnifying personal injury in France : tools for calculating damages), les travaux de Serge Bories à l’IRETIJ de Montpellier et auprès de LexisNexis et l’exceptionnel et prémonitoire article de Jean Goulet à la revue québécoise Les Cahiers de droit vol. 9, n° 1, 1967-1968, p. 9–36.

[336Des arrêts peuvent venir à l’origine de la base JuriCA, mais une fois résumés, abstractés et analysés, ils passent dans la base Juris-Data.

[337De la recherche à l’analyse statistique interactive des décisions de justice,, Le Village de la Justice, 22 novembre 2017. Il s’agit d’un article promotionnel pour la base Données quantifiées Juris-Data (ancien nom de JurisData Analytics). J’y ai repris le chiffre de 50 000 arrêts. En revanche, les mentions d’IA y semblent très "marketing".

[338Fil de discussion sur Twitter par Michaël Benesty, 12 décembre 2019.

[339Outils de "justice prédictive : Enjeux et cartographi sociologique des professionnels concernés : Rapport final de recherche", sous la direction de Marcel Moritz, Mission de recherche Droit & justice, octobre 2020, 197 pages.

[341Voir sur ce blog Search-as-you-type : la rapidité est un atout pédagogique, mais pas une martingale. Le revers de la médaille, évidemment, est l’absence des opérateurs booléens les plus utiles (OU, proximité). Expression (" ") et SAUF sont présents.

[342Doctrine booste son moteur de recherche avec Snowflake, par Maryse Gros, Le Monde Informatique (LMI), 7 octobre 2019. Extrait : « Pour renforcer la pertinence des recherches effectuées par ses clients, connaître les fonctionnalités les plus sollicitées et améliorer l’expérience utilisateur, Doctrine analyse les données liées à l’exploitation de son moteur de recherche (basé sur Elasticsearch). »

[343A single legal text representation at Doctrine : the legal camemBERT, par Pauline Chavallard, Inside Doctrine, 4 mai 2020.

[344Structuring legal documents with Deep Learning, Doctrine Tech Blog, 3 avril 2019.

[345Semantic recommendation system using CamemBERT, par Binxiang Xiang, Inside Doctrine, 29 octobre 2021.

[346Insistance sur la loi Informatique et libertés puis RGPD obligent ...

[347Sortir les arrêts sur une société donnée, rendus par un juge donné ou dans lesquels intervient un avocat donné se pratique au moins depuis que je suis documentaliste (1993).

[348Analyzer, le nouvel outil de Doctrine qui met l’IA au service des avocats, entretien avec Guillaume Carrère, directeur général de Doctrine, propos recueillis par Lila Daoui, Les Affiches Parisiennes, 16 juin 2020.

[3491. Contenu du secret professionnel, in Respecter et intégrer les aspects légaux liés à la protection et à l’accessibilité des données professionnelles, cours UNJF, C2I Métiers du droit. Contenu et limites du secret professionnel, par le Bâtonnier Jean-Marie Burguburu, président de l’Union Internationale des Avocats (UIA).

[350Voir le point 3.1.4. Les principes de sécurité et de confidentialité, in Guide pratique : Les avocats et le réglement général sur la protection des données, CNB, mars 2018.

[351La meilleure preuve en est la présence des classiques mots vides : le, la, les, un, une, des, mais, ou, et, pour ...

[352Tests effectués en 2018. Le fossé de pertinence entre ces requêtes est un des faits qui laisse penser qu’on n’a pas affaire à du machine learning. A priori, certaines notions ont été particulièrement bien décrite par les chaînes de caractère dans l’algorithme (traitement automatique du langage/NLP), d’autres moins bien. On note aussi d’autres sujets de questionnement : pourquoi dans une recherche sur les cours d’appel judiciaires en "rupture brutale des relations commerciales", la CA Paris n’apparaît qu’en 30e position alors que depuis 2015 elle est la seule cour d’appel compétente ? De même, les performances de la fonctionnalité "Décisions similaires" sont inégales : par exemple, si on cherche les "décisions similaires" à l’arrêt Cass. com. du 2 octobre 2019 n° 18-15.676, publié au Bull. civ., en matière de rupture brutale des relations commerciales, cette fonctionnalité ne trouve pas l’arrêt de cours d’appel dans la même affaire alors que Legifrance mentionne l’arrêt de cour d’appel dans la même affaire (cela peut être lié au fait que Juripredis ne cherche que par un même type de juridiction : Cass. uniquement, CA et seulement CA etc.). De plus, il y a dans les résultats des arrêts des chambres sociale et criminelle de la Cour de cassation dès le 10e résultat, alors qu’ils n’ont rien à voir avec le sujet "rupture brutale des relations commerciales". Enfin, après plusieurs étapes (Cass puis CA puis CA Paris, puis "décisions similaires", puis "décisions similaires"), un clic sur le bouton Back ne ramène pas à l’étape précédente mais à la page d’accueil. Test effectué le 24 août 2020.

[353Les promesses de Juri’Predis, le moteur de recherche spécial droit, bourré d’IA, par Laurence Bottero, La Tribune Provence Alpes Côte d’Azur, 21 novembre 2018. Extrait : « Des partenariats ont été conclus avec des distributeurs, notamment des éditeurs de logiciels de gestion de cabinet pour qui la startup développe son outil en marque grise. » NB : la mention « bourré d’IA » dans le titre de l’article est de notre point de vue très exagérée.

[354Loi n° 2019-222 du 23 mars 2019 de programmation 2018-2022 et de réforme pour la justice, JORF n° 71 du 24 mars 2019 texte n° 2. La loi de réforme de la justice étend le champ des modes alternatifs de règlement des différends, Actualités Francis Lefebvre, 12 avril 2019. Décret n° 2019-1333 du 11 décembre 2019 réformant la procédure civile, JORF n° 288 du 12 décembre 2019 texte n° 3. Conflits de voisinage : au 1er janvier 2020, il faudra concilier ou médier avant de saisir le Tribunal judiciaire, par Christophe M. Courtau, conciliateur de justice, Village de la Justice, 9 janvier 2020. Réforme de la procédure civile : cas de recours préalable obligatoire aux modes de résolution amiable des différends (Décr. n° 2019-1333, 11 déc. 2019), par Géraldine Maugain, Dalloz Actualité, 16 décembre 2019. Loi Justice : des changements importants applicables dès le 1er janvier 2020, Institut national de la consommation (INC), 14 janvier 2020.

[355Une intelligence artificielle pour régler les conflits du quotidiens, par Sophie Jousselin, RTL.fr, 2 février 2020. Justice.cool parie sur la médiation en ligne, par Delphine Iweins, Les Echos.fr, 20 janvier 2020.

[356Médiation en ligne : une opportunité innovante à saisir pour les avocats, par Thomas Le Bars, blog de JuriPredis, mars 2020.

[358Personnellement, j’ai trouvé leur recherche classique ("keyword search") par moments supérieure à leur "contextual search". Ca dépend des questions. Autre remarque : en "contextual search", la pertinence des décisions décroit très vite.

[359Ce qui peut faire beaucoup de paragraphes à notre goût.

[360Le 2e Etat représenté sont les Pays-Bas (750 000 décisions). 3e l’UE avec 657 000 décisions. 4e la Slovénie avec 243 000 puis 5e l’Allemagne avec 236 000. Cela montre en passant l’avance en open data judiciaire des pouvoirs publics français, pourtant régulièrement critiqués sur ce sujet par les legaltech ...

[361The Judge Statistical Data Ban – My Story, par Michaël Benesty, Artificial Lawyer, 7 juin 2019.

[3626 façons d’utiliser les algorithmes prédictifs pour améliorer vos recherches de jurisprudence, par Michael Benesty, Blog de Supra Legem 6 mai 2016. Voir aussi sur ce blog le billet résultant de notre entretien avec M. Benesty : Supra Legem, un exemple de machine learning appliqué au droit.

[363L’open data et l’open source, des soutiens nécessaires à une justice prédictive fiable ?, par Michael Benesty, Journal of Open Access to Law, vol. 5, n° 1, 2017.

[365Le groupe LexisNexis a pris de l’avance par des rachats successifs, particulièrement Ravel Law en justice dite "prédictive" et Knowable (une joint-venture, plus précisément) sur l’analyse automatique de contrats (cf supra).

[366Si l’on excepte la récente montée des notes explicatives pour les arrêts I de la Cour de cassation et les communiqués du Conseil constitutionnel.

[367ArbiLex, A Harvard Law School Legal Tech Startup, Uses AI To Settle Arbitrations, par Frederick Daso, Forbes.com, 4 février 2020.

[369Voir l’exemple de colorisation donné dans le billet du 20 novembre 2018 publié sur le blog de RegMind : Version du 1er décembre 2018 du Code général des impôts
novembre 20, 2018
.

[370Luxia appelle ce réseau "intelligent" de liens le LegiGraph (voir l’illustration en bas de cette page).

[372Mais ça pourrait être le cas. C’est à vérifier.

[373Selon la conclusion de la thèse de Denis Merigoux (2021) :
« La DGFiP créa son propre langage spécifique en 1988. La personne directement responsable de l’invention et du développement du langage M à l’époque fut Dominique Fulcrand, inspecteur principal des impôts à la DGFiP. Selon lui, le projet est né de la nécessité de créer une version du calculateur de l’impôt sur le revenu accessible au grand public par le Minitel. Une réécriture complète de la base de code était nécessaire car l’implémentation historique en COBOL, datant de l’époque de l’introduction de l’informatique, ne pouvait être exécutée ailleurs que sur le mainframe GCOS Bull sur lequel elle fonctionnait.
Par conséquent, l’exigence principale de la conception était de fournir une implémentation portable d’une d’un calculateur d’impôts. Le langage M a donc été créé pour transposer directement le mode de pensée des experts du domaine (inspecteurs des impôts). En tant que tel, la conception du langage M n’intégrait aucune considération de génie logiciel.
Rétrospectivement, ce fut un échec partiel puisqu’il a favorisé un changement organisationnel où deux inspecteurs des impôts non programmeurs écrivaient le code M dans son intégralité et étaient en charge de la maintenance et de l’évolution de la base de code. En raison de leur manque de formation en informatique, le code qu’ils ont produit s’est avéré très difficile à maintenir. »

[374Avant Mlang, l’étape précédente était OpenFisca.

[375Mlang est un compilateur pour le langage M, langage M (ne pas confondre avec Mlang) dont le langage CATALA est dérivé (voir infra).

[376A Modern Compiler for the French Tax Code, par Denis Merigoux, Raphaël Monat, Jonathan Protzenko, arXiv:2011.07966, 25 janvier 2021.

[377RegelSpraak : a CNL for Executable Tax Rules Specification, par Mischa Corsius, Stijn Hoppenbrouwers, Mariette Lokin, in Proceedings of the Seventh International Workshop on Controlled Natural Language (CNL 2020/21), Amsterdam, Special Interest Group on Controlled Natural Language, 2021.

[379L’Etat mise sur l’intelligence artificielle pour tenir les normes à jour, par Emile Marzolf, Acteurs Publics, 19 septembre 2022.

[383Towards an Automatic Consolidation of French Law, par Georges-André Silber, POPL 2023 - Programming Languages and the Law Workshop, ACM SIGPLAN, 13 janvier 2023, ffhal-03934286.

[386Pour citer le rapport Attali : « Accélérer la dématérialisation des procédures, [notamment en] accélérant la dématérialisation de la plus grande partie des procédures administratives, des services publics et des activités de relation entre les administrations publiques et les citoyens [et en] assurant l’inter-opérabilité des systèmes informatiques et le partage des données des administrations publiques. » « Ouvrir très largement les professions réglementées à la concurrence. » « Préparer la jeunesse à l’économie du savoir. »

[387Les décisions de justice seront publiées en open data, par Guillaume Champeau, Numerama, 28 avril 2016.

[389Décret n° 2020-797 du 29 juin 2020 relatif à la mise à la disposition du public des décisions des juridictions judiciaires et administratives, JORF n° 160 du 30 juin 2020 texte n° 1. Un pas pour l’open data des décisions de justice, par Pierre Januel, Dalloz Actualité, 3 juillet 2020.

[390Open data : la Cour de cassation relève le défi mais interroge l’avenir, par Chantal Arens, Dalloz Actualité, 18 novembre 2020.

[391Arrêté du 28 avril 2021 pris en application de l’article 9 du décret n° 2020-797 du 29 juin 2020 relatif à la mise à la disposition du public des décisions des juridictions judiciaires et administratives, JORF n° 101 du 29 avril 2021 texte n° 16. Lire sur ce blog : Open data des décisions de justice : le calendrier est publié ....

[393Les dispositions de l’article 33 de la loi du 23 mars 2019 se situent dans la continuité de l’amendement sénatorial de la loi Lemaire. Elles peuvent en quelque sorte être considérées comme une reprise et une mise à jour de la fameuse exigence d’« analyse du risque de ré-identification des personnes » ajoutée par le Sénat à la loi Lemaire (articles L. 10 du Code de justice administrative et L. 111-13 du Code de l’organisation judiciaire).

[395NB : depuis l’entrée en application du RGPD, la Cour de justice de l’UE [pseudonymise elle aussi les parties personnes physiques : voir son communiqué n° 96/18 du 29 juin 2018.

[397Jean-Jacques Urvoas dénonce une justice "sinistrée", AFP/Les Echos.fr 3 avril 2016.

[398La fable des moyens accrus de la Justice, France Inter, La Bulle économique, par Marie Viénot, 23 février 2019. Extraits : « La France dépense deux fois moins par habitant que l’Allemagne pour sa justice. 58% des tribunaux sont en surchauffe, magistrats et greffiers débordés. La loi "Justice" prévoit 24% de crédits en plus sur 5 ans, mais cela ne suffira pas à sauver cette mission régalienne d’un naufrage annoncé. [...] Sur 1000 euros de dépenses publiques seulement 4 euros sont consacrés à la justice en France. [...] Les prisons absorbent chaque année l’essentiel des hausses de budget de la justice et des emplois [...] Une fois retiré le coût de la pénitentiaire et de l’immobilier, ce qu’il restera pour la Justice judiciaire est-il suffisant pour remettre à flot les tribunaux et magistrats qui croulent sous les dossiers ? Le problème, c’est que l’augmentation des crédits ne va pas de pair avec l’augmentation des emplois sur le terrain car la Chancellerie ne sait pas calculer les besoins. [...] [Sur la] période 2013-2017, le budget a augmenté de 9% sans aucun effet sur le nombre d’emplois et donc les délais de jugements et le stocks des affaires en cours. Au contraire, alors qu’il y a moins de nouveaux contentieux, au civil comme au pénal, les délais de jugement sont en constante augmentation. » Voir aussi l’ouvrage d’Olivia Dufour : Justice, une faillite française ?, LGDJ, 2018, 312 p., prix Olivier Debouzy 2018.

[399La politique immobilière du ministère de la Justice : Mettre fin à la fuite en avant : Rapport public thématique : Synthèse, Cour des comptes, décembre 2017, 23 pages. Rapports CEPEJ sur l’efficacité et la qualité de la justice en Europe. Lire la synthèse du rapport 2018 (sur données 2016). Extrait : « les parquets les plus chargés se trouvent toujours incontestablement en France, qui compte en Europe quasiment le plus petit nombre de procureurs (2,8 pour 100 000 habitants), mais doit en même temps faire face au plus grand nombre de procédures reçues (7,45 pour 100 habitants) ».

[400Confions la justice à l’intelligence artificielle  !, par Laurent Alexandre (chirurgien, co-fondateur de Doctissimo et chantre du transhumanisme en France) et Olivier Babeau, Les Echos.fr 21 septembre 2016.

[401Extraits du dossier de presse (PDF) pp. 18 et 20-21 : « En dépit d’une augmentation régulière et soutenue de ses moyens depuis 15 ans, le budget de la justice demeure insuffisant pour lui permettre d’accomplir ses missions et n’apparaît pas digne d’une grande démocratie. [...]
L’utilisation des technologies doit permettre de mieux prévenir le contentieux civil et la saisine des tribunaux, notamment par le développement du règlement alternatif des litiges en ligne et des outils de "justice prédictive", fondés sur l’exploitation de l’ouverture des données judiciaires par l’intelligence artificielle et la prévisibilité des décisions de justice.
Bien utilisés, les outils de "justice prédictive" permettraient de favoriser des accords entre les parties, au vu du résultat probable d’une action contentieuse, sans saisir le juge. L’intervention du ministère de la justice doit viser à assurer la complémentarité entre la justice traditionnelle et ces nouveaux outils technologiques appliqués à la justice.
Outre l’apport des outils de « justice prédictive » pour l’harmonisation des jurisprudences ou l’évaluation des magistrats, des outils technologiques d’aide à la décision et à la rédaction des jugements méritent aussi d’être développés au bénéfice du travail juridictionnel. Plus largement, la technologie doit aussi faciliter le travail des magistrats et des greffes. »

[403Legaltechs françaises : les grandes tendances de l’année, par Anaïs Richardin, Maddyness, 23 janvier 2019. Legaltechs françaises, les tendances 2018 : des startups qui accélèrent dans la conquête de parts de marché, par Gaëlle Maraud des Grottes, Actualités du droit, 23 janvier 2019.

[404Le marché des legaltechs françaises se professionnalise, par Anne Moreaux, Les Affiches Parisiennes, 25 janvier 2019.

[405Justice.cool parie sur la médiation en ligne, par Delphine Iweins, Les Echos.fr, 20 janvier 2020.

[407Décret n° 2023-357 du 11 mai 2023 relatif à la tentative préalable obligatoire de médiation, de conciliation ou de procédure participative en matière civile, JORF n° 110 du 12 mai 2023 texte n° 11.

[408Case Law Analytics, les mathématiques au service de la prise de décision juridique, interview des dirigeants de CLA Jacques Lévy Véhel et Thierry Serrano-Guerra par Mathilde Huet (bureau d’étude Naonext), blog Medium de la Banque Populaire Grand Ouest, 26 janvier 2018).

[409L’assurance PJ innove dans la relation client, par Aurélie Abadie, L’Argus de l’assurance.com, 4 juillet 2019.

[410Encadrement juridique des modes algorithmiques d’analyse des décisions, par Lêmy Godefroy, Groupe de Recherche en Droit, Economie, Gestion (GREDEG), maître de conférences en droit privé, HDR à l’Université Nice Sophia Antipolis, co-directrice du master 2 Gestion juridique des risques et développement durable, in Comment le numérique transforme le droit et la justice, rapport final, mission de recherche Droit & Justice, juillet 2019, pp. 73-80.

[411Voir l’article Intelligence artificielle de Wikipedia.fr.

[412Discussing the limits of artificial intelligence, interview de Gary Marcus par Alice Lloyd George, Tech Crunch, 1er avril 2017.

[413Voir son livre écrit avec Ernest Davis : Rebooting AI : Building Artificial Intelligence We Can Trust, Vintage, 2019.

[414Artificial Intelligence Hits the Barrier of Meaning, par Melanie Mitchell, The New York Times, 5 novembre 2018.

[415Extraits (la traduction est de nous) : « Toute personne qui travaille avec des systèmes d’IA sait que derrière la façade des capacités visuelles, de la maîtrise de la langue et de prouesses dans des jeux électroniques, ces programmes ne comprennent (à la manière des humains) pas les données qu’ils traitent ni les résultats qu’ils produisent. L’absence d’une telle compréhension rend ces programmes sujets à des erreurs inattendues et à des attaques indétectables.
Que faudrait-il pour surmonter cette barrière, pour donner aux machines la capacité de comprendre plus profondément les situations auxquelles elles sont confrontées, plutôt que de s’en remettre aux caractéristiques superficielles de celles-ci ? [...]
Les chercheurs tentent depuis des décennies d’imprégner des systèmes d’IA avec le bon sens et les puissantes capacités de généralisation des humains, mais cette entreprise très difficile n’a guère progressé. »

[417On the Dangers of Stochastic Parrots : Can Language Models Be Too Big ?, parEmily Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell, FAccT ’21 (ACM Conference on Fairness, Accountability, and Transparency), 3-10 mars 2021.

[418 ?Stochastic Parrots : How Natural Language Processing Research Has Gotten Too Big for Our Own Good, par Esther Sánchez García et Michael Gasser, Science for the People, Vol. 24, n° 2, Don’t Be Evil. Traduit de l’anglais par Deepl.

[419Compte-rendu d’une conférence d’Havas sur la délicate mise en oeuvre de la transformation digitale en entreprise, Petit Web, 17 décembre 2018. Transformation : En finir avec la notion de résistance au changement, par Philippe Silberzahn (professeur d’entrepreneuriat, stratégie et innovation à EM Lyon Business School et chercheur associé à l’Ecole Polytechnique), son blog, 27 août 2018.

[420AI Can Be A Tough Sell In The Enterprise, Despite Potential, par Angus Loten, CIO Journal, Wall Street Journal, 12 décembre 2017.

[421The Big Problem With Machine Learning Algorithms, par Jon Asmundssonn, Bloomberg,
9 octobre 2018. Hedge Funds That Use AI Just Had Their Worst Month Ever, par Dani Burger, Bloomberg,12 mars 2018.

[422Artificial general intelligence.

[423Attention : pour reprendre les mots de Grady Booch, historien de l’informatique, « AGI est un terme qui a un bagage émotionnel et historique considérable et, en tant que tel, il est souvent utilisé pour vendre des livres ou pour titrer des articles "putaclic". »

[424Generative AI set to affect 300mn jobs across major economies ou Insider, par Delphine Strauss, Financial Times, 27 mars 2023.

[425Pause Giant AI Experiments : An Open Letter, Future of Life Institute, mars 2023.

[426AGI will not happen in your lifetime. Or will it ?, par Gary Marcus et Grady Booch, The Road to AI We Can Trust, 22 janvier 2023.

[427Pour citer Booch : « Les "transformers" ne suffisent pas. L’échelle ne suffit pas. Il faut travailler dans le domaine de la planification, de la prise de décision, des objectifs et des actions, et de la sélection des actions. Nous devons également faire des progrès considérables dans le domaine de la métacognition et des mécanismes de l’expérience subjective. »

[428Generative AI : My Enhancement, Your Replacement, par Alberto Romero, The Algorithmic Bridge, 17 décembre 2022.

[429Et si l’intelligence artificielle rendait votre vie inutile ? par Pierre Alexandre Messner, consultant en marketing digital, Siècle Digital 27 février 2017.

[430Les robots détruiront plus d’emplois qu’ils n’en créeront, selon une étude par Gabriel Siméon, Liberation.fr, 1er septembre 2015. Phil Fersht, dirigeant et fondateur de la firme de consultants en externalisation de services tertiaires (et d’abord de services informatiques) Horses for Sources (HFS), n’y va pas par quatre chemins : « L’IA est indirectement et inextricablement liée à l’élimination du travail "inutile", en ce qu’elle développe des systèmes qui deviennent de plus en plus intelligents à chaque incident et chaque transaction » (Since when did AI become the job creation antidote to automation’s job destruction ? Time for an augmented reality check..., Horses for Sources, 9 novembre 2017).

[431Un monde sans travail ?, par Tiffany Blandin, Seuil/Reporterre, 2017, 128 p.

[432Automatisation, numérisation et emploi, tome 1, Conseil d’orientation pour l’emploi, 10 janvier 2017.

[433La destruction créatrice vous salue bien, par Jean-Luc Parquet, Le Canard Enchaîné 6 septembre 2017.

[434Capital publie des articles comme :

  • Jusqu’où l’uberisation de la société va-t-elle aller ? par François Miguet, avec Raphaël Goument, Capital.fr 8 octobre 2015
  • L’ubérisation, ce tsunami qui va déchirer notre économie, entretien avec Bruno Teboul, enseignant-chercheur à l’Université Paris-Dauphine, directeur de l’innovation, de la recherche et du développement du cabinet de conseil en nouvelles technologies Keyrus et auteur de « Ubérisation = économie déchirée ? ». Selon lui, l’invasion des Airbnb, Uber... et autres trublions de la nouvelle économie numérique n’aboutira qu’à détruire plus de valeur qu’elle n’en créera. Il redoute l’avènement d’une société totalement précarisée.

[435AI timelines : What do experts in artificial intelligence expect for the future ?, par by Max Roser, Our World In Data, 6 décembre 2022.

[436When Will AI Exceed Human Performance ? Evidence from AI Experts, par Katja Grace, John Salvatier, Allan Dafoe, Baobao Zhang et Owain Evans (des chercheurs de Yale et Oxford), pre-print publié le 30 mai 2017 sur Arxiv.

[4372022 Expert Survey on Progress in AI, AI Impacts, 3 août 2022.

[438Some Background on Our Views Regarding Advanced Artificial Intelligence, par Holden Karnofsky, Open Philanthropy, 6 mai 2016. Sur la définition de "transformative AI", voir aussi : The transformative potential of artificial intelligence, par Ross Gruetzemacher et Jess Whittlestone, Futures Vol. 135, janvier 2022, 102884.

[439Two-year update on my personal AI timelines, par by Ajeya Cotra, AI Alignment Forum, 3 août 2022.

[440L’intelligence artificielle, données de base, par Thierry Wickers, in Dossier "L’intelligence artificielle, le droit, la justice et les avocats", Cahiers de droit de l’entreprise n° 4, juillet-août 2019, 24, p. 24.

[442A. Damasio est l’auteur de : L’Erreur de Descartes (Odile Jacob, 1995, nouv. éd. 2006), Le Sentiment même de soi (1999), Spinoza avait raison (2003) et L’Ordre étrange des choses (2017). Il n’a eu de cesse de réhabiliter l’importance des émotions et des sentiments dans les processus cognitifs.

[443« Je ne crois pas à des ordinateurs doués de conscience », interview par Yann Verdo, Les Echos.fr, 1er décembre 2017.

[444L’erreur de Descartes de Antonio R. Damasio, recension rédigée par C. Piraud-Rouet, Dygest.

[445L’intelligence artificielle va-t-elle prendre le pouvoir ?, par Pierre Lévy, Pierre Levy’s Blog, 6 septembre 2018.

[446Intelligence artificielle et sciences humaines, par Pierre Lévy, Pierre Levy’s Blog, 8 octobre 2014.

[447We’re told to fear robots. But why do we think they’ll turn on us ?, par Steven Pinker, Population Science, 13 février 2018. Une critique passable de ses arguments peut être lue sur Medium. Le principal contre-argument étant la possibilité pour une AGI d’accéder à Internet.

[448Ubérisation de la profession d’avocat : fake news ?, par Michèle Bauer, Village de la Justice, 30 avril 2018.

[449A relativiser, mais largement vrai (note de l’auteur de ce billet).

[450Experts predict when AI will exceed human performance, Business Insister, 11 juin 2017.

[451A strategy to improve expert technology forecasts, par Tamara Savage, Alex Davis, Baruch Fischhoff et M. Granger Morgan, Arizona State University, PNAS, 14 mai 2021, 118 (21) e2021558118.

[452Newton Howard est professeur à l’Université d’Oxford, directeur du Mind Machine Project au MIT et ancien directeur de la stratégie d’In-Q-Tel, le fonds d’investissement de la CIA.

[454Cet homme veut mettre une puce dans votre cerveau, par Guillaume Grallet, Le Point.fr, 15 mars 2018.

[455En 2050, les gens avec moins de 150 de QI ne serviront à rien, par Pierre Belmont, Nom de Zeus, 24 mars 2016.

[456The story of Neuralink : Elon Musk’s AI brain-chip company where he had twins with a top executive, par Isobel Asher Hamilton, Business Insider, 3 décembre 2022.

[457Les avancées de l’intelligence artificielle, Episode 9 : la robotisation en marche des métiers, par Olivier Ezratty sur son blog Opinions libres, 12 mai 2016. Billet mis à jour de facto par un plus récent : Les fumeuses prévisions sur le futur de l’emploi et l’IA, 31 octobre 2018.

[458Voir l’ouvrage d’Antonio Casilli, maître de conférences à Télécom Paris Tech et à l’Ecole des hautes études en sciences sociales (EHESS) et sociologue du numérique : En attendant les robots : Enquête sur le travail du clic, Seuil, janvier 2019, 400 p. Pour une présentation des conclusions d’A. Casilli dans son ouvrage : Derrière l’illusion de l’intelligence artificielle, la réalité précaire des « travailleurs du clic », Le Monde.fr, 3 janvier 2019.

[459Radiologie : pourquoi l’IA n’a (toujours) pas remplacé le médecin, par Léo Mignot et Émilien Schultz, The Conversation, 28 juin 2022.

[460Will AIs Take All Our Jobs and End Human History—or Not ? Well, It’s Complicated…, par Stephen Wolfram, Stephen Wolfram Writings, 15 mars 2023.

[461Nous ne ferons pas référence au rapport de l’Office parlementaire d’évaluation des choix scientifiques et technologiques (OPECST) Pour une intelligence artificielle maîtrisée, utile et démystifiée du 15 mars 2017, car sa partie sur l’emploi traite essentiellement de l’impact de la robotisation et ne donne aucun chiffre sur les professions intellectuelles, a fortiori les juristes et documentalistes. Par ailleurs, ses conclusions font très "déjà vu", après les recommandations du Parlement européen (voir infra dans les notes).

[463Quel est l’impact des robots sur les destructions et créations d’emplois ? par Sophia Qadiri, L’Atelier BNP Paribas, 24 mars 2016.

[465Artificial intelligence unlikely to replace lawyers anytime soon, report suggests, par Thomas Connelly, LegalCheek 27 février 2017. Study finds AI and other technology less of a threat to lawyers’ jobs than believed, par By Dan Bindman, Legal Futures 24 février 2017. L’étude : Can Robots Be Lawyers ? Computers, Lawyers, and the Practice of Law, par Dana Remus et Frank Levy, Legal SSRN (pre-print), 27 novembre 2016. Elle a été publiée au Georgetown Journal of Legal Ethics, 2017, 30 : 501–558.

[466The Impact of Artificial Intelligence on the Labor Market, par Michael Webb, Stanford University, janvier 2020, 61 pages (PDF).

[467OECD Employment Outlook 2019 : The Future of Work (payant). Cité dans : Demain les robots : vers une transformation des emplois de service, rapport d’information par Marie Mercier et René-Paul Savary, au nom de la délégation sénatoriale à la prospective, Sénat, 28 novembre 2019. Les recherches de l’OCDE et de Webb sont citées dans : L’intelligence artificielle, une précarisation de l’emploi plus qu’une destruction, par Lucie Ronfaut, Liberation.fr, 7 décembre 2022.

[468De la prédiction du droit, par Joël Monéger, professeur émérite à l’université Paris-Dauphine, Loyers et Copropriété n° 3, Mars 2017, repère 3.

[471Sur le délai prévisible pour que des systèmes de machine learning efficaces en droit français apparaissent et ses raisons, voir supra les paragraphes sur les limites des applications de justice prédictive mais aussi les avancées des IA génératives.

[472L’idée et son expression sont de Jean Gasnault (La Loi des Ours), sur la liste de discussion Juriconnexion.

[473D’autant plus que d’après les articles de presse américain, ROSS remplaçait des juristes stagiaires et de jeunes collaborateurs, pas des documentalistes juridiques expérimentés et dotés de meilleures méthodes de recherche.

[474IA : les vrais enjeux de la formation, par Rémy Demichelis, Les Echos.fr, 24 avril 2018.

[475Businesses turn to software robots for office work, par Richard Waters, Financial Times, 8 mars 2018 (accès réservé).

[476Automation to impact 750,000 low skilled Indian jobs, but create 300,000 mid-high skilled jobs by 2022, par Phil Fersht, et Jamie Snowdon, Horses for Sources (HFS), 3 février 2018.

[477Comme l’envisage et le promeut sereinement et sans se poser la moindre question le journaliste des Echos Rémy Demichelis, pourtant lui aussi "knowledge worker", dans son article précité IA : les vrais enjeux de la formation. Alors que selon l’adage bien connu et le droit du travail, tout travail (ici supplémentaire/non prévu au contrat de travail) mérite salaire.

[478Article précité IA : les vrais enjeux de la formation. Pour aller plus loin sur le sujet de l’adaptation de l’emploi et des RH à l’IA, voir l’étude Intelligence artificielle et capital humain. Quels défis pour les entreprises ?, BCG/Malakoff Médéric, mars 2018. Cette étude est présentée et résumée par un article des Echos : Travailler avec l’IA : deux scénarios possibles.

[479Si vous voulez vous faire une idée des défauts d’une IA de ce type, testez donc le bot Flint et revenez ici donner votre point de vue dans les commentaires. Personnellement, trois semaines de test assidu ne m’ont pas *du tout* convaincu.

[480Inédites signifie ici non publiées dans un recueil officiel.

[481Ces décisions n’ont pas été sélectionnées pour être abstractées et résumées. Ce traitement, qui est essentiellement celui de la sous-base Juris-Data de LexisNexis et sinon le cas de certaines décisions publiées sous cette forme dans les "sommaires" des revues juridiques, ce traitement ne comprend pas ni commentaire ni analyse de la décision.

[482Le terme "commentée" signifie ici que la décision de justice est présentée, analysée ou commentée dans au moins une revue d’éditeur juridique.

[483How to Evaluate Legal Technology that Improves Efficiency, par Dera J. Nevin, Legal Insider, 19 février 2019.

[484Commentaire de Kristin Hodgins, daté du 24 mai 2017 sous le billet I, Robot publié le 17 mai 2017 par Lyonette Louis-Jacques sur le blog collaboratif Slaw. La traduction est de nous.

[485Legal Jobs in the Age of Artificial Intelligence : Moving from Today’s Limited Universe of Data Toward the Great Beyond, par Philip Segal, Savannah Law Review, 2018, 27 pages. Ecrit le 9 décembre 2017.

[486The Increasingly Essential Role Of The Law Librarian, par Robert Ambrogi, Above The Law, 13 juillet 2020. Ambrogi a écrit un chapitre de l’ouvrage Law Librarianship in the Age of AI, publié par l’American Library Association en 2013.

[487This Week In Legal Tech : Book Review Of "Robots In Law", par Robert Amrogi, Above The Law 6 mars 2017.

[488Lille : Les avocats testent un logiciel de "justice prédictive", par Mikael Libert, 20minutes.fr 12 février 2017.

[489Droit, algorithmes et anarchie, par Guillaume Drouot, Recueil Dalloz 2020 p. 35.

[490Intelligence artificielle - ChatGPT, un pas de plus vers le droit augmenté, par Delphine Iweins, JCP G 3 avril 2023, act. 406.

[491Peut-on coder le droit ?, par Thierry Wickers, in Dossier "L’intelligence artificielle, le droit, la justice et les avocats", Cahiers de droit de l’entreprise n° 4, juillet-août 2019, 25, p. 28. La teneur indécise du droit, par Paul Amsalek, rapport présenté au Colloque sur « Le doute et le droit » organisé à la Cour d’appel de Paris le 12 avril 1991 par l’Institut de formation continue du Barreau de Paris.

[492How technology Will Change the Business of Law, Boston Consulting Group, Bucerius Law School, janvier 2016. Cité in Intelligence artificielle et devenir de la profession d’avocat : l’avenir est présent !, par Bruno Deffains et Stéphane Baller, Revue pratique de la prospective et de l’innovation, mars 2017, dossier 1.

[493Voir p. 10 (p. 12 du PDF).

[494Cleary X Will Be An AI-Driven Transactions Factory, Artificial Lawyer, 28 février 2022.