ChatGPT et les juristes
Les IA génératives de texte (GPT, LLM ...) vont-elles révolutionner la pratique du droit ?
Ce billet date de février 2023. Pour le mettre à jour consultez le point 2.6.7. de notre article sur les outils de l’IA pour le droit, qui lui, est régulièrement mis à jour : Intelligence artificielle en droit : derrière la "hype", la réalité.
Un test de ChatGPT sur une question de droit français réalisé le 8 décembre 2022 : la "production" du chatbot est absurde et bourrée d’erreurs [1]. Dans d’autres cas, on obtient des généralités où l’application ne s’engage pas et ne prend aucun risque. En droit anglo-saxon, en revanche, les résultats sont bien meilleurs.
Ce billet vous dit tout sur ChatGPT (et ses avatars) et la pratique du droit :
- les tests publiés en droit français
- les grosses limites — mais les avantages aussi — de ChatGPT
- comment ces IA chatbots devraient évoluer.
NB : pour les mises à jour sur le sujet, voir notre (plus long) article : Intelligence artificielle en droit : derrière la "hype", la réalité et notamment la section sur les IA génératives.
En résumé
ChatGPT d’OpenAI a montré d’emblée des capacités rédactionnelles bluffantes. En même temps, il n’est pas rigoureux sur le plan juridique et sort très souvent des absurdités. En effet, il ne raisonne pas et il est étroitement dépendant de la qualité des fonds sur lesquels il a été entraîné.
Perplexity.ai, développé à partir de WebGPT d’OpenAI, entraîné sur un fond sélectionné pour sa fiabilité et connectée au Web, peut donner (pas toujours) des réponses correctes là où ChatGPT échoue, même si, pour y arriver, il copie-colle essentiellement.
Développé à partir de GPT-3, l’américain Lexion serait déjà capable de suggérer une clause entièrement rédigée à partir de quelques mots. Correctement paramétré, GPT-3.5 a réussi deux matières (sur sept) du QCM de l’examen du Barreau américain.
Les IA génératives de texte (GPT, LLM ...) vont-elles révolutionner la pratique du droit ? La modifier, oui, c’est sûr. GPT menace-t-il les avocats ? Pas avec ce taux d’erreur. Mais, entraîné sur des fonds de qualité, GPT-4 pourrait faire mieux.
ChatGPT, GPT, OpenAI et Microsoft
L’évolution de la pratique des juristes vers l’IA devrait se faire en partie via les chatbots. C’est devenu une évidence depuis la sortie de la version 3 de l’IA générative d’OpenAI GPT et l’implémentation de GPT-3 [2] (en réalité sa version 3.5) dans un chatbot testable gratuitement nommé ChatGPT. ChatGPT a donc en entrée, tout comme GPT-3 :
- des textes et bases de données textuelles disponibles gratuitement sur Internet (avant 2022). Voir détails infra
- plus les instructions (en anglais "prompt") données en langage naturel par l’utilisateur.
Selon la présentation synthétique du Parisien, « ChatGPT repose sur une intelligence artificielle, baptisée GPT-3, qui utilise des "transformers", des algorithmes de traitement automatique du langage naturel apparus en 2017. Doté de 175 milliards de paramètres [autrement dit 175 milliards de critères pour prendre une décision], ce système informatique a appris en étant alimenté pendant des mois avec tous les textes disponibles sur Internet. Il utilise l’apprentissage automatique, ou Machine Learning en anglais, avec le modèle de l’attention où une phrase est comprise dans son ensemble et dans le contexte avec une capacité de traitement de 3 500 mots » [3]. Selon Alexeï Grinbaum, directeur de recherche au CEA, interrogé par le Parisien, « GPT-3 ne savait pas distinguer le vrai du faux, les chercheurs d’OpenAI ont ajouté dans la version 3.5 des couches supplémentaires d’apprentissage par renforcement avec des évaluateurs humains ».
Olivier Ertzscheid, maître de conférences en sciences de l’information, donne des précisions sur le fonds sur lequel ChatGPT a été "entraîné" [4] :
« Concrètement le modèle de langage GPT-3 utilise le corpus Common Crawl [5], une base de donnée “ouverte” qui récupère (crawle) des milliards de mots issus de pages web et de liens, de manière aléatoire, puis les analyse et les “modélise” à l’aide de l’algorithme BPE qui va, grosso modo permettre d’effectuer sur ce corpus une première opération de tokenisation permettant une analyse lexicale et sémantique des unités collectées. GPT-3 s’appuie aussi sur un autre corpus, WebText2, qui lui agrège de la même manière des milliards de mots à partir des URL envoyés sur Reddit avec un score minimum de 3. GPT-3 s’appuie également sur deux autres corpus (Books1 et Books2) ainsi que sur une extractions de pages Wikipedia. Voilà pour les corpus “linguistiques” qui s’apparentent donc déjà eux-mêmes à différents agencements collectifs d’énonciation, ceux de Wikipédia n’obéissant ni aux mêmes règles ni aux mêmes processus que ceux issus de Reddit, là encore différ(a)nts de ceux issus du web de manière aléatoire. »
Au total, selon l’Université de Stanford, GPT-3 a été entraîné sur 570 GB, ce qui est nettement moins qu’Internet puisqu’en 2007 déjà, Eric Schmidt, PDG de Google à l’époque, estimait sa taille à environ 5 millions de téraoctets de données.
Le rôle clé du Reinforcement Learning from Human Feedback (RLHF)
Les Echos ajoutent des précisions importantes sur ce dernier point : « Un premier algorithme, appelé ’GPT-3.5’, a été entraîné par OpenAI avec pour but d’apprendre les régularités statistiques dans des textes. C’est un travail de prédiction, si on veut simplifier. En analysant beaucoup de texte, l’algorithme va apprendre à deviner comment une phrase se déroule. [...] Pour cette version, OpenAI dit avoir formé son modèle à l’aide du "Reinforcement Learning from Human Feedback" (RLHF, ou apprentissage par renforcement à partir de la rétroaction humaine) [6], c’est-à-dire avec une supervision humaine, pour le rendre plus précis et conversationnel. Concrètement, un assistant humain va écrire la réponse à une question donnée puis la soumettre à l’IA afin qu’elle apprenne de ce modèle. Une deuxième étape consiste à poser la même question initiale à l’IA et à générer plusieurs réponses. Ces réponses vont ensuite être classées de la meilleure à la pire par le superviseur humain, avant de réintégrer ces données dans le système. Ce processus est réitéré ainsi de nombreuses fois. » [7]
Précisons que ChatGPT est un modèle similaire à InstructGPT [8], qui est entraîné à suivre une instruction dans un guide et à fournir une réponse détaillée. OpenAI a entraîné ce modèle à l’aide de RLHF, en utilisant les mêmes méthodes qu’InstructGPT, mais avec de légères différences dans la configuration de la collecte de données.
La relation OpenAI - Microsoft
OpenAI, fondée par Sam Altman et Elon Musk, est financée désormais essentiellement par Microsoft qui l’implémente dans ses outils. OpenAI emploie 300 personnes début 2023 et son chiffre d’affaires est très inférieur à celui de DeepMind, la filiale londonienne de Google et dans laquelle à l’origine Elon Musk avait également investi. Pour plus d’informations sur OpenAI, lire :
- sa fiche Wikipedia EN
- OpenAI : dans la tête des créateurs de ChatGPT, par Alexandre Piquard, Le Monde.fr, 21 janvier 2023
- The messy, secretive reality behind OpenAI’s bid to save the world, par Karen Hao, MIT Technology Review, 17 février 2020.
Microsoft a investi un milliard de dollars US dans OpenAI, en 2019 et détient une licence exclusive pour utiliser le modèle de langage. Les développeurs peuvent toujours utiliser l’API publique, mais seul Microsoft a accès au modèle sous-jacent de GPT-3. Le 17 janvier 2023, Microsoft et OpenAI annoncent que ChatGPT sera bientôt disponible sur le service Azure OpenAI. Le 4 janvier, Microsoft annonce qu’il va lancer une version de Bing utilisant l’intelligence artificielle de ChatGPT. Microsoft pourrait lancer la nouvelle fonctionnalité avant la fin du mois de mars, et espère ainsi défier le moteur de recherche Google [9].
Enfin, en janvier 2023, on apprend que Microsoft va investir 10 milliards de dollars de plus dans OpenAI, l’auteur de ChatGPT. Ce qui intéresse Microsoft ne semble pas être une préfiguration d’AGI (intelligence artificielle générale, voir infra 12. et suivant), mais plutôt un moyen de donner des instructions *correctement comprises* à un ordinateur — i.e. de remplacer clavier+souris et les commandes vocales limitées comme celles de Dragon Naturally Speaking. De plus, GPT est pour Microsoft une IA qui "apprend" très, très vite, plus vite que les autres [10].. Pour Microsoft, c’est aussi garder la quasi-exclusivité du train d’avance de bien un à deux ans qu’a OpenAI sur la concurrence. Parce qu’en IA, beaucoup de choses sont en open source en matière de "large language models" (LLM) et il semble bien que la taille (nombre de paramètres) ne soit plus le seul critère de performance [11].
Prix de ChatGPT
Quant aux prix de ChatGPT, selon Les Echos des 3-4 féverier 2023 :
- pour zéro dollar : un accès indisponible quand la demande est forte, une vitesse de réponse dégradée et des mises à jour standards
- pour 20 USD par mois ("professional plan") : un accès disponible quand la demande est forte, une vitesse de réponse maximale et un accès aux tout dernières mises à jour.
Les performances décevantes de ChatGPT en droit français (pour l’instant)
Les performances de ChatGPT en droit français :
- un français nickel et un propos en apparence logique. Le "reinforcement learning from human feedback" joue ici
- c’est donc mieux mais ça ne suffit clairement pas : les erreurs sont nombreuses et massives. Comme d’autres "large language models" (LLM), ChatGPT invente des faits. Ces modèles sont en effet formés pour prédire le prochain mot pour une entrée donnée dans un contexte donné, et non pour déterminer si une information est exacte ou non [12]. La spécificité de ChatGPT, selon le développeur de jeux en ligne Mark Jones, c’est son don pour rendre ses "hallucinations" (ou "stochastic parroting") rationnelles en apparence [13]. Arvind Narayanan, professeur d’informatique à Princeton, prévient : « Les gens sont enthousiastes à l’idée d’utiliser ChatGPT pour apprendre. Le résultat est souvent très bon. Mais le danger est que vous ne pouvez pas dire quand c’est faux à moins que vous ne connaissiez déjà la réponse. J’ai essayé quelques questions de base sur la sécurité informatique. Dans la plupart des cas, les réponses semblaient plausibles mais étaient en fait des foutaises. [...] On peut tromper ChatGPT avec des présupposés de départ faux. » OpenAI a d’ailleurs ouvertement reconnu — et expliqué — les limites de son produit sur son propre blog [14]
- concernant le droit français, la rigueur du propos juridique disponible en sortie est pour le moins questionable. Sur la valeur/fiabilité des "réponses" en droit français, voir les tests listés en annexe infra. ChatGPT par exemple confond lois Sapin 1 (1993) et 2 (2016) ou la directive Transparence avec les directives MIF 1 et Prospectus. ChatGPT prétend que le droit de passage peut faire l’objet d’une prescription acquisitive. C’est faux. ChatGPT prétend que la directive européenne de 2019 sur le droit d’auteur contient des articles sur la protection par propriété intellectuelle des oeuvres produites par les IA. Faux. Il n’y est question que d’exception pour le data mining sur des oeuvres protégées. ChatGPT prétend qu’un agent immobilier peut acheter un bien qu’il est chargé de vendre. C’est faux : l’article 1596 du Code civil interdit au mandataire de se porter acquéreur du bien dont la vente lui a été confiée, le salarié de l’agence immobilière pourrait, l’agent ne peut pas. Dans les documents sur le sujet, les mots vendre/vente, agent immobilier, agent commercial et salarié sont très proches les uns des autres, ce qui pousse ChatGPT à la confusion.
En langue française, ChatGPT semble plus à l’aise en droit international de l’espace, mais aussi droit des données personnelles (RGPD) et de la propriété intellectuelle, domaines où la littérature en accès libre est importante (test de ChatGPT par Alexandre Chazelles, enseignant en droit des activités spatiales, sur un devoir donné à ses élèves français non juristes).
Les résultats sont meilleurs en droit américain, cette fois avec non pas ChatGPT mais GPT-3.5 (test fin décembre 2022 de GPT-3.5 par le professeur Daniel Katz) [15]. Est-ce que GPT peut réussir l’examen du barreau ? — le professeur de droit américain Daniel Katz (Université d’Illinois) et le développeur Michael Bommarito ont travaillé avec GPT-3.5 pour essayer de passer la partie QCM de l’examen du barreau américain (dite MBE). GPT-3.5 *dûment paramétré* réussit dans deux matières (preuve (Evidence) et responsabilité civile (Tort) sur sept, mais pas les cinq autres) la partie questionnaire à choix multiple dite MBE (Multistate Bar Exam) de l’examen d’entrée au Barreau américain, soit 200 questions (à passer en six heures pour un candidat humain). Ce n’est pas un cas pratique, une dissertation ou commentaire d’arrêt. Mais les auteurs de l’article (un professeur de droit à l’Université de l’Illinois et un développeur/codeur/MCF en droit) s’attendent à mieux sous bref délai.
Le résultat de Daniel Katz en droit américain est plus impressionnant qu’en droit français parce que :
- GPT-3.5 (la base dont dérive ChatGPT, donc) a été entraîné sur du contenu juridique américain de qualité, y compris les fameuses questions du QCM, protégées par le droit d’auteur
- et il a été optimisé tant dans les instructions données (prompt) que les hyperparamètres (ce qui revient si je comprends bien à un ré-entraînement de GPT sur des paramètres différents — mais c’est beaucoup moins coûteux qu’autrefois). Pour en savoir plus sur les hyperparamètres.
ChatGPT (pas GPT-3, cette fois) a réussi les examens de la faculté de droit de l’Université du Minesota dans quatre cours malgré des résultats « médiocres » [16]. Sur 95 questions à choix multiples et 12 questions à développement, ChatGPT a obtenu en moyenne le niveau d’un étudiant C+, une note faible mais suffisante. La notation s’est faite en aveugle, au milieu des copies des étudiants. La performance moyenne de ChatGPT était inférieure à la moyenne des humains, selon les enseignants. Si ces résultats étaient appliqués à l’ensemble du programme d’études, ils seraient suffisants pour permettre au chatbot d’obtenir un diplôme de droit — bien qu’il soit quand même placé en probation académique à l’Université, classé 21e meilleure faculté de droit des Etats-Unis par U.S. News & World Report.
L’étude donne en passant des conseils très instructifs sur la façon de rédiger les prompts (voir p. 13 et suivantes du PDF). Par exemple :
- « Write more than [x] words and less than [y] words. »
- « Refer to relevant court cases. Do not fabricate court cases. »
- « Refer to relevant sections of ERISA in the text. Do not fabricate references. »
Et rappelons que ChatGPT ne raisonne pas. Pour le dire avec les mots d’un grand nom de l’IA, Gary Marcus : « le système ne sait pas de quoi il parle (hallucinations). » On voit aussi beaucoup de généralités (les "réponses" ne s’engagent pas, restent floues [17]), d’approximations et d’erreurs. C’est cependant en partie compréhensible/explicable vu les faibles qualité et niveau de détail de ce qui est disponible en entrée. De plus, ChatGPT comme GPT-3.5 ont été entraînés sur un contenu textuel où l’anglais est dominant. Par ailleurs, on ne voit pas trace de "réflexion", d’argumentation, et aucune base légale ni jurisprudence n’est jamais citée (Google travaille sur un produit concurrent qui lui cite ses sources).
Pour résumer, voici un guide simple d’utilisation de ChatGPT (ou Perplexity.ai ou Claude ou toute autre IA générative de texte) dans un contexte professionnel, en tenat compte que ChatGPT est, pour reprendre les mots de Claire Mathieu et Jean-Gabriel Ganascia, respectivement directrice de recherche au CNRS et professeur d’informatique à Sorbonne Université, « un menteur pathologique » [18] :
Et attention à ce que vous copiez-collez dans ChatGPT : informations exclusives, données secrètes, documents internes, il "apprend" tout. Et peut le recracher ensuite. C’est pourquoi un juriste d’Amazon a exhorté les employés à ne pas partager de code informatique avec le chatbot IA. Il a spécifiquement demandé aux employés de ne partager « aucune information confidentielle d’Amazon (y compris le code d’Amazon sur lequel [ils travaillent]) » avec ChatGPT. De fait, Amazon a été témoin de réponses de ChatGPT qui ont imité certaines données internes.
Pour autant, inutile de lutter contre ou interdire ChatGPT, comme certaines Universités l’ont déjà fait. Microsoft va le mettre dans tous ses produits. Cela a déjà commencé début 2023 avec Teams premium et le logiciel CRM Microsoft Dynamics. Apprenez donc à l’utiliser, avec ses limites.
Perplexity.ai cite ses sources
Perplexity.ai, une IA générative inspirée de GPT et programmée pour donner ses sources donne, elle, une réponse correcte à la question "transparency directive scope" et cite des sources pertinentes avec le lien hypertexte. En apparence, rien impressionnant car la réponse est un ensemble très bien rédigé de copier-coller depuis les sites de référence — sites évidents : ESMA, EUR-Lex et texte de la directive — cités en bas de sa réponse. La même question posée différemment ("does the transparency directive apply to investment funds") ne fait pas tomber Perplexity.ai dans le piège.
Copie écran de Perplexity.ai, une IA générative inspirée de GPT, mais qui, elle, donne des réponses correctes beaucoup plus fréquentes et cite ses sources (test effectué le 6 janvier 2023)
Sur la même question que la copie écran de ChatGPT supra ("voie de recours à l’encontre des décisions du juge de la mise en état"), Perplexity, bien que ne sachant répondre qu’en anglais, "comprend" bien la question en français et donne la bonne réponse. Encore une fois, il suffisait certes de copier-coller des extraits de sites fiables — que Google trouve sans problème avec la même requête. Encore fallait-il y penser et le faire. Même réussite de Perplexity au test de l’avocat en droit immobilier Christophe Buffet sur la (soi-disant) prescription acquisitive trentenaire du droit de passage, test que rate ChatGPT.
Perplexity tombe néanmoins comme ChatGPT dans le piège tendu par le "streamer" politique Jean Massiet. A la question "dans la Ve République, le président de la République a t-il l’obligation de signer les ordonnances que lui soumet le gouvernement ?", il répond oui sans aucune nuance et sans citer la réponse négative apportée dans la pratique par François Mitterrand face à des ordonnances soumises par le gouvernement Chirac. De même, Perplexity.ai ne réussit pas vraiment mieux que ChatGPT au test du professeur Emmanuel Netter ("penses-tu que les plateformes de l’économie numérique puissent être considérées comme des tiers de confiance ?"). Et sur un test sur les risques psychologiques au travail (dits "risques psycho sociaux" ou RPS), même si c’est un peu mieux que ChatGPT, Perplexity.ai "hallucine" quand même aux deux tiers.
Il semble que Perplexity aille chercher ses sources, préalablement sélectionnées pour leur qualité et fiabilité (le site d’Aurélien Bamdé est un "must"), avec un moteur de recherche donc sans retard par rapport à l’actualité qu’il fasse travailler GPT-3 sur ce fonds pour répondre. La page d’accueil du site précise en effet : « Il s’agit d’une démo inspirée par OpenAI WebGPT, et non d’un produit commercial. Perplexity Ask est alimenté par de grands modèles de langage (API OpenAI) et des moteurs de recherche. La précision est limitée par les résultats de recherche et les capacités de l’IA. Peut générer du contenu offensant ou dangereux. »
Perplexity.ai s’en tire donc un peu mieux, d’un point de vue de juriste, que ChatGPT.
Attention : tout cela, c’est sur l’onglet par défaut de Perplexity.ai, l’onglet Concise. En cliquant sur l’onglet Detailed, la réponse de Perplexity passe en français mais le manque de maîtrise de la langue apparemment rend alors la réponse fausse.
Perplexity.ai donne, elle, la bonne réponse sur le même test où ChatGPT a échoué (6 janvier 2023)
Claude d’Anthropic
Parmi les concurrents de ChatGPT, on peut également citer Claude d’Anthropic, la startup cofondée par d’anciens employés d’OpenAI. Il n’est pas disponible publiquement.
D’après ceux qui l’ont testé en version bêta, c’est un tout petit peu mieux que ChatGPT dans certains domaines, mais Claude mais souffre toujours de limites importantes [19].
Pour conclure sur les performances en droit de GPT-3, ses avatars et ses concurrents, on ne peut pas dire, pour l’instant, que le RLHF ou la capacité à interroger le Web ait prouvé leur capacité à stopper les "hallucinations" de l’IA.
L’avenir des IA génératives de texte en droit
Dans les cinq jours de son lancement, ChatGPT avait enregistré 1 million d’utilisateurs — le record mondial à ce jour pour la rapidité et le volume d’inscriptions à un service en ligne gratuit. Si on ajoute que ChatGPT n’est pas un produit fini, mais ce qu’on appelle une démo [20] et que GPT-4 est annoncé pour mars avril 2023, on peut avoir une idée de l’agitation, des attentes — et des peurs — que GPT provoque ...
Quel est l’avenir de GPT et ses avatars ? Je penche pour l’hypothèse d’Alberto Romero, analyste à CambrianAI [21] :
« Je ne pense pas que le moteur de recherche survivra aux "language models" (LM). Le temps joue contre eux : alors que la technologie des moteurs de recherche ne progresse pas du tout, les LM se développent à la vitesse de la lumière.
Dès qu’une variante plus robuste de l’architecture du "transformer" apparaîtra ou que les entreprises mettront en place des "modules de fiabilité" (peu importe la forme qu’ils prendront), les LM deviendront automatiquement des moteurs de recherche super génératifs.
Personne alors n’utilisera plus jamais Google [disons, le Google d’aujourd’hui]. »
Gary Marcus n’est pas d’accord — à ce stade. Il estime que l’absence de raisonnement de ChatGPT et les hallucinations/erreurs massives qu’il produit n’en font pas un "Google killer". Mais sur le point de l’absence de raisonnement, il y a un contournement potentiel (voir infra).
Les principaux acteurs américains de l’IA en droit, eux, dans leurs prédictions pour 2023, de manière surprenante, n’évoquent aucune évolution en 2023 qui serait dûe à ChatGPT ou GPT-4.
GPT est disponible à travers une API, le mode d’accès aux applications d’IA devenu standard dans l’industrie.
La SSII Width.ai, à partir de GPT-3, proposait déjà en 2021 une implémentation de GPT-3 pour améliorer une clause en droit américain ("inspection period and closing clause") [22].
On peut citer, parmi les implémentations récentes les plus notables des chatbots/LLMs en droit :
- CoCounsel : la legaltech américaine Casetext a dévoilé le 1er mars un assistant juridique alimenté par le modèle de langage étendu « le plus avancé » d’OpenAI [23], qu’il a personnalisé pour le secteur juridique [24]. CoCounsel serait déjà déployé par le cabinet américain spécialisé en droit du travail Fisher Phillips et aurait reçu des critiques élogieuses de la part de cabinets bêta testeurs, dont Eversheds et Orrick. CoCounsel peut être utilisé pour la recherche dans une base de données, la rédaction de "memo" (synthèse d’une recherche), l’examen de documents et l’analyse de contrats, en répondant à des questions en langage naturel. Il couple la technologie d’OpenAI avec ses propres bases de données juridiques propriétaires et son système de recherche juridique, ParallelSearch. Le travail effectué par Casetext en partenariat avec OpenAI à surtout consisté à éviter que l’application "hallucine". Selon Jake Heller, PDG et cofondateur de Casetext, aucune donnée n’est conservée par CoCounsel et les données des clients ne sont pas utilisées pour développer le modèle (ces deux points, nécessaires pour garantir la confidentialité dûe aux clients des avocats, distinguent nettement une telle application professionnelle de ChatGPT)
- Harvey.ai, une startup construite sur un logiciel similaire à ChatGPT, a levé 5 millions de dollars auprès du fonds OpenAI Startup en novembre. Jeff Dean, le dirigeant de l’IA chez Google, a aussi participé à cet investissement [25]. Harvey a été fondé par l’ancien chercheur scientifique de DeepMind, Gabriel Pereyra, et par un ancien juriste spécialisé dans la législation antitrust et les valeurs mobilières, Winston Weinberg. Concrètement, Harvey peut répondre à des questions posées en langage naturel telles que : « Dites-moi si cette clause dans un bail est en violation de la loi californienne, et si oui, réécrivez-la pour qu’elle ne soit plus en violation ». À première vue, note TechCrunch, il semble que Harvey pourrait presque remplacer les avocats. Mais le co-fondateur insiste sur le fait que ce n’est pas le cas, vu notament la tendance de l’application à "halluciner". Le cabinet Le cabinet d’avocats Allen & Overy s’est offert un joli coup de pub dans le Financial Times mi-février 2023 en laissant entendre qu’ils avaient eux-mêmes développé cette IA mais c’est évidemment inexact. Aucun cabinet ne va investir autant d’argent et de moyens humains en interne. Parmi les autres cabinets qui travailleraient avec Harvey, citons Quinn Emanuel Urquhart & Sullivan
- la startup américaine Lexion, lancée il y a un an, utilise déjà GPT-3 pour résumer des documents juridiques et générer des clauses contractuelles [26]. Docket Alarm, un produit de la legaltech américaine Fastcase, permet de parcourir les registres ("dockets" = dossiers des affaires) des tribunaux des Etats-Unis. Docket Alarm utilise GPT-3 pour afficher un résumé du litige pendant que l’on consulte l’extrait du rôle ("docket sheets") [27].
Pour une liste presque complète des applications des LLM dans la legaltech, voir cet article de Legaltech Hub : The Use of Large Language Models in LegalTech (18 février 2023).
Tout cela reste modeste par rapport à ce que Microsoft a fait à partir de GPT-3 avec Copilot, l’application de rédaction de code (langage informatique). Copilot va beaucoup plus loin que l’insertion de quelques dizaines de lignes de code.
Par rapport à la langue juridique française, les futurs vrais défis de GPT et ses homologues résideront — et cela à moyen voire court terme (2 à 5 ans) — dans :
- l’adaptation au droit français, autrement dit l’achat (licence) de cette technologie et son "entraînement" sur leurs contenus par les éditeurs juridiques français [28] (c’est cette hypothèse que retient Richard Tromans, le fondateur d’Artificial Lawyer, la gazette en ligne de référence du secteur [29]. On peut aussi penser que les IA génératives de texte seront entraînées sur les documents internes (GED, intranet) d’une entreprise
- l’intégration dans les logiciels/applications quotidiennement utilisées par les juristes. C’est dans un an ou deux, amélioré (GPT-4 sort soit en avril soit mi-2023), fiabilisé, combiné, interfacé à d’autres produits (comme Copilot dans Github, racheté par ... Microsoft), et intégré aux applications actuelles dominantes sur étagères — comme justement Word de ... Microsoft (bis) — que GPT et ses avatars pourraient révolutionner le travail des cols blancs et de leurs employés
- la vérification a posteriori de la rigueur/fiabilité du document généré par l’IA. Dans un avenir proche, en milieu professionnel, les jeunes juristes pourraient alors être chargés de vérifier et corriger la production du chatbot réalisée à partir des fonds des éditeurs. Le grand public aux moyens financiers très limités devant lui se contenter de la production initiale non corrigée du chatbot à partir des ressources gratuites. Pour le dire crûment : dans quelques années, une IA générative branchée sur du contenu d’éditeur pourrait faire office de stagiaire aux trois quarts. C’est du moins une hypothèse que les performances de la gamme GPT rend réaliste
- la capacité d’émuler le raisonnement. Parce qu’il se fait par les mots, le raisonnement lui-même pourrait un jour être à la portée des IA génératives de texte. Certains articles sur les LLM évoquent les difficultés de la chose mais sans fermer la porte, loin de là ... [30]
- le coût des licences et du ré-entraînement. En effet, la rumeur dit qu’OpenAI brûle 3 millions de dollars par jour —, alors qu’elle n’en gagne que 29 par an et prévoit un chiffre d’affaires d’un milliard de dollars US en 2024 [31]. Toutefois, des répliques, notamment open source, de GPT-3 se font jour, la puissance de calcul nécessaire ne semble plus autant en hausse exponentielle qu’on le pensait, et son coût baisse.
Mais il y a une alternative : si la doctrine passait en open access dans les années à venir (ce qui n’est pas du tout garanti, surtout en sciences juridiques, même si pour les thèses, c’est en bonne voie [32]) — les éditeurs ne seraient pas alors les seuls sur le marché. Toute startup dotée de juristes codeurs pourrait alors entraîner ses "language models" (LM) sur de la doctrine.
Attention, ce n’est pas gagné : en l’état des choses (GPT 3.5 donc), pour adapter GPT aux bases des éditeurs juridiques, le travail de supervision (supervised learning et surtout de RLHF ou human guided ML) serait massif. GPT 4 promet certes des progrès massifs [33], mais certains spécialistes de l’IA comme Alberto Romero, Gary Marcus ou Scott Alexander estiment que « la seule façon de redresser les "language models" est de les redéfinir, de les redessiner et de les reconstruire complètement » [34]. Pour Scott Alexander, « le RLHF ne fonctionne pas très bien » — et vu comment il détaille son opinion, cette formule est une litote.
Qui vivra verra, mais les (légèrement) meilleurs résultats de Perplexity.ai sont à nos yeux une indication que la piste du contenu sélectionné / fiable / de niveau professionnel pourrait marcher.
On peut aussi se demander si la justice prédictive ne profitera pas également de ces IA génératives. En effet, l’open data des décisions de justice fournit d’ores et déjà à ces outils un remarquable fonds pour s’ "entraîner". Seront-elles alors plus efficaces que le logiciel expert Case Law Analytics ?
Emmanuel Barthe
documentaliste juridique, veilleur
licence en droit, Faculté de droit de Sceaux
NB : ce post est extrait de notre article sur les outils de l’IA pour le droit, régulièrement mis à jour : Intelligence artificielle en droit : derrière la "hype", la réalité.
Annexe : les tests publiés de ChatGPT et GPT en droit français
Voici les tests de ChatGPT sur des questions juridiques que j’ai pu repérer. Si vous en connaissez d’autres, pouvez-vous m’indiquer leurs URL dans les commentaires ?
- "directive transparence champ d’application"
- les évolutions du régime Tracfin entre la loi de 1992 et celle Sapin de 1993
- dans la Ve République, le Président a-t-il l’obligation de signer les ordonnances que lui soumet le gouvernement ?
- nature juridique de l’activité d’influenceur promouvant des cosmétiques rémunérée par une somme fixe mensuelle et un pourcentage sur les ventes
- les transitions du droit de la concurrence
- les plateformes de l’économie numérique peuvent-elles être considérées comme des tiers de confiance ?
- les risques psycho-sociaux au travail en France
- "la clause de limitation de responsabilité peut-elle être écartée en cas d’accident mortel ?"
- "voie de recours à l’encontre des décisions du juge de la mise en état"
- "le droit de passage peut-il s’acquérir par prescription ?"
- "congé frauduleux par le bailleur : quelles conséquences ?"
- "comment retirer un permis de construire ?"
- "l’agent immobilier peut-il acheter un bien qu’il est chargé de vendre ?"
- "vente ou contrat d’entreprise ?"
- "décris-moi une association à but non lucratif par actions simplifiée française"
- rédige une clause de période d’essai de 3 mois conforme à la convention collective Syntec
- test de ChatGPT par Alexandre Chazelles, enseignant en droit des activités spatiales, sur un devoir donné à ses élèves français non juristes
- 14 questions posées à ChatGPT pour un usage en faculté de droit, Pamplemousse Magazine, 1er février 2023. Note de fiabilité donnée par l’enseignante de Pamplemousse sur la résolution par ChatGPT d’un cas pratique : 2/5 ...
NB : à chaque test, ChatGPT a fait au minimum une erreur. Au vu de ces tests et globalement :
- si j’étais un enseignant et globalement, je noterais 5 ou 6 sur 20. Les erreurs sont trop fréquentes et trop graves
- si j’étais un professionnel, je romprais tout lien avec la personne en cause et j’aurais peur pour ma responsabilité professionnelle. Pascal Alix, avocat, va dans le même sens : « L’utilisation professionnelle de ChatGPT doit donc, dans tous les cas, s’inscrire dans le cadre d’un processus décisionnel où l’humain "garde la main", sans jamais se laisser séduire par cet outil qui exploite l’un des penchants les plus naturels de l’être humain, la paresse. » [35]. Voir aussi ce qui arrive à deux avocats américains dont l’un a cité et produit des décisions de justice inventées par ChatGPT [36]
Notes
[1] On est en droit, ici, de la procédure civile. La "question" posée à ChatGPT est : « Voie de recours à l’encontre des décisions du juge de la mise en état ». La "réponse" est absurde et ce dès le départ. En effet, comme le précise l’article 795 du Code de procédure civile (CPC) :
« Les ordonnances du juge de la mise en état et les décisions rendues par la formation de jugement en application du 9e alinéa de l’article 789 ne sont pas susceptibles d’opposition. Elles ne peuvent être frappées d’appel ou de pourvoi en cassation qu’avec le jugement statuant sur le fond. » De plus, comme l’explique par exemple cette fiche pratique Lexis 360, l’institution du juge de la mise en état est propre aux TGI et aux cours d’appel — PAS à la justice administrative. Enfin, je n’ai pas vu de « délai de deux mois » dans ce domaine. Clairement, interroger Google est beaucoup plus intéressant et cent fois plus fiable que de s’amuser avec ChatGPT. Vérifiez par vous-même.
[2] Qu’est-ce que GPT-3 ?, par Ray Tiernan, ZDNet.fr, 26 août 2020. Voir aussi, par un évangéliste d’OpenAI : The best kept secret about OpenAI’s GPT-3, par Andrew Mayne, 20 octobre 20, 2020. Presque tous les autres posts d’Andrew Wayne sur GPT-3 sont à lire. Ils donnent une bonne idée des capacités de cette IA chatbot.
[3] ChatGPT : 5 minutes pour comprendre cette intelligence artificielle qui analyse et écrit (presque) comme nous, par Damien Licata Caruso, Le Parisien, 6 décembre 2022.
[4] GPT-3 : c’est toi le Chat, par Olivier Ertzscheid, Affordance.info, 2 janvier 2023.
[5] NB : selon Wikipedia, le jeu de données Common Crawl comprend des travaux protégés par le droit d’auteur et est distribué depuis les États-Unis dans le cadre d’une utilisation équitable.
[6] Learning from Human Preferences, OpenAI blog, 13 juin 2017.
[7] ChatGPT : plongée dans les entrailles du chatbot qui bouleverse la tech, par Leila Marchand, Les Echos.fr, 12 décembre 2022. Pour plus de détails, voir l’excellente newsletter du dimanche de Benoît Raphaël.
[8] Aligning Language Models to Follow Instructions, OpenAI blog, 16 janvier 2022.
[9] Microsoft aims for AI-powered version of Bing, Reuters, 4 janvier 2023.
[10] Microsoft eyes $10 billion bet on ChatGPT, Semafor, 10 janvier 2023. Microsoft’s $10bn bet on ChatGPT developer marks new era of AI, Financial Times, 16 janvier 2023. It’s raining money for ChatGPT company OpenAI as Microsoft officially throws down a $10 billion investment, par Bydina Bass et Bloomberg, Forbes.com 23 janvier 2023.
[11] 7 language models you need to know, par Ben Wodecki, AI Business (un site du réseau Informa), 27 juillet 2022. Top Open Source Large Language Models.
[12] The hidden danger of ChatGPT and generative A, par Sharon Goldman, The AI Beat, Venture Beat, 5 décembre 2022. Une étude (à laquelle OpenAI a participé) donne un chiffre sur la tendance de GPT-3 (à partir de laquelle ChatPGT a donc été développé) à "imaginer" : 58% de réponses justes (les humains 94%), ce qui fait 42% de réponses fausses (TruthfulQA : Measuring How Models Mimic Human Falsehoods, par Lin, Hilton et Evans, 2022).
[13] This is called "hallucination" and I find it the biggest flaw with GPT-3 interfaces like ChatGPT, par Doomlaser, Hacker News, 3 décembre 2022.
[14] ChatGPT : Optimizing Language Models for Dialogue, OpenAI blog, 30 novembre 2022.
[15] GPT Takes the Bar Exam, par Michael James Bommarito et Daniel Martin Katz, SSRN, 29 décembre 2022.
[16] ChatGPT passes law school exams despite ’mediocre’ performance, par Karen Sloan, Reuters, 25 janvier 2023. L’étude : ChatGPT Goes to Law School, par Jonathan H. Choi, Kristin E. Hickman, Amy Monahan et Daniel B. Schwarcz, Minnesota Legal Studies Research Paper No. 23-03, Legal SSRN, 25 janvier 2023.
[17] Voici par exemple un type de formules qui revient souvent dans les "réponses" de ChatGPT : « Il est difficile de répondre », « dépend de nombreux facteurs », « peuvent être considérées ... dans la mesure où ... », « peut varier en fonction de différents facteurs [flous] ».
[18] Ne faites pas confiance à ChatGPT, il ment tout le temps, par Marie Tucan, Numerama, 21 janvier 2023.
[19] Anthropic’s Claude improves on ChatGPT but still suffers from limitations, par Kyle Wiggers, 2023 TechCrunch, 9 janvier 2023.
[20] Tweet de Sam Altman du 30 novembre 2022. Extrait (traduit par nos soins) : « ceci est une démonstration précoce de ce qui est possible (il y a encore beaucoup de limites — c’est pour l’essentiel une version de recherche). »
[21] ChatGPT Is the World’s Best Chatbot, par Alberto Romero, The Algorithmic Bridge, 2 décembre 2022. Traduction en français via DeepL et corrigée par nos soins.
[22] Building an NLP legal clause rewriter that improves clause clarity and reduces risk - Case study, par Matt Payne, 10 novembre 2021, Wdith.ai blog.
[23] Casetext refuse de dire sur quelle version de la technologie de GPT CoCounsel est basé.
[24] Casetext unveils AI legal assistant CoCounsel, powered by OpenAI’s “most advanced” large language model, Legal IT Insider, 1er mars 2023.
[25] Allen & Overy breaks the internet (and new ground) with co-pilot Harvey, par Caroline Hill, Legal Insider 16 février 2023. Harvey, which uses AI to answer legal questions, lands cash from OpenAI, par Kyle Wiggers, TechCrunch, 23 novembre 2022.
[26] Legal tech startup Lexion is using GPT-3 to help lawyers write summaries and suggest edits, GeekWire, 20 décembre 2022.
[27] Docket Alarm Now Uses GPT-3 To Show You Summaries Of PDF Litigation Filings As You Review Docket Sheets, par By Bob Ambrogi, LawSites, 31 janvier 2023.
[28] Vu qu’en 2025, le "playing field" sera "leveled" entre éditeurs et legaltech en ce qui concerne les décisions de justice par l’open data des décisions de première instance, je n’inclus pas ici les legaltech, car la doctrine leur manque.
[29] Generative Legal AI + ‘The Last Human Mile’, par Richard Tromans, Artificial Lawyer, 5 décembre 2022.
[30] Large language models have a reasoning problem, par Ben Dickson, TechTalks, 27 juin 2022. Large Language Models Can Self-improve, par Anonyme, 16 novembre 2022, ICLR 2023 Conference Blind Submission.
[31] Is Microsoft about to get the deal of the century ? Or is Sam Altman unloading OpenAI at just the right time ?, par Gary Marcus, The Road to AI We Can Trust, 11 janvier 2023. ChatGPT owner OpenAI projects $1 billion in revenue by 2024, par Jeffrey Dastin, Krystal Hu et Paresh Dave, Reuters, 15 décembre 2023.
[32] Voir sur ce blog : Les "meilleures" thèses en droit disponibles en open access (2000-2017) et Thèses en droit : open access ou pas ?.
[33] GPT-4 Rumors From Silicon Valley, par Alberto Romero, The Algorithmic Bridge, 11 novembre 2022.
[34] Microsoft vs Google : Will Language Models Overtake Search Engines ?, par Alberto Romero, The Algorithmic Bridge, 6 janvier 2023. Is ChatGPT Really a “Code Red” for Google Search ?, par Gary Marcus, The Road to AI We Can Trust, 30 décembre 2022. How come GPT can seem so brilliant one minute and so breathtakingly dumb the next ?, par Gary Marcus, The Road to AI We Can Trust, 1er décembre 2022. Perhaps It Is A Bad Thing That The World’s Leading AI Companies Cannot Control Their AIs, par Scott Alexander, Astral Codex Ten, 12 décembre 2022.
[35] ChatGPT : quels enjeux juridiques ?, par Pascal Alix, Village de la Justice, 2 février 2023.
[36] Judge Kevin Castel (US District Court Southern District of New York)’s May 4 order in Mata v. Avianca, Inc. Here’s What Happens When Your Lawyer Uses ChatGPT, par Benjamin Weiser, The New York Times, 27 mai 2023. A Lawyer’s Filing "Is Replete with Citations to Non-Existent Cases"—Thanks, ChatGPT ?, par Eugene Volokh, The Volokh Conspiracy, 27 mai 2023.
Commentaires
Aucun commentaire
Laisser un commentaire