GPT et les documentalistes - Ou que faire avec ChatGPT et Perplexity.ai ?
Les fonctionnalités documentaires des IA génératives
Par un article marquant publié en novembre 2021 (Les technologies du faux : un état des lieux), le formateur et consultant en veille stratégique Christophe Deschamps (Outils froids) a été en France un des premiers à informer sur les IA génératives, notamment en nous avertissant des performances des GAN (generative adversarial networks) qui fabriquent des photos de visages de personnes qui n’existent pas.
Christophe vient de publier une série de quatre billets sur les utilisations de ChatGPT pour la veille, valables aussi pour la recherche documentaire, et intitulée Ce que ChatGPT fait à la veille. NB : ce qui suit vaut très largement pour Bing Chat aussi (basé sur GPT-4 alors que la version gratuite de ChatGPT est encore basée, elle, sur GPT-3.5).
L’idée avec les IA génératives est : « S’il te plaît, mâche-moi le travail (mais il faudra que je vérifie derrière) ». Infra les idées de Christophe et d’autres, plus les nôtres. Mais lâchez donc votre imagination ! On peut demander à peu près tout à ChatGPT (et Bing Chat aussi), comme s’amuse à le mentionner Olivier Ertzscheid, maître de conférences en sciences de l’information et auteur du fameux blog Affordance [1].
ChatGPT peut répondre à des questions, trouver des idées de contenu pour réseaux sociaux, rédiger un mail assez standard [2] ou une dissertation [3], tout le monde le sait, mais le résultat n’est pas fiable et en documentation / veille / sciences de l’information, ce n’est pas ce qui nous est le plus utile.
Avertissement : lâchez les rênes à votre méfiance et vérifiez bien, les erreurs de cette IA sont légion et bien cachées.
NB : la version gratuite de ChatGPT n’est pas très rapide ... Soyez prêts à sortir 20 dollars US par mois pour la version payante nommée ChatGPT Plus et qui permet d’accéder aux performances meilleures de GPT-4.
Sommaire :
1. Les usages/fonctionnalités de ChatGPT utiles pour les documentalistes :
- utiliser le prompt pour diriger l’IA
- résumer / synthétiser
- expliquer, reformuler
- donner un plan détaillé
- fournir une analyse forces / faiblesses
- fournir mots-clés, champ lexical et listes pour un domaine
- rédiger votre requête booléenne détaillée
- autres usages : reformatage de données, pensée latérale ...
- outils et plugins pour ChatGPT
2. Perplexity.ai cite ses sources
3. Détecter une production d’IA générative
1. Les usages/fonctionnalités de ChatGPT utiles pour les documentalistes
– Utiliser le prompt pour diriger l’IA
C’est un préalable à notre avis. Il faut d’abord apprendre à "s’adresser" à ChatGPT. Il y a un vocabulaire, une façon d’écrire à adopter, comme pour les IA génératives d’images (Midjourney, DALL.E, Stability.ai ...).
Comme le dit Christophe, « on peut diriger [ChatGPT] en lui indiquant des axes sur lesquels il doit insister. L’ère du prompt, c’est à dire [l’art] de poser efficacement des questions, arrive. » [4]
Le prompt, ce sont les instructions que vous donnez à ChatGPT. Ou autrement dit, à la fois les critères de "recherche" (ce n’est pas une vraie recherche mais une génération) et le paramétrage de celle-ci.
Sur ce sujet clé du prompt, il existe déjà quantité de pages web recensant ou proposant des prompts pour ci, des prompts pour ça. Une simple recherche Google vous donnera des idées, que vous pourrez adapter. C’est particulièrement utile en matière d’image (DALL.E, Midjourney, Stable Diffusion), mais aussi en matière de texte (GPT et ses dérivés).
Pour commencer, vous pouvez utiliser ce cours gratuit de "promting" : Learn Prompting. Puis lisez Methods of prompt programming. Pour aller (nettement) plus loin, lisez le long billet de Gwern : GPT-3 Creative Fiction, mais attention, il n’est pas orienté vers des buts professionnels.
– Résumer / synthétiser
La fonctionnalité « résumer un article » de ChatGPT est potentiellement très utile. On peut aussi parler de synthèse, mais sans aucune personnalité ni angle ni insistance mis dedans.
Cependant, cette fonctionnalité « résumer » a des limites :
- le texte doit être fourni (copié-collé) à ChatGPT. ChatGPT ne peut pas accéder au texte disponible sur une page web/URL. (Si vous lui fournissez quand même une URL, il cherche à en "deviner" le contenu par les mots-clés présents dans l’URL. Le résultat est alors maigre voire franchement mauvais)
- un texte fourmillant de faits et de chiffres ne sera que peu raccourci
- les points saillants ne seront pas soulignés
- un collègue m’a rapporté des cas d’erreurs dans le résumé. Si ce résumé sert à informer des dirigeants, les conséquences peuvent être très gênantes voire graves
- la version gratuite de ChatGPT ne peut pas résumer un article très long (10 paragraphes maximum environ) — même si GPT-3 lui le peut [5], ainsi que les applications développées à partir de GPT-3 (Power Automate ou Summarize par exemple, comme l’évoque Christophe)
- sur son compte Youtube Science Grad School Coach, Alana Rister, ex-chercheuse en chimie et analyste pour une "edtech", recommande d’ailleurs de ne pas utiliser ChatGPT pour résumer des articles scientifiques (« research articles ») [6].
Autrement dit : pour tout ce qui en ligne, il faut copier-coller le texte et espérer qu’il ne dépasse pas dix paragraphes, ce qui est rare. Par ailleurs, je ne suis pas certain que les éditeurs apprécient …
Une fonctionnalité fiable de ChatGPT : synthétiser
– Expliquer / Reformuler / Permettre de mieux comprendre
Mushtaq Bilal, de l’Université du Danemark du Sud (SDU), montre qu’on peut utiliser ChatGPT pour comprendre un paragraphe d’article universitaire difficile à lire.
Prenez un article ou un ouvrage scientifique et copiez-collez un passage (pas l’ensemble d’un article, attention, voir plus haut) dans ChatGPT.
Non seulement ChatGPT peut résumer le(s) paragraphe(s) en un langage simple et à la portée du lecteur, mais vous pouvez également lui demander d’élaborer/déveloper si un texte est dense. Vous pouvez aussi lui poser des questions complémentaires. Par exemple, M. Bilal lui demande la signification du mot "téléologie". ChatGPT explique la signification du mot — qui plus est, dans le contexte du passage.
M. Bilal rappelle très justement que si vous voulez poser des questions complexes à ChatGPT, il faut commencer par lui en poser des simples. Formez-le, renforcez ses capacités avant de lui poser des questions complexes.
– Donner un plan détaillé, suggérer les (principaux ...) points d’une intervention ou d’une question
ChatGPT peut, notamment sur un sujet auquel vous ne connaissez rien, vous préparer un plan détaillé d’une intervention. Un (pseudo) article entier, non. OpenAI l’a volontairement limité en cela, car c’est une démo gratuite, mais son frère ainé GPT-3 en est parfaitement capable.
Voir par exemple les suggestions de Mushtaq Bilal [7] M. Bilal montre que ChatGPT peut « créer un plan utile avec des sujets et des sous-thèmes. Il donne une *structure*. N’utilisez pas les titres exacts, bien que dans ce cas, certains soient très utiles. Utilisez cette structure pour commencer à rédiger votre document. Modifiez-la en fonction de vos besoins. » J’ajouterai : « Vérifiez les affimations de ChatGPT. »
Par exemple, sur une question "droit des aides d’Etat en matière de transports : quels sont les points saillants ?", ChatGPT va notamment rappeler la nécessité d’obtenir l’autorisation de la Commission et l’exception des règles de minimis. C’est utile, en tout cas pour un non spécialiste du droit de la concurrence. Mais ChatGPT va aussi citer comme bases légales les articles 107 et 108 du TFUE. Et là, il va falloir vérifier que ce sont bien les bonnes bases légales. Il se trouve que ce sont bien ces articles du TFUE qui fondent le droit des aides d’Etat, mais la vérification est obligatoire car ChatGPT a déjà été pris en flagrant délit de confusion voire d’invention de bases légales.
– Fournir une analyse forces / faiblesses
Sur l’analyse SWOT [8] ou la fourniture de plans détaillés, comme le suggère C. Deschamps, c’est très pratique.
Mais c’est aussi très classique (mainstream, dirons-nous) et parfois redondant. J’ai testé une analyse SWOT (forces et faiblesses, risques et opportunités) sur un sujet que je connais bien (les legaltech en France) ; ça ne m’a rien appris, car je travaille sur le sujet depuis son apparition en France en 1996, mais c’est pratique car ça fait une synthèse opérationnelle correcte (sans plus) et pour une personne débarquant dans la matière, ça peut déjà l’aider et orienter ses recherches ultérieures.
En revanche, attention, cette synthèse n’avait pas un niveau expert car elle traduit l’opinion majoritaire des écrits disponibles dans les fonds utilisés pour entraîner ChatGPT (i.e. ça ne comprend pas tout Internet ni les bases de données privées ou payantes).
L’analyse SWOT de ChatGPT sur les legaltech
Connaissant bien les legaltech, j’aurais eu des modifications clés à y apporter. J’aurais par exemple évoqué :
- force : une condition clé du développement des legaltech : l’open data juridique et judiciaire (Légifrance, la loi République numérique, Judilibre etc.)
- et quatre faiblesses :
- la promesse d’open data opur 2025 des jugements de conseils de prud’hommes et des tribunaux de commerce ne sera pas tenue
- la pseudonymisation obligatoire des décisions de justice (RGPD, loi de 2019 ...) qui ralentit l’open data
- le sous-financement de la Justice — et le manque criant de moyens des greffes qui en découle (les greffes sont ceux qui "tapent" les décisions et les pseudonymisent ...)
- enfin, le plus important : le manque de rentabilité actuel des legaltech, qui s’adossent de plus en plus aux éditeurs juridiques comme Case Law Analytics qui fait partenariat avec Dalloz ou Predictice avec Lamy ou se font racheter par eux ou des groupes préexistants de legaltech avant la lettre comme Softlaw racheté par Septeo ou Hyperlex racheté par DiliTrust.
Je nuancerais aussi l’opposition du monde juridique :
- le président Macron et Bercy sont très favorables
- les avocats et particuliers sont plutôt favorables et, à prix maîtrisé, achètent
- magistrats :
- les juridictions suprêmes se méfient de la perte d’influence et donc de pouvoir que les legaltech pourraient leur occasionner ; elles veulent rester maîtres de la diffusion et de l’interprétation de leur jurisprudence
- les gestionnaires de juridictions, eux, y sont majoritairement favorables car ils y voient un moyen de mieux gérer la charge de travail
- les magistrats de base, en revanche, sont très réservés car, pour eux, la legaltech peut attirer l’attention sur des décisions biaisées ou de moindre qualité, comme l’affaire Supra Legem l’a montré [9].
Vous le voyez, tout cela rend l’analyse SWOT proposée par ChatGPT très insuffisante. C’est tout au plus un bon début, mais si vous vous limitez à cela dans un milieu professionnel, vous allez commettre de grosses erreurs.
Enfin, les IA génératives, ici GPT, ne raisonnent pas et ne recherchent pas en soi la fiabilité de l’information.
– Fournir mots-clés, champ lexical et listes pour un domaine
C. Deschamps signale aussi qu’on peut utiliser ChatGPT pour obtenir les mots-clés et plus généralement le champ lexical d’un domaine que l’on connaît mal. Il donne l’exemple suivant : « demander à ChatGPT : "donne moi le champ sémantique de l’industrie nucléaire". Ou encore : "donne moi les mots-clés les plus utilisés lorsqu’on parle de l’industrie nucléaire". » Une fois des mots-clés trouvés, ajoute C. Deschamps, on va lui demander de nous fournir des synonymes [10].
De manière similaire, ajouterais-je, si vous connaissez mal un secteur économique ou un art et que Google et Wikipedia ne donnent rien de bien fait, vous pouvez demander à ChatGPT de vous donner une liste des principaux/plus grandes sociétés/acteurs du domaine. Attention, l’exhaustivité n’est pas garantie.
– Rédiger votre requête booléenne détaillée
Irina Shamaeva, formatrice hors pair à la recherche pour les recruteurs, explique que ChatGPT peut vous rédiger une requête booléenne détaillée et complète pour LinkedIn ou Google [11]. ChatGPT donne les mots-clés pertinents et insère les bons opérateurs, tels le OR.
– Autres usages : reformatage de données, pensée latérale ...
C’est moins mon domaine, je n’ai pas d’avis personnel sur ces sujets, aussi je ne fais que les citer et vous renvoie aux articles 3 et 4 de la série de Christophe Deschamps :
- Ce que ChatGPT fait à la veille : L’exploitation de l’information. 3/4
- Ce que ChatGPT fait à la veille : La diffusion de l’information. 4/4.
– Outils et plugins pour ChatGPT
Christophe partage aussi dans son billet Intégrez ChatGPT à votre environnement de travail les outils qu’il a repérés permettant d’intégrer ChatGPT au quotidien (extensions, plugins, etc). Il en a déjà repéré une centaine et leur nombre ne cesse de croître.
D’autres outils peuvent être repérés par une requête Google dédiée.
2. Perplexity.ai cite ses sources
J’ai découvert en même temps que le webmestre d’Outils froids Perplexity AI, une IA générative inspirée de GPT et programmée pour donner ses sources. Elle ne propose pas de mode conversation : sa réponse est unique. On peut reformuler sa question si la proposition de l’IA n’est pas satisfaisante, mais techniquement, c’est une nouvelle question. Autrement dit, on ne peut pas corriger Perplexity ni l’amener progressivement à "comprendre" ce qu’on veut — ce que j’appellerais "la mener par le bout du nez" — comme c’est le cas en revanche pour ChatGPT.
Perplexity donne, elle, contrairement à ChatGPT, une réponse *correcte* à la question "transparency directive scope" et cite des sources pertinentes avec le lien hypertexte. En apparence, rien d’impressionnant car la réponse est un ensemble très bien rédigé de copier-coller depuis les sites de référence — sites évidents : ESMA, EUR-Lex et texte de la directive — cités en bas de sa réponse. La même question posée différemment ("does the transparency directive apply to investment funds") ne fait pas tomber Perplexity.ai dans le piège.
Sur une question sur laquelle ChatGPT se plante en beauté ("voie de recours à l’encontre des décisions du juge de la mise en état"), Perplexity.ai, bien que ne sachant répondre qu’en anglais, "comprend" bien la question en français et donne une bonne réponse. Encore une fois, il suffit certes de copier-coller des extraits de sites fiables — que Google trouve sans problème avec la même requête. Encore fallait-il y penser et le faire.
Perplexity tombe néanmoins comme ChatGPT dans le piège tendu par le "streamer" politique Jean Massiet. A la question "dans la Ve République, le président de la République a t-il l’obligation de signer les ordonnances que lui soumet le gouvernement ?", il répond oui sans aucune nuance et sans citer la réponse négative apportée dans la pratique par François Mitterrand face à des ordonnances soumises par le gouvernement Chirac. De même, Perplexity.ai ne réussit pas vraiment mieux que ChatGPT au test du proofesseur Emmanuel Netter ("penses-tu que les plateformes de l’économie numérique puissent être considérées comme des tiers de confiance ?"). Et sur un test sur les risques psychologiques au travail (dits "risques psycho sociaux" ou RPS), même si c’est un peu mieux que ChatGPT, Perplexity.ai "hallucine" quand même aux deux tiers.
Il semble que Perplexity.ai aille chercher ses sources, préalablement sélectionnées pour leur qualité et fiabilité (le site d’Aurélien Bamdé est un "must"), avec un moteur de recherche donc sans retard par rapport à l’actualité et qu’il fasse travailler GPT-3 sur ce fonds pour répondre. La page d’accueil du site précise en effet : « Il s’agit d’une démo inspirée par OpenAI WebGPT, et non d’un produit commercial. Perplexity Ask est alimenté par de grands modèles de langage (API OpenAI) et des moteurs de recherche. La précision est limitée par les résultats de recherche et les capacités de l’IA. Peut générer du contenu offensant ou dangereux. »
C’est donc un peu mieux, d’un point de vue de juriste, que ChatGPT, mais très, très loin d’être parfait.
C. Deschamps propose aussi d’utiliser Unrestricted Intelligence, une autre IA générative de texte s’appuyant sur GPT-3. Elle « propose une "analyse" [Christophe a raison de mettre les guillemets] des problèmes que vous lui soumettez, ainsi qu’une liste de questions complémentaires et d’étapes à suivre » [12].
3. Détecter une production d’IA générative
Enfin, les spécialistes de l’information doivent pouvoir identifier les documents et informations qu’on leur soumet ou qu’ils doivent trouver. D’autant plus ici vu le fort parfum de "fake" de ChatGPT. C’est l’objet d’un autre billet sur ce blog : La pollution qui remplit Internet. Ou comment détecter les textes générés par une IA, au-delà du copywriting.
Emmanuel Barthe
documentaliste juridique, veilleur, formateur
Notes
[1] GPT-3 : c’est toi le Chat, par Olivier Ertzscheid, Affordance.info, 2 janvier 2023.
[2] Très standard, même. Voici par exemple un retour d’expérience dans un commentaire sous un article de Clubic : « Tout d’abord j’adore ChatGPT, je m’en sers pas mal pour coder du web.
Mais je ne suis tellement pas d’accord avec l’article et surtout la fin… On l’entend partout cette phrase.
Mais entre les prompts, la vérification de ce que l’IA a écrit, l’éventuelle modif’, pas sûr qu’on gagne tant de temps… Je pense que pour "l’envoi de messages de routine" ou "des messages que vous n’avez pas besoin de personnaliser outre mesure" des modèles prédéfinis seront bien plus rapides à utiliser. »
[3] Comment utiliser ChatGPT : 10 exemples de questions à poser, par Estelle Raffin, Blog du Modérateur, 13 janvier 2023.
[4] Ce que ChatGPT fait à la veille 1/4 : l’orientation des besoins. par Christophe Deschamps, Outils froids, 4 janvier 2023. Vous dorkiez ? J’en suis fort aise. Eh bien promptez maintenant !, par C. Deschamps, Outils froids, 10 février 2023.
[5] State of the Art GPT-3 Summarizer For Any Size Document or Format, par Matt Payne, Width.ai blog, 7 septembre 2021.
[6] ChatGPT for Scientific Research : How to use AI as a Partner in Your Research, Science Grad School Coach, 14 décembre 2022.
[7] Comme il le dit lui-même : « La plupart des gens l’utilisent pour créer du *contenu.* ChatGPT utilise un modèle de prédiction, donc le contenu sera toujours prévisible. Ce n’est PAS une utilisation intelligente de ChatGPT. »
[8] Strenghts Weaknesses Opportunités Threats.
[9] Pour plus de détails et les sources de nos remarques, voir notre (long) billet : Intelligence artificielle en droit : derrière la "hype", la réalité.
[10] Ce que ChatGPT fait à la veille 2/4 : la collecte (sourcing et veille). par Christophe Deschamps, Outils froids, 4 janvier 2023.
[11] Boolean of Target Companies with ChatGPT, par Irina Shamaeva, Boolean Strings, 27 décembre 2022.
[12] Ce que ChatGPT fait à la veille 3/4 : l’exploitation de l’information, par Christophe Deschamps, Outils froids, 18 janvier 2023.
Commentaires
Aucun commentaire
Laisser un commentaire