IA générative c/ Moteurs de recherche — Les RAG hallucinent eux aussi
Problèmes de fiabilité et d’exhaustivité en vue
TL ;DR / Résumé
Si vous êtes un adepte de l’IA générative (IAG, aussi abrégée en GenAI ou IAgen) et en même temps un "searcher", [1] vous pouvez suivre les conseils de Benoit Raphael. Il liste les meilleurs modèles de langage (LLM) généralistes (GPT-4o, Claude 3, Perplexity, Midjourney) et les meilleures plateformes pour y accéder (Poe, Dust) ou en tester d’autres.
Je reste toutefois réservé sur le principe d’utiliser un LLM pour une recherche. Pour moi, il ne peut en être au mieux qu’une composante.
En effet :
- le principe de fonctionnement d’un LLM ou d’un RAG (moteur de recherche + sélection des meilleurs résultats + synthèse par LLM + liens) comme Perplexity n’est *pas* la recherche mais la génération de texte selon des instructions (prompt) et une probabilité
- l’utilisation d’un RAG réduit fortement le nombre de résultats. Autrement dit, il peut empêcher d’aller dans les détails [2]
- même un RAG (oui, même un RAG spécialisé comme LegiGPT ou un RAG d’éditeur juridique ) peut halluciner.
Détaillons.
Le développement des IA génératives (GPT, Claude ...) et de leurs versions professionnelles — de type RAG (Reality Augmented Generation) le plus souvent [3] — pose un certain nombre de questions, voire de problèmes aux spécialistes de la recherche documentaire et plus largement aux professionnels qui dépendent pour leur travail quotidien des moteurs de recherche web et des plateformes d’information professionnelles comme celles des éditeurs juridiques.
Search vs AI : doomed ? [4]
A propos du futur de la recherche en ligne (ce que les Anglo-Saxons appellent le "search"), confrontée au développement de l’IA générative, je penche pour l’hypothèse d’Alberto Romero, analyste à CambrianAI [5]. Il estime que les modèles de langage (LLM) vont remplacer, éradiquer les moteurs de recherche.
« Je ne pense pas que le moteur de recherche survivra aux "language models" (LM). Le temps joue contre eux : alors que la technologie des moteurs de recherche ne progresse pas du tout, les LM se développent à la vitesse de la lumière. Dès qu’une variante plus robuste de l’architecture du "transformer" apparaîtra ou que les entreprises mettront en place des "modules de fiabilité" (peu importe la forme qu’ils prendront) [NB : pour l’instant ce n’est pas le cas, cf infra], les LM deviendront automatiquement des moteurs de recherche super génératifs. Personne alors n’utilisera plus jamais Google [disons le Google d’aujourd’hui]. »
Mais les IA génératives coûtent si cher qu’il faut faire payer les internautes, selon un spécialiste interrogé par Business Insider [6] Ainsi, selon le Financial Times, Google pourrait facturer l’accès à certaines fonctionnalités "premium" embarquant de l’IA générative dans son moteur de recherche (c’est le projet Search Generative Experience, ou SGE) [7]. Les internautes vont-ils payer ? Comment cette prédiction peut-elle se réaliser ?
Après avoir lu ces articles (et d’autres) et testé pas mal d’IAG généralistes [8], j’en tire des conclusions alternatives :
- soit l’IAG est si géniale et si pratique que les internautes accepteraient de la payer (ce sera au moins 10 euros par mois, le standard actuel du en ligne, vu les sommes à investir qui sont de l’ordre des plusieurs milliards de USD annuels ; 20 USD par mois semble plus probable : c’est le prix actuel de la version payante de ChatGPT). Ce dont je doute parce que les internautes refusent très majoritairement de payer la presse et de manière générale la plupart des oeuvres qu’ils regardent en ligne ...
- soit la pub serait incrustée dans les réponses des IAG. On nous dit que donner une réponse laisse peu ou pas de place pour de la pub ou des liens. Je ne vois pas pourquoi les GAFAMO n’incrusteraient pas de la pub discrète dans un cadre latéral ou en haut. Après tout c’est bien ce que fait Google Shopping depuis longtemps et c’est ce que Google cherche à faire actuellement dans les résultats/réponses de son Search Generative Experience (SGE) [9]. Toutefois, selon un spécialiste du référencement (SEO), « une page de résultats SGE revient 6 à 10 fois plus cher qu’une page de résultats d’un moteur de recherche (SERP) traditionnelle — à multiplier par des milliards de requêtes quotidiennes. Ensuite, seulement un tiers des résultats affiche des publicités — qui, rappelons-le, constituent la majeure partie des revenus. Google SGE est donc à la fois trop coûteux à implémenter et pas suffisamment rentable sur le plan publicitaire » [10]
- soit (et c’est ce que je redoute le plus) les GAFAMO nous contraindraient à utiliser des IAGen payantes, simplement en nous enlevant le choix : il leur suffirait d’arrêter Bing Search et Google Search (et Yandex en Russie et Baidu en Chine) ou d’y intégrer un telle dose d’IA générative que les résultats n’auraient plus le caractère de "search". Les moteurs alternatifs existent (Kagi par exemple) mais n’ont ni leur puissance ni leur pertinence. Et même eux sont en train d’intégrer une dose d’IA, tel Kagi par exemple. Et puis, les IA hallucinent (cf infra).
RAG time [11]
Il y a autre chose : les RAG si en cour en ce moment, notamment Perplexity.ai, sont censés éviter les hallucinations. Eh bien non, elles sont bien présentes. Même des RAG d’éditeur juridique hallucinent aux deux tiers dès qu’on pose une question juridique un tant soit peu complexe (or la complexité, c’est le quotidien des structures juridiques) [12]. Pourquoi ?
Je peux me tromper, mais je suppute [13] que les raisons tiennent notamment au fait qu’avec les RAG, quatre et non plus deux couches s’interposent entre le juriste et le contenu de l’éditeur — soit autant de possibilités d’hallucinations :
- la synthèse réalisée par l’API Claude ou GPT-4 peut halluciner
- le moteur de recherche, clé du RAG, peut halluciner en ramenant des résultats non pertinents
- les algorithmes de sélection, parmi les résultats du moteur, des plus pertinents d’entre eux, peuvent très bien ne pas fonctionner à 100%. Ca arrive. Mes tests de RAG juridiques français montrent clairement qu’il y a des cas fréquents où le moteur ramène des résultats proches de la question mais non pertinents pour autant et où ces résultats non pertinents sont de surcroît sélectionnés et rentrent donc dans la synthèse
- enfin, le contenu de l’éditeur peut ne pas répondre à la question posée. C’est un fait : si la production des éditeurs suffisait à répondre à toutes les interrogations des particuliers et entreprises, il n’y aurait pratiquement plus de juristes d’entreprise ni d’avocats car y compris dans les domaines du droit des particuliers et des TPE, il existe des éditeurs et des publications pas chers (La Revue Fiduciaire par exemple).
Enfin, le LLM, étant ce qu’il est, va répondre même quand les documents sont insuffisants, qui plus est de manière toujours convaincante. Les GPT et leurs concurrents sont incapables de prévenir l’utilisateur qu’ils ne savent pas — ou peu. Ce qui constitue une cinquième source d’erreur [14].
Mes derniers tests, tant d’IAG fine-tunées que de RAG et avec l’aide d’avocats confirmés [15], me donnent une forte impression de manque de fiabilité. Ce qui est gênant car, vu comment tout cela est formulé (question réponse, personnalisée si on donne des détails), on est à deux doigts du conseil. Du moins est-ce l’impression que ça donne. Pourtant, les conditions générales des éditeurs comprenant toujours une exclusion de responsabilité, il est évident que ce sera aussi le cas dès la commercialisation de ces IAG d’éditeur (déjà faite pour GenIA-L de Lefebvre Dalloz, en juin 2024 pour Lexis+ AI).
L’aiguille dans la meule de foin
Enfin, si l’IAG, même "RAGifiée", doit remplacer le "search", il va également y avoir un problème d’exhaustivité, avec la perte de la capacité à chercher l’aiguille dans la meule de foin. Les documentalistes répètent aux GAFAMO et aux éditeurs depuis plus de 20 ans que supprimer, comme ceux-ci en sont tentés, la version avancée de leur moteur de recherche représenterait une perte sèche d’information pour leurs clients. La même remarque peut être faite face à la prochaine tentation pour eux de remplacer le "search" par l’IAG.
Les "retardataires" dans le passage vers l’IAG pourraient, si ce passage va trop vite, devenir des bouées de sauvetage. Un peu comme, aujourd’hui, Légifrance est le seul moteur à permettre la recherche d’arrêts de la Cour de cassation par référence de publication au Bulletin des arrêts ou par le plan de classement du même Bulletin.
Conclusion et ouverture
Bref, il y a à mon sens de (gros) problèmes qui pointent le bout de leur nez dans le domaine de la recherche documentaire, du "search" et de l’IA, que ce soit le "search" multi-matières gratuit ou celui payant et spécialisé. Des problèmes qui exigent qu’éditeurs et GAFAMO y prêtent attention.
Si cette attention est prêtée, les RAG étant fortement "scriptés", i.e. plus maîtrisés et aisément "programmables" que les IA fine-tunées, certaines des limites supra pourraient alors reculer. Quant aux LLM, si des contenus juridiques français en open access venaient améliorer leur entraînement, cela pourrait aider — à condition que cela ne se fasse pas dans le dos des auteurs, sans leur accord ni compensation [16].
Évidemment, tout cela n’est que mon avis personnel.
Emmanuel Barthe
bibliothécaire documentaliste, spécialiste IA et open data juridiques
Notes
[1] Un spécialiste ou aficionados de la recherche documentaire. Recherche documentaire comme recherche de documents (articles, pages web, rapports, informations...) par opposition à recherche scientifique.
[2] J’ai eu un cas où Perplexity était moins politiquement correct que Google mais en fait cela venait du moteur que Perplexity utilise : Bing. CQFD !
[3] Quelle est l’architecture d’un RAG ? Un RAG va chercher ses sources dans une ou des bases de données fermées, autrement dit préalablement sélectionnées pour leur qualité et leur fiabilité, avec un moteur de recherche, donc sans retard par rapport à l’actualité. Un algorithme sélectionne les meilleurs résultats puis une API d’un LLM (généralement GPT-4) fait la synthèse. Enfin, des liens vers ces résultats sont posés dans ladite synthèse.
[4] Moteurs de recherche c/ IA : perdu d’avance ?
[5] ChatGPT Is the World’s Best Chatbot, par Alberto Romero, The Algorithmic Bridge, 2 décembre 2022.
[6] The generative AI future will not be free, Business Insider.
[7] Google considers charging for AI-powered search in big change to business model, par Madhumita Murgia et Richard Waters, Financial Times, 3 avril 2024. Selon cet article, « le moteur de recherche traditionnel de Google resterait gratuit, tandis que des publicités continueraient d’apparaître à côté des résultats de recherche, même pour les abonnés [à SGE]. »
[8] Voir notre billet Intelligence artificielle en droit : derrière la "hype", la réalité.
[9] Google is actively looking to insert different types of ads in its generative AI search, par Ivan Mehta, Tech Crunch, 2 octobre 2023.
[10] Moteurs de recherche : l’IA générative n’est pas un succès, par par Andréa Bensaid, PDG d’Eskimoz, Les Echos.fr, 4 avril 2024.
[11] Le genre muscial ragtime s’écrivait aussi "rag time".
[12] Exemple le 27 février 2024 sur la version américaine de Lexis+ AI US, relevé par le professeur de droit américain Paul McGreal sur son compte Twitter @conlawgeek : Lexis+ AI invente deux jurisprudences, qui plus est situées ... dans le futur.
[13] Avec de bonnes raisons.
[14] Sur un plan technico-IA, les RAG ont d’autres défauts : voir Seven Failure Points When Engineering a Retrieval Augmented Generation System, par Scott Barnett, Stefanus Kurniawan, Srikanth Thudumu et al., arXiv:2401.05856v1 [cs.SE], 11 janvier 2024 ; 12 RAG Pain Points and Proposed Solutions, par Wenqi Glantz, Towards Data Science, 31 janvier 2024 ; Disadvantages of RAG, par Kelvin Lu, 28 août 2023.
[15] En un mot : des tests beaucoup plus professionnels, donc plus exigeants, que ceux que j’avais réalisés avant. De plus, ces tests initiaux étaient destinés aux GPTs, Bard etc. des IAG généralistes. Désormais, on teste des IAG spécialisées en droit, dont certaines destinées à un public de professionnels du droit et non plus au grand public ni aux TPE. Poser comme tests des questions plus difficiles est donc parfaitement normal.
[16] Mon blog a été moissonné par CommonCrawl certes légalement au regard de la 2e directive droit d’auteur mais sans ma connaissance ni mon autorisation. Des milliers d’heures de travail aspirées sans aucune rémunération. Cette copie a entraîné GPT-3 et des LLM de Google (T5) et Meta (LLaMA) sans que je sois prévenu et sans aucune rémunération. Plus de détails dans ce post : Les IA chatbots pillent vos oeuvres — et la loi les couvre ....
Commentaires
Aucun commentaire
Laisser un commentaire