Logiciels, Internet, moteurs de recherche

Dernier ajout : 23 avril.

Derniers articles

Utiliser Google pour des recherches juridiques

Une méthode de recherche fiable sur le Web

Lundi 17 avril 2017

Lire la suite »

Sommaire

1. Comment fonctionne Google

1.1. Contenu et indexation

1.2. Les résultats de Google

2. Comment interroger Google

2.1. L'essentiel
2.2. Choisir ses mots-clés
2.3. Repérez dans les résultats les mots-clés que vous avez oubliés
2.4. Utilisez la recherche avancée pour mieux contrôler votre recherche (opérateurs booléens et filtres)
2.5. Rechercher sur une période
2.6. Ouvrir les résultats dans une nouvelle fenêtre ou un nouvel onglet
2.7. Les moteurs spécialisés de Google
2.8. Toujours rien ?

3. Recherche avancée : deux exemples d'utilisation

4. Pour aller plus loin

1. Comment fonctionne Google : quelques principes à retenir

1.1. Contenu et indexation

1.1.1. La plus grande base de données du Web

Google est un moteur de recherche sur le Web. C’est la la plus grande base de données de pages web et de fichiers divers stockés sur le Web (PDF, Word, Excel etc.) [1].

En termes de taille de sa base de données, de richesse des fonctionnalités et surtout de pertinence des résultats, il n’a plus de rival global. Même Bing (Microsoft) a abandonné la compétition. En fait, ses principaux rivaux sont des moteurs spécialisés :

  • locaux/nationaux, tel Baidu en Chine
  • ou internes à un réseau social, comme le moteur de Facebook.

1.1.2. Tout n’est pas dans Google et tout n’est pas forcément bien référencé dans Google

Soyons clair : il y a infiniment plus de documents hors de Google que dans Google. N’utiliser que Google, c’est tentant. Mais c’est est un piège.

  • Google n’indexe généralement pas les bases de données payantes. Il peut toutefois indexer les titres d’articles payants, car ceux-ci sont affichés avec leur lien sur des pages gratuites (voir par exemple les titres des articles des revues de Lextenso) ou bien le site payant a un fil RSS. Il peut même indexer non seulement le titre mais aussi les auteurs et les mots-clés (pas le texte intégral) lorsque l’éditeur laisse ses métadonnées disponibles librement et gratuitement pour le moissonnage OAI (exemple des articles de revues de LexisNexis, voir infra)
  • Google ne couvre pas tout le Web : ni le Web payant, ni la majorité du contenu de nombreuses bases de données gratuites [2], ni les sites qui lui interdisent l’accès à tout ou partie de leurs pages (le fameux fichier robots.txt) etc. Au total, on estime que Google n’indexe (i.e. ne reproduit le contenu et ne le place dans son index [3]), au mieux, que la moitié environ des pages web librement accessibles. Les pires estimations, sous-entendant certes une définition du Web très large puisqu’incluant les darknets, donnent seulement 4% du Web comme indexé [4].
    Un exemple important de ces sites-bases de données plus ou moins difficiles à indexer pour Google sont les bases de données de Legifrance, à l’exception notable (et bien pratique ...) des textes consolidés (LEGI) et du JORF. On peut considérer que le Journal officiel Lois et décrets sur Legifrance est à 95% indexé par Google — et à 99,5% pour les textes publiés récemment. On peut également considérer que la majeure partie de la jurisprudence est également indexée — même si certaines questions fonctionneront mieux directement dans Legifrance (à fin avril 2017, Google indexait 8 800 000 documents de Legifrance, soit quasiment tout). Il faut donc selon les cas interroger Legifrance par les interfaces de recherche de chacune de ses bases de données (en savoir plus). C’est particulièrement vrai pour la jurisprudence.

1.1.3. Google et les variantes d’un mot

Google, si vous n’êtes pas en mode Mot à mot, cherche automatiquement les variantes d’un mot. Il prend sa racine et cherche :

  • son pluriel et si possible, son féminin. Exemples : bail cherchera aussi baux
  • le verbe, les adjectifs qualificatifs et les adverbes qui lui correspondent. Exemples : embauche cherchera embaucher.

C’est ce qu’on appelle une troncature automatique ou "autostem" en anglais.

1.1.4. Google et le traitement du langage naturel version machine learning

A noter que le machine learning [5] (apprentissage statistique automatique [6]) est utilisé pour toutes les requêtes [7] Google depuis juin 2016. Cet algorithme de Google est appelé RankBrain.

Comme l’explique Olivier Duffez de WebRankInfo, « RankBrain est un système basé sur le machine learning permettant à Google de mieux comprendre les requêtes des internautes. Il peut s’agir de requêtes très longues et précises (très longue traîne) ou de requêtes n’ayant jamais été faites et peu similaires à d’autres plus connues. Grâce aux nouvelles méthodes d’intelligence artificielle dont Google est devenu un des plus grands spécialistes mondiaux, RankBrain parviendrait à mieux comprendre ces requêtes difficiles » [8].

En fait, RankBrain n’est qu’une implémentation de Word2vec, l’algorithme de traitement du langage naturel (natural language processing, NLP) par machine learning non supervisé [9] développé par une équipe de Google Research (il a d’ailleurs été mis par Google en open source en 2013). En prenant en compte le contexte (les mots voisins) de chaque mot dans les documents, RankBrain/Word2vec "apprend" que certains, dans un contexte donné, sont similaires [10]. Word2vec transforme ces contextes en vecteurs, donc en chiffres, ce qui permet de les comparer facilement. C’est selon toute vraisemblance Word2vec qui permet par exemple à Google de deviner que si vous avez tapé compétition déloyale, vous vouliez en fait écrire concurrence déloyale [11].

Pour autant, le type de requête que décrit O. Duffez (longues, beaucoup de mots peu ou moyennement utilisés [12]) — et qui est le propre des recherches juridiques pointues — ne réussit pas toujours dans Google. C’est probablement autant une limite du Web gratuit [13] que celle de Word2vec.

A noter également que, comme l’explique Sylvain Peyronnet, chief scientist du moteur Qwant et co-fondateur du laboratoire de recherche privé ix-labs [14], dans une interview au Journal du Net [15], il n’y a depuis longtemps plus un (le PageRank d’origine), ni deux, ni trois algorithmes qui font fonctionner le moteur de recherche de Google mais un grand nombre (peut-être 200 !) d’algorithmes et ils s’influencent les uns les autres tout en étant pondérés par des critères ... et fréquemment modifiés pour améliorer les résultats ou lutter contre les spécialistes du SEO trop habiles [16].

1.1.5. Google et les documents très longs

Google peut aussi avoir des difficultés à faire remonter en haut du classement de ses résultats des documents très longs où l’information pertinente est noyée dans la masse. Ainsi, sur les PDF très longs (à partir de 30 à 40 pages environ), il indexera tout le document mais privilégiera très nettement dans son classement les mots-clés placés dans le titre, la balise title ou les premières pages du document. C’est particulièrement net si on ne restreint pas la recherche avec site: ou filetype:pdf Exemple : les références bibliographiques dans les fichiers PDF que constituent les trois parties des Notes de doctrine relatives aux arrêts de la CJUE et du TPI sur Curia. Contre-exemple : les références bibliographiques des revues de LexisNexis sur http://www.lexisnexis.fr/droit-document car chaque référence a sa propre page web.

1.1.6. Google est parfois en retard

Google peut être en retard sur les mises à jour des sites web les moins populaires ou mettre des jours ou des semaines à prendre en compte correctement un nouveau site web (voir infra), notamment parce que personne n’a encore fait un lien vers lui. Mais il indexe en temps réel les mises à jour des sites institutionnels, universitaires, de presse, des blogs populaires et de tout autre site populaire ou fiable [17].

1.1.7. Google Books

Parce qu’il dépend du contenu d’Internet,Google ne couvre ni le papier ni la littérature grise.

Quoique ... Avec Google Books et surtout le partenariat de très grandes bibliothèques [18], Google indexe énormément d’ouvrages en anglais et un nombre certain en français.

Mais du fait de l’opposition des éditeurs français, le contenu en droit français est pour l’instant faible. Cela dit, ce n’est pas le cas en droit belge ni en droit européen ou international.

1.2. Les résultats de Google

1.2.1. Ranking : le classement par pertinence

- Les résultats sont classés par pertinence. Ce classement par pertinence s’appelle "ranking" en anglais. La "pertinence selon Google" tient compte :

  • d’abord des liens pointant vers les pages web et de la qualité de ceux-ci (Google les considère comme autant de recommandations), c’est-à-dire en fait de la qualité de celles-ci (les pages vers lesquelles ils pointent) autant que de la qualité du site faisant les liens. Exemple paroxystique : un site universitaire (site de qualité quasiment par nature selon Google, voir infra) fait des liens vers des pages web du blog d’une spécialiste reconnue du sujet (site de qualité selon Google du fait des nombreux liens établis vers lui par d’autres spécialistes et par la communauté réunie autour de ce sujet, voir infra)
  • et ensuite des mots (et leurs synonymes) de la requête contenus dans la page web :
    • ceux du titre informatique de la page (balise title), du titre réel de celle-ci (balise H1 ou H2 sinon) et du nom du fichier HTML sont les plus importants
    • Google privilégie les expressions sur les termes isolés, et les termes exacts sur les synonymes
  • de la "qualité" (selon Google) de la page. Le nom de domaine est important ici : les sites universitaires (avec "univ" dans leur nom de domaine en France ou .edu aux USA) et gouvernementaux (.gouv.fr en France, .gov aux Etats-Unis) sont favorisés ; les sites personnels sont défavorisés, sauf s’ils ont leur propre nom de domaine, une forte réputation au sein de leur communauté
  • de la fraîcheur/fréquence de mise à jour de la page. Par exemple, un site personnel réputé dans une communauté, sur des requêtes Google sur lesquelles il possède des pages très pertinentes, va pourtant reculer en bas de la première page des résultats de Google s’il n’est pas mis à jour chaque semaine.

- Cette pertinence est réelle : en règle générale, il suffit de consulter les 30, voire les 50 premiers résultats pour trouver sa réponse et avoir balayé l’essentiel des sites. En général ... Ce qui veut dire qu’en cas de doute, il faut aller jusqu’au 100e résultat (c’est du vécu). C’est particulièrement net sur des sites mal structurés et mal indexés par Google comme les sites syndicaux

1.2.2. La pollution des résultats par le spamdexing

Cependant les résultats de Google sont de temps à autre — ça vient par vagues — pollués par les résultats de sites publicitaires quasiment vides de contenu juridique, comme les sites faisant de la publicité pour des livres de droit du licenciement destinés aux particuliers. C’est ce qu’on appelle du "spamdexing" [19]. Une fois les sites spammeurs identifiés, Google les "bannit" de son index, mais le problème revient de temps à autre. Le spamdexing de Google a toutefois beaucoup reculé depuis 2014 du fait de l’implémentation de l’algorithme RankBrain avec ses capacités de traitement du langage naturel (NLP) (voir A. le contenu de Google supra).

1.2.3. La fraîcheur des résultats

Les résultats sont en général très "frais" :

  • Google indexe très régulièrement les sites importants (exemples : Assemblée nationale, Sénat, etc.)
  • Google privilégie les sites à mise à jour très fréquente, tels les sites de presse (lemonde.fr, liberation.fr, etc.) et les blogs, en les réindexant de une à plusieurs fois par jour
  • néanmoins et de manière logique vu sa préférence pour les liens hypertextes et pour les sites à mise à jour fréquente, Google peut avoir quelques jours de retard sur certaines rubriques peu consultées de sites très vastes et jusqu’à une semaine de retard — en général, plutôt quelques jours — sur l’actualité des sites web les moins importants, qui eux-mêmes sont rarement mis à jour. De même, Google peut mettre jusqu’à plusieurs semaines pour indexer correctement un nouveau site web, c’est-à-dire indexer la totalité de ses pages et les faire monter en tête des résultats sur les questions pertinentes [20].

2. Comment interroger Google

2.1. L’essentiel

  • laisser un espace revient à utiliser l’opérateur logique ET implicite. Autrement dit : chaque fois que vous tapez un mot de plus, vous ajoutez un critère, une condition à votre recherche. Exemple : responsabilité pénale du dirigeant trouvera moins de résultats que responsabilité
  • cherchez à utiliser des expressions plutôt que des suites de mots. Google "accroche" mieux là dessus (voir explication détaillée infra).

2.2. Choisir ses mots-clés

Prenez 30 secondes pour réfléchir aux mots-clés que vous allez utiliser. Car, même avec Google, cela peut faire la différence entre trouver et ne pas trouver.

Voici les "trucs" essentiels pour choisir ses mots-clés :

  • ne vous laissez pas influencer par les suggestions de Google [21]
  • pensez aux synonymes et quasi-synonymes. Voir aussi infra l’opérateur (tilde).
    Exemple : bail, baux, loyer, loyers, location. Un synonyme, ça peut être aussi un numéro d’article de Code, particulièrement en droit fiscal avec le CGI. Exemple (en recherche de jurisprudence) : 1240, 1382 et faute sont des quasi-synonymes de responsabilité civile
  • si vous cherchez la version officielle d’un texte, d’un arrêt ou d’un rapport, utilisez  :
    • les termes juridiques officiels, c’est-à-dire ceux utilisés dans les codes et les lois (notamment dans les titres des lois).
      Exemple : redressement et liquidation judiciaires
    • la date complète.
      Exemple : 25 janvier 1985
    • ou éventuellement le numéro.
      Exemple : 85-98 (ce qui évite de trouver aussi la loi n° 85-99 sur les administrateurs judiciaires)
  • si en revanche vous cherchez des commentaires ou de la doctrine (pour autant qu’il y en ait gratuits sur le Web sur votre sujet) :
    • utilisez les noms juridiques usuels.
      Exemples : procédures collectives ou redressement judiciaire ou liquidation judiciaire ou difficultés des entreprises en difficulté ou défaillances d’entreprises (pas faillite, qui n’est plus le terme juridique approprié)
    • si vous cherchez des commentaires sur une réforme ancienne, précisez l’année.
      Exemple : 1985 (réforme des procédures collectives)
  • si vous cherchez de l’actualité non juridique ou des articles de presse, utilisez les termes économiques et/ou les expressions du langage courant.
    Exemple : faillite, faillites, fermetures d’entreprises, plans sociaux
  • plus généralement, si vous êtes compétent sur le(s) domaine(s) juridique(s) concerné(s) par votre recherche, tapez les mots et expressions qui devraient se trouver dans les documents que vous recherchez, et surtout dans leur titre et leurs premiers paragraphes. Autrement dit : essayez de deviner comment les titres de documents sur le sujet sont écrits.
    En revanche, si vous n’êtes pas spécialiste de ce domaine et a fortiori si vous n’êtes pas juriste ou étudiant en droit, évitez d’utiliser cette dernière technique.

2.3. Repérez dans les résultats les mots-clés que vous avez oubliés :

  • dans les extraits qui composent les résultats de Google, si des mots vous semblent pertinents, réutilisez les dans votre question
  • dans les documents qui répondent le mieux à votre question, repérez les mots qui font partie de votre sujet mais que vous avez oubliés pour modifier votre question.

C’est un "truc" capital : modifier sa question initiale, oui, mais avec des mots qui marchent.

2.4. Utilisez la recherche avancée pour mieux contrôler votre recherche (opérateurs booléens et filtres

Deux possibilités :

  • utilisez la page Recherche avancée de Google. Et alors pas besoin de savoir comment écrire les opérateurs et filtres de Google
  • ou — mieux — apprenez les opérateurs et filtres de Google et utilisez-les sur la page d’accueil du moteur. Mais il faut alors connaître les noms des opérateurs et des champs/filtres et leur syntaxe.

Vous pourrez alors :

  • utiliser les opérateurs de recherche ET (AND ou espace), OU (OR), SAUF (-), expression (" ") et de proximité (AROUND()). On les appelle opérateurs booléens ou opérateurs logiques.
    Rappel : en allant sur la page Recherche avancée, vous n’aurez pas à mémoriser leur syntaxe. Toutefois, sur cette page, les opérateurs de proximité comme AROUND() ne sont pas proposés.
    Les opérateurs de recherche permettent de "pousser le moteur dans ses retranchements". Exemples : on veut des documents relativement simples et à jour pour créer une EURL : créer OR création eurl OR "entreprise unipersonnelle" (on peut aussi ajouter : filetype:pdf) :
    • rappel : tout espace non placé entre des guillemets est pour Google un ET logique. Mais parfois aussi une incitation à interpréter la requête comme une expression : dans ce cas, si cette tendance de Google à tout transformer en expression vous gêne, utilisez le mode Mot à mot (en anglais Verbatim) (Outils > Tous les résultats > Mot à mot : uniquement sur ordinateur, pas sous smartphone) [22] ou écrivez en majuscules le AND [23]
    • attention : Google ne "comprend" pas les parenthèses [24] et le OR ne joue que sur les mots immédiatement adjacents à lui. Ce qui implique de mettre les mots d’une expression entre guillemets (contrairement à ce qui est recommandé plus haut pour les cas "normaux") si la notion faut partie d’une suite de synonymes. De plus, le premier mot qui commence une suite de OR est le plus important pour l’algorithme [25]
    • il faut toutefois bien comprendre que multiplier les synonymes (reliés par OR) n’apporte pas grand’ chose en terme de pertinence des résultats. Un synonyme voire deux (pas plus, soit trois mots ou expressions maximum) aide lorsqu’on est dans du vocabulaire juridique un peu spécialisé et/ou peu présent sur le Web, mais le plus efficace en dehors de ces cas reste le choix de la bonne expression (sans guillemets sauf si ça "part dans tous les sens") et de laisser les capacités de l’algorithme RankBrain en NLP version machine learning (on en parlait supra) faire le travail de synonymie, d’autant que l’utilisation du OR stoppe très logiquement cette synonymie automatique [26]. Un bon exemple : comparez les 100 premiers résultats de "responsabilité civile" accident automobile et "responsabilité civile" OR 1382 OR 1240 accident automobile. Seuls une petite dizaine de résultats diffèrent, la plupart (mais pas tous ...) sans intérêt majeur. Toutefois, certains résultats sortis seulement avec le OR peuvent venir de sites particulièrement fiables et avoir de la valeur si on ne veut rien rater. L’exemple utilisé ici est très net : Accident de la circulation et responsabilité civile des parents, Dalloz Etudiant est en effet le seul résultat venant d’un éditeur juridique et le seul à citer de la jurisprudence ...
    • utiliser l’opérateur - (SAUF) [27] pour exclure des termes qui faussent les résultats/les "polluent" : le - (moins) fonctionne. La règle générale d’utilisation de l’opérateur SAUF s’applique : n’utiliser le - qu’en dernier recours
    • opérateurs de proximité :
      • signalé en 2010, probablement apparu 5 ou 6 ans auparavant, mais non documenté par Google, l’opérateur de proximité AROUND(n) (où n est un nombre de mots qu’on fixera en pratique à 2 ou 5) est efficace en anglais mais le semble moins en français [28]
      • l’opérateur * ("wildcard") est censé remplacer un (au moins) ou plusieurs mots, je constate son efficacité dans une certaine mesure mais je n’arrive pas à la prouver par A + B
      • de toute façon, la bonne expression (sans guillemets, en général) pourra être tout aussi efficace, voire plus. Disons qu’au minimum, elle obtiendra des résultats différents (donc complémentaires) [29]
    • chercher par expression rend les résultats plus précis/moins nombreux et dans certains cas, évite les résultats hors sujet. Hors de l’interface Recherche avancée, utilisez les classiques guillemets (" "). Important : pour que les guillemets soient pris en compte par Google, il est nécessaire de passer en mode Mot à mot (Outils > Tous les résultats > Mot à mot), mode non disponible sur la version mobile de Google puisque le menu Outils n’apparaît pas sous smartphone.
      L’utilisation des guillemets est devenue plus souvent nécessaire, face à l’élargissement des recherches pratiqué par Google [30]. Toutefois, ne l’utilisez qu’après avoir testé l’expression sans guillemets, pour les raisons exposées ci-après.
      N’abusez pas des guillemets. On dit souvent dans les cours de recherche sur bases de données ou sur le web qu’encadrer une expression avec des guillemets garantit des résultats moins nombreux et pertinents. Mon expérience, c’est qu’en réalité, les guillemets sur Google n’améliorent souvent pas grand’ chose voire parfois empêchent de trouver les principaux sites web sur un sujet. D’ailleurs Google ne les recommande pas trop fort. Cela dit, c’est vrai que si on veut vraiment *tous* les sites sur une expression, alors il faut utiliser le moteur à la fois *avec* les guillemets mais *aussi sans*, car, du moins si l’on s’en tient aux 30 premiers résultats, certains sites pertinents apparaissent uniquement avec les guillemets et d’autres uniquement sans [31]. En effet, l’algorithme de Google détecte souvent tout seul l’expression et la privilégie dans le classement des résultats. De surcroît, mettre les guillemets, en pratique, réduit souvent — mais pas toujours — un peu la pertinence par rapport à sans les guillemets car ceux-ci éliminent des résultats où l’expression n’est pas totalement identique, voire certaines pages où pourtant celle-ci apparaît clairement ...
  • si votre requête comporte au moins 7 ou 8 mots-clés, mettre en premier le mot le plus important de votre question : il aura alors un poids plus important que les autres dans les résultats, en faisant par exemple remonter dans les premières réponses les pages web où ce mot est dans le titre de la page.
    Ce point — non précisé dans l’aide officielle de Google et la plupart des guides de recherche en ligne — peut avoir un effet sur le tri des résultats par Google, en amenant dans les 10 ou 20 premières réponses une page web jusque là "perdue" au delà des trente premières réponses
  • choisir la langue des résultats. Peu intéressant : la langue des mots-clés utilisés conditionne celle des résultats
  • limiter les résultats à la France (sites français et non francophones) permet d’éviter à 95% les résultats provenant de sites québécois, belges et d’Afrique du Nord (Maroc, Tunisie, Algérie) et donc de se restreindre au droit français. Voilà une fonctionnalité intéressante, mais devenue moins utile depuis que Google a progressé dans la reconnaissance de la nationalité de l’internaute. Elle n’est d’ailleurs plus disponible que dans l’interface Recherche avancée (champ "région"). Elle peut encore servir à trouver des résultats de droit canadien ou belge quand on interroge Google depuis la France
  • choisir le format de fichier : Rich Text Format .rtf, Word .doc, Acrobat .pdf, Excel .xls, .PowerPoint .ppt, Access .mdb. Restreindre la recherche aux fichiers PDF permet de ne trouver que des documents sérieux et fiables (mais pas systématiquement pertinents, car ce n’est pas le but direct de cette fonctionnalité). En effet, très souvent, les documents officiels (textes juridiques, rapports, livres blancs) et les articles de revues scientifiques sont au format PDF tandis que les sites perso, ceux tournés vers le marketing et les forums utilisent uniquement le HTML. Hors de l’interface Recherche avancée (autrement dit à partir de la page d’accueil de Gogle), écrivez filetype:[type_de_fichier] à la fin de votre requête. Exemple : filetype:pdf
  • restreindre la recherche à un site : en fait à son nom de domaine (exemple : conseilconstitutionnel.fr est le nom de domaine du site web du Conseil constitutionnel). Ainsi utilisé, Google est presque toujours plus efficace que le moteur interne du site, sauf sur des documents extrêmement récents, peu connus ou "enfouis" dans le site. Ce mode de recherche est particulièrement utile sur les plus vastes sites juridiques : le site du Premier ministre, les deux sites parlementaires (Assemblée nationale, Sénat), Europa, EUR-Lex. Hors de l’interface Recherche avancée, écrivez site:[domaine]
  • restreindre la recherche au "titre" (la balise HTML title, plus précisément) des pages web avec le champ intitle:[un_seul_mot] ou — plus efficace — allintitle:[tous_les_mots_qui_suivent]
  • si vous êtes connecté (non recommandé) à votre compte Google, régler le nombre de résultats par page à 30 voire 50 (au-delà, en général, très peu de résultats sont pertinents [32]). Ca permet de consulter plus facilement et plus rapidement les résultats pertinents. Mais cela implique d’être connecté à votre compte Google, ce qui personnalise (i.e. biaise) fortement les résultats en fonction de votre historique de recherche que Google a mémorisé
  • empêcher le plus possible Google d’interpréter votre requête (sauf par la langue du système d’exploitation de votre ordinateur) en choisissant dans Outils de recherche > Tous les résultats > Mot à mot [33], sans oublier de vous déconnecter de votre compte Google [34], d’indiquer à Google de ne pas non plus mémoriser votre historique de recherche lorsque vous n’êtes *pas*, cette fois-ci, connecté à votre compte Google ... et de vider vos cookies et l’historique de navigation de votre navigateur web avant de lancer une recherche, voire de lancer dans votre navigateur une session de navigation privée [35].

2.5. Rechercher sur une période

Restreignez si nécessaire les résultats à une période de temps. Pour utiliser à fond cette fonctionnalité, il faut passer par l’interface simple de Google (la recherche avancée n’offre pas la possibilité de spécifier l’intervalle de temps exact que l’on désire), cliquer sur Outils de recherche > Date indifférente > Période personnalisée [36] [37].

2.6. Ouvrir les résultats dans une nouvelle fenêtre ou un nouvel onglet

Ouvrez les résultats dans une nouvelle fenêtre ou un nouvel onglet, de manière à garder sous la main la liste des résultats. Pour cela : faites un clic droit sur le lien qui vous intéresse, puis un clic gauche sur "Ouvrir dans une nouvelle fenêtre/onglet".

2.7. Les moteurs spécialisés de Google

S’il n’y a pas de résultat intéressant dans l’onglet Web de Google, regardez :

2.8. Toujours rien ?

Voyez Pour aller plus loin à la fin de cet article.

3. Exemples d’utilisation de la Recherche avancée de Google

1er exemple

Ici, nous allons chercher des articles en matière de cookies parus dans la revue Expertises, une revue de droit de l’informatique et d’Internet [38].

Cette revue a un site web (expertises.info) et les sommaires y sont présents en accès gratuit. Ce qui signifie que Google indexe les titres de ces articles.

Voici comment interroger rapidement les sommaires de la revue Expertises sur le site de la revue :
- 1. réfléchissez aux mots-clés à utiliser pour votre recherche : les juristes s’expriment en général en bon français. C’est ce que j’appelle "l’étape zéro" dans une méthode de recherche
Ici, un dictionnaire de traduction peut être utile — le Larousse anglais-français par exemple — mais il faudra le compléter par le site de la CNIL. Cookie en français se dit donc mouchard ou traceur
- 2. déconnectez-vous de votre compte Google (si vous en avez un). En effet, Google biaise ses résultats en fonction de vos recherches passées
- 3. allez sur la page d’accueil de Google en français
- 4. tapez les mots-clés en reliant les synonymes par OR (en majuscules) : cookies OR mouchards OR traceurs
- 5. limitez la recherche au site www.expertises.info (NB : Google ne prend en compte que des noms de domaine, pas des pages profondes) en tapant : site:expertises.info
- 6. votre recherche doit ressembler à ceci : cookies OR traceurs OR mouchards site:expertises.info
- 7. lancez la recherche
- 8. lisez les résultats. Regardez bien les caractères verts : ils vous indiquent le site d’où vient chaque résultat. Si c’est un site universitaire (univ-) ou officiel (.gouv.fr), c’est un gage de qualité
- 9. pour ceux qui vous intéressent : clic droit > Ouvrir le lien dans un nouvel onglet. Comme ça, vous ne perdez pas votre liste de résultats et votre recherche.

2e exemple

Vous devez réunir des documents sur le travail le dimanche.

Suivez les étapes 1 à 9 supra.

Cela devrait donner ceci : "travail le dimanche" OR "travail du dimanche" OR "travail dominical" OR "dérogation au repos dominical" OR 3132

Complétez ces résultats avec des documents en PDF : "travail le dimanche" OR "travail du dimanche" OR "travail dominical" OR "dérogation au repos dominical" OR 3132 filetype:pdf

NB : l’efficacité de la synonymie automatique de Google est telle que travail le dimanche tout court suffit presque. Surtout avec filetype:pdf.

4. Pour aller plus loin

- 25 astuces pour la recherche sur Google / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013. A mettre à jour par une excellente "cheat sheet" encore plus opérationnelle : 30 opérateurs Google pour affiner ses recherches / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013.

- More awesome search tips from Google expert Daniel Russell, with real-world examples / John Tedesco (reporter américain), 1er juillet 2013.

- Utilisez d’autres moteurs, principalement Bing (le concurrent de chez Microsoft [39]) et Exalead (pour les sites français et francophones) [40], voire StartPage (ex-Ixquick) [41] et les métamoteurs de recherche de personnes. Pour information, DuckDuckGo, dont on parle beaucoup, respecte certes votre vie privée, mais ses performances sont très limitées sur les pages web en langue française.

- Voyez nos articles Utiliser Google à 100%, surtout la bibliographie à la fin parce qu’il commence à dater (2006), et Recherche sur Internet : une méthode (un peu) simplifiée et quelques "philosophies", notamment la méthode des "autorités". Allez (entre autres) voir ailleurs sur le Web (annuaires thématiques de sites, Legifrance, Servicepublic.fr, bases de données payantes, Isidore, Cairn, Revues.org, Theses.fr etc.), réfléchissez une deuxième fois à vos mots-clés ou passez à un autre media (prenez votre téléphone ou votre logiciel de messagerie, par exemple, pour appeler un collègue ou demander conseil à un expert) ...

Emmanuel Barthe
documentaliste juridique, veilleur, webmestre, formateur à la recherche en ligne


Les robots, avocats et juges de demain ? Pas vraiment ...

"Intelligence artificielle" en droit : les véritables termes du débat

Justice prédictive, legal tech, ROSS, Predictice, Supra Legem, Minority report, machine learning, réseaux neuronaux, NLP, Big data etc.

Samedi 8 avril 2017

Lire la suite »

Legal tech, justice prédictive et plus encore "intelligence artiificielle" (IA) en droit sont devenus des sujets à la mode depuis 2015-2016.

Mais discours marketing et flou sur les performances sont légion dans ces informations — qui ressemblent souvent plus à de la communication qu’à de l’information.

De qui et de quoi parle t-on exactement : quelles sociétés, quelles fonctions, quelles technologies ?
Quels sont les véritables risques pour l’emploi des professionnels du droit (avocats, stagiaires, juristes d’entreprise, magistrats, notaires) et de leurs "paralegals", documentalistes et veilleurs ?
Quels sont, également, les risques de la justice prédictive ?

C’est le sujet de ce billet, qui vise à démystifier les fonctionnalités et performances des applications présentées comme des "IA" (intelligence artificielle) en droit, tant pour le présent que pour le futur. Il s’appuie sur la lecture d’une bonne partie de la littérature disponible et sur des discussions personnelles avec certains acteurs.

Sommaire

Un sujet très tendance

Les Echos (10 janvier 2017) viennent de publier un article au titre provocateur : Les robots seront-ils vraiment les avocats de demain ?

En fait, ses auteurs, Pierre Aidan, cofondateur de Legalstart.fr [42] et Florence Gsell, professeur de droit à l’université de Lorraine, réagissent, dans le but de rassurer les professions judiciaires, à un autre article.

Ce dernier, beaucoup plus provocateur sur le fond, a été publié en octobre 2016 à la Harvard Business Review, par le célèbre consultant en informatique juridique britannnique Richard Susskind et son fils Daniel, économiste : Technology Will Replace Many Doctors, Lawyers, and Other Professionals (Les nouvelles technologies remplaceront beaucoup de médecins, juristes et autres professionnels libéraux). Cet article est en fait un résumé du dernier ouvrage des Susskind publié en octobre 2015 : The Future of the Professions : How Technology Will Transform the Work of Human Experts (Le futur des professions libérales : comment les nouvelles technologies vont transformer le travail des experts humains, Oxford University Press, OUP) [43]. Quant au consultant américain Jaap Bosman, son ouvrage Death of a law firm (Mort d’un cabinet d’avocats) prédit la fin du "business model" actuel des cabinets d’avocats en soulevant la question épineuse de la standardisation du service juridique grâce à l’intelligence artificielle (IA) [44].

Et en novembre 2016, la journaliste britannique Joanna Goodman [45] publie Robots in Law : How Artificial Intelligence is Transforming Legal Services (Les robots juridiques : comment l’intelligence artificielle transforme les services juridiques, Ark Group) [46].

La Semaine juridique publie, elle, une étude d’Antoine Garapon, magistrat, secrétaire général de l’Institut des hautes études sur la Justice (IHEJ) et spécialiste reconnu des questions de justice, intitulée « Les enjeux de la justice prédictive » [47]. Et pour ne pas être en reste, le Recueil Dalloz s’empare aussi du sujet avec une tribune de Marc Clément, Premier conseiller à la cour administrative d’appel de Lyon [48]. C’est la newsletter Dalloz Actualité qui a publié peut-être le meilleur article sur le sujet : L’intelligence artificielle va provoquer une mutation profonde de la profession d’avocat, par Caroline Fleuriot, 14 mars 2017. Le seul reproche que je ferais à cet article est de reprendre, sans recul, des phrases chocs, excessives, destinées à impressionner ou à faire peur [49].

La revue Expertises, enfin, publie une interview de Rubin Sfadj, avocat aux barreaux de Marseille et New York et grand blogueur et twitto devant l’Eternel. Interview portant sur l’IA juridique [50] et plus concrète et plus claire — plus tranchée, peut-on dire — que les deux articles précédents.

Depuis les premiers succès commerciaux de ROSS, l’application au droit des faillites américain du système de machine learning Watson développé par IBM, l’intelligence artificielle (IA) en droit est devenue tendance [51]. On parle beaucoup aussi de justice prédictive.

A lire aussi :

On peut rapprocher ces publications d’une note de McKinsey qui vient de paraître sur le futur du travail [52]. Elle prévoit dans le monde entier une automatisation croissante des tâches, pouvant supprimer 5% des emplois actuels et en modifier beaucoup plus.

De quoi parle t-on exactement ? Ou comment définir les legal tech et l’IA en droit aujourd’hui

Les différents types de technologies utilisés en "IA"

Les différents types de technologies utilisés en "IA" (NB : pas de robotique en droit et la "vision" est en fait du machine learning)

Il y a des technologies, qu’il faut distinguer, et derrière ces technologies il y a des applications et leurs développeurs, grosses sociétés de l’informatique et de l’Internet ou start-ups, l’ensemble de ces sociétés étant communément appelé les "legal tech" [53].

Que font les legal tech ? Je reprend ici la liste très complète de Benoît Charpentier développée dans son article précité. Elles « proposent de très nombreux services et produits, comme :

  • le calcul de probabilité concernant les décisions de justice
  • le financement de contentieux (third-party litigation funding)
  • les plateformes d’actions collectives
  • la génération automatisée de documents juridiques dynamiques
  • le déploiement de systèmes intelligents ou d’intelligence artificielle (fondés par exemple sur le machine learning, notamment ses variantes natural language processing et deep learning)
  • les plateformes de mise en relation avec des professionnels du droit
  • les solutions cloud
  • l’édition de logiciels spécialisés
  • la résolution de litiges non contentieux en ligne
  • les procédures d’arbitrage en ligne
  • les procédures de divorce en ligne
  • la signature électronique
  • la certification de documents (par exemple grâce à la technologie blockchain)
  • la réalisation de formalités et de dépôts en ligne (mise en demeure, acte introductif d’instance)
  • la visualisation de données complexes issues du Big Data
  • la programmation de contrats intelligents (smart contracts)
  • la mise en oeuvre d’outils collaboratifs
  • la revue de documents assistée par la technologie (Technology Assisted Review (TAR))
  • les outils de conformité
  • les outils de calculs fiscaux
  • les outils de gestion de contrats (contract management)
  • les outils de recherche juridique ».

Qui sont ces legal tech ? Il existe depuis peu une liste gratuite, fiable et quasi-exhaustive des legal techs françaises ou implantées en France (PDF), celle de Benoît Charpentier. Pour une liste mondiale, voir :

A mon goût, beaucoup de ces initiatives sont certes "legal" mais leur degré d’innovation en "tech" est faible : par exemple, simple mise en ligne de formulaires ou intermédiation entre avocats et prospects. Alors en voici une personnelle, non triée, forcément incomplète mais tendant à se focaliser sur l’innovation technologique (notamment machine learning, big data, analytics ...) :

A noter, car très souvent citée par les articles présents sur le Net mais non présente en France : DoNotPay conteste les PV de stationnement en justice sans avocat et avec un taux de succès important.

Attention : très peu parmi ces sociétés se rangent dans la catégorie de l’intelligence artificielle telle qu’on la pratique aujourd’hui, autrement dit le machine learning. Beaucoup se rangent dans les logiciels experts [54] (ce qui est déjà à mes yeux de l’innovation), une catégorie d’IA déjà ancienne à laquelle le cloud donne une nouvelle jeunesse mais qui n’est pas de l’IA telle qu’on la voit aujourd’hui (voir infra).

Et à propos d’intelligence artificielle, il faut être clair : ce qu’on appelle IA est, à strictement parler, une discipline scientifique, autrement dit un champ de recherche. Par extension, on qualifie aussi d’IA les produits qui se rangent dans ce champ [55]. On parle bien ici de *recherche* : on n’en est pas à reproduire le fonctionnement d’une intelligence humaine. Un des deux co-fondateurs de l’équipe de recherche en IA de Uber, Gary Marcus, professeur de psychologie à l’Université de New York, le dit clairement [56] :

" Il y a tout ce que vous pouvez faire avec le deep learning [...]. Mais ça ne veut pas dire que c’est de l’intelligence. L’intelligence est une variable multi-dimensionnelle. Il y a beaucoup de choses qui rentrent dedans. [...] La véritable IA est plus éloignée que ce que pensent les gens "

D’ailleurs, vu les fonctionnalités et performances réelles des produits dont nous allons parler, il est évident que parler d’intelligence artificielle en droit au sens strict est très exagéré.

Il y a aussi un débat sur le droit et l’opportunité de laisser les legal tech investir le marché du droit (principalement celui des avocats mais aussi celui des notaires) et de l’information juridique. Sur ce sujet, je vous renvoie aux articles cités en première partie plus haut. Sur les risques de la justice prédictive, voir infra.

Voici les cinq principales technologies en cause dans ce qu’on appelle l’intelligence artificielle en droit [57] :

  • les systèmes experts. Un système expert est, selon Wikipedia, un outil capable de reproduire les mécanismes cognitifs d’un expert, dans un domaine particulier, par des règles logiques. Cette première des voies tentant d’aboutir à l’intelligence artificielle a donné des résultats décevants : par exemple, à partir d’une centaine de règles voire moins, certaines se contredisent et il devient nécessaire de les pondérer, ce qui est en fait peu rigoureux ; leur coût élevé est un autre écueil. Un exemple de système expert en droit, le prototype NATIONALITE du défunt IRETIJ (Institut de recherche et d’études pour le traitement de l’information juridique [58]) est décrit dans une contribution de 1989 [59]. Les logiciels de gestion de contrats sont un bon exemple de logiciels experts en droit. C’est l’émergence des quatre technologies suivantes qui a relancé les espoirs des spécialistes de la recherche en IA
  • le big data et surtout le (legal data) analytics. Il ne s’agit là que de technologies correspondant à des logiciels (Apache Hadoop, MongoDB, Microsoft Azure ...) faits pour traiter des masses de données énormes et/ou des données pas assez structurées, nécessitant des logiciels différents des systèmes de gestion de base de données (SGBD) classiques
  • le machine learning [60] (ML, en français apprentissage statistique automatique). Le ML peut être supervisé (des humains apprennent à l’algorithme à reconnaître les formes, vérifient et corrigent) ou non supervisé. C’est le cas de ROSS d’IBM aux Etats-Unis. De son côté, Thomson Reuters, propriétaire de Westlaw, a lancé un laboratoire en 2015 et collabore avec IBM pour intégrer la technologie Watson dans ses produits. ROSS est un système à apprentissage automatique supervisé. En France, Supra Legem, Predictice et Case Law Analytics [61] utilisent aussi le machine learning
  • le deep learning (apprentissage statistique automatique profond), concrètement, est un développement du machine learning. Il utilise à fond la technique des réseaux neuronaux pour tenter de se passer complètement d’une vérification/correction par des humains. Les réseaux neuronaux sont une technologie développée à l’origine pour la reconnaissance automatique d’image ("pattern recognition"). Pour (tenter de) comprendre, il faut lire les exemples de fonctionnement d’un réseau neuronal donnés par deux spécialistes français interviewés par Le Monde [62] :

« Yann Le Cun : Le deep learning utilise lui aussi l’apprentissage supervisé, mais c’est l’architecture interne de la machine qui est différente : il s’agit d’un "réseau de neurones", une machine virtuelle composée de milliers d’unités (les neurones) qui effectuent chacune de petits calculs simples. « La particularité, c’est que les résultats de la première couche de neurones vont servir d’entrée au calcul des autres ». Ce fonctionnement par "couches" est ce qui rend ce type d’apprentissage "profond". »

« Yann Ollivier, chercheur en IA au CNRS et spécialiste du sujet, donne un exemple parlant : « Comment reconnaître une image de chat ? Les points saillants sont les yeux et les oreilles. Comment reconnaître une oreille de chat ? L’angle est à peu près de 45°. Pour reconnaître la présence d’une ligne, la première couche de neurones va comparer la différence des pixels au-dessus et en dessous : cela donnera une caractéristique de niveau 1. La deuxième couche va travailler sur ces caractéristiques et les combiner entre elles. S’il y a deux lignes qui se rencontrent à 45°, elle va commencer à reconnaître le triangle de l’oreille de chat. Et ainsi de suite. »

D’après Michael Benesty (Supra Legem), toutefois, en machine learning sur du droit, on est plus dans le NLP (voir juste infra) [63] que dans les réseaux neuronaux [64] Les réseaux neuronaux ici réduisent le traitement des données en amont, mais leur apport est très inférieur à ce qu’ils ont fait pour la reconnaissance d’image. De plus, ils coûtent très cher du fait de la puissance et du temps de calcul nécessaires (location de serveurs et de logiciels).

JPEG - 99.4 ko
Un réseau de neurones convolutifs schématisé
  • le traitement du langage naturel ("natural language processing", NLP). ROSS, Predictice ou Supra Legem sont des applications utilisant le NLP. Plus précisément le NLP tel qu’on le pratique aujourd’hui : à base de machine learning et de techniques d’analyse syntaxique ("parsing", en anglais) [65] et non plus d’analyse sémantique. Le NLP actuel, c’est l’application du machine learning, en version non assistée, au langage, plus précisément aux textes. Le NLP à base de machine learning a été énormément facilité par la diffusion en open source en 2013 par Google du logiciel Word2vec (W2V), qui transforme les mots en vecteurs. Concrètement, Word2vec devine les termes similaires (proches par le sens) d’un mot en utilisant les autres mots faisant partie du contexte de ce mot [66]. Toutefois, si le NLP à la sauce ML détecte — indirectement et implicitement — le sens des mots, il ne sait pas en détecter la logique : licéité et illicéité, par exemple, risquent fort d’être similaires pour lui.

Les données comptent plus que les applications

Nous venons de présenter les technologies impliquées dans l’IA en droit.

Mais sur le plan stratégique, le plus important n’est pas là. Pour le comprendre, il faut lire le rapport de France Stratégie sur l’IA publié en mars 2017 [67].

Dans ce rapport, la contribution spécifique du Conseil National du Numérique (CNNum) souligne l’importance fondamentale des données :

« La valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements se font de manière ouverte (en open source). En conséquence, les organisations doivent prendre conscience de l’importance stratégique des données qu’elles détiennent. Il s’agit également, à plus long terme, d’engager une réflexion sur les modes de partage de la valeur entre acteurs privés. En ce sens, le Conseil s’est par ailleurs saisi de la question de la libre circulation des données aux niveaux international et européen, d’un point de vue de transfert entre les territoires mais également entre acteurs économiques. »

Ce sont justement leurs bases de données qui font l’avance de Google et Facebook. C’est pourquoi cela ne les gêne pas de mettre leurs logiciels en open source. Au contraire, cela accélère l’adoption de l’IA par les développeurs puis la société dans son ensemble. Une démarche imitée de manière légèrement différente par LexisNexis : l’éditeur américain vient d’annoncer qu’il va donner accès à ses contenus et à son expertise, ainsi que celle de sa filiale LexMachina, à cinq start-ups sélectionnées : Visabot, TagDox, Separate.us, Ping, and JuriLytics [68]. Lexis espère profiter de leurs innovations.

ROSS : points forts et limites d’un moteur de recherche en langage naturel à base de machine learning avec supervision

C’est surtout le produit d’IBM qui fait parler de lui en ce moment (fin 2016-début 2017) — voir notamment notre "webliographie" sélective sur ROSS infra. Et même si, de fait, on peut parler d’une intense campagne de presse, je crois qu’on tient une confirmation d’une amélioration radicale de la recherche documentaire en droit dans les articles sur l’implémentation de ROSS par le petit cabinet d’avocats américain Salazar Jackson : en effet, selon le principal associé de cette firme, ROSS fait les recherches aussi bien et plus vite qu’un jeune collaborateur [69]. Ce que semble confirmer une étude réalisée par une firme indépendante (certes payée par IBM) qui parle d’un gain de temps dans les recherches de 30% [70].

ROSS serait même, soi-disant, capable de résumer sa recherche en un mémo. L’avocat Rubin Sfadj estime toutefois que la prétendue capacité de ROSS à sortir un mémo est exagérée. Il a raison. C’est ce que Jimoh Ovbiagele, le CTO de ROSS, a fini par reconnaître devant un journaliste du New York Times : des humains se chargent du brouillon produit par ROSS et créent le mémo final, et c’est pour cela que ça prend un jour entier [71].

Bien sûr, ROSS nécessite une interaction homme-machine. Il s’améliore en apprenant des retours des juristes sur ses recherches [72]. C’est donc de l’apprentissage automatique avec supervision [73].

ROSS est pour l’instant spécialisé uniquement dans la jurisprudence américaine en droit de la faillite (US bankruptcy law). Mais la diversité des tâches et des domaines possibles est une caractéristique du machine learning le plus récent (depuis environ 2015). Le cabinet américain Latham & Watkins, implanté à Paris, est en phase de « test » avec ROSS [74], suivi par de plus petites structures.

Le dirigeant et co-fondateur de ROSS Intelligence, Andrew Arruda, expliquait justement en août 2016 :

« La version actuelle du système est utilisée pour aider les juristes spécialisés en procédures collectives travaillant dans des firmes américaines. Les futures versions du système couvriront d’autres domaines du droit et d’autres juridictions. »

Rubin Sfadj estime quant à lui que ROSS sera capable de gérer les textes officiels (en sus de la jurisprudence) français.

Et Watson, l’application d’IBM dont ROSS est dérivé, sert déjà à de multiples tâches. Comme :

Autres exemples de la capacité du machine learning à s’appliquer à tous les domaines :

  • la Lettre de l’Expansion du 16 janvier signale que le réseau social interne développé par Orange, installé chez eux à l’automne 2015 [78] et également vendu par l’opérateur sous le nom de Business Together Sharespace [79] « s’appuie sur la technologie "machine learning" [...] et inclut des robots à même de suggérer à l’utilisateur des informations pertinentes ou des collègues susceptibles d’enrichir son activité »
  • Google a présenté fin novembre un algorithme repérant des signes de rétinopathie diabétique dans des photos du fond d’oeil. Et Facebook comme Microsoft ont dévoilé cette année des systèmes capables de "regarder" des images et en décrire le contenu pour les aveugles [80]

A priori (le manque d’information détaillées sur ROSS étant criant), les limites d’un système comme ROSS, sont :

  • comme la plupart des bases de données en ligne actuelles, son manque de confidentialité. Je sais que les éditeurs de services en ligne garantissent la "confidentialité" des données de leurs clients, mais de fait, si elles ne sont pas cryptées de bout en bout, elles ne sont pas réellement confidentielles. Il serait intéressant à cet égard de savoir si ROSS crypte les données de ses clients
  • sa dépendance à la "data". Si les données sont incomplètes, non exhaustives ou comportent un biais, les résultats seront biaisés [81]
  • le poids du passé (même s’il pourra certainement intégrer les projets de loi), car la donnée c’est du passé
  • sa dépendance aux compétences des personnes qui "l’entraînent" (cas du machine learning supervisé)
  • son degré d’acceptation par la société, encore limité (cf la dernière partie de ce billet). Toutefois, si l’on s’en tient à l’histoire récente des innovations, les systèmes de machine learning en droit finiront, selon toute probabilité, par être assez rapidement acceptés par les consommateurs de droit. Les professionnels du droit risquent donc, à long terme, de devoir suivre
  • à court et moyen terme, le délai d’implémentation en droit français. ROSS ne pourra pas être implémenté en droit français global avec une pleine efficacité avant un minimum de sept ans. Explication. En son état actuel limité au droit américain des faillites, ROSS aurait été développé en trois ans à partir de Watson. Compte tenu des spécificités du droit français (pas de la common law ... mais pas un véritable problème [82]), de la (relativement) petite taille du marché français du droit, de l’absence pour l’instant de disponibilité en accès libre [83] des décisions de justice judiciaire de première instance [84] avant des années malgré la loi Lemaire pour une République numérique [85], de la nécessité d’un partenariat entre un éditeur juridique et un éditeur de système de machine learning [86], cela devrait prendre au minimum sept ans et peut-être plus. La com’ des légal tech et particulièrement d’IBM sur les performances de leurs logiciels dépasse quelque peu la réalité et envahit même la presse économique et généraliste.

Predictice, Case Law Analytics, Supra Legem : calculer les chances de gagner un procès avec le machine learning

Côté justice prédictive, pour le moment, on n’en est en réalité qu’à une analyse (par chambre, par juge, des montants des dommages-intérêts ou de quel type de camp a gagné) de la jurisprudence disponible et à la recherche en langage naturel sur celle-ci. C’est le sens du billet très mesuré du professeur Dondero cité en introduction. Plus généralement, déjà en 2014, un spécialiste du ML, le professeur Michael Jordan, estimait qu’on attendait beaucoup trop beaucoup trop tôt du deep learning et du big data [87].

Pour l’instant, le ML en droit n’est pas de la véritable intelligence artificielle. Voici la définition de l’IA par le meilleur dictionnaire de langue française, celui élaboré par l’ATILF [88], le Trésor de la langue française (TLF) : « Intelligence artificielle : recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des êtres humains ». Du temps de la lutte entre Microsoft et les autres éditeurs de logiciels de bureautique (années 80), on appelait ça du vaporware : annoncer des sorties d’applications entre 6 mois et 2 ans à l’avance pour pousser les clients à attendre la nouvelle version. Et à ne surtout pas aller chez la concurrence — ici, je dirais : ne pas se servir de ce qui marche déjà très bien, comme les compétences des meilleurs documentalistes juridiques ou l’application Jurisprudence chiffrée (cf juste infra).

L’article précité de Valérie de Senneville aux Echos le souligne :

« pour le moment, " il y a beaucoup d’effets d’annonce ", remarque Jean Lassègue, philosophe et chercheur au CNRS. L’épistémologue, qui a consacré de nombreux travaux à l’informatique, invite à s’interroger sur le problème de la qualification des faits et de leur catégorisation. " La machine ne peut pas régler cela ", affirme Jean Lassegue. »

Ils prédisent vos chances de gagner une action judiciaire (sur Predictice et Case Law Analytics) (Le Parisien 8 octobre 2016). Predictice : grâce aux algorithmes, cette startup est capable de prédire l’issue d’une action en justice et d’optimiser les stratégies contentieuses des avocats (OVH News 7 juillet 2016). Des prétentions un peu exagérées si l’on lit bien les deux documents et qu’on regarde la copie écran chez OVH News. Comme le montre l’article plus réaliste de Libération du 23 février (Justice prédictive, l’augure des procédures), il s’agit en fait essentiellement de lister le type de partie vainqueur et donc d’une certaine façon de donner un pourcentage de chance de remporter un procès sur un type de contentieux, et de déterminer les montants de dommages-intérêts alloués selon la cour d’appel [89].

Concrètement, Predictice est un outil d’aide à la décision à destination des professionnels du droit. Il permet d’accéder à la jurisprudence et aux textes de loi via un moteur de recherche en langage naturel utilisant des technologies de text mining (dependency parsing etc.). Un algorithme calcule les probabilités de résolution d’un contentieux, le montant des indemnités potentielles et identifie les moyens de droit ou les faits les plus influents dans les décisions antérieures rendues par les juridictions. La restitution des analyses se fait sous forme graphique ou statistiques). L’application utilise les technologies de NLP et de ML assisté. Selon son éditeur, Predictice est en cours de commercialisation : pilote auprès de grosses structures (Orange, AXA, Covéa, Dentons, Taylor Wessing) et abonnement sur demande des cabinets d’avocats.

Sur Case Law Analytics, il n’y a pour l’instant vraiment que deux articles à lire : Un outil pour mieux évaluer le risque juridique, lettre Emergences n° 41, 19 mai 2016 et Justice prédictive : vers une analyse très fine du risque juridique ... (entretien avec Jacques Lévy-Véhel, directeur de recherche à l’INRIA et Jérôme Dupré, magistrat en disponibilité, co-fondateurs), Le Village de la Justice 22 mars 2017. Il s’agit en fait ici d’une évaluation probabiliste des dommages-intérêts. Extrait de l’article du Village de la Justice :

« " Il ne s’agit pas de dire la probabilité d’aller au contentieux mais plutôt de d’estimer les sommes d’argent que vous pouvez être condamné à payer dans tel ou tel cas de figure, explique Jérôme Dupré. Nous n’aimons pas l’expression “justice prédictive”, qui est à notre avis trompeuse et parfois même dangereuse. C’est pourquoi nous ne donnons pas un chiffre unique mais une distribution probabiliste des montants de condamnation possibles. Il est difficile de calculer ce risque parce que les aspects procéduraux sont complexes à modéliser pour le moment mais c’est possible dans certains cas. " A l’heure actuelle, trois contentieux sont prêts et peuvent être utilisés : le licenciement sans cause réelle et sérieuse, la prestation compensatoire et la pension alimentaire. Mais la start-up n’entend pas s’arrêter là. »

Il y a, chose rare parmi toutes ces applications de machine learning, une version, gratuite et très limitée, de démonstration pour Iphone et Ipad pour Case Law Analytics. Elle permet d’évaluer une fourchette pour le montant de la pension alimentaire avec les probabilités associées.

C’est quelque chose que l’éditeur juridique Francis Lefebvre avait déjà approché avec son produit Jurisprudence chiffrée fondé sur les faits et chiffres présents dans les arrêts de cour d’appel de la base JuriCA. Jurisprudence chiffrée trouve depuis 2010 des arrêts de cour d’appel correspondants aux critères exacts donnés et le montant des dommages-intérêts. Par exemple, à partir de la profession et l’ancienneté, Jurisprudence chiffrée donne le montant des dommages-intérêts pour licenciement sans cause réelle et sérieuse [90]. Jurisprudence chiffrée utilise un programme qui identifie les zones des arrêts d’appel riches en information de type juridiction, adresse, profession, âge, ancienneté, montant des indemnités etc., isole ces informations et permet de mener une recherche d’arrêts très rigoureuse par ces critères combinés. Mais à l’époque de sa conception, les avancées du machine learning commençaient à peine, il est donc peu probable que Jurisprudence chiffrée utilise le ML [91].

JPEG - 104.5 ko
Interface de recherche de l’application Jurisprudence chiffrée en matière d’indemnité d’éviction (baux commerciaux)

La base (et ouvrage) rivale de LexisNexis Contentieux de l’indemnisation devenue Données Quantifiées JurisData (et accessible par l’onglet Pratique & Outils de Lexis360) est elle, en revanche, faite "à la main", ce qui permet de la ranger dans la catégorie analyse prédictive mais pas dans celle de l’IA [92].

Seule application de "justice prédictive" (en fait, on vient de le voir, de recherche fine et d’aide à la décision) à proposer une démo grandeur nature, qui plus est gratuite, Supra Legem, développée par le fiscaliste, programmeur et data scientist Michael Benesty, aide à améliorer la pertinence et la rapidité des recherches, identifier un revirement de jurisprudence, identifier les moyens de l’administration qui n’ont pas fonctionné, identifier des tendances de certaines chambres, voire prédire des revirements de jurisprudence du Conseil d’Etat [93].

Pour autant, un de mes contacts estime que le machine learning en droit a beaucoup d’avenir si le deep learning non supervisé y perce. Et ce, même sur des marchés juridiques en régression comme le marché français. Imaginons par exemple que les algorithmes de deep learning arrivent à détecter des similitudes ("patterns") indépendantes de la langue et entre les documents juridiques allemands (un marché en meilleure santé) et français : les recherches entreprises sur le droit allemand — un marché bien plus rentable que le droit français — seraient alors transposables et réutilisables en droit français.

On remarque que les éditeurs juridiques français traditionnels (groupe ELS avec Francis Lefebvre, Dalloz et Editions Législatives, Lexbase, LexisNexis SA, Wolters Kluwer France, Lextenso) ne proposent pas de produit incorporant du machine learning. Pour certains, je dirais : pas encore, mais je serais surpris que cela tarde [94]. D’autant que ce sont les éditeurs qui possèdent le commentaire de la jurisprudence (dit aussi doctrine). Or en droit français, la donnée qui relie entre elles et permet de comprendre les décisions de justice, c’est la doctrine. Alors qu’en pays de "common law", le "case law" (jurisprudence) contient ses propres liens et son propre commentaire. En effet, le principe du "stare decisis" impose au juge anglo-saxon de citer les précédents pertinents et les juges des cours donnent leur "opinion" — autrement dit, ils commentent leur propre décision, chose impensable en France [95].

Pourquoi une montée des "IA" en droit ?

Une des raisons de la probable montée de ces systèmes : les économies réalisées. C’est, avec la rapidité, LE motif mis en avant par le managing partner d’une "small law firm" spécialisée en droit américain des faillites, le domaine de ROSS.

A noter, hors cabinets d’avocats, que la Justice a justement un problème budgétaire criant, reconnu par Jean-Jacques Urvoas, le ministre de la Justice lui-même ... [96] Une tribune iconoclaste aux Echos, rédigée par des non juristes (évidemment ...), propose d’ailleurs de confier la justice française à l’intelligence artificielle [97]. Et confirmation le 5 avril : la proposition n° 48 du rapport de la mission d’information sénatoriale sur le redressement de la justice présidée par Philippe Bas (voir pp. 20, 21 et 36 du dossier de presse) consiste à « mettre les outils de la "justice prédictive" au service du bon fonctionnement de la justice et de la qualité des décisions de justice et prévenir leurs dérives possibles » [98].

Impact prévisible des "IA" sur les jeunes collaborateurs, stagiaires, paralegal et documentalistes juridiques ?

Ces outils auront aussi un impact sur la recherche — et donc la veille — documentaire juridique : les tâches répétitives et "découpables" en petits morceaux seront robotisées, les autres ne le seront pas. Par exemple, ROSS réalise la recherche booléenne et la première analyse des résultats. Selon les termes d’Andrew Arruda [99] (traduction par nos soins) :

« La technologie AI de ROSS remplace le besoin d’utiliser les opérateurs et mots-clés de la recherche booléenneed par du langage ordinaire. Si un juriste d’affaires a besoin de connaître la différence entre les deux concepts juridiques "loss" et "recoupment", tout ce dont le juriste a besoin est de demander à ROSS : "Quelle est la différence entre "loss" et "recoupment" ?
Le résultat fourni par le système va au-delà de la simple identification des arrêts pertinents. Au lieu de cela, il attire l’attention du juriste sur les passages clés dans l’affaire qui devrait répondre idéalement à la question posée.
Quand vous posez une question à ROSS sur l’état du droit, vous la posez comme vous le feriez avec un collègue humain. ROSS découpe la phrase pour déterminer le sens de la question, puis conduit la recherche. »

Autrement dit, ROSS reste un moteur de recherche (nettement) amélioré. Ce n’est pas une véritable IA. Il ne menace guère que la fonction recherche — et encore : lisez ce qui suit.

Autrement dit encore, si on se projette dans environ sept ans [100], plus le travail du documentaliste juridique français procédera, comme le dit Jean Gasnault (La Loi des Ours), « d’heuristiques pointues pratiquant pour partie un mode intuitif (opérer par rapprochements semi conscients) », et j’ajouterais : plus il aura une conscience d’artisan et d’expert de haut vol (notamment dans la maîtrise des sources méconnues ou mal indexées [101]), moins au final il aura de chances d’être automatisé.

Mais aussi : plus il travaillera *avec* l’IA. Le documentaliste, le veilleur, le paralegal, le stagiaire juriste, le collaborateur, l’éditeur vérifieront, compléteront et amélioreront le travail de l’IA. Quelques exemples donnés par J. Gasnault : « La préparation [des] données est essentielle pour un bon fonctionnement des algorithmes les traitant. Les documentalistes ont une carte à jouer dans cette évolution, en raison de leur compétence spécifique d’enrichissement des données. Cela donne un axe bien identifiable de progression de leurs connaissances : métadonnées, FRBR, normes ELI-ECLI, etc. »

Pour les postes de paralegal orienté recherches et veille (par exemple, les spécialistes de la recherche, de la veille et de l’enregistrement des brevets) et pour les jeunes collaborateurs (qui font aux Etats-Unis énormément de recherches, ce qui correspond en France aux stagiaires, mais en font aussi beaucoup en France durant leur première année), une étude d’Altman Weill datant de 2015 est pessimiste [102]. La brève précitée de la Lettre de l’Expansion est encore plus explicite : « Watson [...] est réputé pour son rôle dans la destruction d’emplois ». Pour les autres paralegals, le risque à court terme, surtout en France, est faible mais à long terme, leurs tâches découpables seront probablement automatisées.

Plus généralement, de nombreux entrepreneurs millionnaires comme Bill Gates ou Elon Musk (voitures électriques Tesla) et des scientifiques comme l’astrophysicien Stephen Hawking ou le docteur Laurent Alexandre (fondateur de Doctissimo) estiment que l’IA va créer du chômage et que les conséquences sociales de cette nouvelle révolution sont encore largement sous-estimées. Elon Musk estimait par exemple le 15 février 2017 que les conducteurs professionnels (soir 15% de la population active mondiale) pourraient se retrouver sans emploi dans les 20 prochaines années, et qu’il y aura de moins en moins de métiers qu’un robot ne pourra pas faire [103]. Le cabinet américain Forrester anticipe, pour le marché de l’emploi des Etats-Unis, une disparition nette de 7% des jobs d’ici 2025 imputable à l’automatisation [104]. Et on ne parle même pas ici de l’ubérisation [105].

Toutefois, le Conseil d’orientation pour l’emploi (COE) dans un rapport publié le 12 janvier 2017, moins de 10% des emplois sont "très exposés" aux mutations technologiques et présentent donc le risque d’être supprimés, mais près de la moitié devront évoluer [106]. Les emplois juridiques évoqués supra ne sont pas dans la liste des 10% du COE. Et Anne-France de Saint-Laurent Kogan, spécialiste des transformations du travail liées au numérique, tempère elle aussi les choses [107].

Allant dans ce sens, la journaliste britannique Joanna Goodman, dans son ouvrage précité Robots in Law : How Artificial Intelligence is Transforming Legal Services écrit que l’IA pour les juristes n’est pas une option. Selon elle, les juristes qui accepteront la réalité de l’IA et l’incorporeront dans leur pratique professionnelle sont ceux qui réussiront le mieux dans les années à venir, car l’IA modifie le partage de la valeur entre les acteurs de la "chaîne" juridique. Lire à ce propos le compte-rendu du livre par Robert Ambrogi [108].

Une autre façon, française celle-là, de formuler cela : en partenariat avec Predictice, le bâtonnier de l’Ordre des avocats au barreau de Lille a dû convaincre ses collègues [109] :

« Il faut tuer tout de suite le fantasme, ça ne remplacera pas les avocats dont les analyses ne peuvent être automatisées »

Selon lui, il s’agit plutôt d’un outil stratégique :

« Le défenseur peut, entre autres, voir quelle juridiction sera la plus encline à rendre une décision favorable à son client. »

Menée par les professeurs américains Dana Remus (Faculté de droit de Université de Caroline du Nord) et Frank Levy (économiste, Massachusetts Institute of Technology, le fameux MIT), une étude publiée en novembre 2016 suggère que l’IA a « un effet modéré » sur des métiers tels que la recherche documentaire juridique et la rédaction de contrats [110]. L’étude indique que les tâches précitées représentent environ 40% de la facturation globale des avocats.

Cela dit, selon cette étude — un gros article scientifique de 77 pages publié sur le Legal SSRN —, l’impact estimé de l’IA sur des domaines tels que le "fact-checking" (vérification des faits, typique du droit anglo-saxon), le conseil aux clients, la gestion électronique de documents (GED), la rédaction de conclusions et les audiences — le tout représentant près de 55% des heures facturées — est « faible ».

Mais l’intelligence artificielle a un rôle plus important à jouer dans d’autres domaines. Selon l’étude, l’impact estimé de l’IA sur l’examen de documents ("document review", là aussi une procédure inconnue en droit français) — qui consiste essentiellement à passer en revue de grandes masses de documents pour y chercher les détails pertinents dans le cadre d’un contentieux — est « fort ». Heureusement pour les avocats anglo-saxons, l’étude ajoute que cela représente seulement 4% des heures facturées [111].

Le professeur Joël Monéger, spécialiste des baux, dans une tribune à la revue Loyers et Copropriété [112], formule ainsi les possibilités et les limites de la justice prédictive à la française :

« Prévoir le droit positif tient [...] de la gageure. [...] Certes, la prédictibilité de la solution paraît possible lorsque la plus haute juridiction a tranché le point de droit avec fermeté et de manière répétée. De même, semble-t-il, lorsqu’elle donne des signes annonciateurs d’un revirement possible de la jurisprudence. Mais, au-delà, la jurisprudence, même émanant de nos plus hautes juridictions, est bien souvent délicate à prévoir, notamment face à des textes récents, mal rédigés, ou à des textes en décalage grave avec les réalités sociales ou économiques. Cela tient à l’art de la rédaction des arrêts qui suppose un lecteur formé au décryptage de formules insuffisamment enseignées. De plus, la Cour de cassation ne peut pratiquer l’ultra petita et ne répond qu’aux moyens du pourvoi. »

Pour l’illustrer, il donne l’exemple de deux jurisprudences récentes de la Cour de cassation.

IA en droit et science-fiction ou les risques de la justice prédictive

Et si on en arrivait là où Google semble être arrivé du fait de l’intégration de machine learning dans ses algorithmes (ses ingénieurs ne savent plus totalement en détail comment leur moteur fonctionne : en tout cas, c’est ce que dit un scientifique chez un rival, Qwant [113]) ? Car c’est un fait : l’IA à base de ML est impénétrable [114]. En arriverait-on à ce que ROSS n’est pas — en tout cas pas encore —, c’est-à-dire une véritable intelligence artificielle ?

Les risques :

  • on ne saurait ni qui exactement nous juge ni pourquoi on nous condamne
  • et "power to the machine". On ferait plus confiance à l’algorithme qu’à l’humain, dans une époque méfiante vis-à-vis de la Justice. La situation et ce risque sont assez bien décrits dans une brève intervention sur France Inter.

La science-fiction a déjà envisagé ces risques (nous ne parlerons pas ici des lois de la robotique d’Asimov, non pertinentes ici et de toute façon déjà dépassées [115].) :

  • le tome 3 de la bande dessinée SOS Bonheur, un classique du genre publié en 1989 [116] parle de justice automatisée : chaque avocat soumet ses conclusions dans une machine et la machine rend son verdict, le juge n’est là que pour contrôler le bon fonctionnement de cette dernière. Ainsi la justice est aveugle et équitable puisqu’elle est censée rendre le même verdict pour tous ceux qui sont dans la même situation sur tout le territoire. Jusqu’au jour où la machine condamne un homme qui a commis un délit mineur à la peine de mort alors que cette dernière a été abolie il y a déjà de nombreuses années. Peut-on désobéir à la machine au risque de remettre en cause tous les autres jugements déjà rendus ?
  • nous avons (presque) tous vu le film Minority report de Steven Spielberg avec Tom Cruise (d’après la nouvelle éponyme de Philip K. Dick). Même si ce sont des êtres humains spéciaux (des"precogs") qui y tiennent le rôle des logiciels et des données et statistiques, le sens en est clair :
    • les programmes sont écrits par des êtres humains, dans l’intérêt de certains
    • et comme tels seront toujours biaisés. Particulièrement si l’information qui y est entrée est biaisée. Illustrations récentes aux USA avec les programmes prédictifs de la police. Antoine Garapon évoque lui aussi ce risque. Pour une vue plus large et un point sur les principaux programmes en cours.
      JPEG - 29.6 ko
      L’ouvrage Minority report de Philip K. Dick avec pour couverture l’affiche du film

Si le machine learning finit, ce qui est probable selon nous (cf supra), par être utilisé par le juge, il est à espérer que les conclusions d’Antoine Garapon et Marc Clément (dans les articles de revues juridiques cités au début de ce billet) s’imposeront :

Eviter le risque de « l’effet "moutonnier" de la justice prédictive qui pousse au conformisme et réclame plus aux juges qui estiment qu’ils doivent aller à contre-courant, c’est-à-dire faire leur métier tout simplement ! »

« Il sera donc capital que les modes de raisonnement inscrits dans les algorithmes soient parfaitement explicites et maîtrisés par le juge. Il conviendra, de plus, que des méthodes alternatives soient proposées et que l’on ne se retrouve pas en situation de monopole avec une seule technologie utilisable. »

Concernant la justice prédictive, Rubin Sfadj, dans son entretien avec la revue Expertises, souligne que lorsque les outils de justice prédictive seront utilisés par la puissance publique, cet usage devrait reposer sur trois grands principes éthiques — qui, à bien les lire, ne sont pas si exigeants que ça :

  • le principe de responsabilité conduisant à désigner pour chaque algorithme utilisé une personne référente, à l’instar du directeur de publication en droit de la presse
  • le principe de clarté, c’est-à-dire la mention explicite dans une décision de justice élaborée avec l’aide d’un algorithme de ce procédé et la motivation sur laquelle repose le recours à ce type d’outil
  • le principe de précision permettant de corriger une source d’erreur à tout stade du traitement algorithmique.

Quant aux juges, leur réplique à la justice prédictive est déjà prête : "Convainquez-nous avec des arguments juridiques, peu nous chaut vos statistiques". Le Conseil d’Etat, par la voix de Christian Vigouroux, lors du colloque sur l’open data de la jurisprudence organisé en octobre par la Cour de cassation, a déjà prévenu que la juridiction administrative suprême ferait en sorte que le juge administratif ne puisse pas se voir opposer sa propre jurisprudence [117].

Certains vont plus loin, en proposant voire exigeant que le code des applications sur lesquelles se fonde une décision de justice soit disponible en open source. Celui de Supra Legem l’est déjà [118].

Un article de la série Futurography sur Slate.com, propose une troisième voie entre secret et open source. Un amendement à loi fédérale américaine FOIA (Freedom Of Information Act [119]) donnerait le droit au public de soumettre des jeux de données tests à l’administration. Celle-ci devrait les passer à travers ses programmes et publier les résultats. Experts et journalistes pourraeint alors calculer le taux d’erreur de ces algorithmes [120].

Selon un article d’Internet Actu [121], l’évolution des technologies d’IA pourrait permettre de sortir de l’opacité du fonctionnement de deep learning pour les humains. Algorithmes génétiques et IA symbolique, par exemple, peuvent être compris et débuggués. Il serait aussi possible de demander au programme d’expliquer ce qu’il fait.

En France, notre droit permet en tout cas de demander communication du code source des logiciels créés et utilisés par l’Administration, au titre de la communication des documents administratifs. La Commission d’accès au documents administratifs (CADA) [122] puis le tribunal administratif (TA) de Paris [123] l’ont confirmé à propos du logiciel simulant le calcul de l’impôt sur les revenus des personnes physiques. La DGFiP s’est résolu à s’y conformer l’an dernier, juste avant que le TA ne rende sa décision. La CADA a enfoncé le clou en 2016 en autorisant la communication à une association de lycéens du code source du logiciel Admission post bac (APB) [124]. Le Ministère de l’Education nationale s’y est conformé partiellement [125].

Ne pas oublier non plus que l’article 11 du règlement (européen) général de protection des données (GDPR), applicable en 2018, interdisent toute décision automatisée qui affecterait significativement un citoyen européen et que es articles 12 et 14 créent, pour les autres décisions, un "droit à explication" [126]. Une décision de justice prédictive, par exemple [127].

Enfin, du côté des structures privées (les cabinets d’avocats les premiers), les meilleures n’auront-elles pas intérêt à maintenir une expertise en recherche et veille afin de contrôler la pertinence des réponses (car un mémo fourni par ROSS serait bel et bien au minimum une amorce de réponse) ? Attention aux biais dans les contenus et les statistiques ... Pour le dire en anglais : « Content experts and data scientists needed ! »

ROSS, Predictice, Case Law Analytics, des inconnus

Mais pour éviter de trop conjecturer et en apprendre plus, il serait bien de pouvoir tester ces IA. Et de lire autre chose que des communiqués à peine dissimulés.

En effet, il n’existe aucune démo gratuite en accès libre de ROSS ni de Predictice, le site web du produit ROSS est d’un vide intersidéral (le compte Twitter est beaucoup plus riche !) et les cabinets d’avocats utilisateurs ne lâchent aucun exemple d’utilisation ni de recherche ni aucun autre détail.

C’est là que la libre disponibilité de l’interface et du code source de Supra Legem remplit son office : permettre de tester un outil de "justice prédictive".

Emmanuel Barthe
bibliothécaire documentaliste et veilleur juridique, spécialiste des moteurs de recherche pour le droit et des données juridiques publiques
licence en droit, Faculté de droit de Sceaux


Une "webliographie" sélective et rapide sur ROSS :


Wikipedia : l’encyclopédie qui s’est rangée

De la contre-culture au politiquement correct

Vendredi 3 mars 2017

Lire la suite »

J’ai contribué à quelques articles (juridiques surtout) dans Wikipedia. Et cela fait longtemps que je voulais écrire non plus dans mais *sur* cette encyclopédie libre en ligne passée en 20 ans de la contre-culture au politiquement correct.

Car c’est vrai : je ne trouve plus que partiellement mon compte dans Wikipedia (WP pour celles et ceux qui y écrivent souvent).

Des règles très contraignantes partout : l’exemple de la création de nouveaux articles devenue quasi-impossible

Je regrette que Wikipedia soit devenue à mon avis si pleine de procédures, de règles quasi-juridiques et d’administrateurs (dits "admins") arbitres (au sens arbitres dans l’arbitrage commercial, donc juges). Pour moi — c’est mon impression et je peux me tromper — écrire plus de quelques lignes dans Wikipedia est de facto devenu aussi difficile que d’être membre d’un club à l’anglaise.

A part pour faire quelques corrections, j’ai l’impression que l’orientation "encyclopédie neutre" interdit désormais de créer [128] ou modifier substantiellement tout article.

La volonté de neutralité impose aussi de ne rien écrire qui ne soit écrit ailleurs, dans un média "respectable" (presse, y compris sa version en ligne, et ouvrages d’abord). Tout "travail inédit" [129] a tendance à être dénoncée par une question ou un bandeau ou simplement effacée, quand bien même les informations qu’elle donne sont exacts, notoires ou constatable par soi-même. Pour un exemple, voir l’échange suivant (traduit en français) [130] sur la page de discussion de l’article de WP sur le logiciel gratuit d’édition d’images IrfanView :

« Il devrait être mentionné comme critique que ce programme ne précharge PAS les images ! On est à l’âge de pierre, là ! Proxide 02:16, 23 décembre 2010 (UTC)
Je suis d’accord, mais si aucune source source fiable et indépendante ne le dit, nous ne le devrions pas non plus. —Lexein (talk) 00:09, 10 September 2011 (UTC) »

Ce qui rend cet exemple encore plus net, c’est que Lexein, le wikipédien qui répond est à la fois le principal contributeur de l’article [131] et un vétéran de Wikipedia — il fait même partie des 4000 contributeurs en langue anglaise les plus actifs de WP de tous les temps.

Le moindre manquement aux règles [132] est sanctionné par une suppression immédiate [133] par un administrateur de ce qui a représenté plusieurs heures de travail. Or il est difficile aux non admins de connaître ces règles dans le détail [134] et ces suppressions se font généralement sans grande diplomatie. Ca m’est arrivé. C’est arrivé aussi à d’autres : je l’ai deviné à plusieurs reprises à travers des discussions en ligne sur WP.

Ayant modéré une liste de discussion [135] pendant quatre ans, je ne peux pas nier la nécessité d’empêcher les très nombreux vandales et contributeurs de mauvaise foi de défigurer Wikipedia. Je peux à la limite comprendre que les admins soient fatigués et "tirent sur tout ce qui bouge sans poser de question". Mais malheureusement ce comportement même, par son manque de respect pour les contributeurs de bonne foi qui se voient supprimer leur travail bénévole sans avertissement ni explication, fait des dégâts.

Des articles devenus très lisses

Mais dans le même temps, tout article sur une société où une personnalité est trop souvent "lissé", réécrit habilement (ça se voit quand même) par ses communicants. Certes, un bandeau souvent signale cela mais à part sur les articles concernant les sociétés et personnalités controversées ou à la mode, ces "edits" (modifications) ne sont ni "revertés" (annulées) ni réécrits. Peu de gens s’en soucient et ceux qui s’en soucient manquent et de temps et de force de frappe face aux communicants. Dans cette bataille de communication, des groupes particuliers à visées idéologiques cherchent, inversement, à subrepticement détourner les articles de WP, à les tourner dans leur sens.

Le corollaire, de mon point de vue : je ne trouve plus dans Wikipedia ces infos croustillantes, ces interprétations divergentes qui en faisaient le sel (allez, si ! parfois dans les versions archivées on tombe sur une info non politiquement correcte mais en fait il faut savoir ce qu’ on cherche ... et le chercher longuement puisque les archives ne semblent pas indexées par le moteur de WP ni par Google). On dispose désormais d’une encyclopédie neutre [136] très riche et qui rend service. Certes. Mais on a beaucoup perdu pour ce gain.

Désolé d’être aussi cru, mais c’est un fait : Wikipedia ne pense plus, elle résume ou cite des gens qui pensent — et encore, pas des sites personnels, mais des sources très "consacrées". Eliminant ainsi plein d’informations qu’on ne trouvait guère ailleurs.

Les experts boutés hors de Wikipedia

La page de WP List of Wikipedians by number of edits [137] explique ceci :

« Dans une discussion sur la suppression, le vote pour Garder ou Supprimer un article donné émis par un éditeur ayant un nombre d’"edits" dans WP de 67 330 peut se voir donner plus de poids que le même vote émis par quelqu’un qui n’a fait que 12 "edits". »

Etre un gros contributeur et un expert de WP compte donc beaucoup dans l’encyclopédie. Et souvent plus que le fait d’être un véritable expert du sujet traité dans l’article [138]. L’exemple paroxystique bien connu en est la bataille livrée par le romancier américain Philip Roth pour faire rectifier l’article WP portant sur lui [139]. Plus banalement, Benjamin Coriat, économiste et universitaire français pourtant classé à gauche et spécialiste des communs, dit [140] :

« Wikipédia, ce n’est pas forcément très bien gouverné, parce que les économistes qu’on trouve dans Wikipédia, les définitions qu’on trouve dans Wikipédia, il y a beaucoup à dire. »

Un nombre non négligeable d’articles, même non "chauds", et malgré l’obligation de citer des sources "consacrées" [141], sont :

  • primo, de fait, entre les mains de non-experts (devenus en revanche des experts de WP)
  • secundo, manquent cruellement de recul et de sens critique.

D’après ce que je sais, ce type de comportement et de fonctionnement dissuade beaucoup d’experts de contribuer à WP.

Recul et sens critique — pour tout dire, vivacité — c’est ce que participation des experts et autorisation des "travaux inédits" pourraient apporter. Certes, modérer tout ça et y faire le ménage serait probablement plus ardu, puisque les règles de neutralité et d’absence de contenu original ne pourraient plus servir de garde-fous stricts (et aveugles).

Mais cela attirerait peut-être plus de volontaires (réellement qualifiés). Et après tout, c’est bien ainsi que WP fonctionnait à ses débuts et elle comptait déjà énormément d’articles et de contributeurs.

Les arguments sur cette évolution

On peut penser que cette évolution vers le lisse, le purement factuel et le neutre est un choix qui a été fait pour crédibiliser Wikipedia, pour faire sérieux, comme une "vraie" encyclopédie. Et aussi parce que les contributeurs de WP n’avaient pas le temps et les connaissances pour faire le travail d’un comité scientifique ou éditorial. Voir à ce sujet ce que le fondateur Jimmy Wales [142] (en 2003-2004) et le premier organisateur de WP Larry Sangler ont écrit. Et c’est d’ailleurs ce qui a été souvent avancé dans les articles de presse que j’ai pu lire à ce sujet.

Toutefois, je me demande parfois si en réalité ce n’est pas aussi pour éviter les pressions et procès en diffamation sur un site devenu incontournable et donc trop gênant. Wikipedia à tant crû qu’elle a dépassé — et de très loin — la diffusion de toutes les encyclopédies ayant existé avant elle. Sans parler de théorie du complot, je pense que WP est devenue "mainstream" et que de fait, elle a dû assumer un (gros) inconvénient de tout média trop dominant aujourd’hui : le "politiquement correct".

Pourtant, pour ne prendre qu’un exemple, l’Encyclopaedia Universalis (EU) elle-même n’était guère neutre — disons au minimum ses articles en sciences humaines et sociales (SHS) [143] et une partie de ceux en sciences exactes [144]. Oh que non ! Pour avoir pas mal travaillé dessus dans ma jeunesse (fin années 70 + les années 80 : pas d’Internet à cette époque), je peux vous garantir que l’Encyclopaedia n’était pas neutre. Chaque article était rédigé par un seul auteur — c’est toujours le cas — et il en profitait évidemment pour défendre ses thèses. Evidemment, l’EU avait un conseil scientifique, que WP n’a pas.

Ça avait aussi des inconvénients, les articles pouvaient être très difficiles à comprendre. Mais au moins ça pensait — et ça pensait avec des arguments. Comme WP à ses débuts. A mon avis, Wikipedia est devenu un super [Quid]. Sans la fiabilité à 100% du Quid [145].

Mais trêve de tirades, je vais vous lasser avec mes rengaines à la "C’était mieux avant". Tant pis ou tant mieux (c’est selon) pour Internet si Wikipedia est devenue "mainstream" [146].

Emmanuel Barthe
bibliothécaire documentaliste juridique, webmestre


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 28

Dernières brèves