Actualités : derniers articles

Documentaliste, combien de divisions ? Un fausse question

Documentaliste : un nouveau métier, de nouveaux noms

Définition et évolution des métiers de la recherche et de la gestion de l’information et des documents

Mardi 8 août 2017

Si vous êtes pressé, allez directement au point 11. Professionnel de l'information documentation : un challenge puis à la conclusion qui peuvent servir de TL ;DR (Too Long ; Don’t Read).

Sommaire

Le 24 juin, sur la liste Juriconnexion, Jean Gasnault (La Loi des Ours) écrivait à propos de la profession de documentaliste juridique (je reprend l’essentiel) :

La quintessence de nos métiers subit une mutation rapide et profonde. Les attentes de notre clientèle, externe comme internes, évoluent à vitesse élevée et en accélération permanente.

Introduction - Où vont les documentalistes ?

Un article américain vient de mettre ce phénomène en évidence : le bibliothécaire fait face à (ou accompagne) l’évolution constante des outils de découverte ("discovery tools" : les métamoteurs des catalogues + les bases de données auxquelles une bibliothèque est abonnées) et risque de faire face à un fossé croissant avec les usagers : Fear of the end of reference, par John Hubbard, bibliothécaire à l’Université du Wisconsin, Medium.com 21 juin 2017.

Plus généralement, commerce électronique et robotisation détruisent depuis 2010 les jobs dans le secteur des services (beaucoup moins dans le secteur manufacturier). Et depuis peu, la menace vient de l’intelligence artificielle [1]. C’est, du moins aux Etats-Unis, ce que les statistiques officielles montrent [2].

Quelle est l’avenir des missions des documentalistes ? Et leur avenir tout court ?

Archimag vient de publier un article à ce sujet : le métier de documentaliste est dans le top 3 des métiers qui recrutent le moins en 2017 [3] :

« C’est ce qu’annonce le baromètre annuel des métiers et des formations publié cette semaine et comme chaque année par le site Qapa.fr, qui se base sur l’analyse des 450 000 offres d’emploi diffusées sur sa plateforme. En effet, cette profession est dans le top 3 des métiers qui recrutent le moins en France en 2017, juste derrière celui d’opérateur d’industrie textile et juste devant celui de psychologue. »

Au delà du titre déprimant de cet article d’Archimag, on y trouve des conseils de ré-écriture de son CV et d’ajustement de ses compétences qui selon J. Gasnault peuvent aider mais à mon avis ne suffisent pas. Il faut aller plus loin.

L’article d’Archimag cité par Jean Gasnault inquiète les professionnels de la documentation, j’ai pu le constater. Mais il est fondé sur une conception de la profession étroite et qui date terriblement.

Loin de moi l’idée de nier les difficultés de mes collègues actuellement en recherche d’emploi. D’autant que j’en ai fait partie.

Il faudrait toutefois nuancer un peu ce portrait (trop) catastrophique.

1. Petites statistiques entre amis. Ou les limites du mot documentaliste et du code ROME K1601 face à la diversification des métiers et de leurs appellations

L’article d’Archimag est fondé sur les chiffres d’offres d’emploi diffusées sur Qapa. Qapa ne donne pas les sources des offres présentes sur son site mais un article des Echos [4] et un autre du Monde [5] permettent d’en avoir une idée et de commencer à les relativiser.

Concrètement selon les Echos, ce sont les offres de Pôle Emploi augmentées de celles de grandes entreprises.

Pusieurs raisons militent pour relativiser le chiffre de Qapa :

1.1. Parler comme le fait Qapa uniquement des postes intitulés "documentaliste" est extrêmement réducteur.

Voici pourquoi.

La catégorie de métiers comprenant celui de documentaliste sont ceux du code K1601 gestion de l’information dans le référentiel ROME [6].

Voici les appellations métier que j’ai trouvées fin juin 2017 dans les 288 offres disponibles sur le site de Pôle Emploi et classées sous le code ROME K1601 :

  • Gestionnaire de base de données
  • Documentaliste
  • Aide documentaliste
  • Chargée de ressources documentaires
  • Chargé de recherches
  • Bibliothécaire
  • Catalogueur
  • Adjoint du patrimoine et des bibliothèques
  • Médiathécaire
  • Agent de médiathèque
  • Ludothécaire
  • Discothécaire
  • Records manager
  • Document controller
  • Opératrice chargée de numérisation
  • Chargé d’études
  • Archiviste
  • Veilleur
  • Chargé de veille.

Le lien précité contient la liste exhaustive des appellations métier rangées par Pôle Emploi sous le code K1601 [7] (cliquez sur le + devant "Appellations métier").

On constate déjà que ce code contient des métiers que la profession considère souvent comme ceux de documentaliste, quand bien même les mots documentaliste et documentation n’y apparaissent pas : gestionnaire de bases de données et ressources documentaires, gestionnaire de documents d’entreprise, ingénieur documentaire, veilleur.

De plus, même si l’on prend tous les métiers qu’il recouvre, ce code est loin d’être en accord avec les évolutions du marché de la gestion, de la recherche et de la structuration de l’information et des documents. Déjà, la version actuelle du référentiel ROME date de 2009. Surtout, il y a, depuis le début des années 2000, énormément d’emplois ou de postes pour documentalistes un tant soit peu qualifiés, expérimentés ou fortement geeks sur les bords qui sont intitulés :

  • knowledge manager
  • knowledge officer (cas vécu personnellement)
  • responsable de la conformité
  • compliance manager
  • membre d’une cellule d’intelligence économique
  • community manager
  • webmestre (mon cas, en 2015-2016, au Bureau des technologies de l’information (BTI) du Service de documentation, des études et du rapport (SDER) de la Cour de cassation)
  • commercial chez un éditeur de logiciel documentaire ...

Regardez aussi les postes de ceux qui écrivent dans la revue de l’Association des professionnels de l’information (ADBS), I2D. Prenons le dernier numéro (n° 2 2017) :

  • Nicolas Jacquet est traffic manager (à mi-chemin entre webmestre et community manager) après avoir été assistant chef de projet documentaire. Il a fait l’ENSSIB (Ecole nationale supérieure des sciences de l’information et des bibliothèques)
  • Gonzague Chastenet de Géry est consultant et associé chez Ourouk. Il a fait un DESS Aménagement et urbanisme à Sciences-Po Paris et l’Ecole Centrale de Lyon (ingénieur fluides)
  • Guillaume Leborgne est directeur de la Transparence et de l’Open Data à la SNCF. Il a fait Sciences-Po Lille et le CELSA (une des grandes écoles de communication)
  • Philippe Goupil est consultant indépendant en gestion et architecture de l’information. Il est plus particulièrement expert en ECM et GED
  • Yann Bonnet est secrétaire général du Conseil national du numérique (CNNum). Il fut chargé du pilotage de la concertation nationale sur le numérique lancée en 2014, initiative qui a eu comme résultat la loi République numérique. Il est ingénieur de formation
  • Florence Feniou est conseillère en intelligence économique à la CCI de la région Normandie. Issue d’une formation initiale en gestion de l’information, elle a successivement exercé en tant que chargée de veille brevet dans le secteur automobile et intermédiaire du transfert de technologie transnational
  • l’auteur de cet article : j’ai principalement travaillé comme bibliothécaire documentaliste juridique mais aussi comme co-webmestre internet et intranet à la Cour de cassation. J’ai une double formation droit puis Ecole de bibliothécaires documentalistes (EBD)
  • etc.

L’Association des professionnels de l’information et de la documentation (ADBS) a publié en juillet 2013 une "cartographie" de la nébuleuse de métiers autour des ressources informationnelles (PDF). Ce document donne à voir un univers professionnel en cours de recomposition et les liens qu’entretiennent ces différents domaines d’activité.

Cette carte établie par l’ADBS permet de visualiser sept grandes familles de fonctions :

  • gestion de ressources informationnelles
  • veille-étude
  • archives et gestion de documents d’activités
  • architecture de l’information
  • communication web
  • responsable internet/responsable référencement
  • gestion des connaissances.

Si on se place sur le terrain des diplômes et titres professionnels, même phénomène de diversification, et là encore hors de la liste des appellations retenues par le code K1601. Dernier exemple en date : au JO du 5 août 2017 est paru un arrêté validant une certification au niveau Master I d’une formation de l’Ecole de bibliothécaires documentalistes (EBD) : Manager de l’information numérique [8].

Tous ces métiers ont bien à voir avec la gestion de documents et de l’information, socle de compétence des documentalistes. Pour autant, ils ne sont pas rangés sous le code ROME K1601.

Jean Gasnault, justement, signale dans son message sur la liste Juriconnexion que de nouveaux métiers arrivent. On les trouve dans la mise à jour du fameux ouvrage de Richard Suskind Tomorrow Lawyers présenté par la Gazette du Palais.

Parmi ceux-ci, le juriste spécialiste du traitement des données (personnelles et/ou juridiques), et le CDO (chief data officier) ou DPO (data protection officer) (directement mis en évidence par l’arrivée du RGDP) — métiers en rapport proche avec les missions et les pratiques actuelles de professionnels de l’infodoc (information documentation) [9].

Sincèrement, c’est très bien comme ça et autant que ça continue : que documentaliste disparaisse de la liste des métiers en mutant ne peut qu’être positif. En effet, comme le faisait remarquer Laurent Bernat en 2003 déjà :

l’image de la profession est « un boulet, un fardeau. [...] Certes, chacun peut faire d’importants efforts pour montrer au quotidien que cette image ne correspond pas à la réalité. Il n’empêche : [...] cette image nous colle à la peau [et] nous empêche d’évoluer.
Pour avoir porté, collées à mon front, les étiquettes successives de journaliste, de documentaliste, de webmestre, d’informaticien, de consultant, de chef d’entreprise, de formateur, je peux témoigner que l’image de documentaliste est de loin la plus pénible à porter, alors même que le métier est de très loin le plus intéressant ! » [10]

Enfin, comme le notait en 2011 le consultant formateur Henri Stiller (Histen Riller), « de plus en plus de sociétés se passent d’une fonction ID explicite, surtout depuis la première décennie 2000 » [11]. En juillet 2013, Loïc Lebigre, directeur des projets métiers à l’ADBS, le disait ainsi [12] :

« Nous constatons la disparition tendancielle des centres de documentation centralisés au profit de cellules d’informations plus proches des métiers de l’organisation concernée. Les professionnels de la documentation s’intègrent à des équipes dont ils acquièrent la culture. »

L’ancien métier de documentaliste recouvre donc aujourd’hui des métiers très différents et pourtant dotés d’un socle commun : la gestion de l’information et des documents. Par gestion, on entend recherches, veille, catalogage, diffusion, communication, formation etc. J’ai bien peur que le chiffre de Qapa ignore cette diversité ...

1.2. Nous avons affaire ici à des statistiques.

Sans aller jusqu’à la célèbre citation de Churchill (« Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées »), on sait qu’en matière de chiffres, leur évolution dans le temps est plus importante que leur valeur à un instant t.

Or Qapa ne dit pas où en étaient les offres d’emploi intitulées "documentaliste" ou celles codées K1601 en 2007 avant la crise.

Qapa ne dit pas non plus si les métiers de la gestion de l’information (K1601 et autres) sont un type de métier très répandu ou très minoritaire.

Or la gestion de l’information et des documents a toujours été un type de métier rare, beaucoup moins répandu que celui de bibliothécaire du secteur public (bibliothèques municipales, BU, BNF ...). Commercial/vendeur ou secrétaire/assistante ont toujours été des métiers cent fois plus répandus que documentaliste. Donc des métiers pour lesquels il y a beaucoup plus d’offres d’emploi. CQFD !

Et si le métier de documentaliste a connu une expansion en France dans les années 80 et 90, c’est dès les années 2000 que les premiers reculs de l’emploi en documentation dans le secteur privé se sont fait sentir [13].

Enfin, ces 10 dernières années, de nombreuses formations initiales en information documentation ont fermé (DESS de Sciences Po Paris, IUT infodoc de Versailles, IRTD de Rouen ...). L’Ecole de Bibliothécaires Documentalistes (Institut Catholique de Paris) place néanmoins 90℅ de chacune de ses promotions en 6 mois.

Les difficultés rencontrées par la profession n’ont donc pas grand chose de neuf. En terme d’évolution récente, rien de significatif, donc. D’autant plus que, comme souligné en 1.1., Qapa réduit artificiellement la profession de l’infodoc à un de ses trois plus anciens métiers/appellations [14].

Maintenant, qu’est ce qui manque aux documentalistes actuellement en difficulté ? En répondant à cette question [15], nous allons tracer le portait des nouveaux documentalistes et des nouveaux gestionnaires des documents et de l’information qui ne portent pas ce titre mais dont le métier en dérive directement et qui ont souvent eu au départ une formation de documentaliste.

2. L’atout de la double compétence

Ce qui aide grandement — et je l’ai vérifié plusieurs fois — c’est d’avoir de bonnes connaissances dans le domaine de la structure qui vous emploie. D’être vu en quelque sorte comme un "membre du club". Peu importe qu’on ait acquis cette deuxième corde à son arc par une formation initiale ou continue ou par expérience. Peu importe qu’on ne maîtrise que les notions de base, car c’est d’abord le vocabulaire et l’emboîtement des concepts qui comptent. Le même besoin existe chez les autres métiers travaillant sur l’information, par exemple les spécialistes de l’intelligence économique (IE) [16].

C’est là un deux axes d’apport de valeur ajoutée que Henri Stiller avait repérés en 2011 :

« la compréhension des besoins propres au métier de l’entreprise. Donc soit une double formation science de l’ID ET domaine principal de l’entreprise ; soit une interpénétration de compétences par immersion. »

La bibliothèque, la documentation, la veille, la gestion de bases de données, le KM ont longtemps souffert en silence de l’absence de compétence matière des spécialistes de l’information [17]. Particulièrement en France, pays retardataire dans les métiers de la gestion de l’information et du document. Un pays où les bibliothécaires du secteur public ont été accaparés pendant un siècle et demi par le catalogage des fonds des religieux et des nobles confisqués après la Révolution. Et où le développement des bibliothèques d’entreprise/centres de documentation, a attendu la fin des années 70 [18].

Ce manque de culture métier des "doc" est illustré par le fait que depuis les années 90, beaucoup d’entreprises de taille importante ne passent plus d’annonce pour recruter des professionnels de l’infodoc car elles trouvent leurs documentalistes, intranet managers et autres veilleurs en interne. Elles recyclent assistantes, scientifiques, parfois même commerciaux dans ces fonctions.

Mais ce qui manque souvent à ces professionnels, c’est la passion du partage de l’information et le souci de préserver celle-ci. D’autant s’ils considèrent souvent ce poste comme inférieur au "vrai".

3. Beaucoup plus diplômés

Comme nous l’avons vu avec les auteurs d’articles dans la revue de l’ADBS, le niveau et le nombre de diplômes des spécialistes de la recherche et de la gestion de documents et de l’information s’est considérablement élevé. Dans les années 80, on trouvait du travail avec un simple diplôme de documentation. Plus maintenant.

Ce phénomène ne recouvre que partiellement le précédent. Ce n’est pas forcément du tout le second diplôme qui donne la compétence dans le domaine de l’entreprise. Ainsi, on voit depuis une vingtaine d’années des professionnels combiner deux diplômes en sciences de l’information, le second étant de niveau plus élevé (un Master après un DUT) voire plus prestigieux.

4. More IT ! Ou la nécessaire triple compétence

Les documentalistes payent donc aujourd’hui leur splendide isolement. Mais aussi le refus d’une partie d’entre eux, autrefois majoritaire, aujourd’hui minoritaire, de se créer une culture informatique. Il s’agit de maîtriser un savoir à mi-chemin entre celui du professionnel ou du lecteur utilisateur et celui de l’informaticien développeur.

Actuellement, concrètement, cela veut dire : être capable de coder correctement une page web en HTML et en XML, d’avoir monté son propre site web, d’améliorer le classement d’un site web dans les moteurs de recherche (les bases du SEO), de mieux maîtriser la suite Office de Microsoft que les secrétaires et assistantes, particulièrement Word, Excel et Outlook, d’avoir de très bonnes notions de l’organisation d’Internet (ICANN, nom de domaine, hébergement ...), de maîtriser le copier-coller des seuls caractères (celui qui fait sauter toute la mise en page), de savoir ce qu’est ASCII et Unicode, de connaître plusieurs applications de veille ...

Bien sûr, l’enseignement dans les les écoles des sciences de l’information à changé : on apprend le XML et à monter rapidement un site web avec un CMS standard [19] ... Il n’empêche, il reste des progrès à faire [20].

5. Travailler avec l’intelligence artificielle

Les documentalistes devront travailler avec et les applications issues de l’intelligence artificielle. En documentation juridique, par exemple, certains s’y préparent déjà. Ils suivent les avancées du secteur depuis 2013-2014, les décryptent, testent les applications de manière critique et intègrent leurs avantages en matière de recherche et de veille.

Pourquoi limité-je les apports de l’IA à la recherche et la veille ? Tout simplement parce que je suis le dossier de l’IA en droit depuis fin 2014. Et que mon évaluation de ce qu’on peut voir ou lire de Supra Legem, Predictice et Case Law Analytics, les trois progiciels utilisant le machine learning pour le droit français, comme de ROSS, l’IA de droit américain des faillites, montre que ce sont des super-moteurs de recherche et, au mieux, de l’aveu même de leurs concepteurs, des outils d’aide à la décision. Et non des cerveaux artificiels [21].

Veille et recherche sont les domaines d’expertise du documentaliste. Les moteurs de recherche, qu’ils soient ceux de Google, Bing, Qwant (un affilié de Bing) ou ceux de Lamyline, Infogreffe ... il les connaît. Le job des documentalistes et al. inclue désormais la détection et l’évaluation des progrès que le machine learning apporte dans ces domaines et le conseil en choix des sources (en IA, les données sont plus importantes que les algorithmes). Et au-delà selon les compétences.

Il s’agit pour mes collègues et moi de travailler comme nous le faisons depuis l’arrivée des ordinateurs : avec la machine (et ses données) et non à côté de la machine. Pour plus de détails, je renvoie à l’article que j’ai publié sur ce blog, "Intelligence artificielle" en droit : les véritables termes du débat, et notamment sa partie sur l’impact prévisible des "IA" sur les jeunes collaborateurs, stagiaires, paralegal et documentalistes juridiques.

Faut-il aller jusqu’à intégrer les métiers de data analyst, data scientist ou data manager au périmètre de l’infodoc ? C’est ce que propose le magazine Archimag dans le 2ème baromètre de son observatoire sur l’emploi et les compétences (PDF, juin 2016), mais personnellement j’hésite car le niveau en mathématiques et programmation est tel que les profils embauchés sont le plus souvent ceux d’informaticiens et de mathématiciens. Une petite place est cependant à prendre pour les originaires du secteur de l’infodoc : elle se situe à mon avis dans la recherche et la sélection des sources de données, les fameux "data sets".

Quant à ce qu’un documentaliste apporte en plus d’un robot, s’il faut vraiment le préciser, une partie de la réponse — une partie seulement — réside dans un commentaire d’une bibliothécaire documentaliste juridique américaine [22] :

« L’IA est itérative et continuera à s’améliorer, mais elle ne sait pas grand chose du facteur qu’est le contexte de la question posée ni comment le gérer. Pour que l’IA soit utile dans des recherches complexes (et non juste des recherches sur références bibliographiques) dans la plupart des structures juridiques, j’estime qu’elle aura besoin d’apports significatifs en savoir interne. Il est déjà difficile de faire correctement (voire de faire tout court) du KM. Comment alors allons nous documenter le savoir historique de la structure de manière à ce qu’un robot puisse correctement l’interpréter et l’appliquer ? Ce qui est saisi ne constitue pas réellement la totalité de la requête que l’on entre dans une machine : il y a bien plus de choses à préciser pour que la machine puisse fournir une réponse. »

6. Formateur obligé

Le/la documentaliste est obligé d’être un formateur et de réussir dans cette tâche. Sans cela, les nouveaux outils de lecture, de recherche et de veille qu’il/elle doit installer ne seront pas ou sous-utilisés. Autant dire des dépenses inutiles.

Vous me direz : mais pourquoi ne pas confier cette tâche à l’éditeur de l’outil ? Oui, on peut. Mais la qualité des formateurs des éditeurs est très inégale. Et ils ne maîtrisent pas la culture de la structure [23]. Si donc on fait former ses utilisateurs, encore faut-il savoir soi-même former pour évaluer les formateurs puis organiser et contrôler ces formations.

Autre problème avec la formation par les formateurs des éditeurs : ils sont là pour deux heures au maximum et puis s’en vont. Comme la plupart des services d’assistance ne peuvent répondre immédiatement à une question d’un utilisateur, c’est le documentaliste qui traite donc ces questions.

Enfin, l’expérience montre que lorsqu’un utilisateur a une difficulté, une formation express en 5 mn est bien acceptée et retenue. Qui peut la donner ? Qui sent si elle va "passer" ? Je vous laisse répondre.

7. Devenir un communiquant

Il s’agit aussi de maîtriser les codes de la communication.

7.1. Communication écrite : savoir rédiger, résumer et synthétiser et non simplement cataloguer (de bonnes connaissances en catalogage restent nécessaires). De ce point de vue, alimenter un blog ou avoir l’habitude de présenter sommairement par mail les résultats d’une recherche ou de sa veille est extrêmement utile.

7.2. Mais aussi communication orale : savoir mettre en valeur son interlocuteur, savoir reformuler ce que le lecteur/utilisateur/client interne recherche pour améliorer les résultats de cette recherche, savoir animer une formation etc.

7.3. Ne pas oublier la vidéo et les réseaux sociaux : enregistrer et poster une vidéo sur Youtube est aujourd’hui un mode de communication comme un autre. Une maîtrise de la communication sur les autres réseaux sociaux (Facebook, Twitter, Instagram ...) est une compétence annexe valorisée du documentaliste et le community management (CM) [24] (animation de communautés autour d’une marque/entreprise/produit sur les réseaux sociaux et les forums) est devenue un vrai débouché pour la profession. On retrouve dans ce métier trois caractéristiques importantes de celui de documentaliste : la veille, la rédaction de contenu [25], une forte intermédiation, avec une forme de représentation des clients/utilisateurs, une façon de relayer leurs demandes.

8. Team work

Ne pas oublier le travail en équipe, en réseau et le carnet d’adresses.

Par exemple, et dans la logique de la compétence en communication évoquée plus haut, il est à mes yeux normal de travailler avec le service de communication : l’avertir au plus vite de ce qui pourrait, dans le panorama de presse à sortir, le concerner, former ses membres aux nouvelles bases de données pouvant les intéresser etc. Avec le directeur financier, préparer les budgets et les négociations avec les éditeurs et les diffuseurs de bases de données. Informer le DRH sur les réformes en droit social ou lui fournir un outil de veille en ce domaine, parfois faire des recherches pour lui et le DAF.

Par ailleurs, trop de documentalistes ne connaissent que très peu de leurs collègues une fois sortis de leur structure. Ou uniquement des collègues dans leur domaine — et non dans d’autres domaines afin de combler leurs lacunes. Trop peu twittent.

Je dois dire que pour se former au travail en équipe, faire partie d’une association comme responsable d’un groupe de travail ou membre du conseil d’administration, apporte beaucoup.

9. Management n’est pas un gros mot

Il s’agit de maîtriser des techniques de management, de gestion et de direction : gestion de projet, bonnes notions de comptabilité (lecture d’un bilan et d’un compte de résultat, compréhension de ce qu’est une provision, un investissement ou un EBE ...), techniques de reporting, tenue d’un budget etc.

En effet, beaucoup d’entre les professionnels de l’information et du document ont à gérer une unité ou un service, de petite taille généralement certes mais quand même.

10. Se former sans attendre qu’on le fasse pour soi

Toutes ces nouvelles compétences, le documentaliste / bibliothécaire / veilleur ne les obtiendra pas par son employeur. Des formations en informatique, de formateur ou de webmestre, par exemple, existent dans les catalogues des organismes de formation. Mais des versions adaptées aux spécificités et aux besoins des professionnels de l’information, ça, c’est très rare — j’ai testé pour vous : même à l’ADBS [26], beaucoup de ces formations sont assurées par des non "doc". De plus, encore faut-il que l’employeur accepte de consacrer un peu de sa trésorerie (très précieuse en temps de crise) à former quelqu’un faisant un métier très rare dans sa structure et demandant des formations très inhabituelles. Enfin, n’oubliez pas que les crédits de formation ont été divisés par deux avec la nouvelle loi il y a quelques années.

A quelques rares exceptions près, le professionnel de l’information et des documents devra s’auto-former, en assistant à des journées professionnelles, en essayant de tirer profit des nombreux tutoriels disponibles sur le Web et en testant les nombreuses applications et méthodes proposées sur les blogs et comptes Twitter de professionnels indépendants/consultants [27]. Autant le dire clairement : il/elle devra prendre sur son temps personnel. A moins qu’il/elle réussisse à négocier avec son employeur — qui a naturellement tendance à mettre la priorité sur les urgences quotidiennes —, un temps hebdomadaire pour la mise à jour de ses connaissances. Attention : 1h30 par semaine est un minimum, en dessous ça ne sert à rien.

11. Professionnel de l’information documentation : un challenge

Vous l’avez compris : documentaliste — ou ce qu’on appelle encore ainsi — n’est pas (ou plus) un métier de tout repos. C’est un métier où l’on doit :

  • posséder un double diplôme ou amasser assez de connaissances pour faire comme si
  • répondre en urgence (délai moyen 1h [28]), tout en réussissant là où les bases de données professionnelles et Google ont échoué et en donnant des résultats si possible exhaustifs
  • posséder un réseau professionnel de densité supérieure à celle des utilisateurs, afin de pouvoir les aider
  • connaître les moindres bugs des produits des éditeurs au moins aussi bien que leur assistance, idéalement mieux qu’eux
  • négocier avec des commerciaux rompus à ça et généralement en position de force (oligopole). Mission impossible ? Non : on y arrive en faisant appel à une meilleure maîtrise de leurs propres produits et au travail d’équipe avec le directeur financier
  • démontrer des compétences de formateur, d’informaticien — y compris en machine learning — voire de développeur, de spécialiste de la com’ et de webmestre. Franchement, est-ce qu’on attend d’un juriste, d’un commercial ou d’un cadre supérieur qu’il se comporte comme un informaticien ou un formateur ? Non. Eh bien, les recherchistes et gestionnaires d’information, si.

Un exemple de cette multiplicité de compétences, c’est le job chez Sindup (éditeur d’une plateforme de veille) de Valentina Erhel. Voici comment elle décrit son travail sur son compte LinkedIn :

« Documentaliste "multitâches", je jongle entre gestion de l’information, community management, CRM, social selling, veille, communication ... sur fond de plateforme de veille (Sindup) et de communauté de veilleurs (www.veille-connect.fr) »

Le métier a été très longtemps considéré comme relativement facile voire tranquille par une part minoritaire mais non négligeable des étudiants en école de documentation. Ce fut vrai pour certains postes. C’est devenu totalement faux.

Comme les documentalistes traînent une réputation de vieille dame avec un crayon dans le chignon (euh ... ça c’est une caricature de bibliothécaire à l’ancienne, pas une documentaliste), remettons les pendules à l’heure : la période ou *certains* jobs en documentation étaient "cool" est close depuis longtemps.

Cela fait vingt ans qu’Internet a obligé les professionnels de l’infodoc à hausser le niveau. C’est devenu un métier passionnant mais exigeant. Ce n’est plus vraiment un job de reconversion idéal pour des gens ayant fait des études littéraires, de langues étrangères ou d’histoire sans débouché.

Conclusion ?

Pour conclure, je pense que les professionnels de la gestion de l’information et des documents [29] ne sont plus protégés par leur (autrefois nécessaire et incontournable) intermédiation en matière de livres et de bases de données aux fonctionnalités de recherche ésotériques. La maîtrise des techniques documentaires reste nécessaire mais elle doit aujourd’hui être croisée et fertilisée par d’autres compétences, à commencer par une forte compétence dans le domaine de la structure qui les emploie et une appétence pour l’informatique et la com’. Ce que Henri Stiller appelle la valeur ajoutée des professionnels de l’infodoc.

Pour reprendre la formule reprise de Pierre Dac et forgée en 2003 par Laurent Bernat : « Les documentalistes ont l’avenir devant eux (elles), mais ils (elles) l’auront dans le dos chaque fois qu’ils (elles) feront demi-tour ».

Personnellement, j’irai plus loin :

Les documentalistes traditionnels sont en train pour certains de disparaître et pour d’autres de muter. Tant pis ou plutôt tant mieux. C’est de celles et ceux ayant muté dont a besoin notre société de l’information et des réseaux informatiques.

Vous pouvez continuer à m’appeler bibliothécaire documentaliste ou documentaliste tout court. Mais je préférerais recherchiste (en québécois) ou researcher (en anglais) [30], auquel il faut ajouter gestionnaire d’information (plutôt que bibliothécaire [31]) et veilleur. Ça peut aussi être spécialiste des données, dans le cadre de l’Open data et de l’IA. Et accolez-y ma spécialité, le droit : recherchiste veilleur juridique.

Emmanuel Barthe
licence en droit, faculté de droit de Sceaux
diplôme de l’Ecole de Bibliothécaires Documentalistes


Les robots, avocats et juges de demain ? Pas vraiment ...

"Intelligence artificielle" en droit : les véritables termes du débat

Justice prédictive, legal tech, ROSS, Predictice, Supra Legem, Minority report, machine learning, réseaux neuronaux, NLP, Big data etc.

Mercredi 2 août 2017

Legal tech, justice prédictive et plus encore "intelligence artificielle" (IA) en droit sont devenus des sujets à la mode depuis 2015-2016.

Mais discours marketing et flou sur les performances sont légion dans ces informations — qui ressemblent souvent plus à de la communication qu’à de l’information.

De qui et de quoi parle t-on exactement : quelles sociétés, quelles fonctions, quelles technologies ?
Quels sont les véritables risques pour l’emploi des professionnels du droit (avocats, stagiaires, juristes d’entreprise, magistrats, notaires) et de leurs "paralegals", documentalistes et veilleurs ?
Quels sont, également, les risques de la justice prédictive ?

C’est le sujet de ce billet, qui vise à démystifier les fonctionnalités et performances des applications présentées comme des "IA" (intelligence artificielle) en droit, tant pour le présent que pour le futur. Il s’appuie sur la lecture d’une bonne partie de la littérature disponible et sur des discussions personnelles avec certains acteurs.

Executive summary (TL ;DR)

En quelques paragraphes pour ceux qui sont pressés :

  • l’intelligence artificielle est d’abord un champ de recherche et les réalisations dignes de ce nom en droit sont rares. Le reste, ce sont soit de l’informatique "à la papa" soit des logiciels experts
  • techniquement, l’IA en droit se caractérise par l’utilisation combinée :
    • du Big data
    • du machine learning (ML)
    • et surtout du natural language processing (NLP), plus précisément une version du NLP dopée par le ML et l’analyse syntaxique. Ce qui signifie que les soi-disant "intelligences artificielles" en droit sont en fait des moteurs de recherche de nouvelle génération et des systèmes d’aide à la décision. Pas des cerveaux juridiques
  • la valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements se font en open source. Autrement dit, les données comptent plus que les logiciels. Cela devrait permettre aux éditeurs juridiques français traditionnels, actuellement à la traîne, de revenir dans la course car c’est eux qui détiennent les données les plus riches en droit français, tout particulièrement la doctrine
  • si on a beaucoup parlé de ROSS, l’IA d’IBM, c’est d’abord grâce à une offensive marketing et communicationnelle de première ampleur. Mais ses performances réelles sont en deçà de sa réputation. Elle ne fait que de la recherche et de l’analyse sur la jurisprudence de droit américain des faillites
  • en droit français à l’heure actuelle, seuls trois systèmes méritent le nom d’IA : Supra Legem, qui se limite au droit administratif, Predictice et Case Law Analytics. Tous ne travaillent que sur la jurisprudence. On peut ajouter le pionnier Jurisprudence chiffrée de Francis Lefebvre, qui travaillait déjà sur le langage naturel en 2010. Leur apport : une recherche facilitée, et le calcul du montant prévisible des dommages-intérêts et des chances de gagner un procès
  • les risques de suppression nette d’emplois dans le secteur juridique sont un sujet de débat mais il demeure que les tâches simples et "découpables" seront automatisées et que les collaborateurs, les paralegal et les documentalistes juridiques devront apprendre à travailler avec l’IA (et non à côté d’elle), autrement dit à l’utiliser et l’améliorer. Quant à l’IA connectée au ccerveau.ce n’est pas pour tout de suite : le chirurgien français Laurent Alexandre, fondateur du site Doctissimo, et partisan de l’être humain augmenté (ou transhumanisme), commentant les prédictions du singulariste (et par ailleurs employé de Google) Ray Kurzweil, estime qu’ « un cerveau connecté, on en est encore loin. Croire qu’on y arrivera d’ici 15/20 ans, il me semble que c’est faire preuve de naïveté neuro-technologique. Pour l’instant, les seules choses que nous arrivons à faire, c’est recréer des faux souvenirs chez des rats par exemple, en les "connectant". Mais on leur bousille le cerveau, on est très loin d’être au point sur ce sujet-là ». (En 2050, les gens avec moins de 150 de QI ne serviront à rien, par Pierre Belmont, Nom de Zeus, 24 mars 2016).]]
  • la justice dite prédictive entraînerait de sérieux risques, au premier plan desquels le jugement sur des critères obscurs et le conformisme des juges à ce qui a déjà été jugé. Des limites légales existent déjà et des parades techniques sont proposées, notamment l’open source du code ou des tests de vérification à partir de jeux de données.

Sommaire

Un sujet très tendance

Début janvier 2017, Les Echos publient un article au titre provocateur : Les robots seront-ils vraiment les avocats de demain ?

En fait, ses auteurs, Pierre Aidan, cofondateur de Legalstart.fr [32] et Florence Gsell, professeur de droit à l’université de Lorraine, réagissent, dans le but de rassurer les professions judiciaires, à un autre article.

Ce dernier, beaucoup plus provocateur sur le fond, a été publié en octobre 2016 à la Harvard Business Review, par le célèbre consultant en informatique juridique britannnique Richard Susskind et son fils Daniel, économiste : Technology Will Replace Many Doctors, Lawyers, and Other Professionals (Les nouvelles technologies remplaceront beaucoup de médecins, juristes et autres professionnels libéraux). Cet article est en fait un résumé du dernier ouvrage des Susskind publié en octobre 2015 : The Future of the Professions : How Technology Will Transform the Work of Human Experts (Le futur des professions libérales : comment les nouvelles technologies vont transformer le travail des experts humains, Oxford University Press, OUP) [33]. Quant au consultant américain Jaap Bosman, son ouvrage Death of a law firm (Mort d’un cabinet d’avocats) prédit la fin du "business model" actuel des cabinets d’avocats en soulevant la question épineuse de la standardisation du service juridique grâce à l’intelligence artificielle (IA) [34].

Et en novembre 2016, la journaliste britannique Joanna Goodman [35] publie Robots in Law : How Artificial Intelligence is Transforming Legal Services (Les robots juridiques : comment l’intelligence artificielle transforme les services juridiques, Ark Group) [36].

Toujours début janvier 2017, la Semaine juridique publie, elle, une étude d’Antoine Garapon, magistrat, secrétaire général de l’Institut des hautes études sur la Justice (IHEJ) et spécialiste reconnu des questions de justice, intitulée « Les enjeux de la justice prédictive » [37]. Et pour ne pas être en reste, le Recueil Dalloz s’empare aussi du sujet avec une tribune de Marc Clément, Premier conseiller à la cour administrative d’appel de Lyon [38]. C’est la newsletter Dalloz Actualité qui a publié peut-être le meilleur article sur le sujet : L’intelligence artificielle va provoquer une mutation profonde de la profession d’avocat, par Caroline Fleuriot, 14 mars 2017. Le seul reproche que je ferais à cet article est de reprendre, sans recul, des phrases chocs, excessives, destinées à impressionner ou à faire peur [39].

La revue Expertises, enfin, publie une interview de Rubin Sfadj, avocat aux barreaux de Marseille et New York et grand blogueur et twitto devant l’Eternel. Interview portant sur l’IA juridique [40] et plus concrète et plus claire — plus tranchée, peut-on dire — que les deux articles précédents.

Depuis les premiers succès commerciaux de ROSS, l’application au droit des faillites américain du système de machine learning Watson développé par IBM, l’intelligence artificielle (IA) en droit est devenue tendance [41]. On parle beaucoup aussi de justice prédictive.

A lire aussi :

On peut rapprocher ces publications d’une note de McKinsey qui vient de paraître sur le futur du travail [42]. Elle prévoit dans le monde entier une automatisation croissante des tâches, pouvant supprimer 5% des emplois actuels et en modifier beaucoup plus.

De quoi parle t-on exactement ? Ou comment définir les legal tech et l’IA en droit aujourd’hui

Les différents types de technologies utilisés en "IA"

Les différents types de technologies utilisés en "IA" (NB : pas de robotique en droit et la "vision" est en fait du machine learning)

Il y a des technologies, qu’il faut distinguer, et derrière ces technologies il y a des applications et leurs développeurs, grosses sociétés de l’informatique et de l’Internet ou start-ups, l’ensemble de ces sociétés étant communément appelé les "legal tech" [43].

Que font les legal tech ? Je reprend ici la liste très complète de Benoît Charpentier développée dans son article précité. Elles « proposent de très nombreux services et produits, comme :

  • le calcul de probabilité concernant les décisions de justice
  • le financement de contentieux (third-party litigation funding)
  • les plateformes d’actions collectives
  • la génération automatisée de documents juridiques dynamiques
  • le déploiement de systèmes intelligents ou d’intelligence artificielle (fondés par exemple sur le machine learning, notamment ses variantes natural language processing et deep learning)
  • les plateformes de mise en relation avec des professionnels du droit
  • les solutions cloud
  • l’édition de logiciels spécialisés
  • la résolution de litiges non contentieux en ligne
  • les procédures d’arbitrage en ligne
  • les procédures de divorce en ligne
  • la signature électronique
  • la certification de documents (par exemple grâce à la technologie blockchain)
  • la réalisation de formalités et de dépôts en ligne (mise en demeure, acte introductif d’instance)
  • la visualisation de données complexes issues du Big Data
  • la programmation de contrats intelligents (smart contracts)
  • la mise en oeuvre d’outils collaboratifs
  • la revue de documents assistée par la technologie (Technology Assisted Review (TAR))
  • les outils de conformité
  • les outils de calculs fiscaux
  • les outils de gestion de contrats (contract management)
  • les outils de recherche juridique ».

Qui sont ces legal tech ? Il existe depuis peu une liste gratuite, fiable et quasi-exhaustive des legal techs françaises ou implantées en France (PDF), celle de Benoît Charpentier. Pour une liste mondiale, voir :

A mon goût, beaucoup de ces initiatives sont certes "legal" mais leur degré d’innovation en "tech" est faible : par exemple, simple mise en ligne de formulaires ou intermédiation entre avocats et prospects. Alors en voici, toujours sur la France, une personnelle, non triée, forcément incomplète mais tendant à se focaliser sur l’innovation technologique (notamment machine learning, big data, analytics ...) :

A noter, car très souvent citée par les articles présents sur le Net mais non présente en France : DoNotPay conteste les PV de stationnement en justice sans avocat et avec un taux de succès important.

Attention : très peu parmi ces sociétés se rangent dans la catégorie de l’intelligence artificielle telle qu’on la pratique aujourd’hui, autrement dit le machine learning. Beaucoup se rangent dans les logiciels experts [44] (ce qui est déjà à mes yeux de l’innovation), une catégorie d’IA déjà ancienne à laquelle le cloud donne une nouvelle jeunesse mais qui n’est pas de l’IA telle qu’on la voit aujourd’hui (voir infra).

Et à propos d’intelligence artificielle, il faut être clair : ce qu’on appelle IA est, à strictement parler, une discipline scientifique, autrement dit un champ de recherche. Par extension, on qualifie aussi d’IA les produits qui se rangent dans ce champ [45]. On parle bien ici de *recherche* : on n’en est pas à reproduire le fonctionnement d’une intelligence humaine. Un des deux co-fondateurs de l’équipe de recherche en IA de Uber, Gary Marcus, professeur de psychologie à l’Université de New York, le dit clairement [46] :

" Il y a tout ce que vous pouvez faire avec le deep learning [...]. Mais ça ne veut pas dire que c’est de l’intelligence. L’intelligence est une variable multi-dimensionnelle. Il y a beaucoup de choses qui rentrent dedans. [...] La véritable IA est plus éloignée que ce que pensent les gens "

En fait, nous parlons ici de ce que les spécialistes de l’IA appellent "week AI" (ou "narrow AI"). Comme l’expliquent Wikipédia et Techopedia, l’IA faible est une intelligence artificielle non-sensible qui se concentre sur une tâche précise. L’IA faible est définie par contraste avec l’IA forte (une machine dotée de conscience, de sensibilité et d’esprit, tout comme un être humain) ou l’intelligence artificielle générale (une machine capable d’appliquer l’intelligence à tout problème plutôt qu’un problème spécifique). Le point le plus important ici est que tous les systèmes actuellement existants sont considérés comme des intelligences artificielles faibles.

D’ailleurs, vu les fonctionnalités et performances réelles des produits dont nous allons parler, il est évident que parler d’intelligence artificielle en droit au sens strict est très exagéré.

Il y a aussi un débat sur le droit et l’opportunité de laisser les legal tech investir le marché du droit (principalement celui des avocats mais aussi celui des notaires) et de l’information juridique. Sur ce sujet, je vous renvoie aux articles cités en première partie plus haut. Sur les risques de la justice prédictive, voir infra.

Voici les cinq principales technologies en cause dans ce qu’on appelle l’intelligence artificielle en droit [47] :

  • les systèmes experts. Un système expert est, selon Wikipedia, un outil capable de reproduire les mécanismes cognitifs d’un expert, dans un domaine particulier, par des règles logiques. Cette première des voies tentant d’aboutir à l’intelligence artificielle a donné des résultats décevants : par exemple, à partir d’une centaine de règles voire moins, certaines se contredisent et il devient nécessaire de les pondérer, ce qui est en fait peu rigoureux ; leur coût élevé est un autre écueil. Un exemple de système expert en droit, le prototype NATIONALITE du défunt IRETIJ (Institut de recherche et d’études pour le traitement de l’information juridique [48]) est décrit dans une contribution de 1989 [49]. Les logiciels de gestion de contrats sont un bon exemple de logiciels experts en droit. C’est l’émergence des quatre technologies suivantes qui a relancé les espoirs des spécialistes de la recherche en IA
  • le big data et surtout le (legal data) analytics. Il ne s’agit là que de technologies correspondant à des logiciels (Apache Hadoop, MongoDB, Microsoft Azure ...) faits pour traiter des masses de données énormes et/ou des données pas assez structurées, nécessitant des logiciels différents des systèmes de gestion de base de données (SGBD) classiques
  • le machine learning [50] (ML, en français apprentissage statistique automatique). Le ML peut être supervisé (des humains apprennent à l’algorithme à reconnaître les formes ou les notions vérifient et corrigent) ou non supervisé. ROSS d’IBM, aux Etats-Unis, utilise le machine learning, dans sa version supervisée : des juristes, des avocats ont "enseigné" et "corrigé" l’application et continuent de le faire. L’application Predictice en France fonctionne selon le même principe. De son côté, Thomson Reuters, propriétaire de Westlaw, a lancé un laboratoire en 2015 et collabore avec IBM pour intégrer la technologie Watson dans ses produits. ROSS est un système à apprentissage automatique supervisé. En France, Supra Legem, Predictice et Case Law Analytics [51] utilisent aussi le machine learning
  • le deep learning (apprentissage statistique automatique profond), concrètement, est un développement du machine learning. Il utilise à fond la technique des réseaux neuronaux pour tenter de se passer complètement d’une vérification/correction par des humains. Les réseaux neuronaux sont une technologie développée à l’origine pour la reconnaissance automatique d’image ("pattern recognition"). Pour (tenter de) comprendre, il faut lire les exemples de fonctionnement d’un réseau neuronal donnés par deux spécialistes français interviewés par Le Monde [52] :

« Yann Le Cun : Le deep learning utilise lui aussi l’apprentissage supervisé, mais c’est l’architecture interne de la machine qui est différente : il s’agit d’un "réseau de neurones", une machine virtuelle composée de milliers d’unités (les neurones) qui effectuent chacune de petits calculs simples. « La particularité, c’est que les résultats de la première couche de neurones vont servir d’entrée au calcul des autres ». Ce fonctionnement par "couches" est ce qui rend ce type d’apprentissage "profond". »

« Yann Ollivier, chercheur en IA au CNRS et spécialiste du sujet, donne un exemple parlant : « Comment reconnaître une image de chat ? Les points saillants sont les yeux et les oreilles. Comment reconnaître une oreille de chat ? L’angle est à peu près de 45°. Pour reconnaître la présence d’une ligne, la première couche de neurones va comparer la différence des pixels au-dessus et en dessous : cela donnera une caractéristique de niveau 1. La deuxième couche va travailler sur ces caractéristiques et les combiner entre elles. S’il y a deux lignes qui se rencontrent à 45°, elle va commencer à reconnaître le triangle de l’oreille de chat. Et ainsi de suite. »

D’après Michael Benesty (Supra Legem), toutefois, en machine learning sur du droit, on est plus dans le NLP (voir juste infra) [53] que dans les réseaux neuronaux [54]. Les réseaux neuronaux ici réduisent le traitement des données en amont, mais leur apport en droit est très inférieur à ce qu’ils ont fait pour la reconnaissance d’image. De plus, ils coûtent très cher du fait de la puissance et du temps de calcul nécessaires (location de serveurs et de logiciels) [55].

JPEG - 99.4 ko
Un réseau de neurones convolutifs schématisé
  • le traitement du langage naturel ("natural language processing", NLP). ROSS, Predictice ou Supra Legem [56] sont des applications utilisant le NLP. Plus précisément le NLP tel qu’on le pratique aujourd’hui : à base de machine learning et de techniques d’analyse syntaxique ("parsing", en anglais) [57] et non plus d’analyse sémantique. Le NLP actuel, c’est l’application du machine learning, en version non assistée, au langage, plus précisément aux textes. Le NLP à base de machine learning a été énormément facilité par la diffusion en open source en 2013 par Google du logiciel Word2vec (W2V), qui transforme les mots en vecteurs. Concrètement, Word2vec devine les termes similaires (proches par le sens) d’un mot en utilisant les autres mots faisant partie du contexte de ce mot [58]. Toutefois, si le NLP à la sauce ML détecte — indirectement et implicitement — le sens des mots, il ne sait pas en détecter la logique : licéité et illicéité, par exemple, risquent fort d’être similaires pour lui.

Les données comptent plus que les applications

Nous venons de présenter les technologies impliquées dans l’IA en droit.

Mais sur le plan stratégique, le plus important n’est pas là. Pour le comprendre, il faut lire le rapport de France Stratégie sur l’IA publié en mars 2017 [59].

Dans ce rapport, la contribution spécifique du Conseil National du Numérique (CNNum) souligne l’importance fondamentale des données :

« La valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements se font de manière ouverte (en open source). En conséquence, les organisations doivent prendre conscience de l’importance stratégique des données qu’elles détiennent. Il s’agit également, à plus long terme, d’engager une réflexion sur les modes de partage de la valeur entre acteurs privés. En ce sens, le Conseil s’est par ailleurs saisi de la question de la libre circulation des données aux niveaux international et européen, d’un point de vue de transfert entre les territoires mais également entre acteurs économiques. »

Ce sont justement leurs bases de données qui font l’avance de Google et Facebook. C’est pourquoi cela ne les gêne pas de mettre leurs logiciels en open source. Au contraire, cela accélère l’adoption de l’IA par les développeurs puis la société dans son ensemble. Une démarche imitée de manière légèrement différente par LexisNexis :

  • l’éditeur américain a annoncé en mars 2017 qu’il va donner accès à ses contenus et à son expertise, ainsi que celle de sa filiale LexMachina, à cinq start-ups sélectionnées : Visabot, TagDox, Separate.us, Ping, and JuriLytics [60]. Lexis espère profiter de leurs innovations
  • et le 8 juin, Lexis annonce le rachat de Ravel Law, LA start-up indépendante de 21 personnes spécialisée dans la recherche sur la jurisprudence américaine à base de ML et de NLP. Le fondateur de Ravel Law Daniel Lewis explique à cette occasion que le rachat donnera à Ravel Law « accès à un vaste assortiment de données de haute qualité, quelque chose qui est nécessaire. Même la meilleure IA ne peut surmonter les défauts dus à un accès limité en terme de données », dit-il. « On a besoin de de données de haute qualité en entrée" a-t-il ajouté. « Si vous avez de la mauvaise qualité en entrée, vous avez de la mauvaise qualité en sortie. »

ROSS : points forts et limites d’un moteur de recherche en langage naturel à base de machine learning avec supervision

Fin 2016-début 2017, c’est surtout le produit d’IBM qui fait parler de lui — voir notamment notre "webliographie" sélective sur ROSS infra. Et même si, de fait, on peut parler d’une intense campagne de presse, je crois qu’on tient une confirmation d’une amélioration radicale de la recherche documentaire en droit dans les articles sur l’implémentation de ROSS par le petit cabinet d’avocats américain Salazar Jackson : en effet, selon le principal associé de cette firme, ROSS fait les recherches aussi bien et plus vite qu’un jeune collaborateur [61]. Ce que semble confirmer une étude réalisée par une firme indépendante (certes payée par IBM) qui parle d’un gain de temps dans les recherches de 30% [62].

ROSS serait même, soi-disant, capable de résumer sa recherche en un mémo ? L’avocat Rubin Sfadj estime toutefois que la prétendue capacité de ROSS à sortir un mémo est exagérée. Il a raison. C’est ce que Jimoh Ovbiagele, le CTO de ROSS, a fini par reconnaître devant un journaliste du New York Times : des humains se chargent du brouillon produit par ROSS et créent le mémo final, et c’est pour cela que ça prend un jour entier [63].

Bien sûr, ROSS nécessite une interaction homme-machine. Il s’améliore en apprenant des retours des juristes sur ses recherches [64]. C’est donc de l’apprentissage automatique avec supervision [65].

ROSS est pour l’instant spécialisé uniquement dans la jurisprudence américaine en droit de la faillite (US bankruptcy law). Mais la diversité des tâches et des domaines possibles est une caractéristique du machine learning le plus récent (depuis environ 2015). Le cabinet américain Latham & Watkins, implanté à Paris, est en phase de « test » avec ROSS [66], suivi par de plus petites structures et l’Ordre des avocats de Lille.

Le dirigeant et co-fondateur de ROSS Intelligence, Andrew Arruda, expliquait justement en août 2016 :

« La version actuelle du système est utilisée pour aider les juristes spécialisés en procédures collectives travaillant dans des firmes américaines. Les futures versions du système couvriront d’autres domaines du droit et d’autres juridictions. »

Rubin Sfadj estime quant à lui que ROSS sera capable de gérer les textes officiels (en sus de la jurisprudence) français.

Et Watson, l’application d’IBM dont ROSS est dérivé, sert déjà à de multiples tâches. Comme :

Autres exemples de la capacité du machine learning à s’appliquer à tous les domaines :

  • la Lettre de l’Expansion du 16 janvier signale que le réseau social interne développé par Orange, installé chez eux à l’automne 2015 [72] et également vendu par l’opérateur sous le nom de Business Together Sharespace [73] « s’appuie sur la technologie "machine learning" [...] et inclut des robots à même de suggérer à l’utilisateur des informations pertinentes ou des collègues susceptibles d’enrichir son activité »
  • Google a présenté fin novembre un algorithme repérant des signes de rétinopathie diabétique dans des photos du fond d’oeil. Et Facebook comme Microsoft ont dévoilé cette année des systèmes capables de "regarder" des images et en décrire le contenu pour les aveugles [74]

A priori (le manque d’information détaillées sur ROSS étant criant), les limites d’un système comme ROSS, sont :

  • les applications dérivées du Watson d’IBM sont toutes étroitement spécialisées (et non généralistes sur un domaine) et nécessitent d’énormes développements informatiques spécifiques et un très gros travail d’input et d’apprentissage par des experts [75]
  • comme la plupart des bases de données en ligne actuelles, son manque de confidentialité. Je sais que les éditeurs de services en ligne garantissent la "confidentialité" des données de leurs clients, mais de fait, si elles ne sont pas cryptées de bout en bout, elles ne sont pas réellement confidentielles. Il serait intéressant à cet égard de savoir si ROSS crypte les données de ses clients
  • sa dépendance à la "data". Si les données sont incomplètes, non exhaustives ou comportent un biais, les résultats seront biaisés [76]
  • le poids du passé (même s’il pourra certainement intégrer les projets de loi), car la donnée c’est du passé
  • sa dépendance aux compétences des personnes qui "l’entraînent" (cas du machine learning supervisé)
  • son degré d’acceptation par la société, encore limité (cf la dernière partie de ce billet). Toutefois, si l’on s’en tient à l’histoire récente des innovations, les systèmes de machine learning en droit finiront, selon toute probabilité, par être assez rapidement acceptés par les consommateurs de droit. Les professionnels du droit risquent donc, à long terme, de devoir suivre
  • à court et moyen terme, le délai d’implémentation en droit français. ROSS ne pourra pas être implémenté en droit français global avec une pleine efficacité avant un minimum de huit ans. Explication. En son état actuel limité au droit américain des faillites, ROSS aurait été développé en trois ans à partir de Watson. Compte tenu des spécificités du droit français (pas de la common law ... mais pas un véritable problème [77]), de la (relativement) petite taille du marché français du droit, de l’absence pour l’instant de disponibilité en accès libre [78] des décisions de justice judiciaire de première instance [79] avant des années malgré la loi Lemaire pour une République numérique [80], de la nécessité d’un partenariat entre un éditeur juridique et un éditeur de système de machine learning [81], cela devrait prendre au minimum huit ans et peut-être plus. La com’ des légal tech et particulièrement d’IBM sur les performances de leurs logiciels dépasse quelque peu la réalité et envahit même la presse économique et généraliste.

Predictice, Case Law Analytics, Supra Legem : calculer les chances de gagner un procès avec le machine learning

Côté justice prédictive, pour le moment, on n’en est en réalité qu’à une analyse (par chambre, par juge, des montants des dommages-intérêts ou de quel type de camp a gagné) de la jurisprudence disponible et à la recherche en langage naturel sur celle-ci. C’est le sens du billet très mesuré du professeur Dondero cité en introduction. Plus généralement, déjà en 2014, un spécialiste du ML, le professeur Michael Jordan, estimait qu’on attendait beaucoup trop beaucoup trop tôt du deep learning et du big data [82].

Pour l’instant, le ML en droit n’est pas de la véritable intelligence artificielle. Voici la définition de l’IA par le meilleur dictionnaire de langue française, celui élaboré par l’ATILF [83], le Trésor de la langue française (TLF) : « Intelligence artificielle : recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des êtres humains ». Du temps de la lutte entre Microsoft et les autres éditeurs de logiciels de bureautique (années 80), on appelait ça du vaporware : annoncer des sorties d’applications entre 6 mois et 2 ans à l’avance pour pousser les clients à attendre la nouvelle version. Et à ne surtout pas aller chez la concurrence — ici, je dirais : ne pas se servir de ce qui marche déjà très bien, comme les compétences des meilleurs documentalistes juridiques ou l’application Jurisprudence chiffrée (cf juste infra).

L’article précité de Valérie de Senneville aux Echos le souligne :

« pour le moment, " il y a beaucoup d’effets d’annonce ", remarque Jean Lassègue, philosophe et chercheur au CNRS. L’épistémologue, qui a consacré de nombreux travaux à l’informatique, invite à s’interroger sur le problème de la qualification des faits et de leur catégorisation. " La machine ne peut pas régler cela ", affirme Jean Lassegue. »

Ils prédisent vos chances de gagner une action judiciaire (sur Predictice et Case Law Analytics) (Le Parisien 8 octobre 2016). Predictice : grâce aux algorithmes, cette startup est capable de prédire l’issue d’une action en justice et d’optimiser les stratégies contentieuses des avocats (OVH News 7 juillet 2016). Des prétentions un peu exagérées si l’on lit bien les deux documents et qu’on regarde la copie écran chez OVH News. Comme le montre l’article plus réaliste de Libération du 23 février (Justice prédictive, l’augure des procédures), il s’agit en fait essentiellement de lister le type de partie vainqueur et donc d’une certaine façon de donner un pourcentage de chance de remporter un procès sur un type de contentieux, et de déterminer les montants de dommages-intérêts alloués selon la cour d’appel [84].

Concrètement, Predictice est un outil d’aide à la décision à destination des professionnels du droit. Il permet d’accéder à la jurisprudence et aux textes de loi via un moteur de recherche en langage naturel utilisant des technologies de text mining (dependency parsing etc.). Un algorithme calcule les probabilités de résolution d’un contentieux, le montant des indemnités potentielles et identifie les moyens de droit ou les faits les plus influents dans les décisions antérieures rendues par les juridictions. La restitution des analyses se fait sous forme graphique ou statistiques). L’application utilise les technologies de NLP et de ML assisté. Selon son éditeur, Predictice est en cours de commercialisation : pilote auprès de grosses structures (Orange, AXA, Covéa, Dentons, Taylor Wessing) et abonnement sur demande des cabinets d’avocats.

Sur Case Law Analytics, il n’y a pour l’instant vraiment que deux articles à lire : Un outil pour mieux évaluer le risque juridique, lettre Emergences n° 41, 19 mai 2016 et Justice prédictive : vers une analyse très fine du risque juridique ... (entretien avec Jacques Lévy-Véhel, directeur de recherche à l’INRIA et Jérôme Dupré, magistrat en disponibilité, co-fondateurs), Le Village de la Justice 22 mars 2017. Il s’agit en fait ici d’une évaluation probabiliste des dommages-intérêts. Extrait de l’article du Village de la Justice :

« " Il ne s’agit pas de dire la probabilité d’aller au contentieux mais plutôt de d’estimer les sommes d’argent que vous pouvez être condamné à payer dans tel ou tel cas de figure, explique Jérôme Dupré. Nous n’aimons pas l’expression “justice prédictive”, qui est à notre avis trompeuse et parfois même dangereuse. C’est pourquoi nous ne donnons pas un chiffre unique mais une distribution probabiliste des montants de condamnation possibles. Il est difficile de calculer ce risque parce que les aspects procéduraux sont complexes à modéliser pour le moment mais c’est possible dans certains cas. " A l’heure actuelle, trois contentieux sont prêts et peuvent être utilisés : le licenciement sans cause réelle et sérieuse, la prestation compensatoire et la pension alimentaire. Mais la start-up n’entend pas s’arrêter là. »

Il y a, chose rare parmi toutes ces applications de machine learning, une version, gratuite et très limitée, de démonstration pour Iphone et Ipad pour Case Law Analytics. Elle permet d’évaluer une fourchette pour le montant de la pension alimentaire avec les probabilités associées.

C’est quelque chose que l’éditeur juridique Francis Lefebvre avait déjà approché avec son produit Jurisprudence chiffrée fondé sur les faits et chiffres présents dans les arrêts de cour d’appel de la base JuriCA. Jurisprudence chiffrée trouve depuis 2010 des arrêts de cour d’appel correspondants aux critères exacts donnés et le montant des dommages-intérêts. Par exemple, à partir de la profession et l’ancienneté, Jurisprudence chiffrée donne le montant des dommages-intérêts pour licenciement sans cause réelle et sérieuse [85]. Jurisprudence chiffrée utilise un programme qui identifie les zones des arrêts d’appel riches en information de type juridiction, adresse, profession, âge, ancienneté, montant des indemnités etc., isole ces informations et permet de mener une recherche d’arrêts très rigoureuse par ces critères combinés. Mais à l’époque de sa conception, les avancées du machine learning commençaient à peine, il est donc peu probable que Jurisprudence chiffrée utilise le ML [86].

JPEG - 104.5 ko
Interface de recherche de l’application Jurisprudence chiffrée en matière d’indemnité d’éviction (baux commerciaux)

La base (et ouvrage) rivale de LexisNexis Contentieux de l’indemnisation devenue Données Quantifiées JurisData (et accessible par l’onglet Pratique & Outils de Lexis360) est elle, en revanche, faite "à la main", ce qui permet de la ranger dans la catégorie analyse prédictive mais pas dans celle de l’IA [87].

Seule application de "justice prédictive" (en fait, on vient de le voir, de recherche fine et d’aide à la décision) à proposer une démo grandeur nature, qui plus est gratuite, Supra Legem, développée par le fiscaliste, programmeur et data scientist Michael Benesty, aide à améliorer la pertinence et la rapidité des recherches, identifier un revirement de jurisprudence, identifier les moyens de l’administration qui n’ont pas fonctionné, identifier des tendances de certaines chambres, voire prédire des revirements de jurisprudence du Conseil d’Etat [88].

Pour autant, un de mes contacts estime que le machine learning en droit a beaucoup d’avenir si le deep learning non supervisé y perce. Et ce, même sur des marchés juridiques en régression comme le marché français. Imaginons par exemple que les algorithmes de deep learning arrivent à détecter des similitudes ("patterns") indépendantes de la langue et entre les documents juridiques allemands (un marché en meilleure santé) et français : les recherches entreprises sur le droit allemand — un marché bien plus rentable que le droit français — seraient alors transposables et réutilisables en droit français.

On remarque que les éditeurs juridiques français traditionnels (groupe ELS avec Francis Lefebvre, Dalloz et Editions Législatives, Lexbase, LexisNexis SA, Wolters Kluwer France, Lextenso) ne proposent pas de produit incorporant du machine learning. Pour certains, je dirais : pas encore, mais je serais surpris que cela tarde [89] D’autant que ce sont les éditeurs qui possèdent le commentaire de la jurisprudence (dit aussi doctrine). Or en droit français, la donnée qui relie entre elles et permet de comprendre les décisions de justice, c’est la doctrine. Alors qu’en pays de "common law", le "case law" (jurisprudence) contient ses propres liens et son propre commentaire. En effet, le principe du "stare decisis" impose au juge anglo-saxon de citer les précédents pertinents et les juges des cours donnent leur "opinion" — autrement dit, ils commentent leur propre décision, chose impensable en France [90].

Pourquoi une montée des "IA" en droit ?

Une des raisons de la probable montée de ces systèmes : les économies réalisées. C’est, avec la rapidité, LE motif mis en avant par le managing partner d’une "small law firm" spécialisée en droit américain des faillites, le domaine de ROSS.

A noter, hors cabinets d’avocats, que la Justice a justement un problème budgétaire criant, reconnu par Jean-Jacques Urvoas, le ministre de la Justice lui-même ... [91] Une tribune iconoclaste aux Echos, rédigée par des non juristes (évidemment ...), propose d’ailleurs de confier la justice française à l’intelligence artificielle [92]. Et confirmation le 5 avril : la proposition n° 48 du rapport de la mission d’information sénatoriale sur le redressement de la justice présidée par Philippe Bas (voir pp. 20, 21 et 36 du dossier de presse) consiste à « mettre les outils de la "justice prédictive" au service du bon fonctionnement de la justice et de la qualité des décisions de justice et prévenir leurs dérives possibles » [93].

Impact prévisible des "IA" sur les jeunes collaborateurs, stagiaires, paralegal et documentalistes juridiques ?

Ces outils auront aussi un impact sur la recherche — et donc la veille — documentaire juridique : les tâches répétitives et "découpables" en petits morceaux seront robotisées, les autres ne le seront pas. Par exemple, ROSS réalise la recherche booléenne et la première analyse des résultats. Selon les termes d’Andrew Arruda [94] (traduction par nos soins) :

« La technologie AI de ROSS remplace le besoin d’utiliser les opérateurs et mots-clés de la recherche booléenneed par du langage ordinaire. Si un juriste d’affaires a besoin de connaître la différence entre les deux concepts juridiques "loss" et "recoupment", tout ce dont le juriste a besoin est de demander à ROSS : "Quelle est la différence entre "loss" et "recoupment" ?
Le résultat fourni par le système va au-delà de la simple identification des arrêts pertinents. Au lieu de cela, il attire l’attention du juriste sur les passages clés dans l’affaire qui devrait répondre idéalement à la question posée.
Quand vous posez une question à ROSS sur l’état du droit, vous la posez comme vous le feriez avec un collègue humain. ROSS découpe la phrase pour déterminer le sens de la question, puis conduit la recherche. »

Autrement dit, ROSS reste un moteur de recherche (nettement) amélioré. Ce n’est pas une véritable IA. Il ne menace guère que la fonction recherche — et encore : lisez ce qui suit.

Autrement dit encore, si on se projette dans environ huits ans [95], plus le travail du documentaliste juridique français procédera, comme le dit Jean Gasnault (La Loi des Ours), « d’heuristiques pointues pratiquant pour partie un mode intuitif (opérer par rapprochements semi conscients) », et j’ajouterais : plus il aura une conscience d’artisan et d’expert de haut vol (notamment dans la maîtrise des sources méconnues ou mal indexées [96]), moins au final il aura de chances d’être automatisé.

Mais aussi : plus il travaillera *avec* l’IA. Le documentaliste, le veilleur, le paralegal, le stagiaire juriste, le collaborateur, l’éditeur vérifieront, compléteront et amélioreront le travail de l’IA [97]. Quelques exemples donnés par J. Gasnault : « La préparation [des] données est essentielle pour un bon fonctionnement des algorithmes les traitant. Les documentalistes ont une carte à jouer dans cette évolution, en raison de leur compétence spécifique d’enrichissement des données. Cela donne un axe bien identifiable de progression de leurs connaissances : métadonnées, FRBR, normes ELI-ECLI, etc. »

Il y a bien d’autres chose qu’un documentaliste juridique apporte *en plus* d’un robot. Sur ce sujet, voir notre billet Documentaliste : un nouveau métier, de nouveaux noms. Pour ne pas rallonger le présent billet, je me contenterai de (re)citer une bibliothécaire documentaliste juridique américaine [98] :

« L’IA est itérative et continuera à s’améliorer, mais elle ne sait pas grand chose du facteur qu’est le contexte de la question posée ni comment le gérer. Pour que l’IA soit utile dans des recherches complexes (et non juste des recherches sur références bibliographiques) dans la plupart des structures juridiques, j’estime qu’elle aura besoin d’apports significatifs en savoir interne. Il est déjà difficile de faire correctement (voire de faire tout court) du KM. Comment alors allons nous documenter le savoir historique de la structure de manière à ce qu’un robot puisse correctement l’interpréter et l’appliquer ? Ce qui est saisi ne constitue pas réellement la totalité de la requête que l’on entre dans une machine : il y a bien plus de choses à préciser pour que la machine puisse fournir une réponse. »

La journaliste britannique Joanna Goodman, dans son ouvrage précité Robots in Law : How Artificial Intelligence is Transforming Legal Services écrit que l’IA pour les juristes n’est pas une option. Selon elle, les juristes qui accepteront la réalité de l’IA et l’incorporeront dans leur pratique professionnelle sont ceux qui réussiront le mieux dans les années à venir, car l’IA modifie le partage de la valeur entre les acteurs de la "chaîne" juridique. Lire à ce propos le compte-rendu du livre par Robert Ambrogi [99].

Une autre façon, française cette fois et plus diplomate, de formuler cela : en partenariat avec Predictice, le bâtonnier de l’Ordre des avocats au barreau de Lille a dû convaincre ses collègues [100] :

« Il faut tuer tout de suite le fantasme, ça ne remplacera pas les avocats dont les analyses ne peuvent être automatisées »

Selon lui, il s’agit plutôt d’un outil stratégique :

« Le défenseur peut, entre autres, voir quelle juridiction sera la plus encline à rendre une décision favorable à son client. »

Pour les postes de paralegal orienté recherches et veille (par exemple, les spécialistes de la recherche, de la veille et de l’enregistrement des brevets) et pour les jeunes collaborateurs (qui font aux Etats-Unis énormément de recherches, ce qui correspond en France aux stagiaires, mais en font aussi beaucoup en France durant leur première année), une étude d’Altman Weill datant de 2015 est pessimiste [101]. La brève précitée de la Lettre de l’Expansion est encore plus explicite : « Watson [...] est réputé pour son rôle dans la destruction d’emplois ». Pour les autres paralegals, le risque à court terme, surtout en France, est faible mais à long terme, leurs tâches découpables seront probablement automatisées.

Plus généralement, de nombreux entrepreneurs millionnaires comme Bill Gates ou Elon Musk (voitures électriques Tesla) et des scientifiques comme l’astrophysicien Stephen Hawking ou le docteur Laurent Alexandre (fondateur de Doctissimo) estiment que l’IA va créer du chômage et que les conséquences sociales de cette nouvelle révolution sont encore largement sous-estimées. Elon Musk estimait par exemple le 15 février 2017 que les conducteurs professionnels (soit 15% de la population active mondiale) pourraient se retrouver sans emploi dans les 20 prochaines années, et qu’il y aura de moins en moins de métiers qu’un robot ne pourra pas faire [102]. Le cabinet américain Forrester anticipe, pour le marché de l’emploi des Etats-Unis, une disparition nette de 7% des jobs d’ici 2025 imputable à l’automatisation [103]. Et on ne parle même pas ici de l’ubérisation [104].

Les spécialistes de l’intelligence artificielle, eux, vont même plus loin : un sondage auprès de 352 chercheurs en IA également auteurs d’articles [105] a donné le résultat suivant : selon eux, il y a une chance sur deux que l’IA sera plus ou moins meilleure que les humains à à peu près tout dans 45 ans.

Mais le magazine Business Insider, en rendant compte [106] de ce pre-print appelle à la prudence. Il commence par rappeller que de nombreuses prédictions d’experts dans le passé se sont avérées fausses. Surtout, Business Insider explique que : « Quarante ans est un chiffre important lorsque les humains font des prédictions parce que c’est la durée de la vie active de la plupart des gens. Donc, si un changement est censé se réaliser après, cela signifie qu’il se produira au-delà de la durée de vie active de tous ceux qui travaillent aujourd’hui. En d’autres termes, il ne peut se produire avec une technologie dont les experts d’aujourd’hui ont une expérience pratique. Cela suggère qu’il s’agit d’un chiffre à traiter avec prudence ».

Surtout, comme l’explique Olivier Ezratty, les livres et articles sur l’impact de l’IA sur l’emploi font l’impasse sur plusieurs points clés [107] :

  • « au démarrage des précédentes révolutions industrielles, les métiers disparus comme les nouveaux métiers ont rarement été bien anticipés »
  • un phénomène induit par le numérique et qui n’a rien à voir avec l’intelligence artificielle : « le transfert du travail non pas seulement vers les machines mais aussi vers les clients » (exemples des formulaires et modèles de contrats en ligne que nous remplissons nous-mêmes et des guichets automatiques bancaires)
  • ils se focalisent sur la situation aux Etats-Unis, ignorant la plupart du temps totalement le reste du monde
  • ils ont « bien du mal à faire le tri dans les évolutions de l’emploi entre ce qui provient de l’automatisation, de la globalisation et de la concurrence asiatique dans l’industrie manufacturière et même indienne, dans les emplois concernant les services informatiques. L’emploi a surtout migré géographiquement. Les emplois perdus dans l’industrie aux USA et en Europe se sont retrouvés en Asie » [et en Europe de l’Est].

Autre publication relativisant les choses : selon un rapport du 10 janvier 2017 du Conseil d’orientation pour l’emploi (COE) [108], moins de 10% des emplois sont "très exposés" aux mutations technologiques et présentent donc le risque d’être supprimés, mais près de la moitié devront évoluer [109]. Les emplois juridiques évoqués supra ne sont pas dans la liste des 10% du COE. Et Anne-France de Saint-Laurent Kogan, spécialiste des transformations du travail liées au numérique, tempère elle aussi les choses [110].

Menée par les professeurs américains Dana Remus (Faculté de droit de Université de Caroline du Nord) et Frank Levy (économiste, Massachusetts Institute of Technology, le fameux MIT), une étude publiée en novembre 2016 suggère que l’IA a « un effet modéré » sur des métiers tels que la recherche documentaire juridique et la rédaction de contrats [111]. L’étude indique que les tâches précitées représentent environ 40% de la facturation globale des avocats.

Cela dit, selon cette étude — un gros article scientifique de 77 pages publié sur le Legal SSRN —, l’impact estimé de l’IA sur des domaines tels que le "fact-checking" (vérification des faits, typique du droit anglo-saxon), le conseil aux clients, la gestion électronique de documents (GED), la rédaction de conclusions et les audiences — le tout représentant près de 55% des heures facturées — est « faible ».

Mais l’intelligence artificielle a un rôle plus important à jouer dans d’autres domaines. Selon l’étude, l’impact estimé de l’IA sur l’examen de documents ("document review", là aussi une procédure inconnue en droit français) — qui consiste essentiellement à passer en revue de grandes masses de documents pour y chercher les détails pertinents dans le cadre d’un contentieux — est « fort ». Heureusement pour les avocats anglo-saxons, l’étude ajoute que cela représente seulement 4% des heures facturées [112].

Le professeur Joël Monéger, spécialiste des baux, dans une tribune à la revue Loyers et Copropriété [113], formule ainsi les possibilités et les limites de la justice prédictive à la française :

« Prévoir le droit positif tient [...] de la gageure. [...] Certes, la prédictibilité de la solution paraît possible lorsque la plus haute juridiction a tranché le point de droit avec fermeté et de manière répétée. De même, semble-t-il, lorsqu’elle donne des signes annonciateurs d’un revirement possible de la jurisprudence. Mais, au-delà, la jurisprudence, même émanant de nos plus hautes juridictions, est bien souvent délicate à prévoir, notamment face à des textes récents, mal rédigés, ou à des textes en décalage grave avec les réalités sociales ou économiques. Cela tient à l’art de la rédaction des arrêts qui suppose un lecteur formé au décryptage de formules insuffisamment enseignées. De plus, la Cour de cassation ne peut pratiquer l’ultra petita et ne répond qu’aux moyens du pourvoi. »

Pour l’illustrer, il donne l’exemple de deux jurisprudences récentes de la Cour de cassation.

IA en droit et science-fiction ou les risques de la justice prédictive

Et si on en arrivait là où Google semble être arrivé du fait de l’intégration de machine learning dans ses algorithmes (ses ingénieurs ne savent plus totalement en détail comment leur moteur fonctionne : en tout cas, c’est ce que dit un scientifique chez un rival, Qwant [114]) ? Car c’est un fait : l’IA à base de ML est impénétrable [115]. En arriverait-on à ce que ROSS n’est pas — en tout cas pas encore —, c’est-à-dire une véritable intelligence artificielle ?

Les risques :

  • on ne saurait ni qui exactement nous juge ni pourquoi on nous condamne
  • et "power to the machine". On ferait plus confiance à l’algorithme qu’à l’humain, dans une époque méfiante vis-à-vis de la Justice. La situation et ce risque sont assez bien décrits dans une brève intervention sur France Inter.

La science-fiction a déjà envisagé ces risques (nous ne parlerons pas ici des lois de la robotique d’Asimov, non pertinentes ici et de toute façon déjà dépassées [116].) :

  • le tome 3 de la bande dessinée SOS Bonheur, un classique du genre publié en 1989 [117] parle de justice automatisée : chaque avocat soumet ses conclusions dans une machine et la machine rend son verdict, le juge n’est là que pour contrôler le bon fonctionnement de cette dernière. Ainsi la justice est aveugle et équitable puisqu’elle est censée rendre le même verdict pour tous ceux qui sont dans la même situation sur tout le territoire. Jusqu’au jour où la machine condamne un homme qui a commis un délit mineur à la peine de mort alors que cette dernière a été abolie il y a déjà de nombreuses années. Peut-on désobéir à la machine au risque de remettre en cause tous les autres jugements déjà rendus ?
  • nous avons (presque) tous vu le film Minority report de Steven Spielberg avec Tom Cruise (d’après la nouvelle éponyme de Philip K. Dick). Même si ce sont des êtres humains spéciaux (des"precogs") qui y tiennent le rôle des logiciels et des données et statistiques, le sens en est clair :
    • les programmes sont écrits par des êtres humains, dans l’intérêt de certains
    • et comme tels seront toujours biaisés. Particulièrement si l’information qui y est entrée est biaisée. Le machine learning a tendance à reprendre et aggraver les biais humains parce que c’est une technologie ultra dépendante des données qu’on lui fournit. Illustrations récentes aux USA avec les programmes prédictifs de la police [118]. Antoine Garapon évoque lui aussi ce risque. Pour une vue plus large et un point sur les principaux programmes en cours.
JPEG - 29.6 ko
L’ouvrage Minority report de Philip K. Dick avec pour couverture l’affiche du film

Si le machine learning finit, ce qui est probable selon nous (cf supra), par être utilisé par le juge, il est à espérer que les conclusions d’Antoine Garapon et Marc Clément (dans les articles de revues juridiques cités au début de ce billet) s’imposeront :

Eviter le risque de « l’effet "moutonnier" de la justice prédictive qui pousse au conformisme et réclame plus aux juges qui estiment qu’ils doivent aller à contre-courant, c’est-à-dire faire leur métier tout simplement ! »

« Il sera donc capital que les modes de raisonnement inscrits dans les algorithmes soient parfaitement explicites et maîtrisés par le juge. Il conviendra, de plus, que des méthodes alternatives soient proposées et que l’on ne se retrouve pas en situation de monopole avec une seule technologie utilisable. »

Concernant la justice prédictive, Rubin Sfadj, dans son entretien avec la revue Expertises, souligne que lorsque les outils de justice prédictive seront utilisés par la puissance publique, cet usage devrait reposer sur trois grands principes éthiques — qui, à bien les lire, ne sont pas si exigeants que ça :

  • le principe de responsabilité conduisant à désigner pour chaque algorithme utilisé une personne référente, à l’instar du directeur de publication en droit de la presse
  • le principe de clarté, c’est-à-dire la mention explicite dans une décision de justice élaborée avec l’aide d’un algorithme de ce procédé et la motivation sur laquelle repose le recours à ce type d’outil
  • le principe de précision permettant de corriger une source d’erreur à tout stade du traitement algorithmique.

Quant aux juges, leur réplique à la justice prédictive est déjà prête : "Convainquez-nous avec des arguments juridiques, peu nous chaut vos statistiques". Le Conseil d’Etat, par la voix de Christian Vigouroux, lors du colloque sur l’open data de la jurisprudence organisé en octobre par la Cour de cassation, a déjà prévenu que la juridiction administrative suprême ferait en sorte que le juge administratif ne puisse pas se voir opposer sa propre jurisprudence [119]. Côté justice judiciaire, selon Xavier Ronsin, premier président de la cour d’appel de Rennes [120] :

« L’hypothèse selon laquelle des plaideurs assistés d’avocats, renonceraient à aller jusqu’au bout d’un contentieux judiciaire classique, parce qu’ils auraient lu les résultats d’un logiciel dit de "prédictibilité de la justice" et qu’ils décideraient alors de transiger, est contestée par beaucoup et mérite à tout le moins d’être vérifiée. Lorsque l’on constate la difficulté de faire aboutir les "modes alternatifs de règlement des litiges (MARD)", il y a de quoi être sceptique, mais pourquoi ne pas l’espérer ?
Au-delà d’un refus de principe sur la possibilité d’enfermer la future décision d’un juge dans le raisonnement d’un algorithme basé sur des "précédents jurisprudentiels", je pense malgré tout que les magistrats doivent se préparer à comprendre ce processus, et à recevoir des dossiers d’avocats comportant des analyses savantes ainsi que des contenus statistiques de milliers de décisions au soutien d’une thèse et de prétentions de leurs clients. De tels dossiers n’empêcheront de toute façon pas la liberté du juge de faire du "sur-mesure" pour chaque dossier, mais ils pourront peut-être éclairer son raisonnement. »

Du côté des avocats, Pascal Eydoux, président du Conseil national des barreaux (CNB) estime qu’ « il n’est pas question que la profession d’avocats envisage de s’opposer à cette évolution car elle est inéluctable et attendue ». Sanjay Navy, avocat à Lille où il a testé Predictice, pense que « ça peut permettre de dire à l’adversaire : "regardez les condamnations en moyenne, négociez sinon vous risquez d’être condamné à tant, ce n’est pas moi qui le prétends, mais la jurisprudence !" ».

Cependant, les avocats craignent aussi une certaine déshumanisation ou une justice au rabais, voire un possible risque de "fainéantisation". Comme le formule Me Navy lui-même : « On vient me voir avec un problème, je tape sur le logiciel, j’ai 90% de chances de le perdre, donc je ne prends pas le dossier alors qu’en s’y penchant bien, je pourrais soulever un point particulier et gagner. » [121]

Certains vont plus loin, en proposant voire exigeant que le code des applications sur lesquelles se fonde une décision de justice soit disponible en open source. Pour reprendre les mots de Michael Benesty : « la confiance que l’on placerait dans des outils de justice prédictive implique, au cours du processus, que le calculs et les caractéristiques du modèle de prédiction soient visibles et compréhensibles par le juriste, avocat ou magistrat, qui les emploie. Cela se traduit par une obligation de transparence sur les algorithmes, que garantit la libération en open source de la solution autant que par une vigilance et une expertise juridique sur les données mobilisées. » [122] Le code de Supra Legem, l’application de M. Benesty, est déjà en open source [123].

Un article de la série Futurography sur Slate.com, propose une troisième voie entre secret et open source. Un amendement à loi fédérale américaine FOIA (Freedom Of Information Act [124]) donnerait le droit au public de soumettre des jeux de données tests à l’administration. Celle-ci devrait les passer à travers ses programmes et publier les résultats. Experts et journalistes pourraeint alors calculer le taux d’erreur de ces algorithmes [125].

Selon un article d’Internet Actu [126], l’évolution des technologies d’IA pourrait permettre de sortir de l’opacité du fonctionnement de deep learning pour les humains. Algorithmes génétiques et IA symbolique, par exemple, peuvent être compris et débuggués. Il serait aussi possible de demander au programme d’expliquer ce qu’il fait.

En France, notre droit permet en tout cas de demander communication du code source des logiciels créés et utilisés par l’Administration, au titre de la communication des documents administratifs. La Commission d’accès au documents administratifs (CADA) [127] puis le tribunal administratif (TA) de Paris [128] l’ont confirmé à propos du logiciel simulant le calcul de l’impôt sur les revenus des personnes physiques. La DGFiP s’est résolu à s’y conformer l’an dernier, juste avant que le TA ne rende sa décision. La CADA a enfoncé le clou en 2016 en autorisant la communication à une association de lycéens du code source du logiciel Admission post bac (APB) [129]. Le Ministère de l’Education nationale s’y est conformé partiellement [130].

Ne pas oublier non plus que l’article 11 du règlement (européen) général de protection des données (GDPR), applicable en 2018, interdisent toute décision automatisée qui affecterait significativement un citoyen européen — toutefois cela a de fortes chances de rester un principe sans application concrète — et que les articles 12 et 14 créent, pour les autres décisions, un "droit à explication" [131]. Une décision de justice prédictive, par exemple [132].

Enfin, du côté des structures privées (les cabinets d’avocats les premiers), les meilleures n’auront-elles pas intérêt à maintenir une expertise en recherche et veille afin de contrôler la pertinence des réponses (car un mémo fourni par ROSS serait bel et bien au minimum une amorce de réponse) ? Attention aux biais dans les contenus et les statistiques ... Pour le dire en anglais : « Content experts and data scientists needed ! »

ROSS, Predictice, Case Law Analytics, des inconnus

Mais pour éviter de trop conjecturer et en apprendre plus, il serait bien de pouvoir tester ces IA. Et de lire autre chose que des communiqués à peine dissimulés.

En effet, il n’existe aucune démo gratuite en accès libre de ROSS ni de Predictice, le site web du produit ROSS est d’un vide intersidéral (le compte Twitter est beaucoup plus riche !) et les cabinets d’avocats utilisateurs ne lâchent aucun exemple d’utilisation ni de recherche ni aucun autre détail.

C’est là que la libre disponibilité de l’interface et du code source de Supra Legem remplit son office : permettre de tester un outil de "justice prédictive".

Emmanuel Barthe
bibliothécaire documentaliste et veilleur juridique, spécialiste des moteurs de recherche pour le droit et des données juridiques publiques
licence en droit, Faculté de droit de Sceaux


Une "webliographie" sélective et rapide sur ROSS :


Les limites de la diffusion des décisions de justice

L’open data des décisions des cours d’appel et tribunaux n’est pas pour demain

Quelles voies emprunter pour y arriver ?

Vendredi 28 juillet 2017

Roseline Letteron, professeur de droit public à l’Université Paris-Sorbonne, a publié le 28 novembre 2016 sur son blog Liberté Libertés Chéries le billet suivant : Le mythe de la liberté d’accès aux décisions de justice. NextINpact, écrivant sur les futurs décrets d’application de la loi Numérique, titraient quant à eux le 29 décembre 2016 : Loi Numérique : la mise en Open Data des décisions de justice prendra "plusieurs années".

Avec le développement ces dernières années de l’open data [133], le thème de l’imperfection de la diffusion des décisions de justice est devenu une "tarte à la crème". Répondre à ces deux articles me donne l’occasion de l’analyser ici en détail.

Sommaire

Précisions à apporter au billet du professeur Letteron
Pseudonymisation : un nouveau mot. Anonymisation : un nouveau sens
Pourquoi l'open data de la jurisprudence du fond restera longtemps en "stand-by"
La loi Lemaire et les moyens nécessaires
Pseudonymiser et anonymiser : un travail énorme et difficile
La responsabilité juridique des pouvoirs publics
La délicate question des décisions pénales et des tribunaux de commerce
Un calendrier prévisionnel mais incertain
Conclusion - Mission impossible pour les pouvoirs publics ? - Et les acteurs privés ?

Précisions à apporter au billet du professeur Letteron

J’aimerais déjà apporter plusieurs précisions au billet du professeur Letteron :

- Sur l’application de la directive "PSI" aux décisions de justice

A propos de la directive 2003/98 du 17 novembre 2003 concernant la réutilisation des informations du secteur public (dite "PSI") qui mentionne que son champ d’application s’étend aux « documents [...] de la filière judiciaire [134] et de la filière administrative », ce qui justifie l’open data de *toutes* les décisions de justice judiciaire, il faut apporter plusieurs précisions :

  • cette mention est dans le considérant 16 de la directive. Elle n’est pas affirmée par un article de celle-ci
  • de surcroît, ce n’est que tout récemment, dans le débat autour du projet de loi Lemaire pour une République numérique, que ce considérant a commencé à être invoqué
  • pour bien faire comprendre l’importance de cette précision : ce considérant tend à dire que les décisions de justice sont des données publiques *réutilisables*. Or, jusqu’ici, le droit français classait la jurisprudence dans des données non administratives (séparation des pouvoirs ...) et donc, ipso facto, non réutilisables au titre du droit français résultant de la transposition de la directive.
    Seule la CADA, dans un avis peu connu Ministre de la justice n° 20103040 du 27 juillet 2010 que Mme Letteron cite, avait jusqu’ici tenté d’aller contre cette position restrictive, sans d’ailleurs évoquer le considérant 16 mais l’article 11-3 de la loi n° 72-626 du 5 juillet 1972 selon lequel « les tiers sont en droit de se faire délivrer copie des jugements prononcés publiquement ».
    A l’origine de cette position restrictive sur la réutilisabilité de la jurisprudence au titre de la directive, il y avait la façon très française de transposer la directive PSI initiale, en associant étroitement, par la rédaction de la "loi CADA" du 17 juillet 1978, communicabilité des documents administratifs et réutilisabilité des informations (données) publiques. Pour simplifier : document administratif = document communicable = document réutilisable. Donc, selon cette conception peu partagée par les autres Etats membres de l’UE, si des données publiques étaient contenues dans un document non administratif, elles n’étaient pas réutilisables ...
    La saisine de la CADA réagissait probablement contre l’arrêt Bertin du Conseil d’Etat rendu seulement deux mois et demi mois auparavant et d’ailleurs cité dans l’avis (CE n° 303168 du 7 mai 2010) : en définissant de manière extensive la notion de document juridictionnel et en affirmant sa non-communicabilité, il pouvait menacer la réutilisation de la jurisprudence par les licences Legifrance, tant gratuite pour une réutilisation ponctuelle, que payantes, en place à cette époque depuis 2002.

- Accès à JuriCA

Selon Mme Letteron :

« Les décisions des cours d’appel figurent dans une base de données gérée par la Cour de cassation, JuriCA, souvent présentée comme "un outil de communication et de recherche" indispensable à la "construction des savoirs juridique et sociologique. C’est sans doute vrai pour les magistrats qui bénéficient, heureusement, d’un accès direct et gratuit par l’intranet Justice. Pour les autres, leur curiosité scientifique n’est pas suffisante pour justifier un accès à JuriCA. Il faut aussi de l’argent, et même beaucoup d’argent. »

Pourtant, la curiosité scientifique, si elle émane d’une équipe ou d’un chercheur universitaire, peut être suffisante pour justifier un accès *gratuit* à JuriCA et ce, depuis au moins 2009, grâce aux conventions de recherche entre équipes de master et Cour de cassation [135].

- La position de la CADA sur les décisions de justice

Le professeur Letteron écrit :

« Dans un conseil du 27 juillet 2010, [la CADA] s’estime compétente pour rendre un avis sur toute décision défavorable en matière de réutilisation des informations publiques contenues dans des jugements ou arrêts judiciaires. En revanche, dans un avis du 28 avril 2016, elle déclare irrecevable une demande dirigée contre le refus opposé par la Cour de cassation à un accès aux décisions contenues dans JuriCA, en vue de leur réutilisation. Celles-ci ne sont pas considérées comme des "documents administratifs" au sens de la loi du 17 juillet 1978. Autrement dit, la CADA est incompétente pour se prononcer sur l’accès aux décisions de justice [...] »

Le refus de la CADA de reconnaître le caractère de document administratif — donc communicable — aux décisions de justice ne date pas de 2010 : il remonte au minimum à 2005 [136].

Quant à son avis du 27 juillet 2010, comme nous l’avons vu plus haut, il s’agit selon toute probabilité, vu le contexte, d’une décision d’exception au sens premier du terme, destinée à protéger les licences Legifrance potentiellement menacées par l’arrêt Bertin précité.

Ajoutons enfin que la CADA ne rend que des avis — c’est le Conseil d’Etat qui tranche. Et justement, jusqu’à aujourd’hui, le Conseil d’Etat ne s’est jamais prononcé sur la réutilisation de décisions de justice en tant que données publiques, uniquement sur la communicabilité de documents juridictionnels qui n’étaient pas des décisions de justice

- La loi Lemaire pour une République numérique du 7 octobre 2016 est allée un peu plus loin que l’état du droit décrit dans le billet du professeur Letteron : ses articles 20 et 21 créent un principe de mise à disposition gratuite de toutes les décisions de justice, administrative comme judiciaire, et de tout niveau (de la 1ère instance aux cours suprêmes).

- Mme Letteron félicite Doctrine.fr pour son action pro-open data. lI est toutefois difficile de penser que cette action pro-open data soit totalement désintéressée. L’intérêt des legal techs françaises dans le débat actuel est en partie d’ordre financier : si l’Etat se met à diffuser même les jugements des tribunaux et paye pour ces traitements de données, les barrières d’entrée sur ce marché tomberont et les entrants sur le marché n’auront plus à faire de lourds investissements. Il n’est pas question que d’open data ici, il est aussi question de concurrence.

Pseudonymisation : un nouveau mot. Anonymisation : un nouveau sens

Dans ce billet, nous utiliserons le terme anonymisation dans son nouveau sens fort d’impossibilité de réidentification des personnes physiques. Le simple remplacement des noms par des lettres porte désormais le nom de pseudonymisation.

Pour deux raisons :

  • parce que ce qu’on appellait communément "anonymisation" (remplacer des noms par des lettres) n’assure qu’un anonymat très relatif : bien souvent les circonstances, les faits relatés dans la décision de justice permettent par recoupement de retrouver l’identité des parties. Pire, les pseudonymes ne sont pas supprimés selon les règles actuellement utilisées [137] et les noms de personnes dans les noms de sociétés non plus [138]. Pour être plus précis, on utilise donc désormais le terme de pseudonymisation
  • l’autre raison de ce changement de vocabulaire et la plus importante, est le Règlement général de protection des données du 27 avril 2016 (RGPD) [139] qui s’appliquera à partir de mars 2018. Selon le RGPD [140], l’anonymisation consiste à empêcher une réidentification selon l’état actuel de l’art. Si une décision de justice laisse possible une réidentification indirecte, alors elle n’est pas réellement, véritablement anonymisée. Et si elle n’est pas anonymisée, alors elle est soumise au droit des données personnelles institué par le RGPD et donner lieu à déclaration, être soumise au consentement des personnes physiques citées etc., traitement lourd et impraticable dans le cadre de l’Open data.
    Autrement dit et en une phrase, le RGPD exige, pour ne pas appliquer toute la rigueur du droit des données personnelles, que la base soit anonymisée au sens fort où, en l’état actuel de l’art, la réidentification est impossible.

Pourquoi l’open data de la jurisprudence du fond restera longtemps en "stand-by"

Maintenant, sur le débat de fond :

- Si l’on tient pour le principe de transparence et pour l’objectif de diffusion du droit, la mise à disposition gratuite de toute la jurisprudence au format numérique est LA position, dans l’idéal.

- Mais même dans l’action publique, le nerf de la guerre (je n’ai pas dit le principe de toute chose) reste l’argent. Surtout en ces temps de recettes fiscales — et donc de budgets publics — en baisse.

Les montants disponibles à la DILA, au Ministère de la Justice, à la Cour de cassation et dans les juridictions du fond pour structurer, traiter, pseudonymiser (a fortiori anonymiser) et diffuser les arrêts des cours d’appel (base Jurica) sont limités (cela dit, ces montants étaient bien plus limités avant l’arrivée de Legifrance). C’est d’abord pour cette raison que les éditeurs ont longtemps eu de facto le monopole de la diffusion de la jurisprudence : leurs clients avaient les budgets pour financer indirectement ce travail.

La loi Lemaire et les moyens nécessaires

La loi du 7 octobre 2016 pour une République numérique parle d’open data des décisions du fond (articles 20 et 21).

Mais les moyens nécessaires, tant techniques (ils sont aujourd’hui connus des experts : XMLisation de tous les documents avec DTD ou schéma XML, rénovation massive du parc informatique et augmentation très importante du débit des connexions intranet et internet) que humains (augmenter les effectifs des greffiers, aujourd’hui débordés), et également financiers, ne sont pas du ressort de cette loi — ni d’aucune autre d’ailleurs :

- En réalité, aujourd’hui, une décision facile à structurer (pour qu’elle soit aisée à mettre en base de données) et à pseudonymiser serait, idéalement, un fichier XML balisé avec une centaine de champs minimum et doté de liens vers d’autres fichiers XML. Produire de la jurisprudence judiciaire de 1ère et 2ème instance structurée supposerait donc :

  • élaboration par les services informatiques de la juridiction judiciaire suprême et ceux de la chancellerie, avec les magistrats, d’une DTD ou d’un schéma XML (il existe une première version pour les arrêts de la Cour de cassation) et sa validation par le ministère
  • des moyens en infrastructure (connexion, matériel, logiciels) pour l’instant indisponibles en juridiction
  • une révolution (très contraignante) dans la façon pour les magistrats de rédiger une décision.

- Pouvoir gérer les volumes en cause : si les juridictions administratives ne rendent "que" 230 000 décisions par an, les juridictions judiciaires en produisent, elles, près de 3,8 millions par an dont 1,2 million en matière pénale ... Le tout avec 32 000 ETP [141] seulement en greffiers et magistrats [142].

- Numériser les décisions de première instance. Ronan Guerlot, adjoint au directeur du Service de documentation, des études et du rapport (SDER) de la Cour de cassation [...], cité par Libération, estime qu’il faudra patienter quatre à cinq ans une fois que le décret d’application de la loi sera entré en vigueur pour informatiser toutes les décisions de justice. « Le plus difficile sera de faire remonter les décisions de première instance du TGI. Nous disposons souvent de minutes [original d’un acte de justice, ndlr] papier, il faudra donc créer des outils informatiques », explique-t-il. En revanche, pour la justice administrative, c’est déjà prêt : les décisions des cours administratives d’appel sont déjà sur Legifrance et celles des tribunaux administratifs sont déjà en base de données — mais cette dernière n’est pas accessible au public et n’a in fine pas été mise en vente aux éditeurs.

- Les institutions, très logiquement, étaient axées sur les juridictions suprêmes et non sur les cours d’appel et les tribunaux. Sans compter un refus très latin de la "case law". Praticiens et éditeurs ont toujours su, eux, l’importance de la jurisprudence et particulièrement des arrêts d’appel. Pour autant, et comme le souligne le premier commentaire sous l’article de NextINpact (commentaire laissé par un avocat, de toute évidence), la grande masse des décisions des tribunaux est et restera « inintéressante au possible » [143].

Pseudonymiser et anonymiser : un travail énorme et difficile

Sur l’obligation de pseudonymisation [144] (on ne parle plus d’anonymisation mais de pseudonymisation, voir en introduction de ce billet) avant de publier une décision de justice sur Internet :

- Jurisprudence administrative : peu ou pas de problème pour pseudonymiser (replacer les noms par des lettres) les décisions des juridictions administratives : les noms de parties dans leurs décisions sont balisés/taggués dans le XML.

- Jurisprudence judiciaire :

  • le Service de documentation, des études et du rapport de la Cour de cassation (SDER) doit reprendre en 2017 les tâches confiées jusque là à la DILA [145]
  • il faut distinguer ici trois, voire quatre chantiers d’anonymisation : 1. celui des arrêts de la Cour de cassation (25 600 affaires terminées en 2015) — déjà réglé, pour les inédits (base CASS) comme pour les publiés au Bulletin (base INCA) —, 2. celui des arrêts civils de cour d’appel (base Jurica) (236 000 décisions en 2015), 3. celui des jugements des tribunaux civils (2,55 millions sans compter les tribunaux de commerce [146], mais en incluant TGI, TI, juridictions de proximité, TASS et Conseils de prud’hommes) et 4. celui de la jurisprudence pénale du fond [147] (1,2 million) [148].
    En effet, les décisions de la Cour sont la plupart du temps brèves et sobrement motivées, donc relativement faciles et rapides à anonymiser. Les arrêts d’appel, eux, sont nettement plus prolixes et donc plus complexes et plus longs à anonymiser. Et la masse des décisions de civiles de première instance, même si elles sont souvent brèves et très sobrement motivées comme bizarrement celles de la Cour de cassation (mais pas pour les mêmes raisons), est écrasante. Enfin, les décisions du fond en matière pénale, jusqu’ici diffusées ni par Legifrance ni par JuriCA, nécessitent du fait même de la matière plus de précautions, même si elles sont souvent peu ou pas motivées
  • en première instance, il restera, une fois celui-ci numérisé, à anonymiser l’énorme stock purement papier évoqué par M. Guerlot du SDER (voir supra).

- L’absence de schéma ou DTD XML rend l’anonymisation extrêmement difficile. Plus encore sur les décisions judiciaires dont la structure et le langage sont beaucoup moins systématiques et réguliers qu’en jurisprudence administrative.

- Pseudonymiser, en effet, ne se limite pas à faire du Rechercher Remplacer sur les seuls noms de personne contrairement à ce qu’on pourrait croire à première vue [149]. C’est beaucoup plus compliqué que ça.

D’abord parce que les logiciels ont souvent du mal à traiter de nombreux cas. Autrement dit, « il est extrêmement difficile d’avoir plus de 90% des décisions parfaitement pseudo-anonymisées, sauf à employer des moyens humains très importants pour la relecture » (dixit Michael Benesty, fiscaliste, spécialiste et praticien du machine learning en droit avec son site Supra Legem [150]) :

  • deux exemples classiques en une seule proposition (fictive) : « le président de la société Robert, M. Franck Robert ». Certains logiciels experts vont anonymiser la "société Robert" en "société X..." parce que Robert est un prénom alors que les noms de personnes morales ne se pseudonymisent pas [151], d’autres vont laisser le nom de famille du président intact parce qu’il s’écrit comme un prénom, aboutissant ainsi à laisser intact les nom et prénom d’une partie personne physique [152]
  • autre exemple, fréquent lui aussi (noms fictifs) : « la caissière Jeanine Plombeit, employée à la supérette Zaz dans la commune de Tiersset, a été licenciée pour faute grave le 14 juin 2015 ». Il se trouve que la commune ne compte que 500 âmes : même en pseudonymisant le nom de famille, la combinaison de son nom, du nom de la commune et de la raison sociale de son ex-employeur indiquera à tous les habitants des alentours, y compris les employeurs potentiels de Mme Plombeit, de qui il s’agit et ce qui lui est arrivé. Il va donc falloir, exceptionnellement, anonymiser le prénom et la commune : ce n’est pas la recommandation de la CNIL qui le l’exige mais le respect de l’esprit de la loi Informatique et libertés et la lettre du RGPD
  • on consultera d’autres types de difficultés dans le billet de Michael Benesty (Supra Legem) intitulé Techniques d’anonymisation (pseudonymisation) des décisions de justice et leurs limites [153]
  • même la toute dernière technologie, autrement dit le machine learning, échoue, de l’aveu même de M. Benesty, à atteindre un taux de succès suffisant [154].

On retombe donc sur l’importance de la vérification humaine. Mais avec 3,8 millions de décisions par an à vérifier, il est évident que le coût en ETP d’un contrôle systématique sera hors de portée.

Encore n’a-t-on parlé ici que de pseudonymisation. Avec la loi République numérique et le RGPD, il faut aller plus loin. Comme nous l’avons vu en introduction, le règlement général de protection des données, encore plus exigeant que la loi République numérique, va exiger une véritable anonymisation, c’est-à-dire une impossibilité de ré-identification. Il faudra donc repérer et supprimer les mentions de métier/profession, presque tous les noms de lieu et tous les passages permettant une réidentification par recoupement avec d’autres informations et bases de données ... Autant dire qu’"on n’est pas arrivé".

La responsabilité juridique des pouvoirs publics

Cette exigence de véritable anonymisation, au sens fort du terme, est renforcée par la responsabilité des pouvoirs publics.

Selon M. Benesty, avec la loi Lemaire, la responsabilité de l’administration pourrait être engagée pour chaque décision de justice mal anonymisée. En effet, la loi Lemaire prévoit qu’en plus de la pseudonymisation, le risque de réidentification devra être pris en compte. Très exactement, selon le texte : « [les] jugements sont mis à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées. Cette mise à disposition du public est précédée d’une analyse du risque de ré-identification des personnes ». M. Benesty propose une vérification humaine dans les matières "sensibles", telle que sélectionnées par la CNIL [155].
Confirmation, sur la base principalement de la loi Informatique et libertés (donc sans même invoquer la loi Lemaire), par le TA de Paris, qui condamne le 7 novembre 2016 l’Etat pour défaut d’anonymisation sur Legifrance d’un arrêt d’appel en matière de divorce [156].

Pour finir, le RGPD prévoit de lourdes sanctions pour les producteurs de données personnelles soumis au droit des données personnelles et ne respectant pas leurs obligations. Ici, ce serait la DILA, autant dire l’Etat ...

La délicate question des décisions pénales et des tribunaux de commerce

C’est sur les chantiers 3 et 4 évoqués supra (collecte et anonymisation 3. des décisions civiles et commerciales de première instance et 4. des décisions pénales de 1ère et 2e instances) que le travail sera le plus long, pour les raisons citées plus haut. Le paragraphe important dans l’article de NetxINpact est la citation du ministère de la Justice à propos des décisions pénales du fond et des jugements de première instance (notez le conditionnel dans les deux phrases et le "moyennant" ...) :

« En matière pénale, le déploiement de Cassiopée dans les cours d’appel permettrait d’intégrer les arrêts rendus en matière pénale moyennant le développement d’un applicatif adapté. Les décisions de première instance seraient intégrées à la base de données dans un second temps. »

Enfin, il y a la question des jugements des tribunaux de commerce. Le fonctionnement des Tcom est pris en charge par les greffiers de commerce et leur personnel. Les greffiers des tribunaux de commerce sont certes des officiers publics et ministériels nommés par le garde des sceaux mais ils exercent dans un cadre libéral : ce sont de véritables chefs d’entreprise [157] La saisie et le stockage des décisions ne sont donc pas pris en charge par le ministère de la Justice. D’ailleurs, les greffes des Tcom *vendent* leurs décisions.

Un calendrier prévisionnel mais incertain

Est paru dans le Recueil Dalloz du 20 juillet 2017 un article de MM. Buat-Ménard et Giambiasi, tous deux magistrats et travaillant au ministère de la Justice, intitulé « La mémoire numérique des décisions judiciaires. L’open data des décisions de justice de l’ordre judiciaire ».

On peut y lire différents développements sur l’anonymisation des décisions judiciaires et la place et le rôle de la jurisprudence à l’aune de l’Open data.

Une partie de l’article nous intéresse plus particulièrement, qui s’intitule « Les perspectives de mise en œuvre » où l’on apprend que cet open data judiciaire pourrait être mis en œuvre en trois étapes : la mise à disposition des décisions de la Cour de cassation (de 6 mois à un an après l’entrée en vigueur du décret à venir), puis celle des Cours d’appel (près de 36 mois seraient nécessaires, toujours après l’entrée en vigueur du décret) et enfin celle des décisions de premier degré (dans un délai de 3 à 8 ans).

Ainsi les auteurs émettent l’hypothèse d’un open data complet en … 2025. Pour mémoire dans un article des Echos du 22 mars 2017, il était question d’un open data effectif sous 5 ans.

Deux autres choses sont à souligner dans cet article : 

  1. un aspect crucial du projet : l’article paru au Dalloz parle d’anonymisation — forte — et non de simple pseudonymisation (qu’on appelait anonymisation jusqu’à la publication du nouveau règlement européen de protection des données personnelles dit RGPD qui entrera en vigueur en 2018). Le nouvel objectif et critère promu par le RGPD est bien d’empêcher toute dé-anonymisation (ou ré-identification) en l’état actuel de la technique. Or on sait repersonnaliser des données bancaires ou hospitalières pseudonymisées. Il faut donc ne plus se limiter à la solution actuelle, où l’on remplace les noms par des lettres — solution anciennement dénommée anonymisation et qu’on appelle depuis le RGPD pseudonymisation
  2. ce texte est l’adaptation écrite d’une intervention de M. Buat-Ménard, préparée conjointement par les auteurs, le 9 mars 2017, lors de la journée d’étude consacrée à La mémoire numérique de la justice, co-organisée par la Sous-direction de la statistique et des études du ministère de la Justice et l’Institut des hautes études sur la justice. Et il ne comporte aucun avertissement comme quoi il ne serait qu’une position personnelle des deux magistrats. On semble donc avoir là une prise de position publique du ministère.

On peut donc déduire de cet article au Dalloz qu’au vu du RGPD et des obligations qui lui échoient, le ministère de la Justice a fait le choix pour l’avenir et pour la mise en open data de l’ensemble de la jurisprudence de l’anonymisation (au sens nouveau du terme, donc forte), non de la simple pseudonymisation mais carrément de l’anonymisation.

Conclusion - Mission impossible pour les pouvoirs publics ? - Et les acteurs privés ?

Avec tous les écueils listés supra, on peut estimer que des retards supplémentaires ou pour le moins une réalisation partielle sont possibles voire probables.

Que va-t’il se passer sur le terrain entre-temps, est une question à laquelle je me garderais bien de répondre. Mais la réponse pourrait bien définir le futur de facto (et non de juro ; c’est le genre de situation qu’on a longtemps connu en matière de données personnelles dans la jurisprudence) si les pouvoirs publics se situent dans des délais aussi longs. Espérons que les acteurs (qui incluent les éditeurs juridiques et les institutions tout autant que les legal tech) suivront la position que vient de prendre le ministère.

Emmanuel Barthe
bibliothécaire documentaliste juridique
spécialiste des données publiques juridiques


Dernières brèves

Farces et attrapes

Trois techniques de marketing pour rajeunir artificiellement un livre de droit

Et une quatrième pour pousser (à contretemps) à l’achat

Mardi 11 juillet 2017

Lire la suite »

Cure de rajeunissement

Si vous êtes bibliophile ou bibliothécaire, comme l’auteur de ce billet, vous savez qu’un ouvrage très demandé peut faire l’objet d’un nouvelle impression dite aussi réimpression ou nouveau tirage (à l’identique, donc).

Dans ce cas, les dates de parution et de dépôt légal changent, mais le numéro ISBN normalement pas.

Ce procédé incite les acheteurs, qui achètent sans le livre en main et souvent en grandes quantités, à penser qu’ils ont affaire là à une nouvelle édition puisque la date de parution a changé et que ça apparaît dans leur veille bibliographique.

En fait, vous venez d’acheter un doublon. Et de prendre des vessies pour des lanternes. Si vous n’avez pas une très, très bonne mémoire, vous ne vous souviendrez pas que vous avez déjà vu passer cette édition.

L’effet d’illusion est d’autant plus fort lorsque l’éditeur combine cette technique avec d’autres techniques marketing pouvant abuser l’acheteur :

Affecter un nouveau n° ISBN à un ouvrage identique est abusif. Cela ne correspond à rien de nouveau, de tangible.

La deuxième technique, celle du millésime, consiste à mettre l’année n+1 sur la couverture dès qu’un ouvrage sort fin juillet — et sera donc présenté en librairie fin août, autrement dit à la rentrée.

Exemple d’un ouvrage combinant ces trois techniques :
Droit du travail / Gilles Auzero et Emmanuel Dockès. - 30e éd. - Dalloz, 2015
ISBN 978-2-247-16874-3

La couverture porte : 2016 30e édition. La 29e édition portait la mention 2015. C’est faux : 2016 date en réalité d’octobre 2015 et 2015 est paru en septembre 2014.

Plus précisément, 2016 réimprimé paru en 2016 est paru fin août 2016 et date en réalité d’octobre 2015 : près de deux ans d’écart ! Autrement dit : alors que je m’attendais à ce que cet ouvrage traite la loi Travail de de l’été 2016 dite loi El-Khomri, eh bien il n’est pas à jour.

Même le libraire Decitre, un (très gros) acheteur lui aussi, s’y est fait prendre. Regardez sa notice : aucune mention d’un nouveau tirage.

Ah oui ! au fait, le millésime 2018 sort en septembre mais porte un gros sticker noir portant "Edition 2017". Tiens donc ! Mais il ne sera pas pour autant à jour ... de la seconde loi (ou plutôt ordonnance) Travail, dont la loi d’habilitation arrive devant le Parlement :-(

Vaporbook

Dans un registre similaire, je pourrais aussi citer ces fréquentes annonces d’ouvrages un à deux mois à l’avance qui polluent les librairies en ligne, particulièrement les veilles bibliographiques qu’elles offrent.

C’est au moment où on peut l’acheter qu’il faut signaler un ouvrage. Autrement, ça crée de la frustration (d’autant plus que la plupart du temps la couverture manque), et ça amène à oublier la nouveauté lorsqu’elle est enfin disponible. Cela pose également des problèmes avec des lecteurs qui, ayant vu l’annonce de parution, demandent (voire exigent) le livre non encore paru et regrettent qu’on ne l’ait pas encore acheté.

Emmanuel Barthe
bibliothécaire documentaliste juridique, acheteur de documentation juridique


La couverture du millésime 2016 datant de 2015 et paru en octobre 2015 : elle mentionne à juste titre : "A jour des lois Macron et Rebsamen"


La couverture du millésime 2016 datant de 2015 et paru en août 2016 : bizarre, elle ne mentionne plus " A jour des lois ...". Peut-être pour qu’on évite de se poser des questions sur la date exacte du contenu ?


Le juge de paix : la notice du catalogue collectif des bibliothèques universitaires françaises, le Sudoc. Il mentionne bien "autre tirage 2016" et les *deux* numéros ISBN sur *une seule* et même notice


Logiciels, documents administratifs et Education nationale

Affelnet : le logiciel d’affectation dans les lycées à Paris bugue sévèrement pour la deuxième année consécutive

Que faire si votre enfant n’a pas eu le lycée qu’il méritait

Mercredi 5 juillet 2017

Lire la suite »

Vous habitez Paris, votre grand/e a 15 ans. Il/elle passe en classe de seconde l’an prochain (2017-2018). Vous aviez demandé un lycée réputé bon ou correct en 1er et 2e choix mais en cette fin juin 2017, c’est le 3e, 4e ou 5e choix qui échoit à votre adolescent. Pas vraiment son lycée préféré.

Il est cruellement déçu, et trouve cette décision injuste [2] S’il s’est renseigné auprès de ses copains ou de l’administration de son collège, il va vous apprendre que ses 1er et 2e choix sont trustés par les boursiers. En tant que parent, vous êtes furieux vous aussi et s’il est brillant, vous vous inquiétez pour l’avenir scolaire et universitaire de votre enfant [3]

Que s’est-il passé ?

A part ça, vous vous demandez si vous n’auriez pas raté une ou deux informations ces derniers mois.

Ces informations, les voici.

Affelnet le logiciel qui affecte vos enfants dans un lycée parisien, avait déjà eu de gros ratés l’an dernier​, en concentrant les élèves boursiers dans un tout petit nombre de lycées cotés. Ainsi, comme le relate Le Figaro, en 2016 au lycée Turgot (Paris 3e), 83 % des admis en seconde étaient boursiers [4]. Et ca a visiblement recommencé cette année.

De plus, comme l’explique l’article de 20minutes.fr, « depuis cette année, est prise en compte l’évaluation des composantes du "socle commun de connaissances" qui vaut plus de points que les notes obtenues au cours de l’année. » Ça a visiblement aggravé le problème.

Explications : Affelnet est en service depuis au moins 2014 à l’académie de Paris. Il est pourtant clairement encore en rodage. Et l’administration (ici le rectorat de Paris) n’a pas voulu risquer d’aggraver les choses en corrigeant trop nettement les critères d’affectation [5]. Selon Le Figaro et Le Monde, elle a tout de même accepté de plafonner le taux de boursiers à 50% (!) de l’ensemble des effectifs de seconde d’un lycée.

Justement, ces critères d’affectation, qui sont les règles de fonctionnement du logiciel Affelnet, quels sont-ils ? L’académie de Paris donne quelques informations sur son site (d’où le socle commun de connaissances est absent !) mais il faut surtout lire les articles du Monde et du Figaro, très complets sur le sujet, et la fiche technique de la DGESCO :

Pour résumer : si votre brillant ado n’a pas eu cette année le lycée convoité de son secteur, c’est probablement une combinaison des quatre facteurs suivant :

  • le bonus aux boursiers, qui est maintenant parfaitement compris et intégré par leurs familles
  • la sectorisation, qui diminue le nombre de lycées attractifs (exemple : 3 dans le secteur Nord de Paris, pas plus : Chaptal, Condorcet, Racine) vers lesquels les vœux des boursiers vont se porter en priorité. Au lieu de mieux les répartir. Car dans les secteurs Nord et Est de Paris, le pourcentage de boursiers est évidemment beaucoup plus important que dans les secteurs Sud et Ouest ... [6]
  • le plafonnement des boursiers à 50% en seconde, paradoxalement, a fort probablement accentué le problème car de ce fait, au lieu de concentrer le problème sur un seul lycée d’élite, celui-ci va les toucher tous
  • et, cerise sur le gâteau, la nouveauté et l’absence d’harmonisation de la notation du socle commun de connaissances.

Notez que tous ces critères peuvent être ramenés à des choix politiques.

Pour en savoir plus sur le fonctionnement des logiciels d’affectation des élèves et étudiants, lisez le support de l’intervention de Julien Grenet, un économiste spécialiste de la question, au séminaire Codes sources (session 2016-2017) : La transparence et l’obstacle : les algorithmes d’affectation des élèves aux établissements d’enseignement (PDF, 97 pages).

Voici ce qu’il dit d’Affelnet dans une interview à l’Obs [7] :

« Aujourd’hui, les affectations en lycée sont décidées par un algorithme qui donne une priorité absolue aux élèves boursiers. Il y a pu y avoir des problèmes avec certains lycées très demandés, où la proportion de boursiers n’a pas été maîtrisée, comme à Turgot, mais ce "bug" technique pourrait être facilement corrigé. Il reste que ce système constitue un progrès sensible par rapport à l’absence de régulation qui prévalait il y a quelques années. Les proviseurs faisaient leur "marché aux élèves" dans les sous-sols du rectorat sur des critères purement scolaires, et cela nourrissait à plein pot le phénomène de ségrégation. »

Dans l’article précité du Monde sur les récentes modifications à la marge d’Affelnet :

« Avec Affelnet, la ségrégation sociale des lycées publics a diminué de 30 % en une décennie, rappelle l’économiste Julien Grenet, cosignataire en 2014 d’un rapport pour l’Institut des politiques publiques. Mais en dix ans, les familles se sont adaptées, les boursiers ont intégré le rôle du bonus ... Ce sont ces évolutions que le système doit prendre en compte. »

Dans son rapport Peut-on accroître la mixité sociale et scolaire dans le système éducatif ? L’impact des procédures d’affectation des élèves dans les lycées d’Île-de-France de 2014 :

« A Paris, on retrouve des lycées très hiérarchisés avec une ségrégation par les notes quatre fois plus importante que dans les académies aux alentours. Les boursiers ont un grand avantage et leur proportion dans les grands lycées est en augmentation. On observe une baisse de 30% de la ségrégation sociale. C’est l’une des discriminations positives les plus importantes dans l’Education nationale. A Créteil, le résultat ressemble davantage à la carte scolaire du collège, avec très peu de bonus et pas de prise en compte des notes. »

Et dans son support de séminaire :

« Les difficultés créées par les procédures d’affectation ne
sont pas pas principalement imputables aux algorithmes mais plutôt :

  • à la complexité et à l’opacité des procédures
  • aux critères de priorité utilisés (et aux choix politiques qui les sous-tendent). »

Notez au passage sa défense mesurée mais habile d’Affelnet. Julien Grenet fait partie de l’équipe de Thomas Piketty [8], dont les travaux sur les inégalités économiques sont connus. M. Piketty lui-même a récemment repris les travaux de M. Grenet pour attaquer la ségrégation dans les collèges parisiens [9]. On a parfois l’impression qu’Affelnet a été conçu avec l’assistance de M. Grenet.

Pour une critique des travaux de M. Grenet sur Affelnet, on peut lire sur le Café pédagogique, un des principaux sites de la communauté enseignante : Choukri Ben Ayed : Non Affelnet ne peut pas constituer une politique de mixité sociale à l’école (octobre 2014). Selon M. Ben Ayed, sociologue :

« Affelnet ne constitue pas selon nous un instrument de "discrimination positive", mais plutôt d’opérationnalisation de la méritocratie scolaire. »

Enfin, un article scientifique faisant appel à un niveau élevé en mathématiques a été publié en 2014 : Choix d’écoles en France. Une évaluation de la procédure Affelnet, par Victor Hiller et Olivier Tercieux, Revue économique, 2014/3, p. 619-656.

Que faire si l’affectation de votre enfant vous semble contestable

Dans l’ordre des priorités :

  1. inscrivez votre enfant au lycée donné par Affelnet. Vu le peu de chance que le rectorat inverse sa décision et le peu de temps disponible (vers le 10 juillet tout est fermé : collèges, lycées et rectorat), ne perdez pas de temps
  2. prenez rendez-vous avec le proviseur du collège de votre enfant (s’il n’est pas débordé). Sinon, essayez un rdv téléphonique
  3. demandez à votre enfant les numéros de téléphone portable des parents des enfants qui sont dans le même cas que lui (il y en aura , c’est sûr et certain)
  4. concertez-vous avec votre enfant : veut-il vraiment changer de lycée ? N’y a-t’il pas suffisamment de ses amis et d’élèves de son niveau qui ont eux aussi été affectés dans son lycée d’affectation ? Le bug d’Affelnet pourrait bien en effet (aussi) avoir pour effet de regrouper les meilleurs élèves non boursiers, comme, dans la zone Nord de Paris, au lycée Jules Ferry, traditionnellement considéré comme un bon lycée sans plus [10]. Est-ce que ça vaut tous les efforts qu’il va falloir faire ? Et si ça marche, sera-t-il opportun de changer de lycée en cours d’année, même si c’est le début de l’année ?
  5. contactez les associations de parents d’élèves : FCPE, PEEP, particulièrement les représentants des parents des 2ndes sur le lycée d’affectation et sur le lycée visé initialement
  6. renseignez vous sur le fonctionnement du logiciel Affelnet. C’est utile pour ce qui suit
  7. contestez la décision de l’administration en faisant par l’intermédiaire du proviseur du collège une demande de dérogation. Vérifiez que cela laissera une trace écrite. C’est ce qu’on appelle un recours gracieux. Si vous ne le faites pas, vous ne pourrez pas contester la décision de l’administration en justice. Même si votre demande de dérogation a peu de chance d’aboutir, cela participera à éviter que l’administration refasse la même erreur avec votre plus jeune et ceux de vos amis dans 1, 2 ou 3 ans
  8. vous êtes toujours déçu de l’affectation de votre enfant ? Vous pouvez contester la décision du rectorat devant le tribunal administratif (TA) mais ça prendra beaucoup de temps (7 mois au minimum). Un conseil : prenez un avocat spécialisé en droit public ou faites vous assister par des représentants de parents d’élèves
  9. vous pensez que le principe même de faire prendre des décisions importantes par un logiciel aux règles obscures [11] est contestable ? Vous pouvez demander au rectorat (recours gracieux) puis au TA de Paris (car le rectorat n’a pas l’intention de le publier) la publication du code source du logiciel Affelnet. Si votre requête devant le TA respecte bien les formes obligatoires, elle sera traitée et vous gagnerez quasiment à coup sûr (cf les informations données plus bas). Les geeks et développeurs pourront alors voir concrètement pourquoi Affelnet bugue et proposer des solutions.

Les arguments juridiques

(Si vous n’avez pas un bagage juridique minimal, cette section ne vous est pas vraiment destinée.)

Pourquoi la publication du code source d’Affelnet est-elle quasiment certaine — à condition de soutenir une procédure administrative contentieuse ? Tout simplement parce qu’il y a un précédent : l’Education nationale a été contrainte en 2016 par le TA de Paris à publier le code source d’APB (Admission Post Bac). Cette demande a été soutenue par la Commission d’accès aux documents administratifs (CADA) dans un $avis.

Dans une affaire similaire, le tribunal administratif de Paris a obligé Bercy à publier le code source du logiciel de calcul de l’impôt sur le revenu, après que la CADA a rendu un avis en ce sens.

Enfin, la loi n° 2016-1321 du 7 octobre 2016 pour une République numérique (dite loi Lemaire) a entériné la position de la CADA et du TA de Paris en la gravant dans le marbre du Code des relations entre le public et l’administration (CRPA). Pour plus de détails, lisez : La loi du 7 octobre 2016 « pour une République numérique » et les codes sources de logiciels, par Luc Bartmann, directeur juridique de collectivité territoriale à la retraite, Droit des collectivités territoriales - Actualités et miscellanea, 16 décembre 2016.

L’article L 300-2 du CRPA créé par cette loi inclut expressément les logiciels dans la liste des documents administratifs et l’article L 311-5 qui liste les exceptions ne contient rien qui puisse s’y opposer ici puisqu’il n’est question ici que d’enseignement et non de secret défense ou de secret industriel et commercial.

Il existerait bien un deuxième argument juridique pour tenter de contester la décision de l’administration s’appuyant sur Affelnet : c’est l’obligation pour l’administration de communiquer les règles définissant les traitements algorithmiques utilisés par l’administration pour prendre une décision individuelle. Autrement dit, d’expliquer au parent les critères exacts et les règles de fonctionnement du logiciel Affelnet. Cela a été prévu à l’article 4 de la loi République numérique, qui a créé pour cela l’article L 311-3-1 du CRPA [12].

Toutefois, même si le décret d’application [13] est paru en mars, la disposition ne sera applicable qu’à partir du 1er septembre 2017.

Troisième et dernier argument juridique : il existe en droit européen une interdiction de prendre une décision individuelle automatisée. C’est l’article 15 de la directive 95/46, transcrit en droit français par l’article 10 de la loi Informatique et libertés. Cet article 15 sera remplacé par l’article 22 du Réglement européen général de protection des données (RGPD), applicable en 2018. Mais l’article 22 du RGPD prévoit des exceptions encore plus larges (notamment en cas de consentement éclairé) que l’article 15 de la directive qu’il remplace et les mesures de sauvegarde à prévoir ne sont pas détaillées et restent du ressort de Etats membres de l’UE [14]. Il n’est donc pas certain que l’article 22 ne finisse pas, comme son prédécesseur, par n’être rien d’autre qu’un principe général non sanctionné.

Emmanuel Barthe
documentaliste juridique, spécialiste des données publiques et parent d’un élève en seconde en 2016-2017 à Paris


Supra Legem, un exemple de machine learning appliqué au droit

Entretien avec Michael Benesty, 8 mars 2017

Dimanche 18 juin 2017

Lire la suite »

Le site Supra Legem, tenu par le juriste Michael Benesty [15] [16], nous en apprend beaucoup sur la (soi disant) "intelligence artificielle" en droit. En le testant, on comprend que les fameuses "IA" en droit sont en réalité des moteurs de recherche évolués, dopés à l’apprentissage statistique automatique, dit "machine learning" (ML) [17].

Pour rédiger mon article sur l’IA en droit, j’ai eu besoin de mieux comprendre le machine learning et le fonctionnement de Supra Legem. Michael Benesty a accepté de me l’expliquer. Le billet infra résulte des notes prises pendant cet entretien.

La recherche dans Supra Legem : ce qu’apporte le ML

Jetez un coup d’oeil sur l’interface de recherche de ce moteur de recherche et d’aide à la décision [18].

Le principal intérêt de Supra Legem pour un utilisateur juriste sont les deux filtres suivant, disponibles dès la page d’accueil dans la colonne de gauche :

  • filtre défendeur demandeur : l’intérêt majeur de ce filtre en droit administratif : il permet de cibler les affaires où une décision de l’administration est mise en cause. Si on ajoute que lorsque l’administration a pris la décision initiale, elle défend toujours le statu quo, ce filtre permet de connaître d’office le sens de la question, quelque soit le niveau de l’instance [19] : c’est pour ou contre l’administration/sa décision
  • filtre sur le dispositif : permet de cibler, parmi les décisions où l’administration est demandeur (on a paramétré ça dans le filtre précédent), celles où l’administration perd. Si par contre, l’administration est en défense, un avocat n’aimera pas ça car ça ne va pas dans son sens. Il préférera les cas où l’administration est en demande et perd. Pourquoi ce réglage ? Parce que cela signifie que tous les moyens [20] qu’elle a soulevés ont été vains et donc que l’avocat, qui défend en général une société privée ou un particulier, a intérêt à éplucher les arrêts trouvés ainsi à la recherche des situations correspondantes et des arguments utilisés par le défendeur. Ce type d’arrêt est rare [21] et difficile à faire remonter, d’où l’intérêt de ces deux filtres de SupraLegem.

Entre parenthèses, ce serait la même logique en droit privé du travail (on serait hors droit public, donc sur une IA autre que Supra Legem) : employeur c/ employé, le licenciement est toujours du fait de l’employeur

M. Benesty précise qu’en droit judiciaire, notamment en droit civil, ce type d’approche est plus compliqué.

Pour aller plus loin, voir le billet 6 façons d’utiliser les algorithmes prédictifs pour améliorer vos recherches de jurisprudence, par Michael Benesty, Blog de Supra Legem 6 mai 2016.

Précisions importantes sur les apports du ML

En machine learning, les points de départ suivant sont très importants :

  • la jurisprudence en droit administratif est "propre". Tout est rédigé de la même façon : le vocabulaire, et surtout le plan de la décision très systématique. Par exemple : en droit administratif, les faits ne viennent jamais au milieu de la décision, contrairement au droit judiciaire où des rappels peuvent apparaître dans tout le corps de la décision ; de la même façon, le droit administratif ignore le problème des moyens supplétifs
  • en matière de reconnaissance d’image [22], les réseaux neuronaux ont permis en quelques années de passer de 40 à 5% de taux d’erreur (certains en sont à 3%).

En ML en droit on est plus dans le NLP (traitement du langage naturel) [23]. Les réseaux neuronaux du deep learning, qui font souvent la une dans la presse spécialisée, réduisent le traitement des données en amont [24] et on peut faire avec eux des choses plus génériques mais leur apport en droit est très inférieur à ce qu’ils ont fait pour la reconnaissance d’image. De plus, ils coûtent très cher en temps (parfois plusieurs semaines de calculs sont nécessaires, cela a été le cas avec le nouveau service de traduction mis en place en 2016 sur Google Translate [25]) et puissance de traitement [26].

NLP : le ML appliqué au langage

Le NLP d’aujourd’hui, c’est l’application du ML au langage (ce n’est pas, malgré son nom, la compréhension par la machine du langage naturel) : Depuis quelques temps l’algorithme non supervisé Word2vec a changé la façon d’approcher les apprentissages :

  • créé par Google puis mis par lui en open source ; il y a deux ans Google l’a utilisé dans les algorithmes de son moteur de recherche web sous le nom de RankBrain, qui est maintenant le 3e signal en importance dans le ranking du moteur de recherche web de Google et facilite la lutte contre le spamdexing
  • on lui donne du texte brut il remplace chaque mot par un vecteur/représentation, formalisée par une suite de chiffres sans signification pour un humain. L’idée derrière : retrouver le sens d’un mot en observant la distribution des contextes : le mot chien sera souvent accompagné de poil, chat, museau ... Il trouve ainsi tout seul les mots similaires parce que leurs vecteurs sont similaires. On peut aussi demander des syllogismes à l’algorithme : roi -> reine, homme -> il va trouver femme
  • Michael Benesty utilise la variation de Word2vec développée par Facebook
  • selon lui, Word2vec est :
    • très bon en sémantique. Word2vec est super bon pour trouver les cohyponymes (frères et soeurs de la racine sémantique de termes)
    • mais n’inclut pas d’informations de nature logique (ex. beau et moche ont des vecteurs similaires ... !).

La recherche en ML essaie cependant de faire de la logique : le taux moyen d’erreur est de 40% actuellement sur une tâche de role labelling, c’est à dire trouver dans un texte qui fait quoi (mot-clé : "role labelling"). En pratique, ça se termine donc souvent en regex (il est très fréquent que les performances annoncées soient en fait le résultat de ML amélioré par des règles plus ou moins simples mises au point par un humain).

ML et droit des données personnelles

Le règlement général européen sur la protection des données personnelles (RGPD) [27] entre en application en 2018 [28]. Il donne à une personne physique le droit de demander à quelqu’un qui pris une décision ayant un effet légal fondé sur un algorithme d’expliquer et justifier sa décision. Vu la difficulté, même pour les développeurs ML, de comprendre comment l’algorithmes aboutit au résultat, cela va poser de sacrés problèmes si les juges et les forces de l’ordre se reposaient lourdement sur l’IA. Certains juges et avocats redoutent que des magistrats, par peur de rendre une décision qui sera cassée, pourraient se conformer à la tendance qu’une IA aurait révélée.

ML et discrimination

Comment expliquer la discrimination policière (surveillance policière, arrestations) et judiciaire (application des peines) causée au Etats-Unis par le machine learning ? En fait, les algorithmes ML renforcent la discrimination parce que le machine learning optimise — dans le bon comme dans le mauvais sens — les biais des humains [29]. Le ML a tendance à reprendre et aggraver ces biais parce que c’est une technologie ultra dépendante des données qu’on lui fournit.

Au point que Michael Benesty recommande de faire travailler l’algorithme dans cet ordre : d’abord lui donner des bases de données de textes éloignées du sujet sur lequel on veut le spécialiser puis se rapprocher progressivement et terminer avec des textes pile sur le sujet (ex. ici en droit commencer par la base Gutenberg puis terminer par Legifrance). Il sera ainsi meilleur sur le sujet que si on lui avait fait "manger" les bases de textes dans le désordre.

Emmanuel Barthe
bibliothécaire documentaliste juridique
testeur de bases de données


 

Page parrainée par Convention.fr, le spécialiste des conventions collectives et affichages