Anonymisation des décisions de justice : le point sur les dernières évolutions et leurs finalités

Dimanche 8 septembre 2019, par Emmanuel Barthe // Portails juridiques officiels - Diffusion des données juridiques publiques

Sommaire

Pseudonymisation et non anonymisation (ou les subtilités du RGPD)

Délivrance d'une copie n'est pas open data (ou les subtilités de la loi du 23 mars 2019)

Les finalités de l'évolution européenne et internationale

Le droit national : des priorités désormais sanctionnées

Le développement de la référence neutre

Un billet d’humeur sous forme d’interview publiée en libre accès sur Dalloz Actualité [1] nous amène à faire le point sur l’état actuel et les finalités de l’anonymisation de la jurisprudence — plus exactement la pseudonymisation des décisions de justice.

Selon les professeurs de droit Nathalie Blanc et Pierre-Yves Gautier, l’article 33 de la loi de programmation et de réforme de la justice du 23 mars 2019 érigerait « l’anonymat en postulat pour les "noms et prénoms des personnes physiques mentionnées dans la décision, lorsqu’elles sont parties ou tiers" (avec une extension aux magistrats et greffiers). En outre, comme « elle porte sur les éléments de la décision permettant l’identification des parties, pas seulement leur nom, s’il existe un risque d’atteinte "à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage" », qui conduirait finalement selon les deux universitaires à « supprimer toutes les données personnelles contenues dans les décisions, autrement dit "toute information se rapportant à une personne physique identifiée ou identifiable" selon la définition du RGPD » [2].

Ce n’est pas vraiment le cas.

Pseudonymisation et non anonymisation (ou les subtilités du RGPD)

Cela aurait pu être le cas si une interprétation extrêmement extensive du règlement européen de protection des données personnelles [3] avait été soutenue par les pouvoirs publics. Mais on en est très loin [4]. De facto, le choix fait par la Cour de cassation, qui supervise tout cela du côté judiciaire, semble être de :

  • pseudonymiser — et non, plus rigoureux, anonymiser au (nouveau) sens du RGPD, c’est-à-dire retirer tout élément d’identification et de ré-identification. Pseudonymiser, c’est le choix déjà mis en place de longue date suite à la recommandation de la CNIL de 2001 puis son bilan d’application de 2006. La recherche remplacement des noms par leurs chaînes de caractères (regex) est actuellement gérée avec des règles et s’appuie sur la technologie d’Expert System, ex-Temis (ex-cartouches Luxid)
  • aller un plus loin, mais sans véritablement anonymiser. Par exemple : retirer les noms des membres des forces de l’ordre, les adresses (recommandation CNIL 2001), les numéros de carte bancaire ou de plaque minéralogique, les références de cadastre. Là aussi, pour la Cour de cassation, c’est la continuation d’un choix (un peu moins) ancien. Tout cela, avant même la loi Lemaire de 2016 (et donc a fortiori avant celle du 23 mars 2019), elle le faisait déjà pour ses propres arrêts
  • étendre cette technique aux décisions d’appel et de première instance par une automatisation (machine learning, ML) avec, probablement des sondages pour assurer un contrôle minimal a posteriori et des corrections. C’est prudent, car Michael Benesty, ingénieur machine learning et spécialiste des techniques d’anonymisation de la jurisprudence, a constaté en 2016 que le taux de succès en ML était insuffisant. Pour le citer [5] : « Même en affichant un taux de 96% de mentions correctement identifiées, on se retrouve avec un taux de décisions effectivement (c’est-à-dire complètement) anonymisées d’à peine plus de 60% ! [...] On voit bien que l’approche anonymisation à 100% via le machine learning (c’est-à-dire sans aucune intervention humaine) se heurte à un plafond de verre. »

Un point de vocabulaire est essentiel ici pour bien comprendre le débat : jusqu’à l’entrée en application en mai 2018 du règlement européen général de protection des données personnelles (RGPD), le terme "anonymisation" désignait le remplacement des noms des personnes physiques par des lettres. Depuis l’avènement du RGPD, il peut désigner deux choses. En droit, il désigne une impossibilité d’identifier ou de ré-identifier les personnes, ce qui suppose dans les décisions de justice la suppression de tous les indices autres que les noms des personnes. Au point que le RGPD considère qu’il n’a pas à s’appliquer dans le cas où les données sont (réellement) anonymisées. Hors du droit, dans le langage non juridique, "anonymisation" tend à désigner une ré-identification rendue extrêmement difficile — ce qui n’est pas exactement la même chose que la définition juridique "à la RGPD".

Enfin, en droit, le RGPD a mis en avant une nouvelle notion : la pseudonymisation ou pseudo-anonymisation, qui existait déjà dans les faits et consiste justement à se contenter de remplacer les noms de personnes par des lettres (ne correspondant pas à leurs initiales). Ce nouveau terme de pseudonymisation désigne donc désormais ce qu’on appelait précédemment "anonymisation". Les termes du débat, quand il ne se tient pas entre spécialistes, sont donc souvent imprécis voire ambigüs.

A ce propos, dans l’interview publiée sur Dalloz Actualité, l’utilisation systématique du mot anonymisation, sans jamais utiliser celui de pseudonymisation, peut faire tiquer les spécialistes du droit du traitement des données personnelles dans les décisions de justice.

Délivrance d’une copie n’est pas open data (ou les subtilités de la loi du 23 mars 2019)

Le point de vue des auteurs du billet aurait également pu se justifier en partie si la loi avait confondu d’une part la diffusion en numérique pour les bases de données (service public de diffusion du droit par Internet, dit SPDDI, et donc, dans le futur, open data [6]) et d’autre part la communication de copies de décisions [7]. Mais ce n’est pas le cas, malgré une certaine similarité des termes entre les articles sur l’open data (diffusion numérique en masse de jeux de données [8]) et la délivrance d’une copie (unique, qu’elle soit papier ou numérique, et portant sur une ou quelques décisions). C’est ce que Bertrand Cassar, doctorant en droit du numérique, qualifie de différence entre la publicité et la publication d’une décision de justice [9] et le magazine Archimag de distinction entre open data et open access [10].

Mais ce n’est pas le cas. L’article 33 de la loi du 23 mars 2019 distingue bien deux cas :

  • diffusion des données publiques (publication / open data) :
    « Sous réserve des dispositions particulières qui régissent l’accès aux décisions de justice et leur publicité, les jugements sont mis à la disposition du public à titre gratuit sous forme électronique.
    Par dérogation au premier alinéa, les nom et prénoms des personnes physiques mentionnées dans le jugement, lorsqu’elles sont parties ou tiers, sont occultés préalablement à la mise à la disposition du public. Lorsque sa divulgation est de nature à porter atteinte à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage, est également occulté tout élément permettant d’identifier les parties, les tiers, les magistrats et les membres du greffe.
    Les données d’identité des magistrats et des membres du greffe ne peuvent faire l’objet d’une réutilisation ayant pour objet ou pour effet d’évaluer, d’analyser, de comparer ou de prédire leurs pratiques professionnelles réelles ou supposées. La violation de cette interdiction est punie des peines prévues aux articles 226-18, 226-24 et 226-31 du code pénal, sans préjudice des mesures et sanctions prévues par la loi [Informatique et libertés].
    Les éléments permettant d’identifier les personnes physiques mentionnées dans le jugement, lorsqu’elles sont parties ou tiers, sont occultés si leur divulgation est de nature à porter atteinte à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage. »
  • délivrance d’une copie (publicité / open access) :
    « Les tiers peuvent se faire délivrer copie des jugements, sous réserve des demandes abusives, en particulier par leur nombre ou par leur caractère répétitif ou systématique.
    Les éléments permettant d’identifier les personnes physiques mentionnées dans le jugement, lorsqu’elles sont parties ou tiers, sont occultés si leur divulgation est de nature à porter atteinte à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage. »

L’occultation dans les bases de données de noms de personnes autres que les personnes physiques parties ou tiers (juges, greffiers) et d’éléments autres que les noms de personnes n’est donc pas le cas général. Il est lié à un risque pour la sécurité ou la vie privée et ces risques ne sont pas systématiques (on pense surtout au droit pénal et aux personnalités — pour le droit de la famille ou du travail, les juges ne risquent rien et il est déjà de bonne pratique de supprimer les adresses).

Quant aux copies commandées auprès des greffes, elles ne perdront généralement pas les noms des parties (sauf là encore risque pour leur sécurité ou leur vie privée) et jamais ceux des juges ni des greffiers. Mais les commandes en masse (destinées à un scan puis un OCR de masse) sont désormais bannies. Et sur ce dernier point, il ne fait aucun doute que les greffes, débordés, s’appuieront sur la loi.

Si on peut à la limite accepter le terme de « postulat » pour « l’anonymat des parties personnes physiques », il faut donc nuancer le propos. Mais on peut encore moins affirmer, comme le font les deux auteurs, que la loi de réforme de la justice « conduit à supprimer toutes les données personnelles contenues dans les décisions, autrement dit "toute information se rapportant à une personne physique identifiée ou identifiable" selon la définition du RGPD ». Tout dépend du support, plus précisément de la source (open data ou copie) et des cas (risque pour la vie privée ou la sécurité). Comme on l’a vu, il suffit de lire le RGPD et l’article 33 de la loi pour se convaincre du contraire.

D’autant que les interviewés oublient de rappeler que les parties personnes morales (sociétés, organismes publics) ne sont pas protégées par le RGPD, pas plus qu’elles ne l’étaient par la loi Informatique et libertés.

Les finalités de l’évolution européenne et internationale

Il faut rappeler que cette réforme n’est pas une lubie du législateur français mais la phase finale d’une politique de l’Union Européenne constante amorcée en 1985 avec la première directive sur la protection des données personnelles, pour aboutir dans une nouvelle ère ouverte par le RGPD. Autrement dit, il y aura une diffusion libre de la jurisprudence en open data avec des données anonymisées, ou rien.

Les codes concernés (Code de l’organisation judiciaire et Code de justice administrative) disposent désormais tous deux que « les noms et les prénoms des personnes physiques mentionnées dans le jugement, lorsqu’elle sont parties ou tiers, sont occultées préalablement à la mise à la disposition du public ». Ce que les deux Codes appellent "mise à disposition du public" est une façon bien franco-française et officielle de désigner la diffusion numérique en masse — l’open data, autrement dit, puisque open data implique mise à disposition gratuite avec droit de réutilisation et rediffusion.

Il ne s’agit pas de gêner la pratique des professionnels et des chercheurs en droit (et pas seulement des éditeurs), mais de la mise en œuvre d’une liberté publique importante. Y avait-il moyen de choisir une autre voie ?

Les premiers travaux du groupe JURINFO (Etats membres en charge des données judiciaires + CJUE + Office des publications de l’UE + Commission européenne + Conseil) animé par le Conseil de l‘UE, dont les archives sont en ligne (mais pas toujours en texte intégral), ont porté sur les questions d’anonymisation des décisions, depuis 1990. Plusieurs enquêtes successives ont relevé des pratiques de plus en plus convergentes venant des Etats membres, tendant à l’anonymisation. On apprend ainsi que nos voisins allemands pratiquent la publication anonymisée dans les revues papier depuis le XIXème siècle. Il semble que cela n’ait pas handicapé le monde juridique universitaire allemand.

Déjà en 2006, selon le bilan publié cette année-là par la CNIL sur l’application de sa recommandation initiale de 2001 [11], dans l’UE, « une majorité de pays [...] ne [permettait] la mise en ligne sur Internet que des décisions de justice préalablement anonymisées, soit que ce choix résulte des dispositions législatives nationales (République tchèque, Estonie, Suède), soit que ce choix découle d’une prise de position de l’autorité nationale de protection des données à caractère personnel (Pays-Bas, Danemark, Portugal et Lettonie). De plus, certains pays [avaient] fait le choix, parfois ancien, de procéder à l’anonymisation systématique des décisions de justice quel que soit le support de diffusion (Allemagne, Autriche, Pologne, Hongrie, Finlande et Grèce) » [12].

Même les pays de common law commencent à pratiquer l’anonymisation. On constatera sur le site des arrêts de la Cour suprême du Canada que plusieurs arrêts sont diffusés sans le nom des parties. Une tendance qui s’accroit année après année.

Et même la presse générale, appelée en contre-exemple de mauvaise pratique dans cette interview, a néanmoins commencé depuis quelques années à pratiquer une communication de plus en plus anonymisée sur les affaires judiciaires.

Le droit national : des priorités désormais sanctionnées

On peut comprendre l’agacement des interviewés. Un des auteurs du présent billet l’a partagé autrefois [13].

Toutefois, on a du mal à les suivre dans leurs prises de position après qu’ils aient constaté qu’on peut retrouver facilement les noms dans certaines affaires et disent : "Pourquoi imposer le silence aux éditeurs juridiques ?" (on a d’ailleurs l’impression à ce moment qu’ils se font les porte-parole autant des éditeurs que des enseignants)

Certes, avec le système actuel, il y aura toujours une proportion de noms faciles à retrouver malgré la pseudonymisation, par la presse ou les moteurs de recherche d’Internet.

Mais déjà, l’effectivité du droit n’a jamais eu rien de garanti (incidemment, en droit français, c’est un secteur de recherche quasiment vide).

Et surtout, le billet ne prend pas en compte que les priorités ont changé depuis la loi du 6 janvier 1978. L’état actuel du droit est dédié à la lutte contre le fichage en ligne de masse et la constitution d’un casier judiciaire bis.

Les auteurs ont également tendance à assimiler, peut-être pour mieux appuyer leur démonstration, d’une part le principe d’anonymisation des parties personnes physiques dans les décisions de justice (poussé voire créé par la recommandation CNIL de 2001), et d’autre part le renforcement partiel de ce principe par la loi de programmation et de réforme de la justice de 2019. Deux textes séparés par 18 ans ... Le premier un véritable principe (même si sa consécration législative n’est venue qu’avec la loi de 2019), le second, des cas limités.

De toute façon, la pseudonymisation est une obligation légale sanctionnable. Et elle a déjà été sanctionnée lorsque des particuliers se sont plaints, et ce par deux décisions : CE 10e et 9e SSR, 23 mars 2015, n° 353717, 10000 euros de sanction ; TA Paris 2e ch. 7 novembre 2016 n° 1507125, 1000 euros de sanction, publié fin janvier 2017 dans la Lettre du TA de Paris [14]. De surcroît, on peut se demander pourquoi donc Legifrance puis les éditeurs ont fini par pseudonymiser leur stock d’arrêts, alors que cela représentait un très gros travail et que l’obligation n’était pas encore gravée dans la loi ...

Le développement de la référence neutre

Enfin, si l’on peut reconnaître le caractère peu pratique de l’état actuel du droit, il est largement contrebalancé par le développement très net du recours à la référence neutre (dit aussi identifiant unique) pour citer les arrêts. On parle là du numéro de pourvoi/requête/RG et plus encore du numéro ECLI, proposé [15] par l’Union européenne, sur la mise en place duquel la DILA et la Cour de cassation ont particulièrement travaillé et que le site des éditeurs juridiques SNE Reflex sur les règles de citation recommande d’utiliser. Certes, ce n’est pas aussi facile à mémoriser que "l’affaire Dupont". ECLI, même si son usage demande un peu d’exercice, ce n’est pas non plus d’une complexité effarante. D’autant qu’il permet de retrouver en ligne à coup sûr la décision correspondant à cette référence. ECLI est déjà disponible pour les arrêts de la Cour de cassation, et à terme chaque décision d’une juridiction française disposera de son numéro ECLI.

Mais dans votre tête ou dans une discussion orale ou un cours (non publié en ligne de préférence), rien n’interdit d’utiliser le nom des parties. Même s’il est vrai qu’avec les nouvelles règles de pseudonymisation *avant* transmission de la copie de la décision, ce sera quasi-impossible avec les nouveaux arrêts [16].

Enfin, lorsque les professeurs Blanc et Gautier se demandent « comment, dans une affaire complexe, comprendre la décision, lorsque les parties s’appellent X, Y et Z », la réponse, qui reste à mettre en place il est vrai, est simple : copier-coller dans son traitement de texte l’arrêt et utiliser la fonction Rechercher Remplacer en sélectionnant Tout remplacer pour remplacer X par n’importe quel nom et ainsi de suite. Imparfait mais largement suffisant ici. Temps de travail : 30 secondes.

Emmanuel Barthe
juriste documentaliste
ancien webmestre technique d’un site web de juridiction et à ce titre quotidiennement confronté aux problèmes juridiques et pratiques de la pseudonymisation
Jean Gasnault
juriste documentaliste, consultant
La Loi des Ours

Notes de bas de page

[1Tribune également publiée au Recueil Dalloz n° 29 du 5 septembre 2019 p. 1648.

[3Si vous n’êtes pas à l’aise sur le RGPD, lisez :

[4Ce qu’on peut regretter en partie, les progrès du big data (notamment par le croisement de différentes bases de données) et du machine learning laissant penser que la ré-identification/dé-pseudonymisation avance à grand pas. Sur ce sujet, voir les échanges dans les commentaires sous mon billet art.

[6On peut définir l’open data comme la reproduction libre et gratuite, mais dans le respect du texte d’origine, de données publiques, voire d’entreprises privées. C’est un mouvement et non une notion juridique de droit français, contrairement à la diffusion et la réutilisation des données publiques.

[7Voir, pour l’état antérieur du droit et pas mal de précisions qui resteront valables, notre article co-rédigé avec Xavier Haubry : Se procurer la copie d’une décision de justice : les bases légales et un guide pratique.

[8En anglais : "data sets".

[9Décisions de justice : ne pas confondre open data et accès à une copie, par Bertrand Cassar, Actualités du droit Lamy, 14 février 2019.

[10Open data des décisions de justice : la distinction entre open data et open access réaffirmée, par Clémence Jost, Archimag, 21 février 2019. En prenant quelques libertés avec le vocabulaire, car l’open access ne concerne que les articles, revues et ouvrages.

[12Cité par le blogueur canadien Michel Adrien : France Proposes "Anonymizing" Court Decisions, Library Boy, 1er mars 2006.

[16Selon l’article L 10 du CJA (l’article du COJ est identique à cet égard), « les noms et prénoms des personnes physiques mentionnées dans le jugement, lorsqu’elles sont parties ou tiers, sont occultées préalablement à la mise à disposition du public ». Un décret en Conseil d’Etat à venir fixera les conditions d’application de ces dispositions.

Répondre à cet article