Logiciels ou XML ?

Anonymiser automatiquement les décisions de justice : des solutions

Anonymiser à la source est plus facile et moins cher

Dimanche 1er octobre 2017, par Emmanuel Barthe // Portails juridiques officiels - Diffusion des données juridiques publiques

Vous êtes une association, un particulier, un organisme, une institution juridique dans un pays en voie de développement. Vous voulez mettre sur votre site les décisions de justice mais sans courir le risque de publier les noms des personnes physiques — ce qui peut être interdit [1] ou préjudiciable. Vous voulez au minimum les pseudonymiser, idéalement les anonymiser (pseudonymiser, c’est remplacer les noms par des lettres, anonymiser, au sens du nouveau règlement européen RGPD [2], c’est empêcher une ré-identification). Pour cela, vous cherchez un logiciel permettant de les anonymiser automatiquement.

Voici une tentative de réponse, rédigées après quelques consultations.

En résumé, et contrairement à ce qu’on pourrait penser, si on se donne la peine de "XMLiser" la chaîne de production numérique, anonymiser à la source est plus facile et moins cher.

Anomymiser ex-post

Pour anonymiser a posteriori, on peut utilisé les solutions éprouvées :

Voyez aussi :

Peut-être pouvez vous aussi voir si l’Institut de Veille Sanitaire français vous autoriserait à utiliser leur logiciel d’anonymisation et s’il pourrait être adaptable à votre cas.

Anomymiser ex-ante

S’il vous est possible d’encadrer dès la rédaction des décisions les noms des personnes physiques, vous pouvez anonymiser à la source :

  • par des balises XML (invisibles à l’impression / visualisation) définies dans la DTD. Une modification de la feuille de style XSL permettrait alors de ne diffuser que des arrêts anonymisés [5]. C’est la solution du Conseil d’Etat français, et la plus rapide et la moins chère in fine
  • voire très éventuellement par des (ou une chaîne de) caractères spéciaux visibles uniques dans le document (exemples : ^ ou ¤ ou %µ*), caractères qu’une macro Word avec des Rechercher et des Remplacer (ou un programme similaire sur tous les docts) pourra utiliser pour nettoyer les documents. Mais l’automatisation par macro ne suffit pas et laisse encore plein de travail humain. Tant et si bien que généralement il vaut mieux tout refaire à la main ...

En effet :

  • il ne suffit pas de caviarder (supprimer les noms), encore faut-il que la décision continue d’être lisible (donc ne pas mettre Monsieur X à toutes les parties, surtout quand il y en a plusieurs avec le même nom)
  • il ne faut pas anonymiser les personnes morales ni les professionnels du droit (sauf quand ils deviennent des parties, ce qui arrive parfois)
  • enfin, la pseudonymisationymisation ne suffit pas, il faut dépersonnaliser (retirer adresse, profession rare, fait célèbre ou médiatique, etc.). Cela, aucun rechercher/remplacer automatisé (les fameuses "règles") ne permet de le faire ...

La solution XML/XSL serait donc clairement à privilégier. Toutefois, l’"XMLisation" de la chaîne de production numérique, quand on part de simples documents Word diversement structurés et de fichiers PDF, est un chantier lourd, long et initialement coûteux.

Merci d’avance de vos retours d’expérience (les commentaires sont ouverts ou par mail), qui permettront d’enrichir ce billet.

Emmanuel Barthe
documentaliste juridique, veilleur, formateur

Notes de bas de page

[1C’est le cas en France.

[2Applicable à partir du 25 mai 2018.

[3Et aussi la solution développée par Alter Systems pour le stock des arrêts du Conseil d’Etat. Voir commentaire infra. La société Alter Systems a hélas fermé en mars 2017. Précisons que les décisions des juridictions administratives sont beaucoup mieux structurées au niveau de la présentation, du langage et du format informatique que celles des juridictions judiciaires, ce qui les rend plus facile à pseudonymiser.

[4C’est ce que montre le billet de Michael Benesty sur le sujet : La qualité de l’anonymisation des décisions de justice par machine learning baisse de façon drastique en fonction du nombre de mentions à anonymiser, blog de Supra Legem, 8 septembre 2016.

[5Disclaimer : je ne suis pas un spécialiste du XML. J’en connais les principes.

Répondre à cet article

1 Message

  • Aonnymiser automatiquement les décisions de justice : des solutions 4 octobre 2013 13:28, par Mihai Tanasoiu, Fondateur et Directeur Général d’Alter (...)

    Bonjour,

    Je trouve l’article très intéressant mais je trouve dommage qu’il ne cite pas une solution française qui a été déjà mise en place avec succès par le Conseil d’Etat depuis plus de 9 mois et qui donne d’excellents résultats avec une anonymisation des documents non-structurés. Cette solution a été mise en place par notre société Alter Systems basée à Lyon.

    En voici un court descriptif : http://goo.gl/faeMcJ

    Je reste à votre disposition pour toute information complémentaire.

    Cordialement,
    Mihai

    repondre message