Logiciels, Internet, moteurs de recherche

Dernier ajout : 18 octobre.

Derniers articles

Supra Legem, un exemple de machine learning appliqué au droit

Entretien avec Michael Benesty, 8 mars 2017

Dimanche 18 juin 2017

Lire la suite »

Le site Supra Legem, tenu par le juriste Michael Benesty [1] [2], nous en apprend beaucoup sur la (soi disant) "intelligence artificielle" en droit. En le testant, on comprend que les fameuses "IA" en droit sont en réalité des moteurs de recherche évolués, dopés à l’apprentissage statistique automatique, dit "machine learning" (ML) [3].

Pour rédiger mon article sur l’IA en droit, j’ai eu besoin de mieux comprendre le machine learning et le fonctionnement de Supra Legem. Michael Benesty a accepté de me l’expliquer. Le billet infra résulte des notes prises pendant cet entretien.

La recherche dans Supra Legem : ce qu’apporte le ML

Jetez un coup d’oeil sur l’interface de recherche de ce moteur de recherche et d’aide à la décision [4].

Le principal intérêt de Supra Legem pour un utilisateur juriste sont les deux filtres suivant, disponibles dès la page d’accueil dans la colonne de gauche :

  • filtre défendeur demandeur : l’intérêt majeur de ce filtre en droit administratif : il permet de cibler les affaires où une décision de l’administration est mise en cause. Si on ajoute que lorsque l’administration a pris la décision initiale, elle défend toujours le statu quo, ce filtre permet de connaître d’office le sens de la question, quelque soit le niveau de l’instance [5] : c’est pour ou contre l’administration/sa décision
  • filtre sur le dispositif : permet de cibler, parmi les décisions où l’administration est demandeur (on a paramétré ça dans le filtre précédent), celles où l’administration perd. Si par contre, l’administration est en défense, un avocat n’aimera pas ça car ça ne va pas dans son sens. Il préférera les cas où l’administration est en demande et perd. Pourquoi ce réglage ? Parce que cela signifie que tous les moyens [6] qu’elle a soulevés ont été vains et donc que l’avocat, qui défend en général une société privée ou un particulier, a intérêt à éplucher les arrêts trouvés ainsi à la recherche des situations correspondantes et des arguments utilisés par le défendeur. Ce type d’arrêt est rare [7] et difficile à faire remonter, d’où l’intérêt de ces deux filtres de SupraLegem.

Entre parenthèses, ce serait la même logique en droit privé du travail (on serait hors droit public, donc sur une IA autre que Supra Legem) : employeur c/ employé, le licenciement est toujours du fait de l’employeur

M. Benesty précise qu’en droit judiciaire, notamment en droit civil, ce type d’approche est plus compliqué.

Pour aller plus loin, voir le billet 6 façons d’utiliser les algorithmes prédictifs pour améliorer vos recherches de jurisprudence, par Michael Benesty, Blog de Supra Legem 6 mai 2016.

Précisions importantes sur les apports du ML

En machine learning, les points de départ suivant sont très importants :

  • la jurisprudence en droit administratif est "propre". Tout est rédigé de la même façon : le vocabulaire, et surtout le plan de la décision très systématique. Par exemple : en droit administratif, les faits ne viennent jamais au milieu de la décision, contrairement au droit judiciaire où des rappels peuvent apparaître dans tout le corps de la décision ; de la même façon, le droit administratif ignore le problème des moyens supplétifs
  • en matière de reconnaissance d’image [8], les réseaux neuronaux ont permis en quelques années de passer de 40 à 5% de taux d’erreur (certains en sont à 3%).

En ML en droit on est plus dans le NLP (traitement du langage naturel) [9]. Les réseaux neuronaux du deep learning, qui font souvent la une dans la presse spécialisée, réduisent le traitement des données en amont [10] et on peut faire avec eux des choses plus génériques mais leur apport en droit est très inférieur à ce qu’ils ont fait pour la reconnaissance d’image. De plus, ils coûtent très cher en temps (parfois plusieurs semaines de calculs sont nécessaires, cela a été le cas avec le nouveau service de traduction mis en place en 2016 sur Google Translate [11]) et puissance de traitement [12].

NLP : le ML appliqué au langage

Le NLP d’aujourd’hui, c’est l’application du ML au langage (ce n’est pas, malgré son nom, la compréhension par la machine du langage naturel) : Depuis quelques temps l’algorithme non supervisé Word2vec a changé la façon d’approcher les apprentissages :

  • créé par Google puis mis par lui en open source ; il y a deux ans Google l’a utilisé dans les algorithmes de son moteur de recherche web sous le nom de RankBrain, qui est maintenant le 3e signal en importance dans le ranking du moteur de recherche web de Google et facilite la lutte contre le spamdexing
  • on lui donne du texte brut il remplace chaque mot par un vecteur/représentation, formalisée par une suite de chiffres sans signification pour un humain. L’idée derrière : retrouver le sens d’un mot en observant la distribution des contextes : le mot chien sera souvent accompagné de poil, chat, museau ... Il trouve ainsi tout seul les mots similaires parce que leurs vecteurs sont similaires. On peut aussi demander des syllogismes à l’algorithme : roi -> reine, homme -> il va trouver femme
  • Michael Benesty utilise la variation de Word2vec développée par Facebook
  • selon lui, Word2vec est :
    • très bon en sémantique. Word2vec est super bon pour trouver les cohyponymes (frères et soeurs de la racine sémantique de termes)
    • mais n’inclut pas d’informations de nature logique (ex. beau et moche ont des vecteurs similaires ... !).

La recherche en ML essaie cependant de faire de la logique : le taux moyen d’erreur est de 40% actuellement sur une tâche de role labelling, c’est à dire trouver dans un texte qui fait quoi (mot-clé : "role labelling"). En pratique, ça se termine donc souvent en regex (il est très fréquent que les performances annoncées soient en fait le résultat de ML amélioré par des règles plus ou moins simples mises au point par un humain).

ML et droit des données personnelles

Le règlement général européen sur la protection des données personnelles (RGPD) [13] entre en application en 2018 [14]. Il donne à une personne physique le droit de demander à quelqu’un qui pris une décision ayant un effet légal fondé sur un algorithme d’expliquer et justifier sa décision. Vu la difficulté, même pour les développeurs ML, de comprendre comment l’algorithmes aboutit au résultat, cela va poser de sacrés problèmes si les juges et les forces de l’ordre se reposaient lourdement sur l’IA. Certains juges et avocats redoutent que des magistrats, par peur de rendre une décision qui sera cassée, pourraient se conformer à la tendance qu’une IA aurait révélée.

ML et discrimination

Comment expliquer la discrimination policière (surveillance policière, arrestations) et judiciaire (application des peines) causée au Etats-Unis par le machine learning ? En fait, les algorithmes ML renforcent la discrimination parce que le machine learning optimise — dans le bon comme dans le mauvais sens — les biais des humains [15]. Le ML a tendance à reprendre et aggraver ces biais parce que c’est une technologie ultra dépendante des données qu’on lui fournit.

Au point que Michael Benesty recommande de faire travailler l’algorithme dans cet ordre : d’abord lui donner des bases de données de textes éloignées du sujet sur lequel on veut le spécialiser puis se rapprocher progressivement et terminer avec des textes pile sur le sujet (ex. ici en droit commencer par la base Gutenberg puis terminer par Legifrance). Il sera ainsi meilleur sur le sujet que si on lui avait fait "manger" les bases de textes dans le désordre.

Emmanuel Barthe
bibliothécaire documentaliste juridique
testeur de bases de données


Simple Notepad de Mighty Frog - Une app pour écrire partout, tout le temps, tout simplement

Efficace, sans fioritures, malin : une véritable application de productivité

Jeudi 15 juin 2017

Lire la suite »

Mighty Frog : Puissante Grenouille. Non, ce n’est pas totem scout :-) Ce français-là ("frog") [16], le développeur de l’application Android Simple Notepad, n’est peut-être pas exactement puissant ("mighty"), mais son appli est extrêmement efficace ("powerful").

Simple Notepad : l’interface d’accueil : la liste des documents

Simple Notepad est une application de prise de note et de rédaction à la fois simple et puissante. Elle combine des fonctionnalités et des qualités habituellement incompatibles :

  • facilité d’utilisation : on ouvre l’appli, on touche l’icône crayon et on peut écrire. L’enregistrement est automatique, l’attribution du nom de fichier aussi. Même si vous sortez du logiciel, même si vous passez sur une autre app, Simple Notepad n’oubliera jamais d’enregistrer vos notes
  • lisibilité : ce n’est pas un détail : la mise en page est sommaire (par défaut : police Arial noir sur fond blanc) mais parfaitement lisible. Le geek que je suis, travaillant sur écran les trois quarts du temps et parfois obligé de porter ses lunettes, ne se fatigue jamais avec Simple Notepad
  • richesse des fonctionnalités. Si on veut juste taper son texte, on tape son texte. Facile. Mais si on veut plus de fonctionnalités (sans aller jusqu’à la mise en page ni toutes les nuances des polices de caractère), on peut :
    • protéger un fichier en le mettant en lecture seule, en masquant son titre dans la liste des fichiers, par un mot de passe ou encore par le modèle de verrouillage du smartphone
    • se mettre un rappel qu’on doit reprendre un document pour le finir
    • ajouter des images au document
    • créer un raccourci (avec une icône) sur le bureau de son smartphone
    • ajouter tout le texte dans un rendez-vous dans son agenda
    • exporter ses documents au format TXT (le format texte le plus basique, celui du Bloc-Notes de Windows, celui que tous les traitements de texte savent lire).

Les fonctionnalités de tri et de recherche

Simple Notepad possède bien d’autres fonctionnalités : par exemple, on peut aussi colorier les titres des documents pour mieux les repérer. Etc. Pour en savoir plus, lisez cetype article (en anglais) publié en 2012 déjà sur le célèbre site américain Makeuseof : Secure and really simple note taking with Simple Notepad, par Saikat Basu.

Côté défauts, il n’y en a que trois :

  • pas de sauvegarde automatique dans le cloud. Il faut donc penser à exporter régulièrement ses notes (ça prend quelques secondes) puis à les transférer sur son cloud (Google Drive etc.).
  • la recherche de mots-clés dans les notes ne fonctionne pas
  • dans les listes, quand on veut cocher une case à cocher, on n’y arrive pas, on se déplace verticalement (en fait, il faut taper sur le titre, mais c’est contre-intuitif).

Je n’ai pas l’habitude de faire de la publicité (dans le bon sens du terme : rendre public) pour une appli pour smartphone. De même que le Web gratuit est selon moi essentiellement vide [17], 90% des apps ne sont pas des logiciels rendant un véritable service, des "outils de productivité" comme on dit. A part les apps de gestion d’agenda et de tâches (Trello etc.), les apps de messagerie (Gmail etc.) et quelques rarissimes apps de bureautique et SGBD, voire de retraitement d’image (PhotoCompress etc.), on est dans le gadget et le passe-temps à fond la caisse.

Eh bien pas là. Pas Simple Notepad. C’est une app extrêmement utile. Qui fait réellement gagner du temps. Qui simplifie la vie. Pour tout vous dire : non seulement je gère mes listes de courses sur Simple Notepad :-) mais ce billet et bien d’autres ont été écrits avec. J’allais oublier : elle est gratuite et sans publicité.

Emmanuel Barthe
geek et rédacteur sur Internet depuis 1997 [18]

Simple Notepad : le menu Paramètres

Le menu Outils de Simple Notepad

Le menu Outils


Google Books 1,2 million de livres du domaine public numérisés, en accès libre et gratuit et librement et gratuitement copiables

Jeudi 8 juin 2017

Lire la suite »

Les fichiers extraits de Google Books ont été « purgés » de la restriction d’usage commercial (autrement dit, Google n’a laissé que ce qui est dans le domaine public) et ils sont librement réutilisables : cela donne une collection de plus de 1,2 millions d’ouvrages issus de Google Books disponible sur Internet Archive.

On y trouve surtout des ouvrages en langue anglaise. Toutefois, une recherche par le mot-clé "droit" trouve des choses.

A priori pas transcendant du tout en droit français, mais il faudrait évaluer. Attention : dans la liste de résultats, la date est celle de dépôt dans l’archive. Pas de publication (cf supra).

Les commentaires sont ouverts aux testeurs.

Emmanuel Barthe
bibliothécaire documentaliste juridique


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 30

Dernières brèves