Logiciels, Internet, moteurs de recherche

Dernier ajout : 10 juillet.

Derniers articles

Pourquoi et comment bloguer : quelques constats et convictions personnelles

Bloguer, c’est être libre (de s’exprimer)

Vendredi 26 janvier 2018

Lire la suite »

Je blogue depuis 2004. C’est une passion et une respiration.

Quand j’en parle, on me demande parfois :

  • Je voudrais bloguer mais je n’ose pas. Est-ce que ce que je veux écrire en vaut le coup ?
  • Faut-il publier beaucoup/souvent si on blogue ?
  • Sur quoi bloguer ? Sur quel sujet ?
  • Comment s’y prendre ? Comment est-ce qu’on blogue ?
  • Est-ce que ça a encore un intérêt de bloguer ? Est-ce que ce n’est pas plus simple et plus efficace de poster sur Twitter/Facebook/(écrivez ici votre réseau social préféré) ?
  • Qui va me lire ? Pour qui écrire ?
  • Bloguer, c’est dangereux ?
  • Bloguer, ça rapporte ?
  • Comment faire pour être bien référencé dans les moteurs de recherche (Google, Bing) ?

Alors, simplement, voici les réponses que je donne. Ce sont les miennes, d’autres blogueurs en donneront d’autres. Mais si ça peut vous aider à faire des choix et éventuellement vous lancer, j’en serai heureux.

Je voudrais bloguer mais je n’ose pas. Est-ce que ce que je veux écrire en vaut le coup ?

Ne vous posez même pas la question. Quand j’ai commencé, j’ai blogué pour moi seul :-) Bloguer est, au moins au départ, un acte solitaire et qui suppose qu’on a très envie de s’exprimer.

On blogue parce qu’on a quelque chose à dire et qu’on a envie de le publier, de le dire aux autres. Bloguer, c’est une passion, une obsession, une marotte.

C’est le temps qui dira si votre sujet et votre plume en valent le coup. Ce sont vos lecteurs, par leurs tweets, leurs posts Facebook, leurs commentaires sous vos billets, qui vous confirmeront que ce que vous écrivez intéresse, est utile ou émeut.

En théorie, on dit billet ou post pour un blog, pas article. Stricto sensu, le mot "article" est réservé aux articles de presse.

Après, quand je vois le peu de détails et d’arguments de certains articles, et inversement la longueur et le nombre de liens et de notes de bas de page de certains de mes billets, je n’ai aucune gêne à les qualifier d’articles. A propos de mon billet sur l’intelligence artificielle en droit [1], un spécialiste du sujet m’a même conseillé de le passer sur l’archive de pre-prints du CNRS, HAL. Sur HAL, concrètement, ce sont des articles de revues scientifiques qu’on publie. Alors ...

Faut-il publier beaucoup/souvent si on blogue ?

Réponse simple : non. Réponse nuancée : idéalement, une fois par semaine. Disons au moins une fois par mois.

En fait, tout dépend de votre envie d’être populaire et bien classé dans les moteurs de recherche. Google a tendance à vous laisser tomber si vous ne publiez pas au moins une fois par semaine. Ce qui est exigeant, surtout si vous bloguez sans rien y gagner sur le plan financier.

L’idéal, c’est d’avoir toujours de côté un ou deux billets prêts à être publié et des les publier progressivement. Ne pas faire de feu d’artifice en publiant trop de billets d’avion un coup mais les espacer d’au moins une semaine. (Cela dit, il m’arrive de ne pas pouvoir me retenir et d’en publier trois en une semaine. Tant pis !)

L’important pour être lu, c’est d’être crédible et de tenir la distance (au moins les deux premières années). Ce qui compte, ce n’est pas de publier souvent mais de publier bien (plus de précisions infra sur ce que veut dire « bien publier »).

Sur quoi bloguer ? Sur quel sujet ?

Sur ce que vous voulez. Exactement.

Sur ce qui vous branche ou ce qui est à la mode. Sur ce qui peut rapporter (un peu) d’argent. Sur ce qui peut vous faire (un peu) de pub. Sur ce qui peut vous aider à démontrer votre compétence si vous cherchez un poste, des partenaires commerciaux ou des clients.

Trois conditions si vous voulez être lu :

  • un sujet étroit/de niche ou au minimum très bien délimité. Ne sautez pas du coq à l’âne d’un billet à l’autre. Et les algorithmes des moteurs de recherche du Web n’aiment pas trop le mélange des genres
  • accrochez-vous à votre sujet. Ne le lâchez pas. Si vous voulez en changer, lancez un autre blog, sous une autre adresse et un autre nom
  • publiez :
    • soit de vrais scoops ou des exclusivités. Vos billets peuvent alors être courts mais c’est difficile, le scoop est le domaine de la presse
    • soit de longs billets argumentés et documentés.

Autrement dit, maîtrisez votre sujet. Soit vous le connaissez déjà (très) bien et vous êtes très bien informé (vous avez très vite les derniers tuyaux), soit vous faites de solides recherches pour vous documenter et ne pas dire de bêtises. Après tout, c’est Internet : même si la majorité des sites gratuits n’a guère d’intérêt pour les professionnels et les gens sérieux [2], il y a quand même des sites en accès libre fiables et bourrés d’information, même s’ils sont parfois difficiles à trouver [3].

Comment s’y prendre ? Comment est-ce qu’on blogue ?

Tres simplement et très facilement.

On commence par écrire son premier post sur n’importe quel logiciel de traitement de texte. Même si le bon vieux Bloc-Notes a mes faveurs, même Write, Open Office, Libre Office ou Word feront l’affaire. Sur smartphone, utilisez donc Simple Notepad de Mighty Frog si vous êtes sous Android [4]. Évitez Google Docs, il a besoin d’une connexion.

Pourquoi dites-vous de commencer par écrire sur un bon vieux logiciel de texte ? Moi, je veux écrire en ligne !

Parce que vous n’avez pas envie de rater votre premier essai. Rédiger hors ligne vous enlève la pression, vous permet de réécrire autant de fois qu’il le faudra sans aucun risque.

Et parce que pour bloguer, il faut prendre sur son temps libre. Et qu’on n’en a pas beaucoup. Or, quel meilleur endroit que les transports en commun pour écrire sur son smartphone, sa tablette ou son portable ? Justement, dans les transports, le plus souvent, il n’y a pas de connexion ...

Je ne sais pas écrire. Je n’ai aucun style !

Franchement, à moins d’avoir une prétention scientifique — ce qui est, je le reconnais, le cas de ce blog — on s’en moque. Quand je vois les fautes d’orthographe et de grammaire sur les SMS et Facebook, je me dis que le niveau moyen sur Internet est tel que vos lecteurs peuvent très bien n’en avoir rien à fiche [5].

Essayez quand même de ne pas faire une faute toutes les deux phrases. Ça fatigue à la longue et ça peut vous faire perdre bêtement des lecteurs. En plus, la plupart des logiciels de blog ont un correcteur orthographique intégré ... Au pire, copiez-collez vos écrits dans Word ou Open Office et laissez son correcteur faire le travail.

Question style, on s’en fiche encore plus. Parce que si vous écrivez au moins un billet par mois, à force, vous allez apprendre à écrire. Comme un journaliste, un écrivain ou un publicitaire. C’est en forgeant qu’on devient forgeron.

Sachez simplement que quand j’ai commencé, je faisais des phrases à rallonge et que je n’aérais mes paragraphes ni par des lignes vides ni par des intertitres ni par des puces ni par des images. Bref, je faisais des gros pâtés :-) Tout ce qu’il ne faut pas faire. Puis, très lentement, j’ai appris.

Il existe plein de guides/tutoriels gratuits sur Internet pour apprendre à écrire pour le Web. Il y en a de deux sortes :

  • ceux qui vous conseillent dans le seul but d’être bien classé dans Google et au final gagner de l’argent. Bons conseils en général (je les ai lus et en ai suivi certains), mais si vous les suivez à la lettre, vous ne risquez pas de vous distinguer de la masse
  • ceux qui ne veulent pas vous formater et vous recommandent la sincérité et l’authenticité. C’est mon cas. Trop de blogs n’ont d’original que leur charte graphique (le design, les couleurs et les images de leurs pages).

Avec quelle application/logiciel bloguer ?

Le plus simple pour débuter, c’est :

  • Blogger de Google. Mais s’il est très simple à utiliser, il est devenu un peu "has been". A mon avis, il est en perte de vitesse. Notamment, il n’est pas assez soutenu par Google.

Et sinon, à peine plus compliqué :

  • WordPress (WP) en version hébergée chez ... WordPress ("hébergée" veut dire que vous n’avez rien à installer et pas à vous soucier de votre serveur). WP offre même une application Android pour bloguer directement à partir de votre smartphone. C’est un plus.
    WordPress est LE logiciel dominant pour écrire sur Internet. Sa part de marché des logiciels de gestion de contenu (CMS) a dépassé les 50% en 2016 [8].
    En échange de la gratuité de l’hébergement sur WordPress.com, des publicités apparaîtront sur vos pages. Et vous ne pouvez pas contrôler leur nature ou leur contenu. Pour l’éviter, vous pouvez payer ou choisir de gérer votre serveur et d’installer vous-même WP

  • DotClear. Bien qu’il n’offre pas de version hébergée, son installation est automatisée, il est très riche en fonctionnalités, il est français et c’est une excellente alternative à WordPress [9].

Personnellement, j’utilise Spip, dans sa version 3, la plus récente, mais le délai pour le maîtriser ("learning curve") est plus important et la communauté des sites sous Spip se réduit inéxorablement depuis 2006 [10]. Pour les problémes techniques et les mises à jour de Spip, j’ai pris un webmestre. Je n’ai plus le temps de passer un dimanche les mains dans le cambouis.

Si vous prenez autre chose, vérifiez bien que les dernières mises à jour datent de moins de six mois, que la communauté autour de ce soft est nombreuse et qu’elle est toujours active. Sinon, le jour où vous aurez un bug ou bien à transporter votre production sur un autre logiciel, ce sera très compliqué voire très cher. Pour avoir d’autres idées, vous pouvez consulter un article de ce blog datant certes de 2007, mais plusieurs des logiciels cités sont toujours bien vivants [11].

Est-ce que ça a encore un intérêt de bloguer ? Est-ce que ce n’est pas plus simple et plus efficace de poster sur un réseau social ?

Sur un réseau social, ce que vous écrivez appartient, en fait, au réseau social. Si le réseau social arrête ses activités — voyez ce qui pourrait arriver à toutes les listes de discussion Yahoo Groupes ... — il vous serait très difficile, pour ne pas dire impossible, de transférer ça ailleurs. De même, si vous voulez transférer tout ce que vous avez écrit d’un réseau social à un autre ou vers un blog, ce sera mission impossible.
Votre blog, en revanche, est votre propriété, juridiquement et surtout — la plupart du temps — techniquement. Vos écrits sont stockés dans une base de données bien faite, récupérable et transplantable ailleurs.

Si le réseau social se fâche avec Google ou a un mauvais moteur de recherche interne, vos statistiques de consultation vont se casser la figure.
Sur votre blog, le trafic qui y passe, c’est votre affaire, votre responsabilité. S’il monte ou s’il tombe, c’est de votre fait.

Sur un réseau social, vous ne pouvez pas empêcher quelqu’un d’écrire des c...ies sur votre page ou juste à côté. Si vous voulez fermer votre compte, tous les commentaires et réponses des autres resteront en ligne, eux. Ça peut être gênant.
Alors que sur votre blog, vous êtes le maître. Vous pouvez censurer les trolls, les pubs et les inintéressants (je le fais, c’est *mon* blog) [12].

Sur un réseau social, les messages longs (400 mots et plus) sont mal vus et généralement peu lus. Le format long sur un réseau social, en pratique, tourne autour de 100 à 200 mots [13]. Et renvoie au blog pour plus de détails !
Sur un blog, vous écrivez aussi long (ou aussi court, après tout) que ça vous chante. Il est établi que pour être bien référencé par Google, la longueur idéale d’un billet de blog se situe entre 1000 et 2000 mots mais varie selon le secteur [14]. De plus, long, ça fait sérieux. Et il suffit de faire un chapeau ou un résumé en début d’article et tout le monde est content.

Les posts sur les réseaux sociaux disparaissent des écrans radar en quelques jours. Tenter de les retrouver par Google ou le moteur interne du réseau est le plus souvent peine perdue.
Inversement, la popularité d’un billet bien argumenté se bonifie avec le temps. Mon billet le plus consulté, Où trouver des arrêts de cour d’appel ?, a été écrit à l’origine en octobre 2011. Je ne l’ai mis à jour que cinq fois depuis. Six ans après, il est autour de 300 000 visites au total, et demeure un des articles les plus lus récemment sur mon blog.

Et puis, un blog, c’est beaucoup plus personnel qu’un compte sur Facebook. Sur un grand réseau social, le produit c’est vous. Vous, vos données, vos liens affectifs et vos émotions. Le réseau social, c’est aujourd’hui établi, cherche à provoquer votre indignation, votre colère, votre compassion. Parce que ce sont les émotions qui créent le buzz. Et c’est le buzz qui crée le trafic. Et c’est le trafic qui crée les données et la publicité qu’on vend.
Sur votre blog, vous n’êtes pas le produit, vous êtes l’auteur du produit. Le produit, vous le contrôlez de A à Z. Vous pouvez même en faire payer une partie (voir le blog Abondance d’Olivier Andrieu, le pape français du référencement de sites web). La publicité, si vous en mettez, vous pouvez dans plusieurs cas la contrôler. Et c’est vous qui en touchez les (faibles) revenus.

Tout ça ne vous empêche pas d’annoncer vos posts sur Twitter, FB etc. et de créer le débat. Bien au contraire ! Blog et réseau social sont complémentaires et se renforcent l’un l’autre.

Qui va me lire ? Pour qui écrire ?

Ne vous tracassez pas. Votre lectorat vous trouvera — ou pas — et ce, principalement par la communauté de blogueurs, twittos et "FBers" autour de vous et pour le reste par Google. Tenez deux ans. Si au bout de deux ans, vous n’avez toujours que quelques dizaines de visiteurs uniques par jour, posez vous des questions. Et envisagez d’arrêter ou de changer de sujet.

Si vous êtes très volontaire, très pressé ou bien vous voulez bloguer pour de l’argent, il faut prévoir :

  • une formation pour vous au marketing en ligne
  • d’échanger des liens avec des sites proches du vôtre par le sujet : vous faites un lien vers eux, ils en font autant en sens inverse
  • de faire travailler un spécialiste du référencement (SEO)
  • si rien de toute cela ne marche, une campagne de publicité.

De temps en temps, proposez à vos lecteurs de vous suggérer des thèmes de billet.

Bloguer, c’est dangereux ?

Soyons clair :

  • c’est à vous de choisir ce que vous aller dire sur votre blog. Réfléchissez avant de cliquer sur Publish. Imaginez que vous êtes à une conférence, devant plus de 100 personnes, c’est vous qui intervenez : est-ce que vous pouvez vous permettre de dire ça ? Non ? Alors, ne bloguez pas là-dessus
  • bloguer n’est pas plus dangereux que d’écrire un billet d’humeur dans un journal ou un status sur Facebook. Un blog est *public*. Écrire sur un blog, c’est publier. Et publier, c’est rendre public.

Sincérité ne veut pas dire épancher son cœur ni prendre le risque d’être accusé de diffamation. Juste écrire sur un ton personnel et sur ce qui vous intéresse vous personnellement. Pas votre public. Rappelez-vous : bloguer est fondamentalement un acte solitaire et très personnel. Si vous bloguez, c’est d’abord pour vous. Mais c’est aussi un acte public : tout le monde peut vous lire. Il vaut mieux garder un équilibre entre ces deux aspects.

Bloguer, ça rapporte ?

Oui, mais en général très, très peu. Les pubs Adsense et Adwords ne rapportent pas lourd. De plus, elles peuvent être envahissantes et donc gêner vos lecteurs.

Pour du discret, vous pouvez essayer :

  • les commissions des sites de commerce électronique (Amazon ...) sur les ventes faites suite à un clic sur un lien posté sur votre blog. Mais leur rentabilité n’est pas meilleure sauf si votre blog est orienté consommation ou informatique et son trafic très élevé
  • le lien (avec ou sans image) sur la page d’accueil de votre site. C’est une partie de la popularité de votre site dans Google (Page Rank) que vous transmettez ainsi. Pour qu’on vous propose ça, il faut que votre blog soit déjà un minimum connu et reconnu.

Pour vous donner une idée : ce blog, avec un lien publicitaire en bas de la page d’accueil, sans logo ni image, me rapporte environ 100 euros par an. Il m’en coûte 150. Ce n’est pas comme ça que je vais devenir riche ...

Comment faire pour être bien référencé dans les moteurs de recherche (Google, Bing) ?

Voyez mon précédent article 10 conseils pour mieux référencer votre site dans Google ... et ailleurs.

En résumé

En résumé, ne vous laissez pas arrêter par vos doutes et lancez vous ! Ce n’est qu’ainsi que vous apprendrez et que vous saurez si vous êtes capable de tenir sur la durée.

Et, sans mépriser votre public ni les tendances n’oubliez pas : c’est *votre* blog. C’est votre originalité. Vous n’êtes pas obligé de faire comme tout le monde.

Emmanuel Barthe
blogueur depuis 2004

PS : ma collègue documentaliste juridique Carole Guelfucci donne ses raisons de bloguer et ses conseils : Tenir un blog professionnel.


La réalité virtuelle en 2D des applis de cartes n’est pas la réalité ...

Quand Google Maps et l’appli RATP sont dans les choux

... mais vise à le devenir

Vendredi 20 octobre 2017

Lire la suite »

Ce mardi 17 octobre 2017, il est 10h35 quand je consulte Google Maps sur mon smartphone pour aller de l’Etoile au 1 rue d’Astorg dans le 1er arrondissement à Paris.

GMaps et RATP peuvent vous mettre en retard si vous les prenez à la lettre

Voici les deux options principales que l’application Android de GMaps me propose :

  • prendre le RER A puis la ligne 9 : durée annoncée 17 mn
  • prendre le métro ligne 1 puis changement à Franklin Delano Roosevelt pour la 9 : durée annoncée 19 mn.

Bien que je sache qu’en règle générale le métro est plus rapide que le RER sur les courts trajets, les deux minutes d’avance du trajet par le RER m’attirent. Je choisis le trajet annoncé à 17 mn.

La durée réelle du trajet fut de ... 35 mn, soit le double du temps prévu par l’application. 95% d’erreur.

J’aurais dû méfier : en zoomant sur le trajet RER + ligne 9, je me rendrai compte que GMaps me fait sortir à Auber pour ensuite *revenir en arrière* par la 9. Ce qui est généralement absurde — et l’était dans le cas présent : il valait mieux carrément sortir à Auber et finir à pied (ça, GMaps ne le proposait pas). Cela aurait dû me mettre la puce à l’oreille.

Une cause possible de ce type d’erreur réside à mon avis dans le fait que dans le Métro, on capte très mal Internet. Google ne peut donc pas s’appuyer sur une énorme base de données de trajets réels (passés ou en cours), base qu’il a en revanche à sa disposition sur les routes [15].

Les estimations de temps de trajet de l’application RATP ne sont guère plus réalistes. Les retards fréquents des métros et bus, surtout quand on en prend trois ou quatre d’affilée pour arriver à son travail, font passer (cas vécu) une durée théorique de 1h15 du Pré-Saint-Gervais à la Faculté libre droit d’Issy-les-Moulineaux à une durée réelle de 1h30-1h45 en moyenne [16].

L’avantage de l’appli RATP, toutefois, est de signaler les perturbations de trafic. Ce que Maps ne fait pas ni ne prend en compte.

Au final, en terme d’estimation du temps de trajet, il est plus efficace d’avoir mémorisé des temps de trajet moyens réels et de consulter un plan papier ou PDF du réseau RATP. En revanche, cela peut prendre 2 à 3 minutes de plus que GMaps. Mais on regagne largement ces quelques minutes perdues par un temps de trajet effectif soit raccourci soit mieux estimé. De toute façon, même utiliser GMaps prend du temps : sortir son portable de la veille, allumer le GPS, attendre qu’il se connecte, taper l’adresse de destination, lancer la recherche consulter les résultats, faire un choix ... Tout cela représente généralement entre 1 et 3 mn.

Moralité : une marge de sécurité de 25 à 30% minimum, du bon sens et de l’expérience sont nécessaires si vous voulez correctement estimer votre temps de trajet en transports en commun sur l’Île-de-France avec ces deux applications pourtant connues de la plupart des internautes.

Autres limites

On peut par ailleurs signaler d’autres problèmes fréquents sur Google Maps :

  • sur Paris, la durée prévue par Google Maps pour effectuer un changement et prendre une correspondance est systématiquement de 2 mn. Tout habitant de l’Île-de-France sait que ce n’est pas réaliste. Les couloirs interminables des grandes stations de métro, pour ne pas parler de celles de RER, ne permettent pas de tenir ce temps. Et puis il y a le métro raté à quelques secondes prés, qui fait que là où théoriquement ça aurait dû prendre 3 mn, ça va en prendre 5. Il y a les personnes qui ne peuvent pas courir. Etc. Le temps réel mis dans le cas supra pour changer de la ligne A à la ligne 9 du Métro à la station Auber a été de 10 mn. Pas de 2 mn
  • avec le RER : quand GMaps vous pousse à prendre un RER au lieu du métro ou d’une autre solution. Il suffit de rater d’une minute le RER en question pour devoir attendre le suivant 10 mn, ce qui décale tout le reste du voyage
  • avec le bus : GMaps ne connaît pas les horaires des bus de banlieue. L’appli RATP, elle, les connaît
  • si le trajet (les petits ronds bleus) passe par une longue portion de rue, les petits ronds bleus recouvrent le nom de la rue sur l’application Maps. Résultat paradoxal : il est impossible de lire le nom de cette rue sur la carte
  • si on cherche des restaurants ou des hôtels ou tout autre type de lieu sur GMaps et qu’on se déplace sur la carte, les points rouges signalant ces lieux n’apparaissent souvent pas sur la nouvelle portion de carte. Alors, on recommence la recherche, on s’énerve ...
  • sur Maps comme chez Yelp, La fourchette.com, Resto-in, TripAdvisor et les autres annuaires d’entreprises bien connus, bien des évaluations et les notes qui vont avec laissent rêveur
  • hors des grandes agglomérations, de nombreux erreurs et problèmes existent sur Maps :
    • un chemin censé permettre de traverser une voie ferrée est en réalité barré par une grille et la porte dans la grille est fermée à clé
    • en forêt et en montagne, des chemins marqués sur la carte GMaps n’existent pas. D’autres, non marqués sur GMaps, existent. Les cartes IGN sont cent fois plus riches et plus précises ... Mais hélas chères dès qu’on commence à s’équiper sérieusement et peu ergonomiques en version numérique. Google aurait intérêt à prendre à nouveau une licence IGN et à la garder cette fois, pour les mises à jour
    • des territoires revendiqués par deux structures étatiques concurrentes mais dont les revendications sont toutes deux légitimes, sont attribuées à une seule de ces deux structures
    • les cartes interactives dans les zones de campagne, forêt et montagne exigent que le GPS soit allumé la plupart du temps. La consommation d’électricité est alors telle que la batterie de mon OnePlus 3T, pourtant connu pour son excellente autonomie, s’épuise en trois heures d’utilisation continue.

La carte n’est pas le territoire ... mais pourrait le devenir

Plus fondamentalement, particulièrement quand je me promène en touriste, je ne peux pas apprécier une ville si je passe la moitié de mon temps à la regarder à travers un plan interactif. Je tiens à continuer à y déambuler à pied ou à vélo. Pourtant, chacun constate le nombre croissant de gens qui marchent en ne regardant rien d’autre que leur écran et n’entendent rien de leur environnement sonore, les oreilles bouchées par leurs écouteurs. Tiens ! Votre serviteur aussi, quand il écrit ce billet, marche les yeux sur son écran ...

Google Maps, YouTube, Facebook, Snapchat et autres interfaces numériques sont en train de redéfinir non seulement l’information que nous recevons (Maps est de fait, entre autres, un moteur de recherche local) mais aussi ce que nous voyons et faisons de la réalité physique et humaine qui nous entoure. Et je ne parle même pas de la réalité virtuelle (VR).

Et ni les particuliers ni les responsables politiques n’ont grande prise là-dessus.

Seules peut-être les entreprises. Si leur budget communication, marketing et publicité le leur permet. Voyez par exemple la recherche d’un restaurant sans autre précision dans le 17e puis dans le 8e à Paris sur Google Maps : toujours en tête de la liste, quelque soit l’arrondissement et quelque soit sa note, Hippopotamus. Tiens donc !

Emmanuel Barthe
usager des transports parisiens et des services Google


Supra Legem, un exemple de machine learning appliqué au droit

Entretien avec Michael Benesty, 8 mars 2017

Dimanche 18 juin 2017

Lire la suite »

Le site Supra Legem, tenu par le juriste et ingénieur machine learning Michael Benesty [17] [18], nous en apprend beaucoup sur la (soi disant) "intelligence artificielle" en droit. En le testant, on comprend que les fameuses "IA" en droit sont en réalité des moteurs de recherche évolués, dopés à l’apprentissage statistique automatique, dit "machine learning" (ML) [19].

Pour rédiger mon article sur l’IA en droit, j’ai eu besoin de mieux comprendre le machine learning et le fonctionnement de Supra Legem. Michael Benesty a accepté de me l’expliquer. Le billet infra résulte des notes prises pendant cet entretien.

La recherche dans Supra Legem : ce qu’apporte le ML

Jetez un coup d’oeil sur l’interface de recherche de ce moteur de recherche et d’aide à la décision [20].

Le principal intérêt de Supra Legem pour un utilisateur juriste sont les deux filtres suivant, disponibles dès la page d’accueil dans la colonne de gauche :

  • filtre défendeur demandeur : l’intérêt majeur de ce filtre en droit administratif : il permet de cibler les affaires où une décision de l’administration est mise en cause. Si on ajoute que lorsque l’administration a pris la décision initiale, elle défend toujours le statu quo, ce filtre permet de connaître d’office le sens de la question, quelque soit le niveau de l’instance [21] : c’est pour ou contre l’administration/sa décision
  • filtre sur le dispositif : permet de cibler, parmi les décisions où l’administration est demandeur (on a paramétré ça dans le filtre précédent), celles où l’administration perd. Si par contre, l’administration est en défense, un avocat n’aimera pas ça car ça ne va pas dans son sens. Il préférera les cas où l’administration est en demande et perd. Pourquoi ce réglage ? Parce que cela signifie que tous les moyens [22] qu’elle a soulevés ont été vains et donc que l’avocat, qui défend en général une société privée ou un particulier, a intérêt à éplucher les arrêts trouvés ainsi à la recherche des situations correspondantes et des arguments utilisés par le défendeur. Ce type d’arrêt est rare [23] et difficile à faire remonter, d’où l’intérêt de ces deux filtres de SupraLegem.

Entre parenthèses, ce serait la même logique en droit privé du travail (on serait hors droit public, donc sur une IA autre que Supra Legem) : employeur c/ employé, le licenciement est toujours du fait de l’employeur

M. Benesty précise qu’en droit judiciaire, notamment en droit civil, ce type d’approche est plus compliqué.

Pour aller plus loin, voir le billet 6 façons d’utiliser les algorithmes prédictifs pour améliorer vos recherches de jurisprudence, par Michael Benesty, Blog de Supra Legem 6 mai 2016.

Précisions importantes sur les apports du ML

En machine learning, les points de départ suivant sont très importants :

  • la jurisprudence en droit administratif est "propre". Tout est rédigé de la même façon : le vocabulaire, et surtout le plan de la décision très systématique. Par exemple : en droit administratif, les faits ne viennent jamais au milieu de la décision, contrairement au droit judiciaire où des rappels peuvent apparaître dans tout le corps de la décision ; de la même façon, le droit administratif ignore le problème des moyens supplétifs
  • en matière de reconnaissance d’image [24], les réseaux neuronaux ont permis en quelques années de passer de 40 à 5% de taux d’erreur (certains en sont à 3%).

En ML en droit on est plus dans le NLP (traitement du langage naturel) [25]. Les réseaux neuronaux du deep learning, qui font souvent la une dans la presse spécialisée, réduisent le traitement des données en amont [26] et on peut faire avec eux des choses plus génériques mais leur apport en droit est très inférieur à ce qu’ils ont fait pour la reconnaissance d’image. De plus, ils coûtent très cher en temps (parfois plusieurs semaines de calculs sont nécessaires, cela a été le cas avec le nouveau service de traduction mis en place en 2016 sur Google Translate [27]) et puissance de traitement [28].

NLP : le ML appliqué au langage

Le NLP d’aujourd’hui, c’est l’application du ML au langage (ce n’est pas, malgré son nom, la compréhension par la machine du langage naturel) : Depuis quelques temps l’algorithme non supervisé Word2vec a changé la façon d’approcher les apprentissages :

  • créé par Google puis mis par lui en open source ; il y a deux ans Google l’a utilisé dans les algorithmes de son moteur de recherche web sous le nom de RankBrain, qui est maintenant le 3e signal en importance dans le ranking du moteur de recherche web de Google et facilite la lutte contre le spamdexing
  • on lui donne du texte brut il remplace chaque mot par un vecteur/représentation, formalisée par une suite de chiffres sans signification pour un humain. L’idée derrière : retrouver le sens d’un mot en observant la distribution des contextes : le mot chien sera souvent accompagné de poil, chat, museau ... Il trouve ainsi tout seul les mots similaires parce que leurs vecteurs sont similaires. On peut aussi demander des syllogismes à l’algorithme : roi -> reine, homme -> il va trouver femme
  • Michael Benesty utilise la variation de Word2vec développée par Facebook
  • selon lui, Word2vec est :
    • très bon en sémantique. Word2vec est super bon pour trouver les cohyponymes (frères et soeurs de la racine sémantique de termes)
    • mais n’inclut pas d’informations de nature logique (ex. beau et moche ont des vecteurs similaires ... !).

La recherche en ML essaie cependant de faire de la logique : le taux moyen d’erreur est de 40% actuellement sur une tâche de role labelling, c’est à dire trouver dans un texte qui fait quoi (mot-clé : "role labelling"). En pratique, ça se termine donc souvent en regex (il est très fréquent que les performances annoncées soient en fait le résultat de ML amélioré par des règles plus ou moins simples mises au point par un humain).

ML et droit des données personnelles

Le règlement général européen sur la protection des données personnelles (RGPD) [29] entre en application en 2018 [30]. Il donne à une personne physique le droit de demander à quelqu’un qui pris une décision ayant un effet légal fondé sur un algorithme d’expliquer et justifier sa décision. Vu la difficulté, même pour les développeurs ML, de comprendre comment l’algorithmes aboutit au résultat, cela va poser de sacrés problèmes si les juges et les forces de l’ordre se reposaient lourdement sur l’IA. Certains juges et avocats redoutent que des magistrats, par peur de rendre une décision qui sera cassée, pourraient se conformer à la tendance qu’une IA aurait révélée.

ML et discrimination

Comment expliquer la discrimination policière (surveillance policière, arrestations) et judiciaire (application des peines) causée au Etats-Unis par le machine learning ? En fait, les algorithmes ML renforcent la discrimination parce que le machine learning optimise — dans le bon comme dans le mauvais sens — les biais des humains [31]. Le ML a tendance à reprendre et aggraver ces biais parce que c’est une technologie ultra dépendante des données qu’on lui fournit.

Au point que Michael Benesty recommande de faire travailler l’algorithme dans cet ordre : d’abord lui donner des bases de données de textes éloignées du sujet sur lequel on veut le spécialiser puis se rapprocher progressivement et terminer avec des textes pile sur le sujet (ex. ici en droit commencer par la base Gutenberg puis terminer par Legifrance). Il sera ainsi meilleur sur le sujet que si on lui avait fait "manger" les bases de textes dans le désordre.

Emmanuel Barthe
bibliothécaire documentaliste juridique
testeur de bases de données


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 33

Dernières brèves