Utiliser Google pour des recherches juridiques

Une méthode de recherche fiable sur le Web

Dimanche 9 octobre 2016, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

Sommaire
I. Comment fonctionne Google
II. Comment interroger Google
III. Recherche avancée : exemple d’utilisation
IV. Pour aller plus loin

I. Comment fonctionne Google : quelques principes à retenir

Le contenu de Google :

- Google est un moteur de recherche sur le Web = la plus grande base de données de pages web [1].

- Mais tout n’est pas dans Google et tout n’est pas forcément bien référencé dans Google :

  • Google n’indexe généralement pas les bases de données payantes. Il peut toutefois indexer les titres d’articles payants, car ceux-ci sont affichés avec leur lien sur des pages gratuites (voir par exemple les titres des articles des revues de Lextenso) ou bien le site payant a un fil RSS. Il peut même indexer non seulement le titre mais aussi les auteurs et les mots-clés (pas le texte intégral) lorsque l’éditeur laisse ses métadonnées disponibles librement et gratuitement pour le moissonnage OAI (exemple des articles de revues de LexisNexis, voir infra)
  • il ne couvre pas tout le Web : ni le Web payant, ni le contenu de nombreuses bases de données gratuites [2], ni les sites qui lui interdisent l’accès à tout ou partie de leurs pages (le fameux fichier robots.txt) etc. Au total, on estime que Google n’indexe (i.e. ne reproduit le contenu et ne le place dans son index [3]), au mieux, que la moitié environ des pages web gratuites librement accessibles. Les pire estimations, sous-entendant certes une définition du Web très large puisqu’incluant les darknets, donnent seulement 4% du Web comme indexé [4].
    Un exemple important de ces sites-bases de données plus ou moins difficiles à indexer pour Google sont les bases de données de Legifrance, à l’exception notable (et bien pratique ...) des textes consolidés (LEGI) et du JORF [5]. Il faut donc selon les cas interroger Legifrance par les interfaces de recherche de chacune de ses bases de données (en savoir plus). C’est particulièrement vrai pour la jurisprudence
  • à noter que le machine learning [6] (apprentissage statistique automatique [7]) est utilisé pour toutes les requêtes Google depuis juin 2016. Cet algorithme de Google est appelé RankBrain. Comme l’explique Olivier Duffez de WebRankInfo, « RankBrain est un système basé sur le machine learning permettant à Google de mieux comprendre les requêtes des internautes. Il peut s’agir de requêtes très longues et précises (très longue traîne) ou de requêtes n’ayant jamais été faites et peu similaires à d’autres plus connues. Grâce aux nouvelles méthodes d’intelligence artificielle dont Google est devenu un des plus grands spécialistes mondiaux, RankBrain parviendrait à mieux comprendre ces requêtes difficiles » [8]. Pour autant, le type de requête que décrit O. Duffez (longues, beaucoup de mots peu ou moyennement utilisés) — et qui est le propre des recherches juridiques pointues — ne réussit pas toujours dans Google. C’est probablement autant une limite du Web gratuit [9] que celle du moteur américain
  • à noter également que, comme l’explique Sylvain Peyronnet, chief scientist du moteur Qwant et co-fondateur du laboratoire de recherche privé ix-labs [10], dans une interview au Journal du Net [11], il n’y a depuis longtemps plus un (le PageRank d’origine), ni deux, ni trois algorithmes qui font fonctionner le moteur de recherche de Google mais un grand nombre (peut-être 200 !) d’algorithmes et ils s’influencent les uns les autres tout en étant pondérés par des critères ... et fréquemment modifiés pour améliorer les résultats ou lutter contre les spécialistes du SEO trop habiles [12]
  • Google peut aussi avoir des difficultés à faire remonter en haut du classement de ses résultats des documents très longs où l’information pertinente est noyée dans la masse. Ainsi, sur les PDF très longs (à partir de 30 à 40 pages environ), il indexera tout le document mais privilégiera très nettement dans son classement les mots-clés placés dans le titre, la balise title ou les premières pages écran du document. C’est particulièrement net si on ne restreint pas la recherche avec site: ou filetype:pdf Exemple : les références bibliographiques dans les fichiers PDF que constituent les trois parties des Notes de doctrine relatives aux arrêts de la CJUE et du TPI sur Curia. Contre-exemple : les références bibliographiques des revues de LexisNexis sur http://www.lexisnexis.fr/droit-document car chaque référence a sa propre page web
  • Google peut être en retard sur les mises à jour des sites web les moins populaires ou mettre des jours ou des semaines à indexer correctement un nouveau site web (voir infra), notamment parce que personne n’a encore fait un lien vers lui. Mais il indexe en temps réel les mises à jour des sites institutionnels, universitaires, de presse, des blogs populaires et de tout autre site populaire ou fiable [13]
  • parce qu’il dépend du contenu d’Internet, il ne couvre ni le papier ni la littérature grise. Quoique ... Avec Google Books et surtout le partenariat de très grandes bibliothèques [14], Google indexe énormément d’ouvrages en anglais. Mais du fait de l’opposition des éditeurs français, le contenu en droit français est pour l’instant faible — pas en droit belge.

Les résultats de Google :

- Les résultats sont classés par pertinence. La "pertinence selon Google" tient compte :

  • d’abord des liens pointant vers les pages web et de la qualité de ceux-ci (Google les considère comme autant de recommandations), c’est-à-dire en fait de la qualité de celles-ci (les pages vers lesquelles ils pointent) autant que de la qualité du site faisant les liens. Exemple paroxystique : un site universitaire (site de qualité quasiment par nature selon Google, voir infra) fait des liens vers des pages web du blog d’une spécialiste reconnue du sujet (site de qualité selon Google du fait des nombreux liens établis vers lui par d’autres spécialistes et par la communauté réunie autour de ce sujet, voir infra)
  • et ensuite des mots contenus dans la page web, ceux du titre informatique de la page (balise title), du titre réel de celle-ci (balise H1 ou h2 sinon) et du nom du fichier HTML étant les plus importants
  • de la "qualité" (selon Google) de la page. Le nom de domaine est important ici : les sites universitaires (avec "univ" dans leur nom de domaine en France ou .edu aux USA) et gouvernementaux (.gouv.fr en France, .gov aux Etats-Unis) sont favorisés ; les sites personnels sont défavorisés, sauf s’ils ont leur propre nom de domaine, une forte réputation au sein de leur communauté
  • de la fraîcheur/fréquence de mise à jour de la page. Par exemple, un site personnel réputé dans une communauté, sur des requêtes Google sur lesquelles il possède des pages très pertinentes, va pourtant reculer en bas de la première page des résultats de Google s’il n’est pas mis à jour chaque semaine.

- Cette pertinence est réelle : en règle générale, il suffit de consulter les 30, voire les 50, premiers résultats pour trouver sa réponse et avoir balayé l’essentiel des sites. En général ... Ce qui veut dire que parfois il faut aller jusqu’au 100e résultat (exemple vécu).

- Cependant les résultats de Google sont de temps à autre — ça vient par vagues — pollués par les résultats de sites publicitaires quasiment vides de contenu juridique, comme les sites faisant de la publicité pour des livre de droit du licenciement destinés aux particuliers [15]. Une fois ceux-ci identifiés, Google les "bannit" de son index, mais le problème revient de temps à autre.

- Les résultats sont en général très "frais" :

  • Google indexe très régulièrement les sites importants (exemples : Assemblée nationale, Sénat, etc.)
  • Google privilégie les sites à mise à jour très fréquente, tels les sites de presse (lemonde.fr, liberation.fr, etc.) et les blogs, en les réindexant de une à plusieurs fois par jour
  • néanmoins et de manière logique vu sa préférence pour les liens hypertextes et pour les sites à mise à jour fréquente, Google peut avoir quelques jours de retard sur certaines rubriques peu consultées de sites très vastes et jusqu’à une semaine de retard — en général, plutôt quelques jours — sur l’actualité des sites web les moins importants, qui eux-mêmes sont rarement mis à jour. De même, Google peut mettre jusqu’à plusieurs semaines pour indexer correctement un nouveau site web, c’est-à-dire indexer la totalité de ses pages et les faire monter en tête des résultats sur les questions pertinentes [16].

II. Comment interroger Google

L’essentiel :

  • laisser un espace revient à utiliser l’opérateur logique ET implicite
  • cherchez à utiliser des expressions plutôt que des suites de mots. Google "accroche" mieux là dessus (voir explication détaillée infra).

- 1. Ne vous laissez pas influencer par les suggestions de Google [17]. Prenez 30 secondes pour réfléchir aux mots-clés que vous allez utiliser. Car, même avec Google, cela peut faire la différence entre trouver et ne pas trouver :

  • pensez aux synonymes et quasi-synonymes. Voir aussi infra l’opérateur (tilde).
    Exemple : bail, baux, loyer, loyers, location. Un synonyme, ça peut être aussi un numéro d’article de Code, particulièrement en droit fiscal avec le CGI. Exemple (en recherche de jurisprudence) : responsabilité civile, 1382, faute
  • si vous cherchez la version officielle d’un texte, d’un arrêt ou d’un rapport, utilisez :
    • les termes juridiques officiels, c’est-à-dire ceux utilisés dans les codes et les lois (notamment dans les titres des lois).
      Exemple : redressement et liquidation judiciaires
    • la date complète.
      Exemple : 25 janvier 1985
    • ou éventuellement le numéro.
      Exemple : 85-98 (ce qui évite de trouver aussi la loi n° 85-99 sur les administrateurs judiciaires)
  • si en revanche vous cherchez des commentaires ou de la doctrine :
    • utilisez les noms usuels.
      Exemples : procédures collectives ou redressement judiciaire ou liquidation judiciaire ou difficultés des entreprises en difficulté ou défaillances d’entreprises
    • si vous cherchez des commentaires sur une réforme ancienne, précisez l’année.
      Exemple : 1985 (réforme des procédures collectives)
  • si vous cherchez de l’actualité non juridique ou des articles de presse, utilisez les termes économiques et/ou les expressions du langage courant.
    Exemple : faillite, faillites, fermetures d’entreprises, plans sociaux
  • plus généralement, si vous êtes compétent sur le domaine juridique concerné par votre recherche, tapez les mots et expressions qui devraient se trouver dans les documents que vous recherchez, et surtout dans leur titre et leurs premiers paragraphes. En revanche, si vous n’êtes pas spécialiste de ce domaine et a fortiori si vous n’êtes juriste ou étudiant en droit, évitez d’utiliser cette dernière technique.

- 2. Utilisez le mode recherche avancée pour mieux contrôler votre recherche ou — mieux — apprenez les opérateurs et filtres de Google. Vous pouvez accéder aux options avancées soit sur la page Recherche avancée de Google — et alors pas besoin de savoir comment les écrire [18], soit sur la page d’accueil de Google mais il faut alors connaître les noms des opérateurs et des champs/filtres et leur syntaxe.
Vous pourrez alors :

  • utiliser les opérateurs logiques ET (AND ou espace), OU (OR), SAUF (-), expression (" ") et de proximité (AROUND()). Rappel : en allant sur la page Recherche avancée, vous n’aurez pas à mémoriser leur syntaxe. Toutefois, sur cette page, les opérateurs de proximité comme AROUND() ne sont pas proposés. Les opérateurs de recherche permettent de "pousser le moteur dans ses retranchements". Exemples : on veut des documents relativement simples et à jour pour créer une EURL : créer OR création eurl OR "entreprise unipersonnelle" (on peut aussi ajouter : filetype:pdf) :
    • rappel : tout espace non placé entre des guillemets est pour Google un ET logique. Mais parfois aussi une incitation à interpréter la requête comme une expression : dans ce cas, si cette tendance de Google à tout transformer en expression vous gêne, utilisez la fonction avancée "Mot à mot" sous "Tous les résultats" ou écrivez en majuscules le AND [19]
    • attention : Google ne "comprend" pas les parenthèses [20] et le OR ne joue que sur les mots immédiatement adjacents à lui. Ce qui implique de mettre les mots d’une expression entre guillemets (contrairement à ce qui est recommandé plus haut pour les cas "normaux") si la notion faut partie d’une suite de synonymes. De plus, le premier mot qui commence une suite de OR est le plus important pour l’algorithme [21]. Exemple : résultats OR "chiffres d’affaires" OR bénéfices
    • il faut toutefois bien comprendre que multiplier les synonymes n’apporte pas grand’ chose en terme de pertinence des résultats. Un synonyme voire deux (pas plus, soit trois mots ou expressions maximum) aide mais le plus efficace en général reste le choix de la bonne expression (sans guillemets sauf si ça "part dans tous les sens") [22]
    • utiliser l’opérateur - (SAUF) pour exclure des termes qui faussent les résultats/les "polluent" : le - (moins) fonctionne. La règle générale d’utilisation de l’opérateur SAUF s’applique : n’utiliser le - qu’en dernier recours
    • opérateurs de proximité :
      • signalé en 2010, probablement apparu 5 ou 6 ans auparavant, mais non documenté par Google, l’opérateur de proximité AROUND(n) (où n est un nombre de mots qu’on fixera en pratique à 2 ou 5) est efficace en anglais mais le semble moins en français [23]
      • l’opérateur * ("wildcard") est censé remplacer un (au moins) ou plusieurs mots, je constate son efficacité dans une certaine mesure mais je n’arrive pas à la prouver par A + B
      • de toute façon, la bonne expression (sans guillemets, en général) pourra être tout aussi efficace, voire plus. Disons qu’au minimum, elle obtiendra des résultats différents (donc complémentaires) [24]
    • chercher par expression rend les résultats plus précis/moins nombreux et dans certains cas, évite les résultats hors sujet. Hors de l’interface Recherche avancée, utilisez les classiques guillemets (" "). La recherche par expression est devenue plus souvent nécessaire, face à l’élargissement des recherches pratiqué par Google [25]. Toutefois, ne l’utilisez qu’après avoir testé l’expression sans guillemets, pour les raisons exposées ci-après.
      N’abusez pas des guillemets. On dit souvent dans les cours de recherche sur bases de données ou sur le web qu’encadrer une expression avec des guillemets garantit des résultats moins nombreux et pertinents. Mon expérience, c’est qu’en réalité, les guillemets sur Google n’améliorent souvent pas grand’ chose voire parfois empêchent de trouver les principaux sites web sur un sujet. D’ailleurs Google ne les recommande pas trop fort. Cela dit, c’est vrai que si on veut vraiment *tous* les sites sur une expression, alors il faut utiliser le moteur à la fois *avec* les guillemets mais *aussi sans*, car, du moins si l’on s’en tient aux 30 premiers résultats, certains sites pertinents apparaissent uniquement avec les guillemets et d’autres uniquement sans [26]. En effet, l’algorithme de Google détecte souvent tout seul l’expression et la privilégie dans le classement des résultats. De surcroît, mettre les guillemets, en pratique, réduit souvent — mais pas toujours — un peu la pertinence par rapport à sans les guillemets car ceux-ci éliminent des résultats où l’expression n’est pas totalement identique, voire certaines pages où pourtant celle-ci apparaît clairement ...
  • mettre en premier le mot le plus important de votre question : il aura alors un poids plus important que les autres dans les résultats, en faisant par exemple remonter dans les premières réponses les pages web où ce mot est dans le titre de la page.
    Ce point — non précisé dans l’aide officielle de Google et la plupart des guides de recherche en ligne — peut avoir un effet très important sur le tri des résultats par Google, en amenant dans les dix premières réponses une page web jusque là "perdue" au delà des trente premières réponses
  • choisir la langue des résultats. Peu intéressant : la langue des mots-clés utilisés conditionne celle des résultats
  • limiter les résultats à la France (sites français et non francophones) permet d’éviter à 90% les résultats provenant de sites québécois, belges et d’Afrique du Nord (Maroc, Tunisie, Algérie) et donc de se restreindre au droit français. Voilà une fonctionnalité très intéressante, à utiliser sans modération
  • choisir le format de fichier : Rich Text Format .rtf, Word .doc, Acrobat .pdf, Excel .xls, .PowerPoint .ppt, Access .mdb. Restreindre la recherche aux fichiers PDF permet de ne trouver que des documents sérieux et fiables (mais pas systématiquement pertinents, car ce n’est pas le but direct de cette fonctionnalité). En effet, très souvent, les documents officiels (textes juridiques, rapports) et les articles de revues scientifiques sont au format PDF tandis que les sites perso, ceux tournés vers le marketing et les forums utilisent uniquement le HTML. Hors de l’interface Recherche avancée (autrement dit à partir de la page d’accueil de Gogle), écrivez filetype:[type_de_fichier] à la fin de votre requête. Exemple : filetype:pdf
  • restreindre la recherche à un site : en fait à son nom de domaine (exemple : conseilconstitutionnel.fr est le nom de domaine du site web du Conseil constitutionnel). Ainsi utilisé, Google est presque toujours plus efficace que le moteur interne du site, sauf sur des documents extrêmement récents, peu connus ou "enfouis" dans le site. Ce mode de recherche est particulièrement utile sur les plus vastes sites juridiques : le site du Premier ministre, les deux sites parlementaires (Assemblée nationale, Sénat), Europa, EUR-Lex. Hors de l’interface Recherche avancée, écrivez site:[domaine]
  • restreindre la recherche au "titre" (la balise HTML title, plus précisément) des pages web avec le champ intitle:[un_seul_mot] ou — plus efficace — allintitle:[tous_les_mots_qui_suivent]
  • régler le nombre de résultats par page à 30 voire 50 (au-delà, en général, très peu de résultats sont pertinents). Ca permet de consulter plus facilement et plus rapidement les résultats pertinents. Mais cela implique d’être connecté à votre compte Google, ce qui personnalise fortement les résultats en fonction de votre historique de recherche que Google a mémorisé
  • empêcher Google d’interpréter votre requête (sauf par la langue du système d’exploitation de votre ordinateur) en choisissant dans Outils de recherche > Tous les résultats > Mot à mot [27], sous oublier de vous déconnecter de votre compte Google [28], d’indiquer à Google de ne pas non plus mémoriser votre historique de recherche lorsque vous n’êtes *pas*, cette fois-ci, connecté à votre compte Google ... et de vider vos cookies et l’historique de navigation de votre navigateur web avant de lancer une recherche, voire de lancer dans votre navigateur une session de navigation privée [29].

- 3. Restreignez si nécessaire les résultats à une période de temps. Pour utiliser à fond cette fonctionnalité, il faut passer par l’interface simple de Google (la recherche avancée n’offre pas la possibilité de spécifier l’intervalle de temps exact que l’on désire), cliquer sur Outils de recherche > Date indifférente > Période personnalisée [30] [31].

- 4. Ouvrez les résultats dans une nouvelle fenêtre ou un nouvel onglet, de manière à garder sous la main la liste des résultats. Pour cela : faites un clic droit sur le lien qui vous intéresse, puis un clic gauche sur "Ouvrir dans une nouvelle fenêtre/onglet".

- 5. S’il n’y a pas de résultat intéressant dans l’onglet Web de Google, regardez :

- 6. Toujours rien ? Voyez Pour aller plus loin à la fin de cet article.

III. Exemple d’utilisation de la Recherche avancée de Google

Ici, nous cherchons des articles en matière de cookies parus dans la revue Expertises. Voici comment interroger rapidement les sommaires de la revue Expertises sur le site de la revue :
- 1. réfléchissez aux mots à utiliser pour votre recherche : les juristes s’expriment en général en bon français. Or cookies en français se dit traceurs
- 2. optionnel : si vous avez un compte Google (désactivez alors l’historique dans votre dashboard Google) :
* connectez vous à votre compte
* sur la page Paramètres de recherche, choisissez "Ne jamais afficher les résultats de la recherche instantanée" puis en dessous de "Résultats par page", choisissez d’afficher 30 résultats
* cochez la case "Ouvrir chaque résultat sélectionné dans une nouvelle fenêtre du navigateur"
- 3. allez sur la page d’accueil de Google en français
- 4. limitez la recherche au site www.expertises.info (NB : Google ne prend en compte que des noms de domaine, pas des pages profondes)
- 5. votre recherche doit ressembler à ceci : cookies OR traceurs site:expertises.info
- 6. lancez la recherche
- 7. lisez et triez les résultats. Pour ceux qui vous intéressent : clic droit > Ouvrir le lien dans un nouvel onglet

IV. Pour aller plus loin

- 25 astuces pour la recherche sur Google / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013. A mettre à jour par une excellente "cheat sheet" encore plus opérationnelle : 30 opérateurs Google pour affiner ses recherches / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013.

- More awesome search tips from Google expert Daniel Russell, with real-world examples / John Tedesco (reporter américain), 1er juillet 2013.

- Utilisez d’autres moteurs, principalement Bing (le concurrent de chez Microsoft [32]) et Exalead (pour les sites français et francophones) [33], voire StartPage (ex-Ixquick) [34] et les métamoteurs de recherche de personnes. Pour information, DuckDuckGo, dont on parle beaucoup, respecte certes votre vie privée, mais ses performances sont très limitées sur les pages web en langue française.

- Voyez nos articles Utiliser Google à 100%, surtout la bibliographie à la fin parce qu’il commence à dater (2006), et Recherche sur Internet : une méthode (un peu) simplifiée et quelques "philosophies", notamment la méthode des "autorités". Allez (entre autres) voir ailleurs sur le Web (annuaires thématiques de sites, Legifrance, Service-public.fr, bases de données payantes, Isidore, Theses.fr, Revues.org etc.), réfléchissez une deuxième fois à vos mots-clés ou passez à un autre media (prenez votre téléphone ou votre logiciel de messagerie, par exemple, pour appeler un collègue ou demander conseil à un expert) ...

Emmanuel Barthe
documentaliste juridique, veilleur, webmestre, formateur à la recherche en ligne

Notes de bas de page

[1Google fut aussi un un annuaire de sites web, copié en toute légalité sur l’original DMOZ, le plus grand répertoire de sites web classés par sujet entre 1995 et 2005. L’annuaire de Google a été discrètement supprimé à l’été 2011. Logique, car DMOZ n’est globalement plus tenu à jour.

[2Même s’il sait aujourd’hui interroger une base de données en ligne ... à coup de mots-clés trop "bateau" pour être efficace en droit.

[3En fait, il faut distinguer au moins quatre états pour une page web vis-à-vis de Google Search : inconnue de Google, connue de Google, indexée par Google et "cherchable"/présente dans les résultats de Google quand on tape un mot-clé.

[4En juin 2013, Google avait connaissance de l’existence de 30 000 milliards de pages web. Mais seule une faible part de ces 30 000 milliards, soit pour le Web en anglais, allemand, français et espagnol 45 milliards (je n’ai pas trouvé d’estimation pour les autres langues), était "cherchable" dans le moteur, autrement dit arrivait dans les pages de résultats (SERP). La différence s’explique : Google peut connaître un lien mais ne rien savoir d’autre de la page web disponible à cette adresse, par exemple parce qu’il estime que cette page est inintéressante, qu’il s’agit d’un duplicata d’une autre page (cas extrêmement fréquent : selon Google, 60% du Web est dupliqué), que la page est protégée par des codes d’accès (site payant), que le site refuse d’être indexé par des moteurs de recherche (fichier robots.txt) ou encore que les pages du site ne peuvent être découvertes qu’en remplissant un formulaire (base de données en ligne) et que l’URL a changé, etc. Il faut ajouter que certains sites ne sont carrément pas "connaissables" par les moteurs de recherche web, notamment lorsqu’aucun lien ne pointe vers eux. Pour plus de détails sur ces raisons, voir les articles Web profond et darknet de Wikipedia.

[5On peut considérer que le Journal officiel Lois et décrets sur Legifrance est à 95% indexé par Google — et à 99,5% pour les textes publiés récemment.

[6Machine Learning contre statistiques « classiques » : qui remportera le match ? (tribune de Nicolas Glady, professeur à l’Essec), Silicon.fr 30 mars 2015. Le « machine learning » – quand les données remplacent les algorithmes, chronique de Pirmin Lemberger (data scientist), JDN 28 mars 2014.

[7Apprentissage automatique (Machine Learning), par Philippe Beraud, Microsoft France, Blog MSDN 24 avril 2013. Article de Wikipedia.fr sur le machine learning.

[8RankBrain : le machine learning est utilisé pour toutes les requêtes Google / Olivier Duffez, Web Rank Info 24 juin 2016. Voir aussi ce Twitter moment réuni par Serge Courier sur RankBrain.

[9Voir notre billet Le Web est vide.

[10ix-labs a pour activité la conception d’algorithmes pour l’analyse des données et la prise de décision. Les applications de ses réalisations se trouvent dans le secteur des moteurs de recherche, de la banque, dans l’e-commerce, le marketing en ligne et le SEO. Sylvain Peyronnet est par ailleurs co-fondateur et président de The Machine In The Middle (régie publicitaire "algorithmique") et en disponibilité d’un poste de professeur à l’Université de Caen Basse-Normandie.

[12Je cite S. Peyronnet :
« Si je comprends bien, il y a maintenant Hummingbird [apparu en 2013], qui est au plus haut niveau, et RankBrain, une brique en dessous. Il faut bien se rendre compte que ce que certains appellent l’algorithme de Google, est en fait composé de différents algorithmes, comme le PageRank qui permet de classer la popularité des pages. Il y a aussi celui qui permet de comprendre une requête et d’évaluer la pertinence des résultats face à cette requête. Il y a souvent des scores : d’adéquation, ou de pertinence, mais aussi de popularité, de confiance…. Chaque score doit être pondéré, et une formule figée avait été déterminée pour que les scores agrégés donnent un score final permettant de classer les résultats. Avant RankBrain, cette formule était stable, désormais, avec RankBrain, je pense que cette formule évolue, et c’est le machine learning qui va apprendre à pondérer le mieux possible chacun des critères et des notes.
Je pense que le machine learning de RankBrain agit sur plusieurs critères de l’algorithme. C’est pour cela que l’on ne peut plus bien le comprendre ! Même les ingénieurs de Google ne peuvent plus comprendre le fonctionnement du moteur en détail. Tous les algorithmes se retrouvent gérés par RankBrain. Il y a donc une possibilité pour que RankBrain efface Panda ou Penguin.
Il y a une autre conséquence directe observable de RankBrain. Les données provenant des Quality Raters [personnes physiques notant la qualité des sites en tant que pertinence des résultats de Google par rapport à la requête/question] alimentent l’apprentissage automatique, et elles sont souvent intégrées d’un seul coup dans le système : c’est pour cela qu’il peut y avoir des soubresauts bien visibles dans les résultats, exactement comme ceux observés au début du mois de septembre [2016].
Les liens ont un sens fort sur le Web, et ce n’est pas pour rien qu’ils ont pris un poids considérable aux yeux du moteur. Or, souvent, le machine learning, qui automatise en fait des décisions, va avoir tendance à renforcer les biais des décisions des êtres humains. Et je parle en connaissance de cause. Pas impossible, donc, que RankBrain ait plutôt renforcé l’importance des liens dans l’algorithme… »

[13Le temps qu’il faut à Google pour prendre en compte les nouveaux liens, par Yassine Assaoui, Ya-Graphic 6 octobre 2016.

[14Comme les bibliothèques universitaires anglo-saxonnes de Cornell, Princeton, Stanford ou Oxford — dotées d’un très important contenu en français —, mais aussi, francophones, la Bibliothèque municipale de Lyon, première et seule bibliothèque française à avoir signé, et les BU suisses de Gand et Lausanne.

[15Autrefois, c’était carrément de faux sites, notamment des faux sites personnels et des faux annuaires, qui polluaient Google. Montés de toutes pièces, bourrés de mots-clés artificiels "attrappe-tout", ce type de site était de surcroît doté de pages "satellites" tout aussi artificielles. Google a d’abord réagi par de nouvelles règles de classement des résultats, puis avec la mise en place de filtres, mais les techniques du "spamindexing" évoluent et ces modifications peuvent faire reculer le classement de sites non spammeurs. Sur le problème du spamdexing (ou spamindexing), lire Google victime de son filtre bayésien anti spam ? / Yves Grandmontagne, Silicon.fr, 3 mars 2003. Le spamdexing de Google est moins présent maintenant dans les résultats mais vers 2014 on en trouvait encore des exemples très "réussis" hélas, comme le site velodappartement[point]net soi-disant consacré au vélo d’appartement mais dont le contenu textuel ne donne aucun conseil pratique ni d’achat, juste des généralités. Du style : « Comme nous le savons déjà, les vélos d’appartement sont un très bon moyen pour se remettre en forme, améliorer le système cardiovasculaire, faire disparaître la graisse et se sculpter le corps de ses rêves. En plus c’est un appareil qui est accessible à tout le monde et très facile à utiliser ». Etc., etc. Il ne sert en fait qu’à porter des publicités pour, certes, des sites de vente de vélos d’appartement. Ca ne l’empêchait pas d’arriver en 2e position dans Google sur l’expression "vélo d’appartement". Ce cas particulier de spamdexing a depuis été résolu par Google.

[16Un exemple : début 2005, les Editions juridiques associées (EJA : LGDJ, Monchrestien, Defrénois, Gualino, ...) ferment leur site lgdj.fr et transfèrent son contenu sur eja.fr. Pourtant, le 26 février 2005, lorsqu’on tape "eja.fr" sur Google, sa première réponse renvoie vers le site lgdj.fr, dont seule la page d’accueil est encore active (certes, cette page d’accueil renvoie vers eja.fr). Le site eja.fr n’apparaît, lui, qu’en 17e place. En fait, le "poids" des liens qui pointent encore vers lgdj.fr — ils n’ont pas encore été mis à jour vu le caractère récent du transfert — induit très probablement Google en erreur.

[17Les expressions suggérées (auto-complétion) par Google Search sont utiles au particulier dans une recherche basique. Très peu ou pas du tout au juriste. Idéalement, désactivez l’auto-complétion des requêtes.

[18Comme je le dis et l’écris souvent : à un être humain on pose une question (autrement dit on fait des phrases avec sujet verbe complément), sur une base de données on tape une requête (avec des mots-clés choisis soigneusement, des opérateurs booléens et des champs/limiteurs). Une question de vocabulaire pas si innocente que ça.

[19Source du truc consistant à écrire le AND : 30 opérateurs Google pour affiner ses recherches / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013.

[20Sauf dans le cas suivant où le OR est remplacé par le signe |. Exemple : ("tribunal de grande instance"|tgi).

[21Ces "trucs" de valeur sont rappelés par Béatrice Foenix-Riou dans la revue Netsources de FLA consultants (deux articles en ligne gratuits à signaler : sur la recherche de données de marché et sur les opérateurs finassiers des moteurs comme intitle) et lors des formations qu’elle donne.

[22Si l’opérateur (tilde), censé rechercher les synonymes du mot placé juste (collé) derrière, et supprimé au printemps 2013, marchait bien en anglais, il marche moins bien en français. C’est ainsi que si droit cherchait aussi loi, en revanche, loi cherchait aussi réglementation mais pas droit.

[23AROUND ne fonctionne pas dans Google Scholar. C’est bien dommage.

[24Comparez droit publicité, droit de la publicité, "droit de la publicité", tous trois assez similaires, et droit AROUND(5) publicité. Dans cette dernière requête, des sites différents et pertinents apparaissent dès les 10 premiers résultats. Pour autant, au vu des 10 premiers résultats, elle rate certaines pages intéressantes trouvées avec l’expression.

[25Le +, qui servait à forcer l’apparition tel quel d’un terme dans les résultats, ne fonctionne plus depuis la rentrée 2011.

[26Et c’est là que je conseille en général de laisser tomber les moteurs de recherche, Google compris, et de chercher un annuaire de sites web, comme DMOZ par exemple, ou mieux, un annuaire spécialisé, donc ici un annuaire de sites juridiques. Comme celui sur notre site : Internet juridique : les sites web incontournables, hélas plus très à jour.

[27Non disponible sur la version mobile de Google Search.

[28Vous pouvez désactiver l’historique de recherche Google dans le "dashboard".

[30Non disponible sur la version mobile de Google Search.

[31Autrefois déficiente, comme Béatrice Foenix-Riou l’avait démontré dans la revue Netsources, la recherche par date dans Google semble désormais pertinente. Cf cet exemple de recherche conçu exprès pour détecter une erreur.

[34StartPage est en fait un moteur qui réutilise les résultats de Google mais sans chercher à vous "profiler" comme le fait Google. Les résultats sont identiques à plus de 90% si on se base sur les 30 premiers.

Répondre à cet article