Utiliser Google pour des recherches juridiques
Une méthode de recherche fiable sur le Web
Cet article est à la fois un guide détaillé et un tutoriel (grâce aux nombreux exemples donnés) pour pousser à fond les performances en recherche de Google, plus particulièrement dans le domaine juridique [1]. Mis en ligne en juillet 2013, il est est régulièrement mis à jour depuis. Il a reçu plus de 40 000 visites.
Si vous êtes pressé, vous pouvez :
- soit aller directement à la section 3. Recherche avancée : trois exemples d'utilisation
- soit lire la version réduite aux acquêts (TL ;DR [2]) de ce billet : Chercher du droit avec Google : un guide rapide et facile ... avec maître Yoda.
Sommaire
- 1.1.1. La plus grande bases de données du Web
- 1.1.2. Tout n'est pas dans Google et tout n'est pas forcément bien référencé dans Google
- 1.1.3. Google et les variantes d'un mot
- 1.1.4. Google et le traitement du langage naturel version machine learning : synonymie, désambigüisation et reformulation de la question automatiques
- 1.1.5. Google et le Knowledge Graph. Ou comment Google utilise le Web sémantique pour répondre aux questions
- 1.1.6. Google et les documents très longs
- 1.1.7. Google est parfois en retard
- 1.1.8. Google Books, Google Scholar, Google et les catalogues de bibliothèque
- 1.2.1. Ranking : le classement par pertinence, ses avantages et ses défauts
- 1.2.2. La pollution des résultats par le spamdexing
- 1.2.3. La fraîcheur des résultats
2.3. Repérez dans les résultats les mots-clés que vous avez oubliés
2.5. Rechercher sur une période
2.6. Ouvrir les résultats dans une nouvelle fenêtre ou un nouvel onglet
2.7. Les moteurs spécialisés de Google
3. Cinq exemples de recherche futée ou experte dans Google
1. Comment fonctionne Google : quelques principes à retenir
1.1. Contenu et indexation
1.1.1. La plus grande base de données du Web
Google est un moteur de recherche sur le Web. C’est la plus grande base de données de pages web et de fichiers divers stockés sur le Web (PDF, Word, Excel etc.) [3].
En termes de taille de sa base de données, de richesse des fonctionnalités et surtout de pertinence des résultats, il n’a plus de rival global. Même Bing (Microsoft) a abandonné la compétition. En fait, ses principaux rivaux sont des moteurs spécialisés [4] :
- locaux/nationaux, tel Baidu en Chine ou Yandex en Russie
- spécialisés sur un secteur professionnel/une industrie, comme Amazon sur le commerce électronique
- ou internes à un réseau social, comme le moteur de Facebook.
1.1.2. Tout n’est pas dans Google et tout n’est pas forcément bien référencé dans Google
Soyons clair : il y a infiniment plus de documents hors de Google que dans Google. N’utiliser que Google, c’est tentant. Mais c’est un piège.
- Google n’indexe généralement pas les bases de données payantes et totalement fermées. En revanche, il indexe les titres d’articles payants, dès que ceux-ci sont affichés avec leur lien sur des pages gratuites ou bien un site payant si celui-ci a un fil RSS. Il peut même indexer non seulement le titre mais aussi les auteurs et les mots-clés (pas le texte intégral) lorsque l’éditeur laisse ses métadonnées disponibles librement et gratuitement pour le moissonnage OAI (exemple des articles de revues de LexisNexis, voir infra). Google indexe également les pages des sites payants dès lors qu’ils en affichent une partie gratuite (titre, chapeau, début du document ...), comme par exemple celles de Lextenso.
- Google ne couvre pas tout le Web : ni le Web payant, ni la totalité du contenu de nombreuses bases de données gratuites [5], ni les sites qui lui interdisent l’accès à tout ou partie de leurs pages (le fameux fichier robots.txt) etc. Au total, on estime que Google n’indexe (i.e. ne reproduit le contenu et ne le place dans son index [6]), au mieux, que la moitié environ des pages web librement accessibles. Les pires estimations, sous-entendant certes une définition du Web très large puisqu’incluant le "deep web" et les darknets, donnent seulement 4% du Web comme indexé [7].
Un exemple important de ces sites-bases de données non totalement indexés par Google sont les bases de données de Legifrance, à l’exception notable (et bien pratique ...) des textes consolidés (LEGI) et du JORF. On peut considérer que le Journal officiel Lois et décrets sur Legifrance est à 95% indexé par Google — et à 99,5% pour les textes publiés récemment. On peut également considérer que la majeure partie de la jurisprudence est également indexée — même si certaines questions fonctionneront mieux directement dans Legifrance (à fin avril 2017, Google indexait 8 800 000 documents de Legifrance, soit quasiment tout). Il faut donc selon les cas interroger Legifrance par les interfaces de recherche de chacune de ses bases de données (en savoir plus). C’est particulièrement vrai pour la jurisprudence.
NB : ne pas confondre une page web qui n’apparaît pas dans les 10, 30 ou 100 premiers résultats d’une recherche Google, avec une page web inconnue de Google/non présente dans son index. Le premier cas est très fréquent et correspond souvent — mais pas toujours — à une recherche dont on peut améliorer la formulation. Le second cas est en pratique, dans le quotidien des "researchers", plus rare et seul des tests nombreux et précis peuvent le confirmer.
Et même si un texte est parfaitement indexé par Google, et qu’on choisit bien ses mots-clés, le moteur de recherche reste fortement dépendant des commentaires en ligne sur et liens vers celui-ci. Voici un exemple des limites de Google qui donne à réfléchir. Les banques françaises sont obligées par l’article R. 511-6 du Code monétaire et financier (CMF) de faire des exercices comptables du 1er janvier au 31 décembre [8]. Pourtant, si on tape dans Google.fr : "banques" france exercice comptable date de clôture, les 10 premiers résultats — et même après — indiquent qu’il n’y a pas de spécificité des établissements de crédit. Il faut taper : exercice comptable des banques date de clôture france pour voir en 10e résultat un article de l’Agefi (mais payant donc non consultable ...) indiquer qu’en France c’est 1er janvier - 31 décembre pour les banques. Pour être honnête, avec les mêmes mots-clés, les plateformes en ligne Lexis 360 et Navis de Francis Lefebvre ne font pas mieux.
1.1.3. Google et les variantes d’un mot
Google, si vous n’êtes pas en mode Mot à mot, cherche automatiquement les variantes d’un mot. Il prend sa racine et cherche :
- son pluriel et si possible, son féminin. Exemples : bail cherchera aussi baux
- le verbe, les adjectifs qualificatifs et les adverbes qui lui correspondent. Exemples : embauche cherchera embaucher.
C’est ce qu’on appelle une troncature automatique ou "autostem" en anglais.
1.1.4. Google et le traitement du langage naturel version machine learning : synonymie, désambigüisation et reformulation de la question automatiques
A noter que le machine learning [9] (apprentissage statistique automatique [10]) est utilisé [11] pour toutes les requêtes [12] Google depuis juin 2016. Cet algorithme de Google est appelé RankBrain.
Comme l’explique Olivier Duffez de WebRankInfo, « RankBrain est un système basé sur le machine learning permettant à Google de mieux comprendre les requêtes des internautes. Il peut s’agir de requêtes très longues et précises (très longue traîne) ou de requêtes n’ayant jamais été faites et peu similaires à d’autres plus connues. Grâce aux nouvelles méthodes d’intelligence artificielle dont Google est devenu un des plus grands spécialistes mondiaux, RankBrain parviendrait à mieux comprendre ces requêtes difficiles » [13].
En fait, RankBrain n’est qu’une implémentation de Word2vec, l’algorithme de traitement du langage naturel (natural language processing, NLP) par machine learning non supervisé [14] développé par une équipe de Google Research (il a d’ailleurs été mis par Google en open source en 2013). En prenant en compte le contexte (les mots voisins) de chaque mot dans les documents, RankBrain/Word2vec "apprend" que certains mots, dans un contexte donné, sont similaires [15]. Word2vec transforme ces contextes en vecteurs, donc en chiffres, ce qui permet de les comparer facilement.
C’est Word2vec qui permet par exemple à Google de deviner que si vous avez tapé compétition déloyale, vous vouliez en fait écrire concurrence déloyale ou de faire une synonymie automatique entre ouvrage et livre [16].
Pour autant, le type de requête que décrit O. Duffez (longues, beaucoup de mots peu ou moyennement utilisés [17]) — et qui est le propre des recherches juridiques pointues — ne réussit pas toujours dans Google. C’est probablement autant une limite du Web gratuit [18] que celle de Word2vec.
Autre limite : il est compliqué pour les "Transformers" de s’adapter à une verticale (ici le secteur juridique). On le voit très bien quand Google (mais aussi DeepL) échoue à traduire correctement l’expression anglaise "warranty & indemnity insurance" (assurance de garantie de passif) (oui, l’application Google Translate utilise aussi le machine learning et les "Transformers" [19]) et quand Google Web Search n’ajoute pas "assurance de garantie de passif" comme synonyme à sa recherche lorsqu’on cherche sur Google.fr la même expression anglaise, et ce, même si on précise "droit français" dans la requête. En fait, c’est le "language model" qui n’est pas assez spécialisé. Ne pas oublier que Google est optimisé d’abord pour le grand public. Pas pour le professionnel.
Word2vec : relations sémantiques dans un espace vectoriel
Après RankBrain, d’autres algorithmes ont ensuite été développés et implémentés par Google, complétant (ce n’est pas toujours très clair) [20] RankBrain : BERT en 2019 [21] puis MUM en 2021 [22]. BERT puis MUM (qui, fin mai 2021, n’était pas encore implementé dans Google Web Search [23]) améliorent la capacité de Google Web Search à interpréter correctement les requêtes longues, celles qui sont ou ressemblent de très près à de véritables questions, notamment parce qu’ils sont capables de relier entre eux des mots placés de plus en plus loin dans le texte et dont le lien entre eux est implicite. BERT puis MUM font également de mieux en mieux en matière de désambigüisation [24].
A noter également que, comme l’explique Sylvain Peyronnet, chief scientist du moteur Qwant (qui utilise largement l’index de Bing) et co-fondateur du laboratoire de recherche privé ix-labs [25], dans une interview au Journal du Net [26], il n’y a depuis longtemps plus un (le PageRank d’origine), ni deux, ni trois algorithmes qui font fonctionner le moteur de recherche de Google mais un grand nombre (peut-être 200 !) d’algorithmes [27] et ils s’influencent les uns les autres tout en étant pondérés par des critères ... et fréquemment modifiés pour améliorer les résultats ou lutter contre les spécialistes du SEO trop habiles [28]. Cela signife que, si le machine learning transforme lentement la façon dont Google opère, le ML est loin d’être le seul composant de la recherche de Google [29].
Les innovations sur Google Search sont permanentes. Ainsi, annoncée fin mai 2018 : comme l’explique Noël Nguessan (Arobase.net) [30], « Google vient de publier un document de recherche [31] qui traite d’une façon de reformuler les requêtes, puis de présenter ces requêtes à un moteur de classement. Les reformulations des requêtes et les dérivés sont déjà utilisés chez Google. C’est une autre forme de cette approche. Ce qui est nouveau, c’est qu’il s’agit d’un algorithme d’apprentissage automatique (machine learning) qui utilise l’approche d’apprentissage par renforcement ("reinforcement learning"). [...] Ce nouvel algorithme utilise un système d’apprentissage qui reformule la requête de l’utilisateur, en posant au moteur de classement de nombreuses questions, puis en choisissant les meilleures réponses parmi les multiples ensembles de réponses. »
Comme le montrent les exemples donnés en fin d’article, cette fonctionnalité ne devrait être utile qu’avec des requêtes plutôt mal formulées et où manque un mot-clé essentiel, oublié ou inconnu de l’utilisateur. Elle illustre toutefois parfaitement ce souci du moteur de recherche de deviner votre intention, de comprendre ce que vous sous-entendez et de corriger ainsi votre question.
Autrement dit, c’est là que le ver peut rentrer dans le fruit. Car si l’algorithme devine mal, ce sera de peu, et vous ne le détecterez pas. En effet, en droit, le langage est d’un telle subtilité, les nuances de sens sont telles que la probabilité que la machine se méprenne à la marge est réelle. En tout cas, tant que les corpus payants des éditeurs juridiques n’auront pas alimenté l’apprentissage automatique du moteur.
1.1.5. Google et le Knowledge Graph. Ou comment Google utilise le Web sémantique pour répondre aux questions
Comme le relève le SEO américain Bill Slawski (SEO by the Sea), Google admettait en 2014 que les réponses directes ("direct answers") conviennent mieux aux internautes qu’une liste de liens vers des pages web à consulter [32].
Aussi, et comme Slawski le montre en analysant les demandes de brevets déposées par Google [33], Google a décidé de répondre d’abord à toute question que ses algorithmes peuvent discerner dans la requête de l’internaute en utilisant des bases de savoir externes, et seulement ensuite de fournir une liste de liens. Et pour ce faire, dès qu’il détecte un élément (une information) manquant dans sa base de savoir, il va aujourd’hui jusqu’à interroger automatiquement ces bases externes pour le mettre à jour aussitôt [34].
Pour arriver à détecter et répondre à une question, le moteur de recherche web de Google s’appuie sur les relations de sens (dites "sémantiques") et normées entre ce qu’on appelle des entités nommées ("named entities" ou "objects"). Ces relations ne sont possibles que grâce aux métadonnées saisies, notamment dans Wikipedia et aux relations construites par des bénévoles dans DBpedia puis Wikidata [35].
En un mot : on passe des chaînes ("strings") aux entités nommées ("things"). Le Web de données/sémantique change discrètement la façon dont les moteurs cherchent.
C’est le Knowledge Graph de Google, lancé en 2013. Le Graph est, au début, fortement basé sur DBpedia, une version base de données, fortement structurée, orientée ontologie/web sémantique/web de données [36], au format RDF et téléchargeable de Wikipedia [37] La première mise à disposition date de 2007. Fin 2014, DBpedia est remplacée par Wikidata [38], une base de données alimentée par des bénévoles, comme Wikipedia, soutenue par Google et interrogeable par le langage SPARQL [39]. Même les professionnels du SEO s’intéressent à Wikidata.
Wikidata n’est pas la seule source de la base de connaissances de Google [40]. L’autre fondement du KG de Google est l’ontologie universelle Schema.org, placée sous l’égide du W3C [41].
Qu’est-ce que cela change pour les juristes ? Pas grand’ chose ... pour l’instant du moins. Car la complexité du droit et des relations sémantiques au sein de celui-ci est trop élevée, et le niveau de Wikipedia en droit est trop basique, pour que Google puisse répondre à une question du style « Une voix hystérique qui hurle par épisodes entre 18h et 2h du matin constitue-t-elle un trouble de voisinage sanctionnable en justice ? » [42].
Mais si Google avait accès un jour à une base de connaissances du niveau des plateformes des éditeurs juridiques et la structurait selon les règles du Web sémantique, la réponse ne serait pas la même ... [43]
1.1.6. Google et les documents très longs
Google peut aussi avoir des difficultés à faire remonter en haut du classement de ses résultats des documents très longs où l’information pertinente est noyée dans la masse. Ainsi, sur les PDF très longs (à partir de 30 à 40 pages environ), il indexera tout le document mais privilégiera très nettement dans son classement les mots-clés placés dans le titre, la balise title ou les premières pages du document. C’est particulièrement net si on ne restreint pas la recherche avec site: ou filetype:pdf Exemple : les références bibliographiques dans les fichiers PDF que constituent les trois parties des Notes de doctrine relatives aux arrêts de la CJUE et du TPI sur Curia. Contre-exemple : les références bibliographiques des revues de LexisNexis sur http://www.lexisnexis.fr/droit-document car chaque référence a sa propre page web.
NB : au-delà de 15 Mo, le robot indexeur Googlebot s’arrête [44]. Cette limite de taille de fichier est très elevée et ne concernera en pratique aucune des pages web (fichiers HTML) que vous consulterez. En revanche, sur de très gros fichiers PDF (particulièrement s’ils contiennent des images ou ont embarqué toutes leurs polices de caractères [45]) — disons au-delà de la 300e page d’un fichier PDF bourré d’images et contenant toutes ses polices de caractères. Les mots au-delà de la 300e page de cet exemple ne seront pas indexés et donc non trouvables par Google. En pratique, dans des recherches juridiques, le phénomène est plus qu’extrêmement rare. Ainsi, aucun des très longs PDF des Notes de doctrine aux arrêts de la Cour de justice de l’UE disponibles sur le site Curia — et qui pourtant dépassent chacun les 700 pages (un des trois dépasse les 2200 pages) — ne fait à ce jour (juin 2022) plus de 8 Mo.
1.1.7. Google est parfois en retard
Google peut être en retard sur les mises à jour des sites web les moins populaires ou mettre des jours voire des semaines à prendre en compte correctement un nouveau site web (voir infra 1.2.3. La fraîcheur des résultats), notamment parce que personne n’a encore fait de lien vers lui.
Mais il indexe presque immédiatement les mises à jour des sites institutionnels, universitaires, de presse, des blogs populaires et de tout autre site populaire ou fiable [46]. En tout cas dès qu’il tombe dessus. Ce qui selon nous se fait dans un délai nettement sous l’heure. Probablement sous la demie-heure — voire sous le quart d’heure pour les sites de presse.
De plus, les retards d’indexation de Google pourraient à l’avenir disparaître si celui-ci adopte finalement le protocole IndexNow proposé par les moteurs concurrents Yandex et Bing. En tout cas, Google a annoncé en novembre 2021 qu’il testerait IndexNow [47].
1.1.8. Google Books, Google Scholar, Google et les catalogues de bibliothèques
Parce qu’il dépend du contenu d’Internet, Google ne couvre ni le papier ni la littérature grise — qui ne sont par définition pas en ligne.
Quoique ... Avec Google Books et surtout le partenariat de très grandes bibliothèques [48], Google indexe énormément d’ouvrages en anglais et un nombre certain en français.
Mais du fait de l’opposition des éditeurs français, le contenu en droit français est pour l’instant faible. Cela dit, ce n’est pas le cas en droit belge ni en droit européen ou international.
Google Books. La requête "droit de la propriété intellectuelle" sort des titres du groupe Lextenso, un des rares éditeurs juridiques français à être rentré dans le programme.
Google Scholar, de son côté, indexe les articles scientifiques (donc de nombreux articles juridiques) présents sur le Web sous forme de références bibliographiques ou, plus intéressant, en texte intégral gratuit. Cela dit, Google Scholar contient surtout des articles de droit international public, de droit public interne ou de droits de l’homme. Donc très peu d’articles en droit des affaires ou en droit privé. À ce titre, ses grands rivaux le Legal SSRN (racheté par Elsevier) et le très récent LawArXiv sont souvent plus intéressants.
Dans un style proche, une fonctionnalité de Google intègre les catalogues de bibliothèques dans ses résultats de recherche de livres numériques (ebooks). Pour en bénéficier, il faut activer la localisation [49]. D’après un utilisateur américain, les premiers résultats ne sont pas toujours satisfaisants, mais avec certains fournisseurs d’ebooks comme Overdrive, ça marche très bien [50].
Même sans localisation, le fait d’ajouter "bibliothèque" à une recherche Google ramène un certain nombre de pages web correspondant à des notices bibliographiques (des fiches de catalogue). Sur ce type de recherche, le catalogue de bibliothèque le plus représenté — et de loin — en droit français est celui de la BU Vauban (Lille). Mais — surprise ! — cet ajout fait aussi sortir des titres en PDF de la bibliothèque numérique Gallica de la BNF.
Quant à l’ajout du mot "livre", il permet de chercher sur les catalogues de librairies en ligne les plus connues, comme la LGDJ, la Fnac, Amazon, la librairie Dalloz, celle de LexisNexis ... Mais aussi, évidemment, Google Books car le moteur américain insère dans les résultats de l’onglet Web des résultats extraits de Google Books.
1.2. Les résultats de Google
1.2.1. Ranking : le classement par pertinence, ses avantages et ses défauts
– Les résultats sont classés par pertinence. Ce classement par pertinence s’appelle "ranking" en anglais. La "pertinence selon Google" tient compte [51] :
- d’abord des liens pointant vers les pages web, plus précisément de leur nombre et plus encore de la qualité de ceux-ci (Google les considère comme autant de recommandations), c’est-à-dire en fait de la qualité de celles-ci (les pages vers lesquelles ils pointent) autant que de la qualité du site faisant les liens. Exemple paroxystique : un site universitaire (site de qualité quasiment par nature selon Google, voir infra) fait des liens vers des pages web du blog d’une spécialiste reconnue du sujet (site de qualité selon Google du fait des nombreux liens établis vers lui par d’autres spécialistes et par la communauté réunie autour de ce sujet, voir infra). Le PageRank (PR) de la page universitaire est très élevé, en conséquence. Mais si celle-ci, trompée ou hackée, se met à faire des liens vers des sites de commerce électronique ou des sites adeptes de théories non scientifiquement établies, son PR baissera. Quant aux sites "parasites", si leur PR bénéficieront d’une hausse de leur PR (et donc de plus de trafic, c’est ce qu’ils recherchaient), ce sera très bref, Google sachant détecter ce type de spamming.
Il s’agit là de l’algorithme d’origine de Google, le fameux PageRank, mais modifié par rapport à celui de 1996 pour lequel l’Université de Stanford avait déposé un brevet en 1998, brevet dont la licence avait été donnée en exclusivité à Google, et qui a expiré depuis [52]. Le PageRank de 1996 a été remplacé en 2006 par un algorithme donnant des résultats similaires mais plus rapide à calculer [53]. Fréquemment mis à jour à la marge pour lutter contre la fraude aux liens ("spamdexing") et l’accroissement de la taille du Web, le PageRank a gardé néanmoins ses principes et reste une composante importante de l’ensemble des algorithmes du moteur. Un spécialiste américain du SEO a calculé à 0,128 la corrélation entre PageRank (estimé par un outil à lui nommé Domain InLink Rank) et le classement dans les pages de résultats de Google ("SERPs") [54] - ensuite des mots décrivant le lien hypertexte (ceux en bleu ou soulignés de blue) (et de ceux proches — c’est là l’effet de l’algorithme RankBrain décrit supra)
- puis des mots (et leurs synonymes) de la requête contenus dans la page web :
- ceux du titre informatique de la page (balise title), du titre réel de celle-ci (balise H1 ou H2 sinon) et du nom du fichier HTML sont les plus importants
- Google privilégie les expressions sur les termes isolés, et les termes exacts sur les synonymes
- de la "qualité" (selon Google) de la page :
- le nom de domaine est important ici : les sites universitaires (avec "univ" dans leur nom de domaine en France ou .edu aux USA) et gouvernementaux (.gouv.fr en France, .gov aux Etats-Unis) sont favorisés
- les sites personnels sont défavorisés, sauf s’ils ont leur propre nom de domaine et une forte réputation au sein de leur communauté
- de la fraîcheur/fréquence de mise à jour de la page. Par exemple, un site personnel réputé dans une communauté, sur des requêtes Google sur lesquelles il possède des pages très pertinentes, va pourtant reculer en bas de la première page des résultats de Google s’il n’est pas mis à jour chaque semaine
- du travail des "quality raters" cités plus haut par Sylvain Peyronnet [55]. Avant la sortie d’une nouvelle version de l’algorithme, et à l’aide d’un guide fourni par Google [56], ces personnes évaluent ses erreurs ou manques de pertinence, de manière à ce qu’ils soient corrigés (ou plus probablement à ce que la partie machine learning de l’algorithme "apprenne") avant sa "release" [57]
- bizarrement, de la longueur de la page — à condition qu’il s’agisse d’un document écrit et surtout s’il est de nature scientifique/universitaire (nombreuses citations et notes de bas de pages). Détails, longueur, argumentation : les algorithmes de Google considèrent tout cela comme de signes de compétence et d’autorité sur le sujet traité
- mais aussi des attentes supposées de l’utilisateur. L’utilisateur veut-il des documents simples, de niveau basique, pour non juriste, comme Droit-Finances.net ou des forums, ou bien des articles gratuits de revues juridiques et des rapports officiels ? Pour tenter de deviner les attentes non exprimées de l’utilisateur, Google utilise :
- les termes de la question. Ainsi, taper licenciement combien je touche ou licenciement calcul indemnité donne des résultats similaires (car la synonymie automatique dûe au machine learning joue) mais en même temps différents du fait des mots employés : la seconde formulation ramène plus de sites officiels, comme Service-Public.fr, du fait de l’emploi du mot "indemnité", mais aussi un simulateur de calcul d’indemnités, du fait du mot "calcul"
- et l’historique de nos recherches :
- soit celui stocké dans notre compte Google, dans le cas où l’internaute est connecté à son compte Google (par exemple parce qu’il consulte sa messagerie GMail ou qu’il interroge Google sur un smartphone Android)
- soit celui de notre navigateur web, si l’internaute vient d’utiliser Google pour poser une autre question. Voir l’exemple très parlant à propos de stades de football et de zoos donné par le spécialiste SEO Kevin Rowe au point 4. de cet article précité [58].
NB : il existe de nombreux autres facteurs de personnalisation — personnalisation supposée être à son tour un facteur de pertinence, mais pas toujours en réalité (voir infra) — de vos recherches Google. Notamment (liste non exhaustive) :
- notre géolocalisation (déduite de l’adresse IP de notre appareil et de la version linguistique de son système d’exploitation dit "OS")
- les cookies et les scripts présents dans notre navigateur web [59]
- l’utilisation du navigateur de Google, Chrome (même si nous ne sommes pas connecté à notre compte Google, Chrome garde les 180 derniers jours de votre navigation)
- nos partages sur les réseaux sociaux
- nos questions précédentes tapées sur Google
- l’appareil sur lequel vous interrogez Google. La personnnalisation crée en effet des résultats *très* différents pour une même personne selon qu’elle interroge le moteur au bureau, chez elle ou sur son smartphone. Voir sur ce sujet notre billet Google Search : des résultats plus personnalisés que vous ne le croyez.
– Cette pertinence est réelle : en règle générale, il suffit de consulter les 30 premiers résultats pour trouver sa réponse et avoir balayé l’essentiel des sites. En général ...
Ce qui veut dire qu’en cas de doute, il faut aller jusqu’au 100e résultat (c’est du vécu). C’est particulièrement net sur des sites mal structurés et mal indexés par Google comme les sites syndicaux.
– Parfois, cette pertinence a de graves défauts :
- même si l’algorithme initial a énormément évolué, Google, pour ramener une page web bien en évidence dans ses premiers résultats — disons les 10 premiers — reste fortement tributaire de l’existence et du nombre de liens hypertextes vers la page en question et des mots utilisés dans ces liens. Ce qui signifie qu’un document peu connu, ancien ou à la popularité éclipsée par un document plus récent ou plus important ne remontera pas dans les 10 premiers résultats. On ne le « verra pas ». Parfois, si on n’utilise pas un filtre (filetype:pdf ou site :, pour citer les plus efficaces en droit), Google ne sera même pas capable de ramener le document dans ses 100 premiers résultats. Exemple : fin novembre 2018, je cherche la décision (concurrence) de la Commission européenne IV/26.699 Chiquita du 17 décembre 1975 (JOCE L 95 du 9 avril 1976, p. 1-20.). On a un nom de partie, le sujet, la date et le type de document. Et il est publié au Journal officiel européen qui lui-même est entièrement publié gratuitement sur le Web. Il ne devrait donc pas y avoir de problème. Oui mais, c’est une décision ancienne (1975). A l’époque, pas d’Internet, donc pas de liens hypertexte. Et par la suite, après l’invention du Web, très peu de gens ont fait des liens vers elle, car la célèbre décision de la Cour de justice des Communautés européenne sur cette affaire a éclipsé la décision qui en fut à l’origine. Beaucoup plus de liens ont été créés vers l’arrêt Chiquita que vers la décision Chiquita. Donc, si on tape décision Commission Chiquita 17 décembre 1975, eh bien, on ne trouve pas la décision sur le site officiel EUR-Lex, même en allant au 100e résultat (on la trouve certes en 5e position sur le site non officiel Adminet, mais sans garantie d’absence d’erreur et sans image PDF du JOCE d’origine). Le premier résultat est l’inévitable arrêt de la Cour du 14 février 1978 Bananes Chiquita sur EUR-Lex, objet de très nombreux liens comportant le mot "Chiquita". Au final, j’ai trouvé la décision par le moteur de recherche interne d’EUR-Lex, avec le PDF du JO
- la personnalisation des résultats de Google, selon les deux études scientifiques les plus récentes sur le sujet (2013 et 2019), masque 12 à 20% des résultats pertinents [60]. Une recherche entièrement dépersonnalisée permet de trouver ces 20%, mais en pratique, une dépersonnalisation totale est impossible : au minimum, les résultats seront personnalisés en fonction de la localisation (langue + pays).
Il faut toutefois relativiser. Déjà, comme mentionné plus haut, on ne parle que de 12 à 20% des résultats pertinents. Selon CNBC, qui a visité les labos de Google, « actuellement, il y a très peu de personnalisation de la recherche et ce qui existe est centré sur la localisation d’un utilisateur ou les termes et les choix de résultats d’une recherche précédente.
Après beaucoup d’efforts pour tester la personnalisation, Google a trouvé qu’il améliore rarement réellement les résultats de recherche.
En ne personnalisant pas [on dira plutôt moins que les autres] les résultats de recherche, Google a été en mesure d’échapper à beaucoup de critiques que Facebook et Twitter ont reçues pour avoir créé des “bulles de filtres”, où les gens ne voient que les informations qu’ils étaient déjà prédisposés à croire ou à aimer.
NB : Le produit vidéo de Google, YouTube, n’a pas été en mesure d’éviter cette critique, en particulier dans la façon dont il recommande des vidéos connexes. Les deux algorithmes sont totalement distincts et ne sont pas créés ou entretenus par la même équipe. » [61] - la volonté de fournir des réponses plus que des documents amène Google à tenter de répondre à la place des sites web, avec les "featured snippets" (extraits optimisés) [62], ce qui n’a le plus souvent aucun intérêt pour les professionnels de l’information et du droit, qui recherchent inversement détails, nuances et exhaustivité
- selon le journaliste OSINT Henk van Ess, Google « se fie aux signaux (faibles/forts). Si c’est un signal faible [i.e. votre recherche, si Google en respecte les mots-clés, ne trouve que très, très peu de résultats], il essaie de vous donner un signal plus fort [i.e. Google ne va pas respecter vos mots-clés] ». Le moteur de recherche remplace désormais fréquemment les mots-clés saisis par des mots semblables si ceux-ci sont plus courants [63]. Ainsi, la recherche “Saint Kitts” “Taylor Swift” génère environ 400.000 résultats, alors qu’il n’existe, en fait, que deux résultats concernant à la fois l’île des Caraïbes et la chanteuse américaine, tous deux relatifs à la vente sur l’île en question de produits à l’effigie de célébrités. Comme le dit Hank van Ess, il s’agit pour Google de « plaire au plus grand nombre d’internautes ». Après tout, l’essentiel des revenus de Google provient de son activité de régie publicitaire, et c’est donc au grand public d’abord que Google s’adresse. Pas aux professionnels — et encore moins les professionnels du droit
- pire, interprétant les attentes des utilisateurs, voulant à tout prix leur donner une *réponse* — et non des interrogations ou d’autres pistes — et leur mâcher le travail, Google suppose que ses utilisateurs n’ont pas besoin de la totalité des résultats disponibles dans son index et, depuis octobre 2017, ne permet plus d’interroger directement les différentes versions "locales" (i.e. nationales) de son moteur [64]. Cette attitude du moteur peut également être due à son refus de laisser consultants en référencement (SEO) et autres abuser de son index. Au final, comme l’écrit Carole Tisserand-Barthole sur le blog de FLA Consultants, « quelle que soit la requête, Google, Bing et les autres n’affichent pas l’intégralité des pages correspondants à la requête. Ils opèrent une sélection des pages présentes dans leurs index » [65]. Selon le spécialiste de l’OSINT Henk Van Ess, Google limite généralement le nombre total de résultats réellement affichables à 500 [66]. Par exemple, pour reprendre un des exemples de recherches cités supra, licenciement calcul indemnité n’affichait le 27 février 2018 sur Google.fr que 210 résultats sur les 375 000 théoriques annoncés et, si on pensait à faire sauter la limitation pour similitude [67], 560 résultats.
Les deux principaux moyens de forcer le moteur à fournir plus de résultats ou des résultats vraiment différents sont [68] :- d’abord, de préciser, de taper exactement, d’ex-pli-ci-ter ce qu’on cherche. Exemple : si vous cherchez une bibliographie d’un auteur, ne vous contentez pas de taper le nom de l’auteur. Ajoutez bibliographie. Et comme le TAL à la sauce ML de Google ne fait pas bien la synonymie sur ce terme, essayez aussi avec publications
- d’affiner la recherche en utilisant un filtre comme site: ou filetype:pdf (voir infra). Mais même dans ce cas, Google ne fournira pas tous les résultats. Ainsi, licenciement calcul indemnité site:legifrance.gouv.fr annonçait 31 500 résultats mais n’en affichait réellement que 530.
Les 5 premiers critères de pertinence pour Google selon l’étude SEO Factors 2016. Source image : SEO Factors
1.2.2. La pollution des résultats par le spamdexing
Cependant les résultats de Google sont de temps à autre — ça vient par vagues — pollués par les résultats de sites publicitaires quasiment vides de contenu juridique, comme les sites faisant de la publicité pour des livres de droit du licenciement destinés aux particuliers. C’est ce qu’on appelle du "spamdexing" [69]. Une fois les sites spammeurs identifiés, Google les "bannit" de son index, mais le problème revient de temps à autre. Par exemple, fin décembre 2017, sur des questions de nuisances sonores (troubles de voisinage), j’ai vu le site gralon.net, dont les articles sont très vagues, à la limite de l’insignifiant, mais bourrés de publicités, réapparaître sur mon radar.
Le spamdexing de Google a toutefois beaucoup reculé depuis 2014 du fait de l’implémentation de l’algorithme RankBrain avec ses capacités de traitement du langage naturel (NLP) (voir A. le contenu de Google supra).
Ce qu’on trouve en revanche, ce sont des sites payants du type cours-de-droit.net dont le référencement (SEO) très efficace les positionne souvent dans les cinq premiers résultats de Google, alors même que seule l’introduction des dissertations qu’ils vendent est disponible gratuitement [70].
1.2.3. La fraîcheur des résultats
Les résultats sont en général très "frais" :
- Google indexe très régulièrement les sites importants (exemples : Assemblée nationale, Sénat, etc.)
- Google privilégie les sites à mise à jour très fréquente, tels les sites de presse (lemonde.fr, liberation.fr, etc.), Wikipedia ou les blogs les plus populaires, en les réindexant plus d’une dizaine de fois par jour. Google s’adapte en fait à la fréquence de mise à jour du site.
Néanmoins et de manière logique vu sa préférence pour les liens hypertextes et pour les sites à mise à jour fréquente, Google peut avoir quelques jours de retard sur certaines rubriques peu consultées de sites très vastes et sur l’actualité des sites web les moins importants, qui eux-mêmes sont rarement mis à jour.
Google peut également mettre jusqu’à plusieurs semaines pour indexer correctement un nouveau site web ou une refonte d’un site web existant, c’est-à-dire indexer la totalité de ses pages et les faire monter en tête des résultats sur les questions pertinentes, surtout si la nouvelle version crée des nouvelles URL (adresses des pages web) sans mettre en place une redirection automatique des anciennes URL vers les nouvelles. C’est ce qu’a montré l’exemple de la refonte du site de l’Autorité des marchés financiers (AMF) au cours de l’année 2020 [71]. On l’a vu aussi lors de la refonte de Légifrance en 2020 : encore au moins une semaine après le lancement, de nombreux commentaires sur Internet signalaient que Google ne "rankait" plus en premier la version à jour des articles des Codes [72].
Comme mentionné supra (1.1.7. Google est parfois en retard), les retards d’indexation de Google pourraient à l’avenir disparaître si celui-ci adopte finalement le protocole IndexNow proposé par les moteurs concurrents Yandex et Bing.
2. Comment interroger Google
Vous êtes super pressé ? En 1 mn, lisez ce billet de Jérôme Bondu (Inter- Ligere) qui présente un tableau rapide des opérateurs et filtres de recherche de Google : Utilisation des opérateurs de recherche dans Google (5 octobre 2019).
Vous voulez une "cheat sheet" exhaustive pour les champs et opérateurs de Google ? Lisez ce billet de Joshua Hardwick, qui travaille chez ahrefs, un éditeur d’applications pour le référencement et le marketing de sites web : Google Search Operators : The Complete List (42 Advanced Operators), ahrefs blog, 3 août 2020.
Vous avez du temps, vous voulez comprendre et vous voulez savoir quels opérateurs sont les plus efficaces en recherche juridique ? Lisez ce qui suit.
2.1. L’essentiel
- laisser un espace revient à utiliser l’opérateur logique ET implicite. Autrement dit : chaque fois que vous tapez un mot de plus, vous ajoutez un critère, une condition à votre recherche. Exemple : responsabilité pénale du dirigeant trouvera moins de résultats que responsabilité
- cherchez à utiliser des expressions plutôt que des suites de mots. Google "accroche" mieux là dessus (voir explication détaillée infra).
2.2. Choisir ses mots-clés
Prenez 30 secondes pour réfléchir aux mots-clés que vous allez utiliser. Car, même avec Google, cela peut faire la différence entre trouver et ne pas trouver.
Voici les "trucs" essentiels pour choisir ses mots-clés :
- ne vous laissez pas influencer par les suggestions de Google [73]
- pensez aux synonymes et quasi-synonymes. Voir aussi infra l’opérateur (tilde).
Exemple : bail, baux, loyer, loyers, location. Un synonyme, ça peut être aussi un numéro d’article de Code, particulièrement en droit fiscal avec le CGI. Exemple (en recherche de jurisprudence) : 1240, 1382 et faute sont des quasi-synonymes de responsabilité civile - si vous cherchez la version officielle d’un texte, d’un arrêt ou d’un rapport, utilisez :
- les termes juridiques officiels, c’est-à-dire ceux utilisés dans les codes et les lois (notamment dans les titres des lois).
Exemple : redressement et liquidation judiciaires - la date complète.
Exemple : 25 janvier 1985 - ou éventuellement le numéro.
Exemple : 85-98 (ce qui évite de trouver aussi la loi n° 85-99 sur les administrateurs judiciaires)
- les termes juridiques officiels, c’est-à-dire ceux utilisés dans les codes et les lois (notamment dans les titres des lois).
- si en revanche vous cherchez des commentaires ou de la doctrine (pour autant qu’il y en ait gratuits sur le Web sur votre sujet) :
- utilisez les noms juridiques usuels.
Exemples : procédures collectives ou redressement judiciaire ou liquidation judiciaire ou difficultés des entreprises en difficulté ou défaillances d’entreprises (pas faillite, qui n’est plus le terme juridique approprié) - si vous cherchez des commentaires sur une réforme ancienne, précisez l’année.
Exemple : 1985 (réforme des procédures collectives)
- utilisez les noms juridiques usuels.
- si vous cherchez de l’actualité non juridique ou des articles de presse, utilisez les termes économiques et/ou les expressions du langage courant.
Exemple : faillite, faillites, fermetures d’entreprises, plans sociaux - plus généralement, si vous êtes compétent sur le(s) domaine(s) juridique(s) concerné(s) par votre recherche, tapez les mots et expressions qui devraient se trouver dans les documents que vous recherchez, et surtout dans leur titre et leurs premiers paragraphes. Autrement dit : essayez de deviner comment les titres de documents sur le sujet sont écrits. Cette technique de recherche, selon l’expert et consultant en intelligence économique (IE) Pierre-Yves Debliquy, est même plus importante que la maîtrise des opérateurs de Google [74]
En revanche, si vous n’êtes pas spécialiste de ce domaine et a fortiori si vous n’êtes pas juriste ou étudiant en droit, évitez d’utiliser cette dernière technique.
Ne vous laissez pas influencer par les suggestions de Google. Par exemple, ici, l’expression "responsabilité civile contractuelle" ne fait pas partie du vocabulaire des juristes : on parle simplement de "responsabilité contractuelle"
2.3. Repérez dans les résultats les mots-clés que vous avez oubliés :
- dans les extraits qui composent les résultats de Google, si des mots vous semblent pertinents, réutilisez les dans votre question
- dans les documents qui répondent le mieux à votre question, repérez les mots qui font partie de votre sujet mais que vous avez oubliés pour modifier votre question.
C’est un "truc" capital : modifier sa question initiale, oui, mais avec des mots qui marchent.
2.4. Utilisez la recherche avancée pour mieux contrôler votre recherche (opérateurs booléens et filtres
Deux possibilités :
- utilisez la page Recherche avancée de Google. Et alors pas besoin de savoir comment écrire les opérateurs et filtres de Google
- ou — mieux — apprenez les opérateurs et filtres de Google et utilisez-les sur la page d’accueil du moteur. Mais il faut alors connaître les noms des opérateurs et des champs/filtres et leur syntaxe.
Vous pourrez alors utiliser les opérateurs de recherche ET (AND ou espace), OU (OR), SAUF (-), expression (" ") et de proximité (AROUND). On les appelle opérateurs booléens ou opérateurs logiques.
NB : pour une liste complète des opérateurs de recherche de Google (Google ne les documente plus), voir The Full List of 21 Google Search Operators sur le site d’Irina Shamaeva.
Rappel : en allant sur la page Recherche avancée, vous n’aurez pas à mémoriser leur syntaxe. Toutefois, sur cette page, les opérateurs de proximité comme AROUND ne sont pas proposés.
Le haut de la page Recherche avancée de Google Search
Les opérateurs de recherche permettent de "pousser le moteur dans ses retranchements". Exemples : on veut des documents relativement simples et à jour pour créer une EURL :
créer OR création eurl OR "entreprise unipersonnelle" (on peut aussi ajouter : filetype:pdf).
Voici maintenant des précisions, à propos des opérateurs logiques dans Google, qui ont leur importance.
2.4.1. [AND] : le ET implicite, l’expression implicite et le mode Mot à mot
Rappel : tout espace non placé entre des guillemets est pour Google un ET logique. Mais parfois aussi une incitation à interpréter la requête comme une expression : dans ce cas, si cette tendance de Google à tout transformer en expression vous gêne, utilisez le mode Mot à mot (en anglais Verbatim) (Outils > Tous les résultats > Mot à mot : disponible par défaut sur ordinateur, sous smartphone il faut afficher la page en "version ordinateur") [75] ou écrivez en majuscules le AND [76].
Le mode Mot à mot de Google une fois activé
2.4.2. OR : prévoir les synonymes : ne pas abuser
Attention : Google ne "comprend" pas les parenthèses [77] et le OR ne joue que sur les mots immédiatement adjacents à lui. Ce qui implique de mettre les mots d’une expression entre guillemets (contrairement à ce qui est recommandé plus haut pour les cas "normaux") si la notion faut partie d’une suite de synonymes. De plus, le premier mot qui commence une suite de OR est le plus important pour l’algorithme [78].
Il faut toutefois bien comprendre que multiplier les synonymes (reliés par OR) n’apporte pas grand’ chose en terme de pertinence des résultats. Un synonyme voire deux (pas plus, soit trois mots ou expressions maximum) aide lorsqu’on est dans du vocabulaire juridique un peu spécialisé et/ou peu présent sur le Web, mais le plus efficace en dehors de ces cas reste :
- soit le choix de la bonne expression (sans guillemets sauf si ça "part dans tous les sens") et de laisser les capacités de l’algorithme RankBrain en NLP version machine learning (on en parlait supra) faire le travail de synonymie, d’autant que l’utilisation du OR stoppe très logiquement cette synonymie automatique [79]
- soit, si les synonymes ne sont pas détectés par Google et qu’en plus ils sont très nombreux, de faire une requête par synonyme ... Eh oui ! Pour citer Carole Tisserand-Barthole (FLA Consultants) : « les longues requêtes booléennes sont désormais contre-productives et [...] il vaut mieux multiplier les requêtes courtes » [80].
Voici un bon exemple à la fois du peu d’intérêt d’utiliser le OR, et en même temps de son (relatif) intérêt en droit si on veut un maximum de fiabilité et creuser à fond la recherche : comparez les 100 premiers résultats de "responsabilité civile" accident automobile et "responsabilité civile" OR 1382 OR 1240 accident automobile. Seuls une petite dizaine de résultats diffèrent, la plupart (mais pas tous ...) sans intérêt majeur. Toutefois, certains résultats sortis seulement avec le OR peuvent venir de sites particulièrement fiables et avoir de la valeur si on ne veut rien rater. L’exemple utilisé ici est très net : Accident de la circulation et responsabilité civile des parents, Dalloz Etudiant est en effet le seul résultat venant d’un éditeur juridique et le seul à citer de la jurisprudence et il n’est dans les 10 premiers résultats que parce que on a utilisé un vocabulaire beaucoup plus juridique. Pour autant, cette page ne contient ni 1382 ni 1240 ...
En 2020, Irina Shamaeva, spécialiste de la recherche sur Google (mais aussi LinkedIn), a constaté que « si vous recherchez Accenture OR Deloitte, Google exécutera les requêtes avec l’un, puis l’autre, et mélangera les pages de résultats. Il ne donnera pas la priorité aux pages contenant les deux termes si c’est ce que vous souhaitiez. »
Pour conclure, et pour reprendre les mots d’Irina, il vaut mieux désormais éviter au maximum d’utiliser le OR chez Google puisque Google Search n’est plus dans la recherche booléenne mais *sémantique*. Elle recommande carrément de mener deux recherches consécutives plutôt que d’utiliser un OR [81] !
2.4.3. SAUF : exclure des mots des résultats : en dernier recours
Uilisez l’opérateur - (SAUF) [82] pour exclure des termes qui faussent les résultats/les "polluent" : le - (moins) fonctionne. La règle générale d’utilisation de l’opérateur SAUF s’applique : on n’utilise le SAUF qu’en dernier recours.
NB : le - peut être utilisé devant un opérateur, même si en pratique, c’est rarement utile.
2.4.4. Les opérateurs de proximité : avec modération
2.4.4.1. AROUND
Signalé en 2010, probablement apparu 5 ou 6 ans auparavant, mais non documenté par Google, l’opérateur de proximité AROUND(n) (où n est un nombre de mots qu’on fixera en pratique à 2 ou 5 [83]) est efficace en anglais et, alors qu’il ne l’était pas, est devenu efficace en français en 2017 [84]. Les mots de la recherche doivent alors être situés à n mots les uns des autres et dans n’importe quel ordre.
Toutefois, avant d’utiliser cet opérateur, il est recommandé de saisir sa requête sans, car, le 2e terme peut être au-delà de n mots du premier et pourtant être pertinent (c’est vrai surtout si le mode Mot à mot n’est pas activé, autrement dit, si la synonymie automatique de Google est en fonction).
Exemple d’utilisation de AROUND mais aussi de ses limites : comparez télévision "abus de position dominante" et télévision AROUND(5) "abus de position dominante" : la 1ère formulation trouve des pages non trouvées par l’emploi d’AROUND, tout en amenant des résultats non pertinents (notamment lié à la synonymie télévision = TV), parfois dès le 10e résultat. La 2e formulation, avec AROUND, permet d’amener des résultats complémentaires.
Un article à la fois récent et (presque) exhaustif sur AROUND est celui (encore une fois) d’Irina Shamaeva : Asterisk * vs. AROUND(X) on Google (Boolean Strings, 22 octobre 2021) [85].
NB 1 : si AROUND ne fonctionne pas (ça peut être le cas sur certains serveurs européenns), il faut le compléter par le truc découvert par Henk Van Ess qui consiste à encader les deux mots de guillemets (quand bien même, donc, il ne s’agit pas d’expressions) afin que AROUND fonctionne correctement : "mot1" AROUND(n) "mot2".
NB 2 : même si on n’utilise pas les guillemets, AROUND désactive toute interprétation de la requête, comme dans Outils > Mot à mot. Cela signifie notamment que la synonymie automatique ne marche pas. Donc faites attention, choisissez bien vos mots/expressions.
2.4.4.2. L’étoile remplace un ou des mot(s) : inutile
L’opérateur * ("wildcard") est censé remplacer un (au moins) ou plusieurs mots, je constate son efficacité dans une certaine mesure mais je n’arrive pas à la prouver par A + B.
De toute façon, la bonne expression (sans guillemets, en général) pourra être tout aussi efficace, voire plus. Disons qu’au minimum, elle obtiendra des résultats différents (donc complémentaires) [86].
* peut dans une ceraine mesure faire office d’opérateur de proximité (avec respect cette fois de l’ordre des mots) en multipliant les étoiles. Voir Asterisk * vs. AROUND(X) on Google.
2.4.4.3. Les guillemets : expression : efficace
Chercher par expression (ou proximité d’1 mot) rend les résultats plus précis/moins nombreux et dans certains cas, évite les résultats hors sujet. Hors de l’interface Recherche avancée, utilisez les classiques guillemets (" "). Important : pour que les guillemets soient pris en compte à 100% par Google, il est nécessaire de passer en mode Mot à mot (Outils > Tous les résultats > Mot à mot) [87].
L’utilisation des guillemets est devenue plus souvent nécessaire, face à l’élargissement des recherches pratiqué par Google [88]. Toutefois, ne l’utilisez qu’après avoir testé l’expression sans guillemets, pour les raisons exposées ci-après.
N’abusez pas des guillemets. On dit souvent dans les cours de recherche sur bases de données ou sur le web qu’encadrer une expression avec des guillemets garantit des résultats moins nombreux et pertinents. Mon expérience, c’est qu’en réalité, les guillemets sur Google n’améliorent souvent pas grand’ chose voire parfois empêchent de trouver les principaux sites web sur un sujet. D’ailleurs Google ne les recommande pas trop fort. Cela dit, c’est vrai que si on veut vraiment *tous* les sites sur une expression, alors il faut utiliser le moteur à la fois *avec* les guillemets mais *aussi sans*, car, du moins si l’on s’en tient aux 30 premiers résultats, certains sites pertinents apparaissent uniquement avec les guillemets et d’autres uniquement sans [89]. En effet, l’algorithme de Google détecte souvent tout seul l’expression et la privilégie dans le classement des résultats. De surcroît, mettre les guillemets, en pratique, réduit souvent — mais pas toujours — un peu la pertinence par rapport à sans les guillemets car ceux-ci éliminent des résultats où l’expression n’est pas totalement identique, voire certaines pages où pourtant celle-ci apparaît clairement ...
2.4.5. Ordre des mots : utile
Si votre requête comporte au moins 7 ou 8 mots-clés, mettre en premier le mot le plus important de votre question : il aura alors un poids plus important que les autres dans les résultats, en faisant par exemple remonter dans les premières réponses les pages web où ce mot est dans le titre de la page.
Ce point — non précisé dans l’aide officielle de Google et la plupart des guides de recherche en ligne — peut avoir un effet sur le tri des résultats par Google, en amenant dans les 10 ou 20 premières réponses une page web jusque là "perdue" au delà des trente premières réponses
2.4.6. Langue des résultats : parfois nécessaire
Choisir la langue des résultats. Pas toujours intéressant : la langue des mots-clés utilisés conditionne souvent celle des résultats et donc le droit national en cause.
Mais pas toujours, comme l’explique le journaliste geek Martin Brinkmann sur son site d’actualité IT Ghacks [90]. La solution est alors :
- soit on accepte de rester connecté à son compte Google (ce que je ne recommande pas, voir infra) et on va alors dans les paramètres de votre compte Google (pas ceux de Google Search, qui ne règlent que le pays, pas la langue) : se connecter > Mon compte > Préférences de compte > Langue
- soit (recommandé), on utilise alors le champ Langue de la version avancée de Google Search, bien pratique dans un cas comme ça.
Google Recherche avancée : choisir la langue
2.4.7. Limiter les résultats à un pays : pas mal, sans plus
imiter les résultats à la France (sites français et non francophones) permet d’éviter à 95% les résultats provenant de sites québécois, belges et d’Afrique du Nord (Maroc, Tunisie, Algérie) et donc de se restreindre au droit français. Voilà une fonctionnalité intéressante, mais devenue moins utile depuis que Google a progressé dans la reconnaissance de la nationalité de l’internaute.
Elle n’est d’ailleurs plus disponible que dans l’interface Recherche avancée (champ "région"). Elle peut encore servir à trouver des résultats de droit canadien ou belge quand on interroge Google depuis la France
2.4.8. filetype:suffixe (format de fichier) : très efficace
Choisir le format de fichier : Rich Text Format .rtf, Word .doc, Acrobat .pdf, Excel .xls, .PowerPoint .ppt, Access .mdb. Restreindre la recherche aux fichiers PDF permet de ne trouver que des documents sérieux et fiables (mais pas systématiquement pertinents, car ce n’est pas le but direct de cette fonctionnalité).
En effet, très souvent, les documents officiels (textes juridiques, rapports, livres blancs) et les articles de revues scientifiques sont au format PDF tandis que les sites perso, ceux tournés vers le marketing et les forums utilisent uniquement le HTML. Hors de l’interface Recherche avancée (autrement dit à partir de la page d’accueil de Gogle), écrivez filetype:[type_de_fichier] à la fin de votre requête.
Exemple : rapport open data justice filetype:pdf
2.4.9. site: : très efficace
Le filtre site: restreint la recherche à un site. Plus précisément à son nom de domaine (exemple : conseilconstitutionnel.fr est le nom de domaine du site web du Conseil constitutionnel). Ca marche aussi sur les sous-domaines.
Ainsi utilisé, Google est presque toujours plus efficace que le moteur interne du site, sauf sur des documents extrêmement récents, peu connus ou "enfouis" dans le site. Ce mode de recherche est particulièrement utile sur les plus vastes sites juridiques : le site du Premier ministre, les deux sites parlementaires (Assemblée nationale, Sénat), Europa, EUR-Lex. Hors de l’interface Recherche avancée, écrivez site:[domaine] Le "domaine" ici peut comprendre un sous-domaine.
Exemple : site:justice.gouv.fr (ici, le nom de domaine est gouv.fr, et justice un sous-domaine).
2.4.10. inurl: : efficace
Voilà un truc de recherche utile pour fouiller une rubrique ou sous-rubrique d’un site web très vaste.
Exigez la présence d’un terme dans l’adresse web (URL) : dans Google (non avancé) écrivez : inurl:[chaîne_de_caractères] Précisions : derrière inurl: on doit mettre la chaîne de caractère *complète* présente *entre deux barres obliques* dans l’URL. Et rien d’autre.
Exemple : si on veut chercher sur les décisions "merger" de la DG Concurrence et que leur adresse est ec.europa.eu/competition/mergers/cases/decisions/xxxxxxxx.pdf, on écrira donc : inurl:competition inurl:mergers. inurl:comp ou inurl:merg ne marcheraient pas
2.4.11. intitle: : efficace, mais à utiliser avec modération
Restreindre la recherche au "titre" (la balise HTML title, plus précisément) des pages web avec le champ intitle:[un_seul_mot] ou — encore plus efficace — allintitle:[tous_les_mots_qui_suivent].
A utiliser pour trier, pour ramener les pages les plus centrées sur la question lorsque la requête "normale" produit beaucoup trop de positifs. Mais, collègues bibliothécaires documentalistes, attention : le champ TITRE d’une base de données classique ou d’un catalogue n’a rien à voir avec le filtre title:. Ce dernier n’obéit à aucune norme et, marqué par les exigences du marketing, de la communication et du référencement web, manque singulièrement de rigueur.
2.4.12. inanchor: : inefficace
Le filtre inanchor: (mots dans les liens hypertextes renvoyant vers la page résultat) et son frère allinanchor : sont très peu efficaces en droit français.
Exemple : comparez allinanchor:télévision "abus de position dominante" avec télévision "abus de position dominante". Dès le 3e résultat, la requête utilisant allinanchor: perd sa pertinence On peut oublier inanchor : sans problème.
Toutefois, selon le test de Joshua Hardwick dans sa "full list" de 2018 précitée, inanchor et allinanchor ne marchent pas parfaitement.
2.4.13. Affichez 50 résultats
Si vous êtes connecté (non recommandé) à votre compte Google, réglez le nombre de résultats par page à 30 voire 50 (au-delà, en général, très peu de résultats sont pertinents [91]). Ca permet de consulter plus facilement et plus rapidement les résultats pertinents.
Mais cela implique d’être connecté à votre compte Google, ce qui personnalise (i.e. biaise) les résultats en fonction de votre historique de recherche que Google a mémorisé.
2.4.14. Empêchez Google d’interpréter votre requête
Empêchez le plus possible Google d’interpréter votre requête (sauf par la langue du système d’exploitation de votre ordinateur) en choisissant dans Outils de recherche > Tous les résultats > Mot à mot [92], sans oublier de vous déconnecter de votre compte Google [93], d’indiquer à Google de ne pas non plus mémoriser votre historique de recherche lorsque vous n’êtes *pas*, cette fois-ci, connecté à votre compte Google ... et de vider vos cookies et l’historique de navigation de votre navigateur web avant de lancer une recherche, voire de lancer dans votre navigateur une session de navigation privée [94]
2.5. Rechercher sur une période
Restreignez si nécessaire les résultats à une période de temps. C’est très utile quand on cherche des articles de presse. Ou lorsqu’on veut se situer avant ou après une réforme législative ou une jurisprudence marquante.
Attention toutefois : quand vous utilisez cette fonction, Google n’affiche pas les documents pour lesquels il n’est pas arrivé à déterminer une date. Autrement dit, vous perdez certains résultats potentiellement pertinents [95].
Pour utiliser cette fonctionnalité, deux possibilités :
- passer par l’interface simple de Google et cliquer sur Outils de recherche > Date indifférente > Période personnalisée. NB : cette recherche par période-ci est disponible sur la version mobile de Google Search depuis début 2018 mais elle ne permet pas de spécifier une période personnalisée
- depuis avril 2019, la recherche par période est possible directement dans l’interface simple en utilisant les filtres/champs before : et after : (notez bien : tout en minuscules et tout collé, y compris les deux points). Après before : ou after :, il faut ajouter année-mois-date au format aaaa-mm-jj ou aaaa/mm/jj ou juste l’année (qui sera alors transcrite en 1er janvier de l’année pour before : et 31 décembre pour after :). Exemples : [EHPAD before:2016], [EHPAD after:2015-12-28] [96]. Les deux champs période peuvent être combinés. Malheureusement, dans le même temps, Google, a supprimé le tri par date sauf dans son onglet Actualités.
Autrefois déficiente, comme Béatrice Foenix-Riou l’avait démontré dans la revue Netsources, la recherche par date dans Google est pertinente dans 95% des cas. Cf cet exemple de recherche conçu exprès pour détecter une erreur.
2.6. Ouvrir les résultats dans une nouvelle fenêtre ou un nouvel onglet
Ouvrez les résultats dans une nouvelle fenêtre ou un nouvel onglet, de manière à garder sous la main la liste des résultats. Pour cela : faites un clic droit sur le lien qui vous intéresse, puis un clic gauche sur "Ouvrir dans une nouvelle fenêtre/onglet".
2.7. Les moteurs spécialisés de Google
S’il n’y a pas de résultat intéressant dans l’onglet Web de Google, regardez :
-
- dans Google News (Actualités)
- dans Google Books
- dans Google Scholar.
2.8. Toujours rien ?
Pour creuser sur Google, voyez Pour aller plus loin à la fin de cet article.
Mais souvenez-vous : comme expliqué supra (voir 1.1.2.), tout n’est pas sur le Web/dans Google. Loin de là. Il y a aussi les bases de données payantes, les journaux, les ouvrages disponibles dans les bibliothèques et centres de documentation (à commencer par votre bibliothèque municipale), les bibliothécaires documentalistes, votre mémoire, votre capacité de raisonnement/votre logique à vous, vos collègues et relations professionnelles (par téléphone, email etc.) ...
3. Cinq exemples de recherche futée ou experte dans Google
1er exemple
Ici, nous allons chercher des articles en matière de cookies parus dans la revue Expertises, une revue de droit de l’informatique et d’Internet [97].
Cette revue a un site web (expertises.info) et les sommaires y sont présents en accès gratuit. Ce qui signifie que Google indexe les titres de ces articles.
Voici comment interroger rapidement les sommaires de la revue Expertises sur le site de la revue :
– 1. réfléchissez aux mots-clés à utiliser pour votre recherche : les juristes s’expriment en général en bon français. C’est ce que j’appelle "l’étape zéro" dans une méthode de recherche
Ici, un dictionnaire de traduction peut être utile — le Larousse anglais-français par exemple — mais il faudra le compléter par le site de la CNIL. Cookie en français se dit donc mouchard ou traceur
– 2. déconnectez-vous de votre compte Google (si vous en avez un). En effet, Google biaise ses résultats en fonction de vos recherches passées
– 3. allez sur la page d’accueil de Google en français
– 4. tapez les mots-clés en reliant les synonymes par OR (en majuscules) : cookies OR mouchards OR traceurs
– 5. limitez la recherche au site www.expertises.info (NB : Google ne prend en compte que des noms de domaine, pas des pages profondes) en tapant : site:expertises.info
– 6. votre recherche doit ressembler à ceci : cookies OR traceurs OR mouchards site:expertises.info
– 7. lancez la recherche
– 8. lisez les résultats. Regardez bien les caractères verts : ils vous indiquent le site d’où vient chaque résultat. Si c’est un site universitaire (univ-) ou officiel (.gouv.fr), c’est un gage de qualité
– 9. pour ceux qui vous intéressent : clic droit > Ouvrir le lien dans un nouvel onglet. Comme ça, vous ne perdez pas votre liste de résultats et votre recherche.
2e exemple
Vous devez réunir des documents sur le travail le dimanche.
Suivez les étapes 1 à 9 supra.
Cela devrait donner ceci : "travail le dimanche" OR "travail du dimanche" OR "travail dominical" OR "dérogation au repos dominical" OR 3132
Complétez ces résultats avec des documents en PDF : "travail le dimanche" OR "travail du dimanche" OR "travail dominical" OR "dérogation au repos dominical" OR 3132 filetype:pdf
NB : l’efficacité de la synonymie automatique de Google est telle que travail le dimanche tout court suffit presque. Surtout avec filetype:pdf.
3e exemple
C’est l’employeur qui préside le comité d’entreprise. Peut-il y venir accompagné de trois collaborateurs au lieu de deux comme le prévoit le Code du travail ?
Vérifier d’abord l’article pertinent du Code. C’est le L. 2325-1. Il faut vérifier les termes qu’il emploie, qui sont très certainement ceux qu’emploieront des commentaires bien juridiques. Le truc consiste à ne pas reprendre le mot "deux" car ici c’est "trois" que l’on cherche.
Taper dans Google :
comité d’entreprise employeur trois collaborateurs
La première réponse est la bonne. Elle vient d’une page en libre accès du Lamy Droit du comité d’entreprise disponible sur le site WK-RH.
4e exemple
Chercher des documents de tout type sur la position dominante sur le site de la Commission européenne.
position dominante site:ec.europa.eu inurl:competition filetype:pdf
5e exemple
Trouver la bibliographie complète de Peter Tomka, juge à la Cour internationale de Justice (CIJ/ICJ) de la Haye.
Pour arriver à coup sûr sur une liste quasi-exhaustive des publications de P. Tomka, il faut :
- être précis et choisir le bon mot. Ici, ce n’est pas bibliographie mais publications
- deviner dans quel type de document cette bibliographie devrait se trouver et quel sera le format de fichier de ce documents. Ici, en fait, nous cherchons des biographies, mais d’une certaine longueur et à caractère officiel, donc au format PDF. En effet, souvent, à la fin d’une biographie se trouve la liste des publications :
Peter Tomka publications filetype:pdf.
Ce qui donne en premier résultat la biographie en PDF du juge sur le site de la CIJ et , en bas de cette biographie, on trouve une véritable liste des publications de P. Tomka – qui plus est probablement exhaustive ou presque.
4. Pour aller plus loin
– Un peu ancien : 25 astuces pour la recherche sur Google, par Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013.
– A compléter par une excellente "cheat sheet" encore plus opérationnelle, mais toutefois orienté référencement (SEO) et non recherche ni juridique : Google Search Operators : The Complete List (42 Advanced Operators), par Joshua Hardwick, ahrefs blog, 22 mai 2018.
– Passion OSINT : comment tout trouver sur le web ou presque, par Marie Dollé, In Bed With Tech, 25 octobre 2020.
– Des aides et tutoriels venant de Google :
- Aide Recherche Google : Affiner les recherches sur le Web (une liste partielle, car Google ne liste plus la totalité de ses propres opérateurs)
- More awesome search tips from Google expert Daniel Russell, with real-world examples, par John Tedesco (reporter américain), 1er juillet 2013. issu d’une conférence de Dan Russel. N’est en partie plus à jour
- Advanced Power Searching Skills Quick Reference (en partie non à jour), par Dan Russel, le plus pédagogue des "search evangelists" de Google. Russel est particulièrement tourné vers le public des "super searchers" et journalistes. NB : le site powersearchingwithgoogle.com est aussi l’endroit où il a publié ses deux remarquables cours en ligne. Russel blogue également très régulièrement sur son propre blog SearchReSearch. Si la recherche en ligne vous passionne, je vous encourage à suivre ces deux dernières ressources
- Google’s Advanced Search Operators, par Dan Russel, mis à jour en janvier 2018.
– Selected Google Commands, par Karen Blakeman, mis à jour en janvier 2018 [98]
– Blog de FLA Consultants : mettez vous à jour avec leurs tout derniers billets sur Google.
– Le blog d’Irina Shamaeva, une des meilleures spécialistes mondiales en "executive search" [99], Boolean Strings : interrogez le avec le mot-clé Google.
– Une utilisation très pointue et avancée de Google est celle qu’en font les spécialistes de l’ "open source investigation techniques" (OSINT) et de la cybersécurité. Voir notamment ce fil Twitter par par Cyber Detective : Get the most out of a Google Search : Tools, extensions, automation methods, 17 décembre 2021 [100].
– Utilisez d’autres moteurs, principalement Bing (le concurrent de chez Microsoft [101]) et Exalead (pour les sites français et francophones) [102], voire StartPage (ex-Ixquick) [103] et les métamoteurs de recherche de personnes. Pour information, DuckDuckGo, dont on parle beaucoup, respecte certes votre vie privée, mais ses performances sont très limitées sur les pages web en langue française. Quant à Qwant, les résultats de ce moteur franco-allemand proviennent d’abord de Bing [104] et de Wikipedia. Toutefois, tout comme DuckDuckGo, il ne garde aucune trace de vos recherches, et ses résultats en langue française sont bien meilleurs que ceux de DuckDuckGo.
– Voyez nos articles Utiliser Google à 100%, surtout la bibliographie à la fin parce qu’il commence à dater (2006), et Recherche sur Internet : une méthode (un peu) simplifiée et quelques "philosophies", notamment la méthode des "autorités". Allez (entre autres) voir ailleurs sur le Web (annuaires thématiques de sites (voir la méthode préconisée par Béatrice Foenix-Riou pour les annuaires et pages de liens [105]), Legifrance, Servicepublic.fr, bases de données payantes, Isidore, Cairn, Revues.org, Theses.fr etc.), réfléchissez une deuxième fois à vos mots-clés ou passez à un autre media (prenez votre téléphone ou votre logiciel de messagerie, par exemple, pour appeler un collègue ou demander conseil à un expert) ...
Emmanuel Barthe
documentaliste juridique, veilleur, webmestre, formateur à la recherche en ligne
Notes
[1] Ce qui implique que nous ne traiterons pas ici de nombreuses fonctionnalités de Google n’ayant que peu ou pas d’utilité en droit, telles la recherche d’images qui ne servira guère qu’aux recherches en contrefaçon. Sur les fonctions de cloud de Google, voir nos articles : Mettre ses fichiers ou ceux d’un groupe dans le cloud : quelle application choisir ? et Drive, GMail, etc. : les problèmes d’utilisabilité du cloud Google.
[2] Too long = don’t read.
[3] Google fut aussi un un annuaire de sites web, copié en toute légalité sur l’original DMOZ, le plus grand répertoire de sites web classés par sujet entre 1995 et 2005. L’annuaire de Google a été discrètement supprimé à l’été 2011. Logique, car DMOZ n’est globalement plus tenu à jour.
[4] The Web began dying in 2014, here’s how, par André Stalz, un développeur open source reconnu, Stalz.com, 30 octobre 2017. Stalz montre très clairement la rivalité entre Google, Facebook et Amazon, leur façon, indirectement, de se répartir le marché des internautes et de leur trafic et l’oligopole qu’ils forment de facto.
[5] Même s’il sait aujourd’hui interroger une base de données en ligne ... à coup de mots-clés "standards". Ces mots-clés sont injectés dans le formulaire de recherche, si Google estime que les pages ramenées sont intéressantes, il les indexe avec leur URL. Fin avril 2017, Google indexait 8 800 000 documents de Legifrance, soit quasiment tout.
[6] En fait, il faut distinguer au moins quatre états pour une page web vis-à-vis de Google Search : inconnue de Google, connue de Google, indexée par Google et "cherchable"/présente dans les résultats de Google quand on tape un mot-clé.
[7] En juin 2013, Google avait connaissance de l’existence de 30 000 milliards de pages web. Mais seule une faible part de ces 30 000 milliards, soit pour le Web en anglais, allemand, français et espagnol 45 milliards (je n’ai pas trouvé d’estimation pour les autres langues), était "cherchable" dans le moteur, autrement dit arrivait dans les pages de résultats (SERP). La différence s’explique : Google peut connaître un lien mais ne rien savoir d’autre de la page web disponible à cette adresse, par exemple parce qu’il estime que cette page est inintéressante, qu’il s’agit d’un duplicata d’une autre page (cas extrêmement fréquent : selon Google, 60% du Web est dupliqué), que la page est protégée par des codes d’accès (site payant), que le site refuse d’être indexé par des moteurs de recherche (fichier robots.txt) ou encore que les pages du site ne peuvent être découvertes qu’en remplissant un formulaire (base de données en ligne) et que l’URL a changé, etc. Il faut ajouter que certains sites ne sont carrément pas "connaissables" par les moteurs de recherche web, notamment lorsque aucun lien ne pointe vers eux. Pour plus de détails sur ces raisons, voir les articles Web profond et darknet de Wikipedia.
[8] « Les établissements de crédit et les sociétés de financement sont tenus de clore leur exercice social au 31 décembre. Toutefois, l’Autorité de contrôle prudentiel et de résolution peut les autoriser à déroger à cette règle pour l’exercice au cours duquel ils ont reçu leur agrément. »
[9] Machine Learning contre statistiques « classiques » : qui remportera le match ? (tribune de Nicolas Glady, professeur à l’Essec), Silicon.fr 30 mars 2015. Le « machine learning » – quand les données remplacent les algorithmes, chronique de Pirmin Lemberger (data scientist), JDN 28 mars 2014.
[10] Apprentissage automatique (Machine Learning), par Philippe Beraud, Microsoft France, Blog MSDN 24 avril 2013. Article de Wikipedia.fr sur le machine learning.
[11] How Search Engines Use Machine Learning : 9 Things We Know for Sure, par Kevin Rowe, Search Engine Journal, 23 février 2018.
[12] Une requête, ce sont les mots qu’on tape dans un moteur de recherche ou une base de données. Comme je le dis et l’écris souvent : à un être humain on pose une question (autrement dit on fait des phrases avec sujet verbe complément), sur une base de données on tape une requête (avec des mots-clés choisis soigneusement, des opérateurs de recherche (dits aussi opérateurs logiques ou booléens) et des filtres (dits aussi champs). Une question de vocabulaire pas si innocente que ça.
[13] RankBrain : le machine learning est utilisé pour toutes les requêtes Google / Olivier Duffez, Web Rank Info 24 juin 2016. Voir aussi ce Twitter moment réuni par Serge Courier sur RankBrain.
[14] Your Keywords Are Not What You Think They Are : How Google transforms search queries and what it means for SEO, par Aleh Barysevich, Link-assistant.com (blog de SEO Power Suite) 28 février 2017. Descendre dans le billet et lire la partie intitulée Word2vec.
[15] Des synonymes documentaires, dirait un documentaliste.
[16] Toutefois, si le NLP à base de machine learning détecte — indirectement et implicitement — le sens des mots, il ne sait pas en détecter la logique.
[17] NB : Google accepte au maximum 32 "entités", que ce soient des mots, des caractères ou des nombres.
[18] Voir notre billet Le Web est vide.
[19] Introduction to Transformer Networks — How Google Translate works, par Louis Bouchard, What is Artificial Intelligence, 27 mai 2020.
[20] Google BERT vs RankBrain Algorithm, par Aditya Krishnan, LinkedIn Pulse, 1er août 2020.
[21] FAQ : All about the BERT algorithm in Google search, par George Nguyen, Search Engine Land, 5 novembre 2019. Pour les vrais geeks : BERT puis MUM sont rendus possibles par des "languages models", eux-mêmes rendus possibles par des technologies nommées "encoders" et Transformer, lire The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning), par Jay Alammar, 3 décembre 2018. A noter que Google n’est pas le seul moteur de recherche à optimiser ainsi le NLP à la sauce machine learning pour la recherche : le moteur chinois dominant Baidu en fait autant.
[22] Google dévoile sa technologie MUM, 1000 fois plus puissante que BERT, par Mathieu Chartier, Blog Internet-Formation, 19 mai 2021. Pour aller plus loin : Research Papers May Show What Google MUM Is, par Roger Montti, Search Engine Journal, 20 mai 2021.
[23] MUM, la nouvelle machine de guerre de Google, par Olivier Andrieu, Abondance, 19 mai 2021.
[24] Google Speech Search Using Language Models, par Bill Slawski, Go Fish Digital, 4 mars 2021.
[25] ix-labs a pour activité la conception d’algorithmes pour l’analyse des données et la prise de décision. Les applications de ses réalisations se trouvent dans le secteur des moteurs de recherche, de la banque, dans l’e-commerce, le marketing en ligne et le SEO. Sylvain Peyronnet est par ailleurs co-fondateur et président de The Machine In The Middle (régie publicitaire "algorithmique") et en disponibilité d’un poste de professeur à l’Université de Caen Basse-Normandie.
[26] Sylvain Peyronnet (ix-labs) : "Même les ingénieurs de Google ne peuvent plus comprendre le fonctionnement du moteur", JDN 13 septembre 2016.
[27] Les plus célèbres des algorithmes (dits aussi mises à jour de l’algorithme) de Google connus sont décrits de manière simple et compréhensible dans cet article : A cheat sheet to Google algorithm updates from 2011 to 2018, par Aleh Barysevich, Search Engine Watch, 10 octobre 2018.
[28] Je cite S. Peyronnet :
« Si je comprends bien, il y a maintenant Hummingbird [apparu en 2013], qui est au plus haut niveau, et RankBrain, une brique en dessous. Il faut bien se rendre compte que ce que certains appellent l’algorithme de Google, est en fait composé de différents algorithmes, comme le PageRank qui permet de classer la popularité des pages. Il y a aussi celui qui permet de comprendre une requête et d’évaluer la pertinence des résultats face à cette requête. Il y a souvent des scores : d’adéquation, ou de pertinence, mais aussi de popularité, de confiance…. Chaque score doit être pondéré, et une formule figée avait été déterminée pour que les scores agrégés donnent un score final permettant de classer les résultats. Avant RankBrain, cette formule était stable, désormais, avec RankBrain, je pense que cette formule évolue, et c’est le machine learning qui va apprendre à pondérer le mieux possible chacun des critères et des notes.
Je pense que le machine learning de RankBrain agit sur plusieurs critères de l’algorithme. C’est pour cela que l’on ne peut plus bien le comprendre ! Même les ingénieurs de Google ne peuvent plus comprendre le fonctionnement du moteur en détail. Tous les algorithmes se retrouvent gérés par RankBrain. Il y a donc une possibilité pour que RankBrain efface Panda ou Penguin.
Il y a une autre conséquence directe observable de RankBrain. Les données provenant des quelques 10 000 "quality raters" [personnes physiques notant la qualité des sites trouvés en tant que pertinence des résultats de Google par rapport à la requête/question, voir infra] alimentent l’apprentissage automatique, et elles sont souvent intégrées d’un seul coup dans le système : c’est pour cela qu’il peut y avoir des soubresauts bien visibles dans les résultats, exactement comme ceux observés au début du mois de septembre 2016.
Les liens ont un sens fort sur le Web, et ce n’est pas pour rien qu’ils ont pris un poids considérable aux yeux du moteur. Or, souvent, le machine learning, qui automatise en fait des décisions, va avoir tendance à renforcer les biais des décisions des êtres humains. Et je parle en connaissance de cause. Pas impossible, donc, que RankBrain ait plutôt renforcé l’importance des liens dans l’algorithme… »
[29] Voir aussi le point 3. It’s Weighted as a Small Portion de l’article How Search Engines Use Machine Learning : 9 Things We Know for Sure de Kevin Rowe dans Search Engine Journal du 23 février 2018. Extrait (traduit par nos soins) : « Toutefois, bien que l’apprentissage statistique automatique transforme lentement la façon dont les moteurs de recherche trouvent et classent les sites web, cela ne veut pas dire qu’il a un impact majeur, significatif (pour l’instant) sur les résultats. Dans la même interview, Illyes dit que c’est juste une part de leur plateforme de classement de signaux, et que ça se mesure comme une petite part de l’algorithme global. » Voici l’interview dont il est question : How Google uses machine learning in its search algorithms, transcription de l’interview de Gary Illyes, webmaster trends analyst chez Google, par Barry Schwartz et Danny Sullivan, Search Engine Land, 18 octobre 2016.
[30] Google publie un nouvel algorithme de recherche, par Noël Nguessan, Arobase.net, 23 mai 2018.
[31] Ask the right questions : Active question reformulation with reinforcement learning, par Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby et Wei Wang (tous employés de Google), communication donnée à la conférence ICLR 2018.
[32] Rapport financier annuel "SEC 10K" de 2014, Part I, Item 1., Business Overview.
[33] Par Bill Slawski : How Google May Perform Entity Recognition, Go Fish Digital, 4 février 2016, How a knowledge card improves a search engine experience ?, SEO by the Sea, 18 mars 2015 et How Google Decides What to Know in Knowledge Graph Results, SEO by the Sea, 5 septembre 2013.
[34] How Google’s Knowledge Graph Updates Itself by Answering Questions, par Bill Slawski, SEO by the Sea, 29 octobre 2018.
[35] DBpedia en 2014, donc à la mort de Freebase, c’était, 4,58 millions d’entités, 1 445 000 personnes, 735 000 lieux, 241 000 organisations ... Wikidata en 2018, c’est plus de 51 millions d’entités.
[36] Article Web sémantique de Wikipedia. Les technos du Web sémantique ont-elles tenu leurs promesses ?, par Gautier Poupeau (data architect à la BNF puis à l’INA), Les petites cases, 6 octobre 2018.
[37] DBpedia est un projet en licence libre des universités de Berlin et Leipzig.
[38] Comme l’explique Gautier Poupeau, Freebase est l’initiative lancée par la société Metaweb et consistant à transformer DBpedia en une base de connaissances. Metaweb a été ensuite rachetée par Google en 2010. Puis, voyant la difficulté à mettre à convaincre la communauté de mettre à jour Freebase (ce qui revenait à travailler pour eux), Google l’a laissé tomber fin 2014, pour se rallier et soutenir le projet Wikidata (encore une initiative allemande, celle de la Wikimedia Foundation locale). NB : ni Freebase ni le Knowledge Graph n’utilisent le format RDF.
[39] Sur Wikidata et comment l’interroger pour en extraire des réponses à des questions : A Brief Introduction to Wikidata, par Björn Hartmann, Towards Data Science (son blog), 10 avril 2018.
[40] Voir : Knowledge Vault : A Web-Scale Approach to Probabilistic Knowledge Fusion, par Xin Luna Dong, Evgeniy Gabrilovich, Geremy Heitz et al. (Google AI Research), The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’14, New York, 24-27 août 2014, pp. 601-610.
[41] Encore merci à Gautier Poupeau pour sa série de billets. Sans lui, j’aurais mis beaucoup de temps pour comprendre tout ça, sans compter que des choses m’auraient probablement échappé.
[42] Et encore moins à une question mal posée comme « est-ce que je peux attaquer pour des hurlements à 2h du mat » ou «
hurlements des voisins tribunal ».
[43] Le site gratuit Jurispedia, rédigé par des Master 2 en droit, n’a pas été réellement développé ni tenu à jour. Quant à la Grande Bibliothèque du Droit (GBD), dont les articles sont écrits par des avocats, elle est mise à jour — pas sur tous les sujets du droit — mais non structurée. Si c’est un éditeur, selon toute probabilité, ce serait un suicide pour l’éditeur en question, voire l’industrie dans son entier selon la qualité des contenus de l’éditeur. Et se poserait alors la question de la mise à jour de ces contenus, d’autant qu’éditeur est très éloigné des métiers de base de Google (publicité, cloud, search) et que, si celui-ci a été jusqu’à racheter pendant un temps un fabricant de smartphones (Motorola), il n’a jusqu’ici donné aucun signe d’une intention de se lancer dans le secteur de l’édition.
[44] Googlebot and the 15 MB thing, Google Search Central Blog, 28 juin 2022.
[45] Understanding PDF File Size, Evermap.
[46] Le temps qu’il faut à Google pour prendre en compte les nouveaux liens, par Yassine Assaoui, Ya-Graphic 6 octobre 2016.
[47] Google va tester le protocole IndexNow proposé par Bing et Yandex, Olivier Andrieu, Abondance, 10 novembre 2021.
[48] Comme les bibliothèques universitaires anglo-saxonnes de Cornell, Princeton, Stanford ou Oxford — dotées d’un très important contenu en français — mais aussi, francophones, la Bibliothèque municipale de Lyon, première et seule bibliothèque française à avoir signé, et les bibliothèques universitaires suisses de Gand et Lausanne.
[49] Google intègre les catalogues de bibliothèques dans ses résultats de recherche, par Thomas Fourmeux, Biblio Numericus, 19 septembre 2017.
[50] Your local library’s eBooks now appear in Google Search, par Ryne Hager, 18 septembre 2017.
[51] SEO Factors 2016 : les critères de pertinence de Google passés à la loupe, par Olivier Andrieu, Abondance.com, 31 mai 2016.
[52] Sur le PageRank de 1996 : The Google PageRank Algorithm, présentation PowerPoint par Eric Roberts, cours CS 54N (Great ideas in computer science), Handout #24, 9 novembre 2016, PDF. Pour un article donnant les formules mathématique de base et des schémas parlants, voir The Google Pagerank Algorithm and How It Works, par Ian Rogers, IPR Computing Ltd. Pour celles et ceux que les mathématiques passionnent, les formules de calcul sont détaillées dans l’article en anglais de Wikipedia sur le PageRank. Le "paper" d’origine est sur le serveur de l’Université de Stanford : The Google PageRank Algorithm, 9 novembre 2016. Et il en existe une version mise à jour début 1998 : The PageRank Citation Ranking :
Bringing Order to the Web, par Larry Page, Sergey Brin, R. Motwani, T. Winograd, 29 janvier 1998.
[53] PageRank Update, par Bill Slawski, SEO by the Sea, 24 avril 2018.
[54] Five biggest misconceptions about PageRank, par Aleh Barysevich, Search Engine Watch, 23 juillet 2019.
[55] Google Raters – Who Are They ?, par Jennifer, PotPieGirl.com, ca. 6 décembre 2011.
[56] Latest Google Search Quality Rater’s Guide : Mobile Rewrite, par Jennifer Slegg, The SEM Post, 16 novembre 2015.
[57] Soyons bien clair : ces personnes physiques notent la qualité des sites en tant que pertinence des résultats de Google par rapport à la requête/question, ils ne modifient pas directement le ranking d’une URL. C’est ce que confirme Matt Couts de Google.
[58] Point 4. Custom Signals Based on Specific Query de How Search Engines Use Machine Learning : 9 Things We Know for Sure, par Kevin Rowe, Search Engine Journal, 23 février 2018.
[59] Cookies, mouchards : comment vous êtes suivis sur Internet, par Gary Dagorn, Le Monde.fr (Les Décodeurs), 30 mars 2018. Être pisté sur internet : différence entre cookie, traqueur et mouchard, par Benoît Laporte, Labe Marketing Internet Inc., 2 décembre 2015.
[60] 12 à 20% des résultats *pertinents* — et non de la totalité des résultats, une mesure qui n’aurait aucun intérêt. Measuring personalization of web search, par A. Hannak, P. Sapiezynski, A. Molavi Kakhki et al., in Proceedings of the 22nd international conference on World Wide Web, pp. 527–538, ACM (2013). You can’t see what you can’t see : Experimental evidence for how much relevant information may be missed due to Google’s Web search personalisation, par Cameron Lai et Markus Luczak-Roesch, Victoria University School of Information Management, Nouvelle-Zélande, pre-print, arXiv, 20 mai 2019.
[61] Comment Google gère son algorithme de recherche, par Noel Nguessan, Arobase.net 19 septembre 2018. Nguessan reprend en fait un article de CNBC, écrit juste après que CNBC ait été reçu par Google dans ses labos. Il faut donc relativiser un peu ces propos, sans pour autant les discréditer. Grosso modo, mon expérience les corrobore.
[62] "Featured snippets" et "intelligent answers" : Google et Bing vont-ils vraiment répondre à tout ?, par Carole Tisserand-Barthole, blog de FLA Consultants, 9 février 2018.
[63] Recherches sur Google : les conseils de Henk van Ess, spécialiste du journalisme en sources ouvertes, par Rowan Philp, Global Investigative Journalism Network (GIJN), 9 septembre 2022.
[64] Comment bien interroger Google en 2018 ?, par Carole Tisserand-Barthole, blog de FLA Consultants, 1er mars 2018. Comme l’écrit C. Tisserand-Barthole, « avant, si vous souhaitiez obtenir des résultats issus principalement de sites britanniques, il suffisait d’aller sur google.co.uk. Désormais, les résultats dépendent entièrement de votre localisation réelle. Pour contourner cette limite, on peut toujours aller changer sa zone géographique dans les paramètres du moteur ou utiliser un VPN. »
[65] Google évolue : les documentalistes plus utiles que jamais ?, par Carole Tisserand-Barthole, blog de FLA Consultants, 16 février 2018.
[66] Compte Twitter de Henk Van Ess, 13 novembre 2021.
[67] A la dernière page de résultats, Google affiche : « Afin d’afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux 210 entrées actuelles. Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis. »
[68] Lire Comment bien interroger Google en 2018 ?, par Carole Tisserand-Barthole, blog de FLA Consultants, 1er mars 2018.
[69] Autrefois, c’était carrément de faux sites, notamment des faux sites personnels et des faux annuaires, qui polluaient Google. Montés de toutes pièces, bourrés de mots-clés artificiels "attrappe-tout", ce type de site était de surcroît doté de pages "satellites" tout aussi artificielles. Google a d’abord réagi par de nouvelles règles de classement des résultats, puis avec la mise en place de filtres, mais les techniques du "spamdexing" (contraction de "spam indexing") évoluent et ces modifications peuvent faire reculer le classement de sites non spammeurs. Sur le problème du spamdexing, lire Google victime de son filtre bayésien anti spam ?, par Yves Grandmontagne, Silicon.fr, 3 mars 2003. Le spamdexing de Google est beaucoup moins présent maintenant dans les résultats mais vers 2014 on en trouvait encore des exemples très "réussis", comme le site velodappartement[point]net soi-disant consacré au vélo d’appartement mais dont le contenu textuel ne donne aucun conseil pratique ni d’achat, juste des généralités. Du style : « Comme nous le savons déjà, les vélos d’appartement sont un très bon moyen pour se remettre en forme, améliorer le système cardiovasculaire, faire disparaître la graisse et se sculpter le corps de ses rêves. En plus c’est un appareil qui est accessible à tout le monde et très facile à utiliser. » Etc., etc. Il ne sert en fait qu’à porter des publicités pour, certes, des sites de vente de vélos d’appartement. Ca ne l’empêchait pas d’arriver en 2e position dans Google sur l’expression "vélo d’appartement". Ce cas particulier de spamdexing a depuis été résolu par Google.
[70] Par exemple, début décembre 2017, cours-de-droit place deux de ses pages en 4e et 5e position de la requête droit de la concurrence. C’est du référencement habile mais on est aussi à la limite du spamdexing.
[71] Voir sur ce blog : [archive] Refonte du site AMF : attention ! et AMF : fin de la migration du site.
[72] Un exemple nettement plus ancien : début 2005, les Editions Juridiques Associées (EJA : LGDJ, Monchrestien, Defrénois, Gualino, ...) ferment leur site lgdj.fr et transfèrent son contenu sur un nouveau site eja.fr. Pourtant, le 26 février 2005, lorsqu’on tape "eja.fr" sur Google, sa première réponse renvoie vers le site lgdj.fr, dont seule la page d’accueil est encore active (certes, cette page d’accueil renvoie vers eja.fr). Le site eja.fr n’apparaît, lui, qu’en 17e place. En fait, le "poids" des liens qui pointent encore vers lgdj.fr — ils n’ont pas encore été mis à jour vu le caractère récent du transfert — induit très probablement Google en erreur.
[73] Les expressions suggérées (auto-complétion) par Google Search sont utiles au particulier dans une recherche basique. Très peu ou pas du tout au juriste. Idéalement, désactivez l’auto-complétion des requêtes.
[74] Le secret de l’homme pour trouver de l’information - la maîtrise des syntaxes Google ou la compréhension de son fonctionnement ?, par Pierre-Yves Debliquy, blog Euresis, 8 octobre 2019.
[75] Google Mot à mot (Google Verbatim) disponible en français, NetPublic 11 décembre 2011. Le mode Mot à mot désactive la majeure partie des "interprétations" de votre requête par Google. Il a remplacé — en mieux — l’opérateur +.
[76] Source du truc consistant à écrire le AND : 30 opérateurs Google pour affiner ses recherches / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013.
[77] Sauf dans le cas suivant où le OR est remplacé par le signe |. Exemple : ("tribunal de grande instance"|tgi).
[78] Ces "trucs" de valeur sont rappelés par Béatrice Foenix-Riou dans la revue Netsources de FLA consultants (deux articles en ligne gratuits à signaler : sur la recherche de données de marché et sur les opérateurs finassiers des moteurs comme intitle) et lors des formations qu’elle donne.
[79] More on OR : the Google Boolean Dilemma, par Irina Shamaeva, Boolean Strings, 17 avril 2017. Rappel historique : si l’opérateur (tilde) de Google, censé rechercher les synonymes du mot placé juste (collé) derrière, et supprimé au printemps 2013, marchait bien en anglais, il marchait moins bien en français. C’est ainsi que si droit cherchait aussi loi, en revanche, loi cherchait aussi réglementation mais pas droit. C’est justement ce type de lacune que le NLP à la sauce ML permet d’éviter. La preuve : en 2017, abus de la loi sur Google.fr cherche aussi abus de droit.
[80] Peut-on trouver des études de marché gratuites sur le Web ?, par Carole Tisserand-Barthole, blog de FLA Consultants, 24 mai 2018.
[81] Please Say No to OR on Google, par Irina Shamaeva, Booleasnstrigs, 23 avril 2020.
[83] On peut fixer n à 25 si on veut que les mots soient dans le même paragraphe.
[84] AROUND ne fonctionne pas dans Google Scholar, ce qui est bien dommage.
[85] Irina présente également dans ce même post un autre opérateur de proximité qu’est l’astérisque dans Google, où chaque astérisque remplace un mot, mais son fonctionnement (il faut prévoir exactement le nombre de mots d’écart) le rend à notre avis moins évident à utiliser et moins intéressant pour les juristes.
[86] Comparez droit publicité, droit de la publicité, "droit de la publicité", tous trois assez similaires, et droit AROUND(5) publicité. Dans cette dernière requête, des sites différents et pertinents apparaissent dès les 10 premiers résultats. Pour autant, au vu des 10 premiers résultats, elle rate certaines pages intéressantes trouvées avec l’expression.
[87] Le mode Mot à mot est disponible sur la version mobile de Google, mais seulement depuis début 2018. Sous smartphone, le menu Outils, appelé Outils de recherche, est caché : il faut faire défiler les rubriques sous la fenêtre de recherche.
[88] Le +, qui servait à forcer l’apparition tel quel d’un terme dans les résultats, ne fonctionne plus depuis la rentrée 2011.
[89] Et c’est là que je conseille en général de laisser tomber les moteurs de recherche, Google compris, et de chercher un annuaire de sites web, comme DMOZ par exemple, ou mieux, un annuaire spécialisé, donc ici un annuaire de sites juridiques. Comme celui sur notre site : Internet juridique : les sites web incontournables, hélas plus très à jour.
[90] How to get Google Search results in a different language, par Martin Brinkmann, Ghacks, 16 mars 2018.
[91] Cela dit, comme nous l’avons vu supra, dans quelques cas (sites mal structurés, documents non HTML), il faut aller jusqu’au 100e résultat.
[92] Non disponible sur la version mobile de Google Search.
[93] Vous pouvez désactiver l’historique de recherche Google dans le "dashboard" (panneau de contrôle des toutes les applications Google que vous utilisez).
[94] Pour plus de détails, voir notre billet Dé-personnaliser ses résultats Google est devenu vital pour une bonne recherche.
[95] Google Introduces before : and after :, par Irina Shamaeva, Boolean Strings, 11 avril 2019.
[96] Pourquoi ce choix de dates : parce que la loi ASV du 28 décembre 2015 impose de nouvelles obligations aux maisons de retraite médicalisées (dites EHPAD en langage administrativo-juridique.
[97] Son titre complet est : Expertises des systèmes d’information.
[98] Merci à la consultante et chasseuse de tête Irina Shamaeva et son blog Boolean Strings, notamment ce billet du 23 avril 2018 : Should You Trust All Google Tip Sheets ?.
[99] Recherche de cadres, dirigeants et informaticiens de haut vol.
[100] Sauvegardé sur ThreadReaderApp.
[101] Lire notre évaluation de Bing : Bing : le dernier moteur de Microsoft n’est pas si mal que ça ....
[102] Voir notre brève Exalead : le moteur de recherche français sort une nouvelle version très riche en fonctionnalités.
[103] StartPage est en fait un moteur qui réutilise les résultats de Google mais sans chercher à vous "profiler" comme le fait Google. Les résultats sont identiques à environ 80% si on se base sur les 30 premiers.
[104] Les liens du moteur Qwant avec Microsoft Bing, par Marc Rees, NextInpact, 13 mars 2017.
[105] Méthodologie de recherche : comment tirer parti des pages de liens, par Béatrice Foenix-Riou, Recherche éveillée, 27 septembre 2012.
Commentaires
Aucun commentaire
Laisser un commentaire