Utiliser Google pour des recherches juridiques

Une méthode de recherche fiable sur le Web

Mercredi 24 juillet 2013, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

Plan
Principes de fonctionnement
Comment interroger
Recherche avancée : exemple d’utilisation
Pour aller plus loin

Comment fonctionne Google : quelques principes à retenir

Le contenu et la recherche :

- Google est à la fois :

  • un moteur de recherche sur le Web = la plus grande base de données de pages web
  • un moteur de recherche sur les blogs pas toujours pertinent mais qui s’est amélioré. Mieux vaut tout de même compléter avec l’onglet Blogs d’Icerocket [1]. Pour autant, Google Blog Search (GBS) est très moyen : essayez avec droit des obligations et regardez. Vous remarquerez que, quelque soit le moteur de blogs, il n’y a pas trace du meilleur blog sur le sujet, celui du Pr. Houtcieff [2]. Cela dit, si on tape blog droit des obligations dans le moteur Web de Google, on retrouve le blog de Dimitri Houtcieff en premier. Mais là, ce n’est plus une recherche de billets de blogs, mais juste une recherche de blogs
  • un annuaire de sites web. Pompé en toute légalité sur l’original DMOZ, le plus grand répertoire de sites web classés par sujet entre 1995 et 2005, l’annuaire de Google a été discrètement supprimé à l’été 2011. Logique, car DMOZ n’est globalement plus tenu à jour
  • un moteur de recherche sur les groupes de discussion = le moyen de fouiller dans de très nombreux forums de discussion en ligne, mais non modérés et de valeur très inégale.
    Il suffit donc de cliquer sur les onglets Répertoire ou Groupes pour dupliquer votre recherche dans l’annuaire de Google ou les groupes de discussion

- mais tout n’est pas dans Google :

  • Google n’indexe généralement pas les bases de données payantes. Il peut toutefois indexer les titres d’articles payants, car ceux-ci sont affichés sur des pages gratuites ou bien ont des fils RSS. Voir par exemple les titres des articles des revues de Lextenso
  • il ne couvre pas tout le Web : ni le Web payant, ni le contenu des bases de données, ni celui des sites dits "dynamiques" (leur contenu est fourni par une base de données), ... Au total, Google n’indexe même pas un tiers des pages web gratuites existantes.
    Deux importants exemples de ces sites-bases de données difficiles à indexer pour Google sont :
    • les bases de données de Legifrance, sauf les textes consolidés (LEGI). Sauf pour les lois et décrets récents ou bien connus [3], il faut donc interroger Legifrance par les interfaces de recherche de chacune de ses bases de données (en savoir plus). C’est particulièrement vrai pour la jurisprudence
    • la base de données des arrêts de la CJCE et du TPI depuis juillet 1997 sur Curia, même si, là aussi, les arrêts récents ou célèbres sont bien indexés par Google
  • Google peut être en retard sur l’actualité/les mises à jour des sites web et mettre jusqu’à plusieurs semaines à indexer correctement un nouveau site web (voir infra)
  • parce qu’il dépend du contenu d’Internet, il ne couvre ni le papier ni la littérature grise. Quoique ... Avec Google Books et surtout le partenariat de très grandes bibliothèques [4], Google indexe énormément d’ouvrages en anglais. Mais du fait de l’opposition des éditeurs français, le contenu en droit français est pour l’instant négligeable

- laisser un espace revient à utiliser l’opérateur logique ET implicite

- le premier mot de votre question sera considéré par Google comme le plus important, il aura donc un poids plus important que les autres dans les résultats, en faisant par exemple remonter dans les premières réponses les pages web où ce mot est dans le titre de la page.
Ce point — non précisé dans l’aide officielle de Google et la plupart des guides de recherche en ligne — peut avoir un effet très important sur le tri des résultats par Google, en amenant dans les dix premières réponses une page web jusque là "perdue" au delà des trente premières réponses

- cherchez à utiliser des expressions plutôt que des suites de mots. Google "accroche" mieux là dessus (voir explication détaillée infra).

Les résultats :

- les résultats sont classés par pertinence. La "pertinence selon Google" tient compte :

  • d’abord des liens pointant vers les pages web et de la qualité de ceux-ci (Google les considère comme autant de recommandations)
  • et ensuite des mots contenus dans la page web, ceux du titre de la page et du nom du fichier étant les plus importants)

- cette pertinence est réelle : en règle générale, il suffit de consulter les 30, voire les 50, premiers résultats pour trouver sa réponse et avoir balayé l’essentiel des sites

- cependant les résultats de Google sont de temps à autre —ça vient par vagues — pollués par les résultats de sites publicitaires quasiment vides de contenu juridique, comme les sites faisant de la publicité pour des livre de droit du licenciement destinés aux particuliers [5]. Une fois ceux-ci identifiés, Google les "bannit" de son index, mais le problème revient de temps à autre

- les résultats sont en général très "frais" :

  • Google indexe très régulièrement les sites importants (exemples : Assemblée nationale, Sénat, etc.)
  • Google privilégie les sites à mise à jour très fréquente, tels les sites de presse (lemonde.fr, liberation.fr, etc.) et les weblogs, en les réindexant de une à plusieurs fois par jour
  • néanmoins et de manière logique vu sa préférence pour les liens hypertextes et pour les sites à mise à jour fréquente, Google peut avoir quelques jours de retard sur certaines rubriques peu consultées de sites très vastes et jusqu’à une semaine de retard — en général, plutôt quelques jours — sur l’actualité des sites web les moins importants, qui eux-mêmes sont rarement mis à jour. De même, Google peut mettre jusqu’à plusieurs semaines pour indexer correctement un nouveau site web, c’est-à-dire indexer la totalité de ses pages et les faire monter en tête des résultats sur les questions pertinentes [6].

Comment interroger Google

- 1. prenez deux secondes pour réfléchir aux mots-clés que vous allez utiliser. Car, même avec Google, cela peut faire la différence entre trouver et ne pas trouver :

  • pensez aux synonymes et quasi-synonymes. Voir aussi infra l’opérateur .
    Exemple : bail, baux, loyer, loyers
  • si vous cherchez la version officielle d’un texte, d’un arrêt ou d’un rapport, utilisez :
    • les termes juridiques officiels, c’est-à-dire ceux utilisés dans les codes et les lois (notamment dans les titres des lois).
      Exemple : redressement et liquidation judiciaires
    • la date complète.
      Exemple : 25 janvier 1985
    • ou éventuellement le numéro.
      Exemple : 85-98 (ce qui évite de trouver aussi la loi n° 85-99 sur les administrateurs judiciaires)
  • si en revanche vous cherchez des commentaires ou de la doctrine :
    • utilisez les noms usuels.
      Exemples : procédures collectives ou redressement judiciaire ou liquidation judiciaire ou difficultés des entreprises en difficulté ou défaillances d’entreprises
    • si vous cherchez des commentaires sur une réforme ancienne, précisez l’année.
      Exemple : 1985 (réforme des procédures collectives)
  • si vous cherchez de l’actualité non juridique ou des articles de presse, utilisez les termes économiques et/ou les expressions du langage courant.
    Exemple : faillite, faillites, fermetures d’entreprises, plans sociaux
  • plus généralement, si vous êtes compétent sur le domaine juridique concerné par votre recherche, tapez les mots et expressions qui devraient se trouver dans les documents que vous recherchez, et surtout dans leur titre et leurs premiers paragraphes. En revanche, si vous n’êtes pas spécialiste de ce domaine et a fortiori si vous n’êtes juriste ou étudiant en droit, évitez d’utiliser cette dernière technique.

- 2. utilisez le mode recherche avancée pour mieux contrôler votre recherche. Vous pouvez accéder aux options avancées soit sur la page Recherche avancée de Google — et alors pas besoin de savoir comment les écrire [7], soit sur la page d’accueil de Google mais il faut alors connaître les noms des champs et leur syntaxe.
Vous pourrez alors :

  • utiliser les opérateurs logiques ET (AND ou espace), OU (OR), SAUF (-), expression (" ") et de proximité (AROUND()). Rappel : en allant sur la page Recherche avancée, vous n’aurez pas à mémoriser leur syntaxe. Toutefois, sur cette page, les opérateurs de proximité comme AROUND() ne sont pas proposés. Les opérateurs de recherche permettent de "pousser le moteur dans ses retranchements". Exemples : on veut des documents relativement simples et à jour pour créer une EURL : créer OR création eurl OR "entreprise unipersonnelle" (on peut aussi ajouter : filetype:pdf) :
    • rappel : tout espace non placé entre des guillemets est pour Google un ET logique. Mais parfois aussi une incitation à interpréter la requête comme une expression : dans ce cas, utiliser la fonction avancée "Mot à mot" sous "Tous les résultats" ou écrire en majuscules le AND [8]
    • attention : Google ne "comprend" pas les parenthèses [9] et le OR ne joue que sur les mots immédiatement adjacents à lui. Ce qui implique de mettre les mots d’une expression entre guillemets (contrairement à ce qui est recommandé plus haut pour les cas "normaux") si la notion faut partie d’une suite de synonymes. De plus, le premier mot qui commence une suite de OR est le plus important pour l’algorithme [10]. Exemple : résultats OR "chiffres d’affaires" OR bénéfices
    • il faut toutefois bien comprendre que multiplier les synonymes n’apporte pas grand’ chose en terme de pertinence des résultats. Un synonyme voire deux (pas plus, soit trois mots ou expressions maximum) aide mais le plus efficace en général reste le choix de la bonne expression (sans guillemets sauf si ça "part dans tous les sens") [11]
    • utiliser l’opérateur - (SAUF) pour exclure des termes qui faussent les résultats/les "polluent" : le -, qui n’est pas chez Google l’inverse du + (mais celui du AND), fonctionne. La règle générale d’utilisation de l’opérateur SAUF s’applique : n’utiliser le - qu’en dernier recours
    • opérateurs de proximité :
      • signalé en 2011, probablement apparu avant, et non documenté par Google, l’opérateur de proximité AROUND(n) (où n est un nombre de mots qu’on fixera en pratique à 2 ou 5) est efficace en anglais mais le semble moins en français
      • l’opérateur * ("wildcard") est censé remplacer un (au moins) ou plusieurs mots, je constate son efficacité dans une certaine mesure mais je n’arrive pas à la prouver par A + B
      • de toute façon, la bonne expression (sans guillemets en général) pourra être tout aussi efficace, voire plus. Disons qu’au minimum, elle obtiendra des résultats différents (donc complémentaires) [12]
    • chercher par expression rend les résultats plus précis/moins nombreux et dans certains cas, évite les résultats hors sujet. Hors de l’interface Recherche avancée, utilisez les classiques guillemets (" "). La recherche par expression est devenue plus souvent nécessaire, face à l’élargissement des recherches pratiqué par Google [13]. Toutefois, ne l’utilisez qu’après avoir testé l’expression sans guillemets, pour les raisons exposées ci-après.
      N’abusez pas des guillemets. On dit souvent dans les cours de recherche sur bases de données ou sur le web qu’encadrer une expression avec des guillemets garantit des résultats moins nombreux et pertinents. Mon expérience, c’est qu’en réalité, les guillemets sur Google n’améliorent souvent pas grand’ chose voire parfois empêchent de trouver les principaux sites web sur un sujet. D’ailleurs Google ne les recommande pas trop fort. Cela dit, c’est vrai que si on veut vraiment *tous* les sites sur une expression, alors il faut utiliser le moteur à la fois *avec* les guillemets mais *aussi sans*, car, du moins si l’on s’en tient aux 30 premiers résultats, certains sites pertinents apparaissent uniquement avec les guillemets et d’autres uniquement sans [14]. En effet, l’algorithme de Google détecte souvent tout seul l’expression et la privilégie dans le classement des résultats. De surcroît, mettre les guillemets, en pratique, réduit souvent — mais pas toujours — un peu la pertinence par rapport à sans les guillemets car ceux-ci éliminent des résultats où l’expression n’est pas totalement identique, voire certaines pages où pourtant celle-ci apparaît clairement ...
  • choisir la langue des résultats. Peu intéressant : la langue des mots-clés utilisés conditionne celle des résultats
  • limiter les résultats à la France (sites français et non francophones) permet d’éviter à 90% les résultats provenant de sites québécois, belges et d’Afrique du Nord (Maroc, Tunisie, Algérie) et donc de se restreindre au droit français. Voilà une fonctionnalité très intéressante, à utiliser sans modération
  • choisir le format de fichier : Rich Text Format .rtf, Word .doc, Acrobat .pdf, Excel .xls, .PowerPoint .ppt, Access .mdb. Restreindre la recherche aux fichiers PDF permet de ne trouver que des documents sérieux et fiables (mais pas forcément pertinents, car ce n’est pas le but direct de cette fonctionnalité). En effet, très souvent, les documents officiels (textes juridiques, rapports) et les articles sont au format PDF tandis que les sites perso, ceux tournés vers le marketing, et les forums utilisent uniquement le HTML. Hors de l’interface Recherche avancée, écrivez filetype:[type_de_fichier] à la fin de votre requête
  • restreindre la recherche à un site (nom de domaine uniquement). Ainsi utilisé, Google est presque toujours plus efficace que le moteur interne du site, sauf sur des documents extrêmement récents, peu connus ou "enfouis" dans le site. Ce mode de recherche est particulièrement utile sur les plus vastes sites juridiques : le site du Premier ministre, les deux sites parlementaires (Assemblée nationale, Sénat), Europa, EUR-Lex. Hors de l’interface Recherche avancée, écrivez site:[domaine]
  • restreindre la recherche au "titre" (la balise HTML title, plus précisément) des pages web avec le champ intitle:[un_seul_mot] ou — plus efficace — allintitle :[tous_les_mots_qui_suivent] [9]
  • régler le nombre de résultats par page à 30 voire 50 (au-delà, en général, très peu de résultats sont pertinents). Ca permet de consulter plus facilement et plus rapidement les résultats pertinents
  • empêcher Google d’interpréter votre requête (sauf par la langue du système d’exploitation de votre ordinateur) en choisissant (dans la colonne de gauche) "Mot à mot" dans "Plus d’outils", sous oublier de vous déconnecter de votre compte Google, voire de lancer dans un navigateur web une session de navigation privée [15]

- 3. restreignez si nécessaire les résultats à une période de temps. Pour utiliser à fond cette fonctionnalité, il faut passer par l’interface simple de Google (la recherche avancée n’offre pas la possibilité de spécifier l’intervalle de temps exact que l’on désire), cliquer sur Afficher les options puis sur Choisir une période. [16]

- 4. ouvrez les résultats dans une nouvelle fenêtre ou un nouvel onglet, de manière à garder sous la main la liste des résultats. Pour cela : faites un clic droit sur le lien qui vous intéresse, puis un clic gauche sur "Ouvrir dans une nouvelle fenêtre/onglet"

- 5. s’il n’y a pas de résultat intéressant dans l’onglet Web de Google, regardez :

    • dans l’onglet Actualités
    • dans Google Books
    • dans Google Scholar
    • s’il n’y a pas une piste dans les groupes de discussion (cliquez sur l’onglet Groupes)
  • et si, dans l’annuaire, il n’y aurait pas de catégorie(s) correspondant à votre recherche (onglet Répertoire, puis regardez la catégorie citée sous le nom de la plupart des pages données en résultats)

- 6. Toujours rien ? Voyez Pour aller plus loin à la fin de cet article.

Exemple d’utilisation de la Recherche avancée de Google

Ici, nous cherchons des articles en matière de contrats informatiques parus dans la revue Expertises. Voici comment interroger rapidement les sommaires de la revue Expertises sur le site de la revue :
- 1. allez sur la page d’accueil de Google en français
- 2. cliquez sur Recherche avancée, ce qui vous emmène sur l’interface de Recherche avancée de Google
- 3. dans la liste déroulante du nombre de résultats, choisissez d’afficher 30 résultats
- 4. limitez la recherche au site celog.fr (pas à la page celog.fr/expertises/sommaires.htm, car Google ne prend en compte que des noms de domaine, pas des pages profondes) en cherchant, par exemple, par "contrat"
- 5. lancez la recherche en cliquant sur le bouton "Recherche Google"
- 6. lisez les résultats et ouvrez ceux qui vous intéressent dans une nouvelle fenêtre ou un nouvel onglet.

Pour aller plus loin

- Utilisez d’autres moteurs, principalement Bing (le concurrent de chez Microsoft [17]) et Exalead (pour les sites français et francophones) [18], voire Ixquick et AlltheWeb [19] et les métamoteurs de recherche de personnes.

- Voyez nos articles Utiliser Google à 100%, surtout la bibliographie à la fin parce qu’il commence à dater (2006), et Recherche sur Internet : une méthode (un peu) simplifiée et quelques "philosophies", notamment la méthode des "autorités". Allez (entre autres) voir ailleurs sur le Web (annuaires thématiques de sites, Legifrance, Service-public.fr, bases de données payantes, Isidore, Theses.fr, Revues.org etc.), réfléchissez une deuxième fois à vos mots-clés ou passez à un autre media (prenez votre téléphone ou votre logiciel de messagerie, par exemple, pour appeler un collègue ou demander conseil à un expert) ...

- 25 astuces pour la recherche sur Google / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013. A mettre à jour par une excellente "cheat sheet" encore plus opérationnelle : 30 opérateurs Google pour affiner ses recherches / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013.

- More awesome search tips from Google expert Daniel Russell, with real-world examples / John Tedesco (reporter américain), 1er juillet 2013.

Emmanuel Barthe
documentaliste juridique, formateur à la recherche en ligne

Notes de bas de page

[1] Selon le billet de Christophe Asselin : Blogpulse disparaît : comment chercher et trouver des blogs ?, InFlux 7 février 2012.

[2] Note historique : Google Blog Search considérait autrefois les sites de librairies en ligne comme des blogs ...

[3] La masse de liens hypertexte vers ces textes officiels garantit leur indexation dans Google.

[4] Comme les bibliothèques universitaires anglo-saxonnes de Cornell, Princeton, Stanford ou Oxford — dotées d’un très important contenu en français —, mais aussi, francophones, la Bibliothèque municipale de Lyon, première et seule bibliothèque française à avoir signé, et les BU suisses de Gand et Lausanne.

[5] Autrefois, c’était carrément de faux sites, notamment des faux sites personnels et des faux annuaires, qui polluaient Google. Montés de toutes pièces, bourrés de mots-clés artificiels "attrappe-tout", ce type de site est de surcroît doté de pages "satellites" tout aussi artificielles. Google a d’abord réagi par de nouvelles règles de classement des résultats, puis avec la mise en place de filtres, mais les techniques du "spamindexing" évoluent et ces modifications peuvent faire reculer le classement de sites non spammeurs. Sur le problème du spamindexing (ou spamdexing), lire Google victime de son filtre bayésien anti spam ? / Yves Grandmontagne, Silicon.fr, 3 mars 2003. Le spamdexing de Google est moins présent maintenant dans les résultats mais on en trouve encore des exemples très "réussis" hélas, comme le site velodappartement[point]net soi-disant consacré au vélo d’appartement mais donc le contenu textuel ne donne aucun conseil pratique ni d’achat, juste des généralités. Du style : « Comme nous le savons déjà, les vélos d’appartement sont un très bon moyen pour se remettre en forme, améliorer le système cardiovasculaire, faire disparaître la graisse et se sculpter le corps de ses rêves. En plus c’est un appareil qui est accessible à tout le monde et très facile à utiliser ». Etc., etc. Il ne sert en fait qu’à porter des publicités pour, certes, des sites de vente de vélos d’appartement. Ca ne l’empêche pas d’arriver en 2e position dans Google sur l’expression "vélo d’appartement".

[6] Un exemple : début 2005, les Editions juridiques associées (EJA : LGDJ, Monchrestien, Defrénois, Gualino, ...) ferment leur site lgdj.fr et transfèrent son contenu sur eja.fr. Pourtant, le 26 février 2005, lorsqu’on tape "eja.fr" sur Google, sa première réponse renvoie vers le site lgdj.fr, dont seule la page d’accueil est encore active (certes, cette page d’accueil renvoie vers eja.fr). Le site eja.fr n’apparaît, lui, qu’en 17e place. En fait, le "poids" des liens qui pointent encore vers lgdj.fr — ils n’ont pas encore été mis à jour vu le caractère récent du transfert — induit très probablement Google en erreur.

[7] Comme je le dis et l’écris souvent : à un être humain on pose une question (autrement dit on fait des phrases avec sujet verbe complément), sur une base de données on tape une requête (avec des mots-clés choisis soigneusement, des opérateurs booléens et des champs/limiteurs). Une question de vocabulaire pas si innocente que ça.

[8] Source du truc consistant à écrire le AND : 30 opérateurs Google pour affiner ses recherches / Thomas Coëffé, Le Blog du Modérateur 23 juillet 2013.

[9] Sauf dans le cas suivant où le OR est remplacé par le signe |. Exemple : ("tribunal de grande instance"|tgi).

[10] Ces "trucs" de valeur sont rappelés par Béatrice Foenix-Riou de FLA consultants dans leur revue Netsources (deux articles en ligne gratuitement à signaler : sur la recherche de données de marché et sur les opérateurs finassiers des moteurs comme intitle) et lors des formations qu’elle donne.

[11] Si l’opérateur (tilde), censé rechercher les synonymes du mot placé juste (collé) derrière, et supprimé au printemps 2013, marchait bien en anglais, il marche moins bien en français. C’est ainsi que si droit cherchait aussi loi, en revanche, loi cherchait aussi réglementation mais pas droit.

[12] Comparez droit publicité, droit de la publicité, "droit de la publicité", tous trois assez similaires, et droit AROUND(5) publicité. Dans cette dernière requête, des sites différents et pertinents apparaissent dès les 10 premiers résultats. Pour autant, au vu des 10 premiers résultats, elle rate certaines pages intéressantes trouvées avec l’expression.

[13] Le +, qui servait à forcer l’apparition tel quel d’un terme dans les résultats, ne fonctionne plus depuis la rentrée 2011.

[14] Et c’est là que je conseille en général de laisser tomber les moteurs de recherche, Google compris, et de chercher un annuaire de sites web, comme DMOZ par exemple, ou mieux, un annuaire spécialisé, donc ici un annuaire de sites juridiques. Comme celui sur notre site : Internet juridique : les sites web incontournables, hélas plus très à jour.

[15] Pour plus de détails, voir ici notre billet Dé-personnaliser ses résultats Google est devenu vital pour une bonne recherche.

[16] Autrefois déficiente, comme Béatrice Foenix-Riou (FLA Consultants) l’avait démontré dans la revue Netsources, la recherche par date dans Google semble désormais pertinente. Cf cet exemple de recherche conçu exprès pour détecter une erreur.

[17] Lire notre évaluation de Bing : Bing : le dernier moteur de Microsoft n’est pas si mal que ça ....

[18] Voir notre brève Exalead : le moteur de recherche français sort une nouvelle version très riche en fonctionnalités.

[19] AlltheWeb utilise la base de Yahoo mais présente les résultats différemment et sa recherche avancée est un peu plus riche en fonctionnalités que celle de Yahoo.

Répondre à cet article