Utiliser Google pour des recherches juridiques

Une méthode de recherche rapide mais fiable sur le Web

Vendredi 6 novembre 2009, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

Plan
Principes de fonctionnement
Comment interroger
Recherche avancée : exemple d’utilisation

Comment fonctionne Google : quelques principes à retenir

Le contenu et la recherche :

- Google est à la fois :

  • un moteur de recherche sur le Web = la plus grande base de données de pages web
  • un moteur de recherche sur les blogs pas toujours pertinent mais qui s’est amélioré. Mieux vaut tout de même completer avec Technorati. Essayez droit des obligations sur Google Blog Search (GBS) puis Technorati et comparez. Vous remarquerez que dans la plupart des cas et quelque soit le moteur de blogs, il n’y a pas trace du meilleur blog sur le sujet, celui du Pr. Houtcieff. Dans Technorati, pareil [1]. Cela dit, si on tape blog droit des obligations dans le moteur Web de Google, on retrouve le blog de Dimitri Houtcieff en premier. Mais là, ce n’est plus une recherche de billets/posts de blogs, mais juste une recherche de blogs
  • un annuaire de sites web = le plus grand répertoire de sites web classés par sujet. Pompé en toute légalité sur l’original DMOZ
  • un moteur de recherche sur les groupes de discussion = le moyen de fouiller dans de très nombreux forums de discussion en ligne, mais non modérés et de valeur très inégale.
    Il suffit donc de cliquer sur les onglets Répertoire ou Groupes pour dupliquer votre recherche dans l’annuaire de Google ou les groupes de discussion

- mais tout n’est pas dans Google :

  • Google n’indexe généralement pas les bases de données payantes. Il peut toutefois indexer les titres d’articles payants, car ceux-ci sont affichés sur des pages gratuites ou bien ont des fils RSS. Voir par exemple les titres des articles des revues de Lextenso
  • il ne couvre pas tout le Web : ni le Web payant, ni le contenu des bases de données, ni celui des sites dits "dynamiques" (leur contenu est fourni par une base de données), ... Au total, Google n’indexe même pas un tiers des pages web gratuites existantes.
    Deux importants exemples de ces sites-bases de données difficiles à indexer pour Google sont :
    • les bases de données de Legifrance, sauf les textes consolidés (LEGI). Sauf pour les lois et décrets récents ou bien connus [2], il faut donc interroger Legifrance par les interfaces de recherche de chacune de ses bases de données (en savoir plus). C’est particulièrement vrai pour la jurisprudence
    • la base de données des arrêts de la CJCE et du TPI depuis juillet 1997 sur Curia, même si, là aussi, les arrêts récents ou célèbres sont bien indexés par Google
  • Google peut être en retard sur l’actualité/les mises à jour des sites web et mettre jusqu’à plusieurs semaines à indexer correctement un nouveau site web (voir infra)
  • parce qu’il dépend du contenu d’Internet, il ne couvre ni le papier ni la littérature grise. Quoique ... Avec Google Books et surtout le partenariat de très grandes bibliothèques [3], Google indexe énormément d’ouvrages en anglais. Mais du fait de l’opposition des éditeurs français, le contenu en droit français est pour l’instant négligeable

- laisser un espace revient à utiliser l’opérateur logique ET implicite

- le premier mot de votre question sera considéré par Google comme le plus important, il aura donc un poids plus important que les autres dans les résultats, en faisant par exemple remonter dans les premières réponses les pages web où ce mot est dans le titre de la page.
Ce point — non précisé dans l’aide officielle de Google et la plupart des guides de recherche en ligne — peut avoir un effet très important sur le tri des résultats par Google, en amenant dans les dix premières réponses une page web jusque là "perdue" au delà des trente premières réponses

- n’abusez pas des guillemets. On dit souvent dans les cours de recherche sur bases de données ou sur le web qu’encadrer une expression avec des guillemets garantit des résultats moins nombreux et pertinents. Mon expérience, c’est qu’en réalité, les guillemets sur Google n’améliorent souvent pas grand’ chose voire parfois empêchent de trouver les principaux sites web sur un sujet. D’ailleurs Google ne les recommande pas trop fort. Cela dit, c’est vrai que si on veut vraiment *tous* les sites sur une expression, alors il faut utiliser le moteur à la fois *avec* les guillemets mais *aussi sans*, car, du moins si l’on s’en tient aux 30 premiers résultats, certains sites pertinents apparaissent uniquement avec les guillemets et d’autres uniquement sans [4]

Les résultats :

- les résultats sont classés par pertinence. La "pertinence selon Google" tient compte :

  • d’abord des liens pointant vers les pages web et de la qualité de ceux-ci (Google les considère comme autant de recommandations)
  • et ensuite des mots contenus dans la page web, ceux du titre de la page et du nom du fichier étant les plus importants)

- cette pertinence est réelle : en règle générale, il suffit de consulter les 30, voire les 50, premiers résultats pour trouver sa réponse et avoir balayé l’essentiel des sites

- cependant les résultats de Google sont de temps à autre —ça vient par vagues — pollués par les résultats de sites publicitaires quasiment vides de contenu juridique, comme les sites faisant de la publicité pour des livre de droit du licenciement destinés aux particuliers [5]. Une fois ceux-ci identifiés, Google les "bannit" de son index, mais le problème revient de temps à autre

- les résultats sont en général très "frais" :

  • Google indexe très régulièrement les sites importants (exemples : Assemblée nationale, Sénat, etc.)
  • Google privilégie les sites à mise à jour très fréquente, tels les sites de presse (lemonde.fr, liberation.fr, etc.) et les weblogs, en les réindexant de une à plusieurs fois par jour
  • néanmoins et de manière logique vu sa préférence pour les liens hypertextes et pour les sites à mise à jour fréquente, Google peut avoir quelques jours de retard sur certaines rubriques peu consultées de sites très vastes et jusqu’à une semaine de retard — en général, plutôt quelques jours — sur l’actualité des sites web les moins importants, qui eux-mêmes sont rarement mis à jour. De même, Google peut mettre jusqu’à plusieurs semaines pour indexer correctement un nouveau site web, c’est-à-dire indexer la totalité de ses pages et les faire monter en tête des résultats sur les questions pertinentes [6].

Comment interroger Google

- 1. prenez deux secondes pour réfléchir aux mots-clés que vous allez utiliser. Car, même avec Google, cela peut faire la différence entre trouver et ne pas trouver :

  • pensez aux synonymes et quasi-synonymes.
    Exemple : bail, baux, loyer, loyers
  • si vous cherchez la version officielle d’un texte, d’un arrêt ou d’un rapport, utilisez :
    • les termes juridiques officiels, c’est-à-dire ceux utilisés dans les codes et les lois (notamment dans les titres des lois).
      Exemple : redressement et liquidation judiciaires
    • la date complète.
      Exemple : 25 janvier 1985
    • ou éventuellement le numéro.
      Exemple : 85-98 (ce qui évite de trouver aussi la loi n° 85-99 sur les administrateurs judiciaires)
  • si en revanche vous cherchez des commentaires ou de la doctrine :
    • utilisez les noms usuels.
      Exemples : procédures collectives ou redressement judiciaire ou liquidation judiciaire ou difficultés des entreprises en difficulté ou défaillances d’entreprises
    • si vous cherchez des commentaires sur une réforme ancienne, précisez l’année.
      Exemple : 1985 (réforme des procédures collectives)
  • si vous cherchez de l’actualité non juridique ou des articles de presse, utilisez les termes économiques et/ou les expressions du langage courant.
    Exemple : faillite, faillites, fermetures d’entreprises, plans sociaux
  • plus généralement, si vous êtes compétent sur le domaine juridique concerné par votre recherche, tapez les mots et expressions qui devraient se trouver dans les documents que vous recherchez, et surtout dans leur titre et leurs premiers paragraphes. En revanche, si vous n’êtes pas spécialiste de ce domaine et a fortiori si vous n’êtes juriste ou étudiant en droit, évitez d’utiliser cette dernière technique.

- 2. choisissez le mode recherche avancée pour mieux contrôler votre recherche. Vous pouvez accéder aux options avancées soit sur la page Recherche avancée de Google — et alors pas besoin de savoir comment les écrire [7], soit sur la page d’accueil de Google mais il faut alors connaître les noms des champs et leur syntaxe.
Vous pourrez alors :

  • utiliser les opérateurs logiques (ET, OU, SAUF, expression) (rappel : en allant sur la page Recherche avancée, vous n’aurez pas à mémoriser leur syntaxe). Les opérateurs de recherche permettent de "pousser le moteur dans ses retranchements". Exemples : on veut des documents relativement simples et à jour pour créer une EURL : créer OR création eurl OR "entreprise unipersonnelle" (on peut aussi ajouter : filetype:pdf)
    Vous noterez que Google ne "comprend" pas les parenthèses et que le OR ne joue que sur les mots immédiatement adjacents à lui. Ce qui implique de mettre les mots d’une expression entre guillemets (contrairement à ce qui est recommandé plus haut pour les cas "normaux") si la notion faut partie d’une suite de synonymes. De plus, le premier mot qui commence une suite de OR est le plus important pour l’algorythme [8]. Exemple : résultats OR "chiffres d’affaires" OR bénéfices
  • choisir la langue des résultats. Peu intéressant : la langue des mots-clés utilisés conditionne celle des résultats
  • limiter les résultats à la France (sites français et non francophones), ce qui permet d’éviter les résultats provenant de sites québécois, belges et d’Afrique du Nord (Maroc, Tunisie, Algérie) et donc de se restreindre au droit français. Voilà une fonctionnalité très intéressante utile, à utiliser sans modération
  • choisir le format de fichier : Rich Text Format .rtf, Word .doc, Acrobat .pdf, Excel .xls, .PowerPoint .ppt, Access .mdb. Restreindre la recherche aux fichiers PDF permet de ne trouver que des documents sérieux et fiables (mais pas forcément pertinents, car ce n’est pas le but direct de cette fonctionnalité). En effet, très souvent, les documents officiels (textes juridiques, rapports) et les articles sont au format PDF tandis que les sites perso, ceux tournés vers le marketing, et les forums utilisent uniquement le HTML. Hors de l’interface Recherche avancée, écrivez filetype:[type_de_fichier] à la fin de votre requête
  • restreindre la recherche à un site (nom de domaine uniquement). Ainsi utilisé, Google est presque toujours plus efficace que le moteur interne du site, sauf sur des documents extrêmement récents, peu connus ou "enfouis" dans le site. Ce mode de recherche est particulièrement utile sur les plus vastes sites juridiques : le site du Premier ministre, les deux sites parlementaires (Assemblée nationale, Sénat), Europa, EUR-Lex. Hors de l’interface Recherche avancée, écrivez site:[domaine]
  • restreindre la recherche au "titre" (la balise HTML title, plus précisément) des pages web avec le champ intitle:[un_seul_mot] ou — plus efficace — allintitle :[tous_les_mots_qui_suivent] [9]
  • chercher par expression ce qui rend les résultats plus précis/moins nombreux et dans certains cas, évite les résultats hors sujet. Hors de l’interface Recherche avancée, utilisez les classiques guillemets (" "). La recherche par expression est devenue plus souvent nécessaire, face à l’élargissement des recherches pratiqué par Google
  • régler le nombre de résultats par page à 30 voire 50 (au-delà, en général, très peu de résultats sont pertinents). Ca permet de consulter plus facilement et plus rapidement les résultats pertinents

- 3. restreignez si nécessaire les résultats à une période de temps. Pour utiliser à fond cette fonctionnalité, il faut passer par l’interface simple de Google (la recherche avancée n’offre pas la possibilité de spécifier l’intervalle de temps exact que l’on désire), cliquer sur Afficher les options puis sur Choisir une période. [9]

- 4. ouvrez les résultats dans une nouvelle fenêtre ou un nouvel onglet, de manière à garder sous la main la liste des résultats. Pour cela : faites un clic droit sur le lien qui vous intéresse, puis un clic gauche sur "Ouvrir dans une nouvelle fenêtre/onglet"

- 5. s’il n’y a pas de résultat intéressant dans l’onglet Web de Google, regardez : * dans l’onglet Actualités

  • s’il n’y a pas une piste dans les groupes de discussion (cliquez sur l’onglet Groupes)
  • et si, dans l’annuaire, il n’y aurait pas de catégorie(s) correspondant à votre recherche (onglet Répertoire, puis regardez la catégorie citée sous le nom de la plupart des pages données en résultats).

Exemple d’utilisation de la Recherche avancée de Google

Ici, nous cherchons des articles en matière de contrats informatiques parus dans la revue Expertises. Voici comment interroger rapidement les sommaires de la revue Expertises sur le site de la revue :
- 1. allez sur la page d’accueil de Google en français
- 2. cliquez sur Recherche avancée, ce qui vous emmène sur l’interface de Recherche avancée de Google
- 3. dans la liste déroulante du nombre de résultats, choisissez d’afficher 30 résultats
- 4. limitez la recherche au site celog.fr (pas à la page celog.fr/expertises/sommaires.htm, car Google ne prend en compte que des noms de domaine, pas des pages profondes) en cherchant, par exemple, par "contrat"
- 5. lancez la recherche en cliquant sur le bouton "Recherche Google"
- 6. lisez les résultats et ouvrez ceux qui vous intéressent dans un nouvelle fenêtre.

Pour aller plus loin :
- utilisez d’autres moteurs, principalement Bing (le concurrent de chez Microsoft [10]) et Exalead (pour les sites français et francophones) [11], voire Ixquick et AlltheWeb [12] et les métamoteurs de recherche de personnes
- voyez nos articles Utiliser Google à 100%, notamment la bibliographie à la fin, et Recherche sur Internet : une méthode (un peu) simplifiée et quelques "philosophies", notamment la méthode des "autorités".

Emmanuel Barthe
documentaliste juridique, formateur à la recherche en ligne

Notes de bas de page

[1] Pire : Google Blog Search considèrait autrefois les sites de librairies en ligne comme des blogs ...

[2] La masse de liens hypertexte vers ces textes officiels garantit leur indexation dans Google.

[3] Comme les bibliothèques universitaires anglo-saxonnes de Cornell, Princeton, Stanford ou Oxford — dotées d’un très important contenu en français —, mais aussi, francophones, la Bibliothèque municipale de Lyon, première et seule bibliothèque française à avoir signé, et les BU suisses de Gand et Lausanne.

[4] Et c’est là que je conseille en général de laisser tomber les moteurs de recherche, Google compris, et de chercher un annuaire de sites web, comme DMOZ par exemple, ou mieux, un annuaire spécialisé, donc ici un annuaire de sites juridiques. Comme celui sur notre site : Internet juridique : les sites web incontournables, même s’il mériterait, je le reconnais, des mises à jour plus fréquentes.

[5] Autrefois, c’était carrément de faux sites, notamment des faux sites personnels et des faux annuaires, qui polluaient Google. Montés de toutes pièces, bourrés de mots-clés artificiels "attrappe-tout", ce type de site est de surcroît doté de pages "satellites" tout aussi artificielles. Google a d’abord réagi par de nouvelles règles de classement des résultats, puis avec la mise en place de filtres, mais les techniques du "spamindexing" évoluent et ces modifications peuvent faire reculer le classement de sites non spammeurs. Sur le problème du spamindexing (ou spamdexing), lire Google victime de son filtre bayésien anti spam ? / Yves Grandmontagne, Silicon.fr, 3 mars 2003. Le spamdexing de Google est moins présent maintenant dans les résultats mais on en trouve encore des exemples très "réussis" hélas, comme le site velodappartement[point]net soi-disant consacré au vélo d’appartement mais donc le contenu textuel ne donne aucun conseil pratique ni d’achat, juste des généralités. Du style : « Comme nous le savons déjà, les vélos d’appartement sont un très bon moyen pour se remettre en forme, améliorer le système cardiovasculaire, faire disparaître la graisse et se sculpter le corps de ses rêves. En plus c’est un appareil qui est accessible à tout le monde et très facile à utiliser ». Etc., etc. Il ne sert en fait qu’à porter des publicités pour, certes, des sites de vente de vélos d’appartement. Ca ne l’empêche pas d’arriver en 2e position dans Google sur l’expression "vélo d’appartement".

[6] Un exemple : début 2005, les Editions juridiques associées (EJA : LGDJ, Monchrestien, Defrénois, Gualino, ...) ferment leur site lgdj.fr et transfèrent son contenu sur eja.fr. Pourtant, le 26 février 2005, lorsqu’on tape "eja.fr" sur Google, sa première réponse renvoie vers le site lgdj.fr, dont seule la page d’accueil est encore active (certes, cette page d’accueil renvoie vers eja.fr). Le site eja.fr n’apparaît, lui, qu’en 17e place. En fait, le "poids" des liens qui pointent encore vers lgdj.fr — ils n’ont pas encore été mis à jour vu le caractère récent du transfert — induit très probablement Google en erreur.

[7] Comme je le dis et l’écris souvent : à un être humain on pose une question (autrement dit on fait des phrases avec sujet verbe complément), sur une base de données on tape une requête (avec des mots-clés choisis soigneusement, des opérateurs booléens et des champs/limiteurs). Une question de vocabulaire pas si innocente que ça.

[8] Ces "trucs" de valeur sont rappelés par Béatrice Foenix-Riou de FLA consultants dans leur revue Netsources (deux articles en ligne gratuitement à signaler : sur la recherche de données de marché et sur les opérateurs finassiers des moteurs comme intitle) et lors des formations qu’elle donne.

[9] Autrefois déficiente, comme Béatrice Foenix-Riou (FLA Consultants) l’avait démontré dans la revue Netsources, la recherche par date dans Google semble désormais pertinente. Cf cet exemple de recherche conçu exprès pour détecter une erreur.

[10] Lire notre évaluation de Bing : Bing : le dernier moteur de Microsoft n’est pas si mal que ça ....

[11] Voir notre brève Exalead : le moteur de recherche français sort une nouvelle version très riche en fonctionnalités.

[12] AlltheWeb utilise la base de Yahoo mais présente les résultats différemment et sa recherche avancée est un peu plus riche en fonctionnalités que celle de Yahoo.

Répondre à cet article