Logiciels, Internet, moteurs de recherche

Dernier ajout : 10 juillet.

Derniers articles

Utiliser Google pour des recherches juridiques

Une méthode de recherche fiable sur le Web

Jeudi 24 mai 2018

Lire la suite »

Cet article est à la fois un guide détaillé et un tutoriel (grâce aux nombreux exemples donnés) pour pousser à fond les performances en recherche de Google, plus particulièrement dans le domaine juridique [1]. Mis en ligne en juillet 2013, il est est régulièrement mis à jour depuis.

Si vous êtes pressé, vous pouvez :

Sommaire

1. Comment fonctionne Google

1.1. Contenu et indexation

1.2. Les résultats de Google

2. Comment interroger Google

2.1. L'essentiel

2.2. Choisir ses mots-clés

2.3. Repérez dans les résultats les mots-clés que vous avez oubliés

2.4. Utilisez la recherche avancée pour mieux contrôler votre recherche (opérateurs booléens et filtres)

2.5. Rechercher sur une période

2.6. Ouvrir les résultats dans une nouvelle fenêtre ou un nouvel onglet

2.7. Les moteurs spécialisés de Google

2.8. Toujours rien ?

3. Cinq exemples de recherche futée ou experte dans Google

4. Pour aller plus loin

1. Comment fonctionne Google : quelques principes à retenir

1.1. Contenu et indexation

1.1.1. La plus grande base de données du Web

Google est un moteur de recherche sur le Web. C’est la plus grande base de données de pages web et de fichiers divers stockés sur le Web (PDF, Word, Excel etc.) [3].

En termes de taille de sa base de données, de richesse des fonctionnalités et surtout de pertinence des résultats, il n’a plus de rival global. Même Bing (Microsoft) a abandonné la compétition. En fait, ses principaux rivaux sont des moteurs spécialisés [4] :

  • locaux/nationaux, tel Baidu en Chine
  • spécialisés sur un secteur professionnel/une industrie, comme Amazon sur le commerce électronique
  • ou internes à un réseau social, comme le moteur de Facebook.

1.1.2. Tout n’est pas dans Google et tout n’est pas forcément bien référencé dans Google

Soyons clair : il y a infiniment plus de documents hors de Google que dans Google. N’utiliser que Google, c’est tentant. Mais c’est un piège.

  • Google n’indexe généralement pas les bases de données payantes et totalement fermées. En revanche, il indexe les titres d’articles payants, dès que ceux-ci sont affichés avec leur lien sur des pages gratuites ou bien un site payant si celui-ci a un fil RSS. Il peut même indexer non seulement le titre mais aussi les auteurs et les mots-clés (pas le texte intégral) lorsque l’éditeur laisse ses métadonnées disponibles librement et gratuitement pour le moissonnage OAI (exemple des articles de revues de LexisNexis, voir infra). Google indexe également les pages des sites payants dès lors qu’ils en affichent une partie gratuite (titre, chapeau, début du document ...), comme par exemple celles de Lextenso.
  • Google ne couvre pas tout le Web : ni le Web payant, ni la totalité du contenu de nombreuses bases de données gratuites [5], ni les sites qui lui interdisent l’accès à tout ou partie de leurs pages (le fameux fichier robots.txt) etc. Au total, on estime que Google n’indexe (i.e. ne reproduit le contenu et ne le place dans son index [6]), au mieux, que la moitié environ des pages web librement accessibles. Les pires estimations, sous-entendant certes une définition du Web très large puisqu’incluant le "deep web" et les darknets, donnent seulement 4% du Web comme indexé [7].
    Un exemple important de ces sites-bases de données non totalement indexés par Google sont les bases de données de Legifrance, à l’exception notable (et bien pratique ...) des textes consolidés (LEGI) et du JORF. On peut considérer que le Journal officiel Lois et décrets sur Legifrance est à 95% indexé par Google — et à 99,5% pour les textes publiés récemment. On peut également considérer que la majeure partie de la jurisprudence est également indexée — même si certaines questions fonctionneront mieux directement dans Legifrance (à fin avril 2017, Google indexait 8 800 000 documents de Legifrance, soit quasiment tout). Il faut donc selon les cas interroger Legifrance par les interfaces de recherche de chacune de ses bases de données (en savoir plus). C’est particulièrement vrai pour la jurisprudence.

1.1.3. Google et les variantes d’un mot

Google, si vous n’êtes pas en mode Mot à mot, cherche automatiquement les variantes d’un mot. Il prend sa racine et cherche :

  • son pluriel et si possible, son féminin. Exemples : bail cherchera aussi baux
  • le verbe, les adjectifs qualificatifs et les adverbes qui lui correspondent. Exemples : embauche cherchera embaucher.

C’est ce qu’on appelle une troncature automatique ou "autostem" en anglais.

1.1.4. Google et le traitement du langage naturel version machine learning. Ou la synonymie et la reformulation de la question automatiques

A noter que le machine learning [8] (apprentissage statistique automatique [9]) est utilisé [10] pour toutes les requêtes [11] Google depuis juin 2016. Cet algorithme de Google est appelé RankBrain.

Comme l’explique Olivier Duffez de WebRankInfo, « RankBrain est un système basé sur le machine learning permettant à Google de mieux comprendre les requêtes des internautes. Il peut s’agir de requêtes très longues et précises (très longue traîne) ou de requêtes n’ayant jamais été faites et peu similaires à d’autres plus connues. Grâce aux nouvelles méthodes d’intelligence artificielle dont Google est devenu un des plus grands spécialistes mondiaux, RankBrain parviendrait à mieux comprendre ces requêtes difficiles » [12].

En fait, RankBrain n’est qu’une implémentation de Word2vec, l’algorithme de traitement du langage naturel (natural language processing, NLP) par machine learning non supervisé [13] développé par une équipe de Google Research (il a d’ailleurs été mis par Google en open source en 2013). En prenant en compte le contexte (les mots voisins) de chaque mot dans les documents, RankBrain/Word2vec "apprend" que certains mots, dans un contexte donné, sont similaires [14]. Word2vec transforme ces contextes en vecteurs, donc en chiffres, ce qui permet de les comparer facilement.

C’est Word2vec qui permet par exemple à Google de deviner que si vous avez tapé compétition déloyale, vous vouliez en fait écrire concurrence déloyale ou de faire une synonymie automatique entre ouvrage et livre [15].

Pour autant, le type de requête que décrit O. Duffez (longues, beaucoup de mots peu ou moyennement utilisés [16]) — et qui est le propre des recherches juridiques pointues — ne réussit pas toujours dans Google. C’est probablement autant une limite du Web gratuit [17] que celle de Word2vec.


Word2vec : relations sémantiques dans un espace vectoriel

A noter également que, comme l’explique Sylvain Peyronnet, chief scientist du moteur Qwant (qui utilise largement l’index de Bing) et co-fondateur du laboratoire de recherche privé ix-labs [18], dans une interview au Journal du Net [19], il n’y a depuis longtemps plus un (le PageRank d’origine), ni deux, ni trois algorithmes qui font fonctionner le moteur de recherche de Google mais un grand nombre (peut-être 200 !) d’algorithmes et ils s’influencent les uns les autres tout en étant pondérés par des critères ... et fréquemment modifiés pour améliorer les résultats ou lutter contre les spécialistes du SEO trop habiles [20]. Cela signife que, si le machine learning transforme lentement la façon dont Google opère, le ML est loin d’être le seul composant de la recherche de Google [21].

Dernière innovation (potentielle) en date de Google Search, annoncée fin mai 2018 : comme l’explique Noël Nguessan (Arobase.net) [22], « Google vient de publier un document de recherche [23] qui traite d’une façon de reformuler les requêtes, puis de présenter ces requêtes à un moteur de classement. Les reformulations des requêtes et les dérivés sont déjà utilisés chez Google. C’est une autre forme de cette approche. Ce qui est nouveau, c’est qu’il s’agit d’un algorithme d’apprentissage automatique (machine learning) qui utilise l’approche d’apprentissage par renforcement ("reinforcement learning"). [...] Ce nouvel algorithme utilise un système d’apprentissage qui reformule la requête de l’utilisateur, en posant au moteur de classement de nombreuses questions, puis en choisissant les meilleures réponses parmi les multiples ensembles de réponses. »

Comme le montrent les exemples donnés en fin d’article, cette fonctionnalité ne devrait être utile qu’avec des requêtes plutôt mal formulées et où manque un mot-clé essentiel, oublié ou inconnu de l’utilisateur. Elle illustre toutefois parfaitement ce souci du moteur de recherche de deviner votre intention, de comprendre ce que vous sous-entendez et de corriger ainsi votre question.

Autrement dit, c’est là que le ver peut rentrer dans le fruit. Car si l’algorithme devine mal, ce sera de peu, et vous ne le détecterez pas. En effet, en droit, le langage est d’un telle subtilité, les nuances de sens sont telles que la probabilité que la machine se méprenne à la marge est réelle. En tout cas, tant que les corpus payants des éditeurs juridiques n’auront pas alimenté l’apprentissage automatique du moteur.

1.1.5. Google et les documents très longs

Google peut aussi avoir des difficultés à faire remonter en haut du classement de ses résultats des documents très longs où l’information pertinente est noyée dans la masse. Ainsi, sur les PDF très longs (à partir de 30 à 40 pages environ), il indexera tout le document mais privilégiera très nettement dans son classement les mots-clés placés dans le titre, la balise title ou les premières pages du document. C’est particulièrement net si on ne restreint pas la recherche avec site: ou filetype:pdf Exemple : les références bibliographiques dans les fichiers PDF que constituent les trois parties des Notes de doctrine relatives aux arrêts de la CJUE et du TPI sur Curia. Contre-exemple : les références bibliographiques des revues de LexisNexis sur http://www.lexisnexis.fr/droit-document car chaque référence a sa propre page web.

1.1.6. Google est parfois en retard

Google peut être en retard sur les mises à jour des sites web les moins populaires ou mettre des jours ou des semaines à prendre en compte correctement un nouveau site web (voir infra), notamment parce que personne n’a encore fait un lien vers lui. Mais il indexe en temps réel les mises à jour des sites institutionnels, universitaires, de presse, des blogs populaires et de tout autre site populaire ou fiable [24].

1.1.7. Google Books, Google Scholar, Google et les catalogues de bibliothèques

Parce qu’il dépend du contenu d’Internet, Google ne couvre ni le papier ni la littérature grise — qui ne sont par définition pas en ligne.

Quoique ... Avec Google Books et surtout le partenariat de très grandes bibliothèques [25], Google indexe énormément d’ouvrages en anglais et un nombre certain en français.

Mais du fait de l’opposition des éditeurs français, le contenu en droit français est pour l’instant faible. Cela dit, ce n’est pas le cas en droit belge ni en droit européen ou international.


Google Books. La requête "droit de la propriété intellectuelle" sort des titres du groupe Lextenso, un des rares éditeurs juridiques français à être rentré dans le programme.

Google Scholar, de son côté, indexe les articles scientifiques (donc de nombreux articles juridiques) présents sur le Web sous forme de références bibliographiques ou, plus intéressant, en texte intégral gratuit. Cela dit, Google Scholar contient surtout des articles de droit international public, de droit public interne ou de droits de l’homme. Donc très peu d’articles en droit des affaires ou en droit privé. À ce titre, ses grands rivaux le Legal SSRN (racheté par Elsevier) et le très récent LawArXiv sont souvent plus intéressants.

Dans un style proche, une fonctionnalité de Google intègre les catalogues de bibliothèques dans ses résultats de recherche de livres numériques (ebooks). Pour en bénéficier, il faut activer la localisation [26]. D’après un utilisateur américain, les premiers résultats ne sont pas toujours satisfaisants, mais avec certains fournisseurs d’ebooks comme Overdrive, ça marche très bien [27].

Même sans localisation, le fait d’ajouter "bibliothèque" à une recherche Google ramène un certain nombre de pages web correspondant à des notices bibliographiques (des fiches de catalogue). Sur ce type de recherche, le catalogue de bibliothèque le plus représenté — et de loin — en droit français est celui de la BU Vauban (Lille). Mais — surprise ! — cet ajout fait aussi sortir des titres en PDF de la bibliothèque numérique Gallica de la BNF.

Quant à l’ajout du mot "livre", il permet de chercher sur les catalogues de librairies en ligne les plus connues, comme la LGDJ, la Fnac, Amazon, la librairie Dalloz, celle de LexisNexis ... Mais aussi, évidemment, Google Books car le moteur américain insère dans les résultats de l’onglet Web des résultats extraits de Google Books.

1.2. Les résultats de Google

1.2.1. Ranking : le classement par pertinence, ses avantages et ses défauts

- Les résultats sont classés par pertinence. Ce classement par pertinence s’appelle "ranking" en anglais. La "pertinence selon Google" tient compte [28] :

  • d’abord des liens pointant vers les pages web et de la qualité de ceux-ci (Google les considère comme autant de recommandations), c’est-à-dire en fait de la qualité de celles-ci (les pages vers lesquelles ils pointent) autant que de la qualité du site faisant les liens. Exemple paroxystique : un site universitaire (site de qualité quasiment par nature selon Google, voir infra) fait des liens vers des pages web du blog d’une spécialiste reconnue du sujet (site de qualité selon Google du fait des nombreux liens établis vers lui par d’autres spécialistes et par la communauté réunie autour de ce sujet, voir infra)
  • et ensuite des mots (et leurs synonymes) de la requête contenus dans la page web :
    • ceux du titre informatique de la page (balise title), du titre réel de celle-ci (balise H1 ou H2 sinon) et du nom du fichier HTML sont les plus importants
    • Google privilégie les expressions sur les termes isolés, et les termes exacts sur les synonymes
  • de la "qualité" (selon Google) de la page. Le nom de domaine est important ici : les sites universitaires (avec "univ" dans leur nom de domaine en France ou .edu aux USA) et gouvernementaux (.gouv.fr en France, .gov aux Etats-Unis) sont favorisés ; les sites personnels sont défavorisés, sauf s’ils ont leur propre nom de domaine et une forte réputation au sein de leur communauté
  • de la fraîcheur/fréquence de mise à jour de la page. Par exemple, un site personnel réputé dans une communauté, sur des requêtes Google sur lesquelles il possède des pages très pertinentes, va pourtant reculer en bas de la première page des résultats de Google s’il n’est pas mis à jour chaque semaine
  • du travail des "quality raters" cités plus haut par Sylvain Peyronnet [29]. Avant la sortie d’une nouvelle version de l’algorithme, et à l’aide d’un guide fourni par Google [30], ces personnes évaluent ses erreurs ou manques de pertinence, de manière à ce qu’ils soient corrigés (ou plus probablement à ce que la partie machine learning de l’algorithme "apprenne") avant sa "release" [31]
  • mais aussi des attentes supposées de l’utilisateur. L’utilisateur veut-il des documents simples, de niveau basique, pour non juriste, comme Droit-Finances.net ou des forums, ou bien des articles gratuits de revues juridiques et des rapports officiels ?. Pour tenter de deviner les attentes non exprimées de l’utilisateur, Google utilise :
    • les termes de la question. Ainsi, taper licenciement combien je touche ou licenciement calcul indemnité donne des résultats similaires (car la synonymie automatique dûe au machine learning joue) mais en même temps différents du fait des mots employés : la seconde formulation ramène plus de sites officiels, comme Service-Public.fr, du fait de l’emploi du mot "indemnité", mais aussi un simulateur de calcul d’indemnités, du fait du mot "calcul"
    • et l’historique de nos recherches :
      • soit celui stocké dans notre compte Google, dans le cas où l’internaute est connecté à son compte Google (par exemple parce qu’il consulte sa messagerie GMail ou qu’il interroge Google sur un smartphone Android)
      • soit celui de notre navigateur web, si l’internaute vient d’utiliser Google pour poser une autre question. Voir l’exemple très parlant à propos de stades de football et de zoos donné par le spécialiste SEO Kevin Rowe au point 4. de cet article précité [32].

- Cette pertinence est réelle : en règle générale, il suffit de consulter les 30, voire les 50 premiers résultats pour trouver sa réponse et avoir balayé l’essentiel des sites. En général ...
Ce qui veut dire qu’en cas de doute, il faut aller jusqu’au 100e résultat (c’est du vécu). C’est particulièrement net sur des sites mal structurés et mal indexés par Google comme les sites syndicaux.

- Parfois, cette pertinence a de graves défauts :

  • la volonté de fournir des réponses plus que des documents amène Google à tenter de répondre à la place des sites web, avec les "featured snippets" (extraits optimisés) [33], ce qui n’a le plus souvent aucun intérêt pour les professionnels de l’information et du droit, qui recherchent inversement détails, nuances et exhaustivité
  • pire, interprétant les attentes de l’utilisateur et en voulant à tout prix lui donner une *réponse* — et non des interrogations ou d’autres pistes — et lui mâcher le travail, Google suppose que l’utilisateur n’a pas besoin de la totalité des résultats disponibles dans son index et, depuis octobre 2017, ne permet plus d’interroger directement les différentes versions "locales" (i.e. nationales) de son moteur [34]. Cette attitude du moteur peut également être dûe à son refus de laisser consultants en référencement (SEO) et autres abuser de son index. Au final, comme l’écrit Carole Tisserand-Barthole sur le blog de FLA Consultants, « quelle que soit la requête, Google, Bing et les autres n’affichent pas l’intégralité des pages correspondants à la requête. Ils opèrent une sélection des pages présentes dans leurs index » [35]. Par exemple, pour reprendre un des exemples de recherches cités supra, licenciement calcul indemnité n’affichait le 27 février 2018 sur Google.fr que 210 résultats sur les 375 000 théoriques annoncés et, si on pensait à faire sauter la limitation pour similitude [36], 560 résultats.
    Les deux principaux moyens de forcer le moteur à fournir plus de résultats ou des résultats vraiment différents sont [37] :
    • d’abord, de préciser, de taper exactement, d’ex-pli-ci-ter ce qu’on cherche. Exemple : si vous cherchez une bibliographie d’un auteur, ne vous contentez pas de taper le nom de l’auteur. Ajoutez bibliographie. Et comme le TAL à la sauce ML de Google ne fait pas bien la synonymie sur ce terme, essayez aussi avec publications
    • d’affiner la recherche en utilisant un filtre comme site: ou filetype:pdf (voir infra). Mais même dans ce cas, Google ne fournira pas tous les résultats. Ainsi, licenciement calcul indemnité site:legifrance.gouv.fr annonçait 31 500 résultats mais n’en affichait réellement que 530.


Les 5 premiers critères de pertinence pour Google selon l’étude SEO Factors 2016. Source image : SEO Factors

1.2.2. La pollution des résultats par le spamdexing

Cependant les résultats de Google sont de temps à autre — ça vient par vagues — pollués par les résultats de sites publicitaires quasiment vides de contenu juridique, comme les sites faisant de la publicité pour des livres de droit du licenciement destinés aux particuliers. C’est ce qu’on appelle du "spamdexing" [38]. Une fois les sites spammeurs identifiés, Google les "bannit" de son index, mais le problème revient de temps à autre. Par exemple, fin décembre 2017, sur des questions de nuisances sonores (troubles de voisinage), j’ai vu le site gralon.net, dont les articles sont très vagues, à la limite de l’insignifiant, mais bourrés de publicités, réapparaître sur mon radar.

Le spamdexing de Google a toutefois beaucoup reculé depuis 2014 du fait de l’implémentation de l’algorithme RankBrain avec ses capacités de traitement du langage naturel (NLP) (voir A. le contenu de Google supra).

Ce qu’on trouve en revanche, ce sont des sites payants du type cours-de-droit.net dont le référencement (SEO) très efficace les positionne souvent dans les cinq premiers résultats de Google, alors même que seule l’introduction des dissertations qu’ils vendent est disponible gratuitement [39].

1.2.3. La fraîcheur des résultats

Les résultats sont en général très "frais" :

  • Google indexe très régulièrement les sites importants (exemples : Assemblée nationale, Sénat, etc.)
  • Google privilégie les sites à mise à jour très fréquente, tels les sites de presse (lemonde.fr, liberation.fr, etc.) et les blogs, en les réindexant de une à une dizaine de fois par jour. Google s’adapte à la fréquence de mise à jour du site
  • néanmoins et de manière logique vu sa préférence pour les liens hypertextes et pour les sites à mise à jour fréquente, Google peut avoir quelques jours de retard sur certaines rubriques peu consultées de sites très vastes et jusqu’à une semaine de retard — en général, plutôt quelques jours — sur l’actualité des sites web les moins importants, qui eux-mêmes sont rarement mis à jour. De même, Google peut mettre jusqu’à plusieurs semaines pour indexer correctement un nouveau site web, c’est-à-dire indexer la totalité de ses pages et les faire monter en tête des résultats sur les questions pertinentes [40].

2. Comment interroger Google

2.1. L’essentiel

  • laisser un espace revient à utiliser l’opérateur logique ET implicite. Autrement dit : chaque fois que vous tapez un mot de plus, vous ajoutez un critère, une condition à votre recherche. Exemple : responsabilité pénale du dirigeant trouvera moins de résultats que responsabilité
  • cherchez à utiliser des expressions plutôt que des suites de mots. Google "accroche" mieux là dessus (voir explication détaillée infra).

2.2. Choisir ses mots-clés

Prenez 30 secondes pour réfléchir aux mots-clés que vous allez utiliser. Car, même avec Google, cela peut faire la différence entre trouver et ne pas trouver.

Voici les "trucs" essentiels pour choisir ses mots-clés :

  • ne vous laissez pas influencer par les suggestions de Google [41]
  • pensez aux synonymes et quasi-synonymes. Voir aussi infra l’opérateur (tilde).
    Exemple : bail, baux, loyer, loyers, location. Un synonyme, ça peut être aussi un numéro d’article de Code, particulièrement en droit fiscal avec le CGI. Exemple (en recherche de jurisprudence) : 1240, 1382 et faute sont des quasi-synonymes de responsabilité civile
  • si vous cherchez la version officielle d’un texte, d’un arrêt ou d’un rapport, utilisez  :
    • les termes juridiques officiels, c’est-à-dire ceux utilisés dans les codes et les lois (notamment dans les titres des lois).
      Exemple : redressement et liquidation judiciaires
    • la date complète.
      Exemple : 25 janvier 1985
    • ou éventuellement le numéro.
      Exemple : 85-98 (ce qui évite de trouver aussi la loi n° 85-99 sur les administrateurs judiciaires)
  • si en revanche vous cherchez des commentaires ou de la doctrine (pour autant qu’il y en ait gratuits sur le Web sur votre sujet) :
    • utilisez les noms juridiques usuels.
      Exemples : procédures collectives ou redressement judiciaire ou liquidation judiciaire ou difficultés des entreprises en difficulté ou défaillances d’entreprises (pas faillite, qui n’est plus le terme juridique approprié)
    • si vous cherchez des commentaires sur une réforme ancienne, précisez l’année.
      Exemple : 1985 (réforme des procédures collectives)
  • si vous cherchez de l’actualité non juridique ou des articles de presse, utilisez les termes économiques et/ou les expressions du langage courant.
    Exemple : faillite, faillites, fermetures d’entreprises, plans sociaux
  • plus généralement, si vous êtes compétent sur le(s) domaine(s) juridique(s) concerné(s) par votre recherche, tapez les mots et expressions qui devraient se trouver dans les documents que vous recherchez, et surtout dans leur titre et leurs premiers paragraphes. Autrement dit : essayez de deviner comment les titres de documents sur le sujet sont écrits.
    En revanche, si vous n’êtes pas spécialiste de ce domaine et a fortiori si vous n’êtes pas juriste ou étudiant en droit, évitez d’utiliser cette dernière technique.


Ne vous laissez pas influencer par les suggestions de Google. Par exemple, ici, l’expression "responsabilité civile contractuelle" ne fait pas partie du vocabulaire des juristes : on parle simplement de "responsabilité contractuelle"

2.3. Repérez dans les résultats les mots-clés que vous avez oubliés :

  • dans les extraits qui composent les résultats de Google, si des mots vous semblent pertinents, réutilisez les dans votre question
  • dans les documents qui répondent le mieux à votre question, repérez les mots qui font partie de votre sujet mais que vous avez oubliés pour modifier votre question.

C’est un "truc" capital : modifier sa question initiale, oui, mais avec des mots qui marchent.

2.4. Utilisez la recherche avancée pour mieux contrôler votre recherche (opérateurs booléens et filtres

Deux possibilités :

  • utilisez la page Recherche avancée de Google. Et alors pas besoin de savoir comment écrire les opérateurs et filtres de Google
  • ou — mieux — apprenez les opérateurs et filtres de Google et utilisez-les sur la page d’accueil du moteur. Mais il faut alors connaître les noms des opérateurs et des champs/filtres et leur syntaxe.

Vous pourrez alors utiliser les opérateurs de recherche ET (AND ou espace), OU (OR), SAUF (-), expression (" ") et de proximité (AROUND). On les appelle opérateurs booléens ou opérateurs logiques.

Rappel : en allant sur la page Recherche avancée, vous n’aurez pas à mémoriser leur syntaxe. Toutefois, sur cette page, les opérateurs de proximité comme AROUND ne sont pas proposés.

Le haut de la page Recherche avancée de Google Search
Le haut de la page Recherche avancée de Google Search

Les opérateurs de recherche permettent de "pousser le moteur dans ses retranchements". Exemples : on veut des documents relativement simples et à jour pour créer une EURL :
créer OR création eurl OR "entreprise unipersonnelle" (on peut aussi ajouter : filetype:pdf).

Voici maintenant des précisions, à propos des opérateurs logiques dans Google, qui ont leur importance.

2.4.1. [AND] : le ET implicite, l’expression implicite et le mode Mot à mot

Rappel : tout espace non placé entre des guillemets est pour Google un ET logique. Mais parfois aussi une incitation à interpréter la requête comme une expression : dans ce cas, si cette tendance de Google à tout transformer en expression vous gêne, utilisez le mode Mot à mot (en anglais Verbatim) (Outils > Tous les résultats > Mot à mot : disponible par défaut sur ordinateur, sous smartphone il faut afficher la page en "version ordinateur") [42] ou écrivez en majuscules le AND [43].


Le mode Mot à mot de Google une fois activé

2.4.2. OR : prévoir les synonymes : ne pas abuser

Attention : Google ne "comprend" pas les parenthèses [44] et le OR ne joue que sur les mots immédiatement adjacents à lui. Ce qui implique de mettre les mots d’une expression entre guillemets (contrairement à ce qui est recommandé plus haut pour les cas "normaux") si la notion faut partie d’une suite de synonymes. De plus, le premier mot qui commence une suite de OR est le plus important pour l’algorithme [45].

Il faut toutefois bien comprendre que multiplier les synonymes (reliés par OR) n’apporte pas grand’ chose en terme de pertinence des résultats. Un synonyme voire deux (pas plus, soit trois mots ou expressions maximum) aide lorsqu’on est dans du vocabulaire juridique un peu spécialisé et/ou peu présent sur le Web, mais le plus efficace en dehors de ces cas reste :

Voici un bon exemple à la fois du peu d’intérêt d’utiliser le OR, et en même temps de son intérêt en droit si on veut un maximum de fiabilité et creuser à fond la recherche : comparez les 100 premiers résultats de "responsabilité civile" accident automobile et "responsabilité civile" OR 1382 OR 1240 accident automobile. Seuls une petite dizaine de résultats diffèrent, la plupart (mais pas tous ...) sans intérêt majeur. Toutefois, certains résultats sortis seulement avec le OR peuvent venir de sites particulièrement fiables et avoir de la valeur si on ne veut rien rater. L’exemple utilisé ici est très net : Accident de la circulation et responsabilité civile des parents, Dalloz Etudiant est en effet le seul résultat venant d’un éditeur juridique et le seul à citer de la jurisprudence ...

2.4.3. SAUF : exclure des mots des résultats : en dernier recours

Uilisez l’opérateur - (SAUF) [48] pour exclure des termes qui faussent les résultats/les "polluent" : le - (moins) fonctionne. La règle générale d’utilisation de l’opérateur SAUF s’applique : on n’utilise le SAUF qu’en dernier recours.

NB : le - peut être utilisé devant un opérateur, même si en pratique, c’est rarement utile.

2.4.4. Les opérateurs de proximité : avec modération

2.4.4.1. AROUND

Signalé en 2010, probablement apparu 5 ou 6 ans auparavant, mais non documenté par Google, l’opérateur de proximité AROUND(n) (où n est un nombre de mots qu’on fixera en pratique à 2 ou 5) est efficace en anglais et, alorsqu’il ne l’était pas, est devenu efficace en français en 2017 [49].

Toutefois, avant d’utiliser cet opérateur, il est recommandé de saisir sa requête sans, car, le 2e terme peut être au-delà de n mots du premier et pourtant être pertinent (c’est vrai surtout si le mode Mot à mot n’est pas activé, autrement dit, si la synonymie automatique de Google est en fonction).

Exemple : comparez télévision "abus de position dominante" et télévision AROUND(5) "abus de position dominante" : la 1ère formulation trouve des pages non trouvées par l’emploi d’AROUND, tout en amenant des résultats non pertinents, parfois dès le 10e résultat. La 2e formulation, avec AROUND, permet d’amener des résultats complémentaires.

2.4.4.2. L’étoile remplace un ou des mot(s) : inutile

L’opérateur * ("wildcard") est censé remplacer un (au moins) ou plusieurs mots, je constate son efficacité dans une certaine mesure mais je n’arrive pas à la prouver par A + B.

De toute façon, la bonne expression (sans guillemets, en général) pourra être tout aussi efficace, voire plus. Disons qu’au minimum, elle obtiendra des résultats différents (donc complémentaires) [50].

2.4.4.3. Les guillemets : expression : efficace

Chercher par expression (ou proximité d’1 mot) rend les résultats plus précis/moins nombreux et dans certains cas, évite les résultats hors sujet. Hors de l’interface Recherche avancée, utilisez les classiques guillemets (" "). Important : pour que les guillemets soient pris en compte à 100% par Google, il est nécessaire de passer en mode Mot à mot (Outils > Tous les résultats > Mot à mot) [51].

L’utilisation des guillemets est devenue plus souvent nécessaire, face à l’élargissement des recherches pratiqué par Google [52]. Toutefois, ne l’utilisez qu’après avoir testé l’expression sans guillemets, pour les raisons exposées ci-après.

N’abusez pas des guillemets. On dit souvent dans les cours de recherche sur bases de données ou sur le web qu’encadrer une expression avec des guillemets garantit des résultats moins nombreux et pertinents. Mon expérience, c’est qu’en réalité, les guillemets sur Google n’améliorent souvent pas grand’ chose voire parfois empêchent de trouver les principaux sites web sur un sujet. D’ailleurs Google ne les recommande pas trop fort. Cela dit, c’est vrai que si on veut vraiment *tous* les sites sur une expression, alors il faut utiliser le moteur à la fois *avec* les guillemets mais *aussi sans*, car, du moins si l’on s’en tient aux 30 premiers résultats, certains sites pertinents apparaissent uniquement avec les guillemets et d’autres uniquement sans [53]. En effet, l’algorithme de Google détecte souvent tout seul l’expression et la privilégie dans le classement des résultats. De surcroît, mettre les guillemets, en pratique, réduit souvent — mais pas toujours — un peu la pertinence par rapport à sans les guillemets car ceux-ci éliminent des résultats où l’expression n’est pas totalement identique, voire certaines pages où pourtant celle-ci apparaît clairement ...

2.4.5. Ordre des mots : utile

Si votre requête comporte au moins 7 ou 8 mots-clés, mettre en premier le mot le plus important de votre question : il aura alors un poids plus important que les autres dans les résultats, en faisant par exemple remonter dans les premières réponses les pages web où ce mot est dans le titre de la page.

Ce point — non précisé dans l’aide officielle de Google et la plupart des guides de recherche en ligne — peut avoir un effet sur le tri des résultats par Google, en amenant dans les 10 ou 20 premières réponses une page web jusque là "perdue" au delà des trente premières réponses

2.4.6. Langue des résultats : parfois nécessaire

Choisir la langue des résultats. Pas toujours intéressant : la langue des mots-clés utilisés conditionne souvent celle des résultats et donc le droit national en cause.

Mais pas toujours, comme l’explique le journaliste geek Martin Brinkmann sur son site d’actualité IT Ghacks [54]. La solution est alors :

  • soit on accepte de rester connecté à son compte Google (ce que je ne recommande pas, voir infra) et on va alors dans les paramètres de votre compte Google (pas ceux de Google Search, qui ne règlent que le pays, pas la langue) : se connecter > Mon compte > Préférences de compte > Langue
  • soit (recommandé), on utilise alors le champ Langue de la version avancée de Google Search, bien pratique dans un cas comme ça.

Google Recherche avancée : choisir la langue
Google Recherche avancée : choisir la langue

2.4.7. Limiter les résultats à un pays : pas mal, sans plus

imiter les résultats à la France (sites français et non francophones) permet d’éviter à 95% les résultats provenant de sites québécois, belges et d’Afrique du Nord (Maroc, Tunisie, Algérie) et donc de se restreindre au droit français. Voilà une fonctionnalité intéressante, mais devenue moins utile depuis que Google a progressé dans la reconnaissance de la nationalité de l’internaute.

Elle n’est d’ailleurs plus disponible que dans l’interface Recherche avancée (champ "région"). Elle peut encore servir à trouver des résultats de droit canadien ou belge quand on interroge Google depuis la France

2.4.8. filetype:suffixe (format de fichier) : très efficace

Choisir le format de fichier : Rich Text Format .rtf, Word .doc, Acrobat .pdf, Excel .xls, .PowerPoint .ppt, Access .mdb. Restreindre la recherche aux fichiers PDF permet de ne trouver que des documents sérieux et fiables (mais pas systématiquement pertinents, car ce n’est pas le but direct de cette fonctionnalité).

En effet, très souvent, les documents officiels (textes juridiques, rapports, livres blancs) et les articles de revues scientifiques sont au format PDF tandis que les sites perso, ceux tournés vers le marketing et les forums utilisent uniquement le HTML. Hors de l’interface Recherche avancée (autrement dit à partir de la page d’accueil de Gogle), écrivez filetype:[type_de_fichier] à la fin de votre requête.

Exemple : rapport open data justice filetype:pdf

2.4.9. site: : très efficace

Le filtre site: restreint la recherche à un site. Plus précisément à son nom de domaine (exemple : conseilconstitutionnel.fr est le nom de domaine du site web du Conseil constitutionnel). Ca marche aussi sur les sous-domaines.

Ainsi utilisé, Google est presque toujours plus efficace que le moteur interne du site, sauf sur des documents extrêmement récents, peu connus ou "enfouis" dans le site. Ce mode de recherche est particulièrement utile sur les plus vastes sites juridiques : le site du Premier ministre, les deux sites parlementaires (Assemblée nationale, Sénat), Europa, EUR-Lex. Hors de l’interface Recherche avancée, écrivez site:[domaine] Le "domaine" ici peut comprendre un sous-domaine.

Exemple : site:justice.gouv.fr (ici, le nom de domaine est gouv.fr, et justice un sous-domaine).

2.4.10. inurl: : efficace

Voilà un truc de recherche utile pour fouiller une rubrique ou sous-rubrique d’un site web très vaste.

Exigez la présence d’un terme dans l’adresse web (URL) : dans Google (non avancé) écrivez : inurl:[chaîne_de_caractères] Précisions : derrière inurl: on doit mettre la chaîne de caractère *complète* présente *entre deux barres obliques* dans l’URL. Et rien d’autre.

Exemple : si on veut chercher sur les décisions "merger" de la DG Concurrence et que leur adresse est ec.europa.eu/competition/mergers/cases/decisions/xxxxxxxx.pdf, on écrira donc : inurl:competition inurl:mergers. inurl:comp ou inurl:merg ne marcheraient pas

2.4.11. intitle: : efficace, mais à utiliser avec modération

Restreindre la recherche au "titre" (la balise HTML title, plus précisément) des pages web avec le champ intitle:[un_seul_mot] ou — encore plus efficace — allintitle:[tous_les_mots_qui_suivent].

A utiliser pour trier, pour ramener les pages les plus centrées sur la question lorsque la requête "normale" produit beaucoup trop de positifs. Mais, collègues bibliothécaires documentalistes, attention : le champ TITRE d’une base de données classique ou d’un catalogue n’a rien à voir avec le filtre title:. Ce dernier n’obéit à aucune norme et, marqué par les exigences du marketing, de la communication et du référencement web, manque singulièrement de rigueur.

2.4.12. inanchor: : inefficace

Le filtre inanchor: (mots dans les liens hypertextes renvoyant vers la page résultat) et son frère allinanchor : sont très peu efficaces en droit français.

Exemple : comparez allinanchor:télévision "abus de position dominante" avec télévision "abus de position dominante". Dès le 3e résultat, la requête utilisant allinanchor: perd sa pertinence On peut oublier inanchor : sans problème.

2.4.13. Affichez 50 résultats

Si vous êtes connecté (non recommandé) à votre compte Google, réglez le nombre de résultats par page à 30 voire 50 (au-delà, en général, très peu de résultats sont pertinents [55]). Ca permet de consulter plus facilement et plus rapidement les résultats pertinents.

Mais cela implique d’être connecté à votre compte Google, ce qui personnalise (i.e. biaise) les résultats en fonction de votre historique de recherche que Google a mémorisé.

Toutefois, selon CNBC, « actuellement, il y a très peu de personnalisation de la recherche et ce qui existe est centré sur la localisation d’un utilisateur ou les termes et les choix de résultats d’une recherche précédente.
Mais après beaucoup d’efforts pour tester la personnalisation, Google a trouvé qu’il améliore rarement réellement les résultats de recherche.
En ne personnalisant pas les résultats de recherche, Google a été en mesure d’échapper à beaucoup de critiques que Facebook et Twitter ont reçues pour avoir créé des “bulles de filtres”, où les gens ne voient que les informations qu’ils étaient déjà prédisposés à croire ou à aimer.
NB : Le produit vidéo de Google, YouTube, n’a pas été en mesure d’éviter cette critique, en particulier dans la façon dont il recommande des vidéos connexes. Les deux algorithmes sont totalement distincts et ne sont pas créés ou entretenus par la même équipe. » [56]

2.4.14. Empêchez Google d’interpréter votre requête

Empêchez le plus possible Google d’interpréter votre requête (sauf par la langue du système d’exploitation de votre ordinateur) en choisissant dans Outils de recherche > Tous les résultats > Mot à mot [57], sans oublier de vous déconnecter de votre compte Google [58], d’indiquer à Google de ne pas non plus mémoriser votre historique de recherche lorsque vous n’êtes *pas*, cette fois-ci, connecté à votre compte Google ... et de vider vos cookies et l’historique de navigation de votre navigateur web avant de lancer une recherche, voire de lancer dans votre navigateur une session de navigation privée [59]

2.5. Rechercher sur une période

Restreignez si nécessaire les résultats à une période de temps. C’est très utile quand on cherche des articles de presse. Ou lorsqu’on veut se situer avant ou après une réforme législative ou une jurisprudence marquante.

Pour utiliser à fond cette fonctionnalité, il faut passer par l’interface simple de Google (la recherche avancée n’offre pas la possibilité de spécifier l’intervalle de temps exact que l’on désire) et cliquer sur Outils de recherche > Date indifférente > Période personnalisée [60] [61].

2.6. Ouvrir les résultats dans une nouvelle fenêtre ou un nouvel onglet

Ouvrez les résultats dans une nouvelle fenêtre ou un nouvel onglet, de manière à garder sous la main la liste des résultats. Pour cela : faites un clic droit sur le lien qui vous intéresse, puis un clic gauche sur "Ouvrir dans une nouvelle fenêtre/onglet".

2.7. Les moteurs spécialisés de Google

S’il n’y a pas de résultat intéressant dans l’onglet Web de Google, regardez :

2.8. Toujours rien ?

Pour creuser sur Google, voyez Pour aller plus loin à la fin de cet article.

Mais souvenez-vous : comme expliqué supra (voir 1.1.2.), tout n’est pas sur le Web/dans Google. Loin de là. Il y a aussi les bases de données payantes, les journaux, les ouvrages disponibles dans les bibliothèques et centres de documentation (à commencer par votre bibliothèque municipale), les bibliothécaires documentalistes, votre mémoire, votre capacité de raisonnement/votre logique à vous, vos collègues et relations professionnelles (par téléphone, email etc.) ...

3. Cinq exemples de recherche futée ou experte dans Google

1er exemple

Ici, nous allons chercher des articles en matière de cookies parus dans la revue Expertises, une revue de droit de l’informatique et d’Internet [62].

Cette revue a un site web (expertises.info) et les sommaires y sont présents en accès gratuit. Ce qui signifie que Google indexe les titres de ces articles.

Voici comment interroger rapidement les sommaires de la revue Expertises sur le site de la revue :
- 1. réfléchissez aux mots-clés à utiliser pour votre recherche : les juristes s’expriment en général en bon français. C’est ce que j’appelle "l’étape zéro" dans une méthode de recherche
Ici, un dictionnaire de traduction peut être utile — le Larousse anglais-français par exemple — mais il faudra le compléter par le site de la CNIL. Cookie en français se dit donc mouchard ou traceur
- 2. déconnectez-vous de votre compte Google (si vous en avez un). En effet, Google biaise ses résultats en fonction de vos recherches passées
- 3. allez sur la page d’accueil de Google en français
- 4. tapez les mots-clés en reliant les synonymes par OR (en majuscules) : cookies OR mouchards OR traceurs
- 5. limitez la recherche au site www.expertises.info (NB : Google ne prend en compte que des noms de domaine, pas des pages profondes) en tapant : site:expertises.info
- 6. votre recherche doit ressembler à ceci : cookies OR traceurs OR mouchards site:expertises.info
- 7. lancez la recherche
- 8. lisez les résultats. Regardez bien les caractères verts : ils vous indiquent le site d’où vient chaque résultat. Si c’est un site universitaire (univ-) ou officiel (.gouv.fr), c’est un gage de qualité
- 9. pour ceux qui vous intéressent : clic droit > Ouvrir le lien dans un nouvel onglet. Comme ça, vous ne perdez pas votre liste de résultats et votre recherche.

2e exemple

Vous devez réunir des documents sur le travail le dimanche.

Suivez les étapes 1 à 9 supra.

Cela devrait donner ceci : "travail le dimanche" OR "travail du dimanche" OR "travail dominical" OR "dérogation au repos dominical" OR 3132

Complétez ces résultats avec des documents en PDF : "travail le dimanche" OR "travail du dimanche" OR "travail dominical" OR "dérogation au repos dominical" OR 3132 filetype:pdf

NB : l’efficacité de la synonymie automatique de Google est telle que travail le dimanche tout court suffit presque. Surtout avec filetype:pdf.

3e exemple

C’est l’employeur qui préside le comité d’entreprise. Peut-il y venir accompagné de trois collaborateurs au lieu de deux comme le prévoit le Code du travail ?

Vérifier d’abord l’article pertinent du Code. C’est le L. 2325-1. Il faut vérifier les termes qu’il emploie, qui sont très certainement ceux qu’emploieront des commentaires bien juridiques. Le truc consiste à ne pas reprendre le mot "deux" car ici c’est "trois" que l’on cherche.
Taper dans Google :
comité d’entreprise employeur trois collaborateurs

La première réponse est la bonne. Elle vient d’une page en libre accès du Lamy Droit du comité d’entreprise disponible sur le site WK-RH.

4e exemple

Chercher des documents de tout type sur la position dominante sur le site de la Commission européenne.

position dominante site:ec.europa.eu inurl:competition filetype:pdf

5e exemple

Trouver la bibliographie complète de Peter Tomka, juge à la Cour internationale de Justice (CIJ/ICJ) de la Haye.

Pour arriver à coup sûr sur une liste quasi-exhaustive des publications de P. Tomka, il faut :

  • être précis et choisir le bon mot. Ici, ce n’est pas bibliographie mais publications
  • deviner dans quel type de document cette bibliographie devrait se trouver et quel sera le format de fichier de ce documents. Ici, en fait, nous cherchons des biographies, mais d’une certaine longueur et à caractère officiel, donc au format PDF. En effet, souvent, à la fin d’une biographie se trouve la liste des publications :
    Peter Tomka publications filetype:pdf.

Ce qui donne en premier résultat la biographie en PDF du juge sur le site de la CIJ et , en bas de cette biographie, on trouve une véritable liste des publications de P. Tomka – qui plus est probablement exhaustive ou presque.

4. Pour aller plus loin

- Sur le Blog du Modérateur :

- Des aides et tutoriels venant de Google :

- Selected Google Commands, par Karen Blakeman, mis à jour en janvier 2018 [63]

- Blog de FLA Consultants : mettez vous à jour avec leurs tout derniers billets sur Google.

- Utilisez d’autres moteurs, principalement Bing (le concurrent de chez Microsoft [64]) et Exalead (pour les sites français et francophones) [65], voire StartPage (ex-Ixquick) [66] et les métamoteurs de recherche de personnes. Pour information, DuckDuckGo, dont on parle beaucoup, respecte certes votre vie privée, mais ses performances sont très limitées sur les pages web en langue française. Quant à Qwant, les résultats de ce moteur franco-allemand proviennent d’abord de Bing [67] et de Wikipedia. Toutefois, tout comme DuckDuckGo, il ne garde aucune trace de vos recherches, et ses résultats en langue française sont bien meilleurs que ceux de DuckDuckGo.

- Voyez nos articles Utiliser Google à 100%, surtout la bibliographie à la fin parce qu’il commence à dater (2006), et Recherche sur Internet : une méthode (un peu) simplifiée et quelques "philosophies", notamment la méthode des "autorités". Allez (entre autres) voir ailleurs sur le Web (annuaires thématiques de sites, Legifrance, Servicepublic.fr, bases de données payantes, Isidore, Cairn, Revues.org, Theses.fr etc.), réfléchissez une deuxième fois à vos mots-clés ou passez à un autre media (prenez votre téléphone ou votre logiciel de messagerie, par exemple, pour appeler un collègue ou demander conseil à un expert) ...

Emmanuel Barthe
documentaliste juridique, veilleur, webmestre, formateur à la recherche en ligne


Solutions pour se constituer ou partager une base de données juridique professionnelle

Moteurs de recherche, CMS, GED ...

Mercredi 16 mai 2018

Lire la suite »

Tout est parti d’une question posée sur la liste de discussion Juriconnexion par un avocat solo sur les outils à la disposition des cabinets pour créer leur propre base de données juridique (jurisprudence, articles, etc...). En clair, y a-t-il des produits ou solutions à recommander qui permettent le la recherche et le partage avec d’autres collègues/confrères, voire l’exportation/importation automatique de données ?

De manière générale, il n’existe pas à ma connaissance de produit sur étagère ni a fortiori d’application gratuite qui ferait tout cela et marcherait tout seul. Mais qui en fassent une partie assez facilement, oui.

Si plus de 300 documents ou que vous ne partagez pas de réseau local, il faut envisager du cloud, un (gros) logiciel de gestion électronique de documents (GED) ou un site web partagé doté d’un CMS et/ou d’un moteur de recherche.

Simple, facile et rapide

- Moins de 300 à 500 documents ? Si vous êtes en réseau local Windows ou Apple et que le nombre de documents est faible (moins de quelques centaines), les bons vieux répertoires suffisent. Pour moteur de recherche, prenez celui de l’Explorateur Windows.

- Mettre les documents sur un espace Google ou autre cloud (testez Cozy Cloud par exemple, il est français et ne vend pas vos données) et partager les codes d’accès.
L’avis de Beatriz Chatain, knowledge manager du cabinet d’avocats CMS-BFL [68] : « Les solutions de type Google Drive [69] ont l’intérêt de pouvoir être collaboratives mais au bout d’un moment, le problème de volume peut se poser aussi et donc il faudra payer. Le montant devrait toutefois être moins important qu’un outil ad hoc de type GED. Attention quand même aux accès et à la sécurité ... »

Difficulté moyenne, nettement plus personnalisé

- Le logiciel MediaWiki qui "propulse" Wikipedia a été plusieurs fois utilisé pour de telles bases. Par exemple pour la base de doctrine du Barreau, dite la Grande Bibliothèque du Droit (GBD). MediaWiki n’est pas forcément simple à installer [70], mais après, il suffit de créer une nouvelle page puis de copier coller le document dedans.

- Le portail et logiciel documentaire PMB de la société PMB Services. Selon la description de ma collègue Carole Guelfucci, « plusieurs cabinets d’avocats utilisent ce logiciel libre. A l’origine, PMB est un logiciel plutôt dédié aux bibliothèques (publiques) mais avec de la personnalisation, il peut tout à fait s’adapter à la gestion d’unités documentaires de toutes sortes comme la jurisprudence ou la doctrine.
PMB est un logiciel libre donc gratuit dans l’absolu. Néanmoins, pour son paramétrage et sa personnalisation et pour obtenir un portail qui corresponde aux attentes, il est conseillé de se faire aider, en l’occurrence par le prestataire PMB Services..
On ne paye pas de licence mais du service. Le coût de la solution dépend du degré de personnalisation. Plus qu’une base de données de connaissances, on obtient dans ce cas un véritable portail documentaire. Tout dépend alors de la nature du projet »
Un point important : il existe un club bien actif des utilisateurs juridiques de PMB. Les comptes-rendus de ses réunions sont disponibles sur le blog de Carole.

- SharePoint de Microsoft est un logiciel de gestion de contenu ("content management System"", CMS) pour intranets. Comme le rappelle Beatriz Chatain, il permet de réaliser des arborescences, est collaboratif et peut être utilisé assez "rapidement" sans développement particulier. L’avantage de SharePoint en entreprise, c’est que la licence SharePoint est souvent déjà incluse dans la licence Office globale négociée par la firme.

- Le moteur de recherche et d’indexation dtSearch. Cette solution est, selon le traducteur Jean-Marie Le Ray, « la Rolls-Royce des moteurs de ce genre ». Disponible en plusieurs déclinaison, la version de base (dtSearch Desktop with Spider – single user) est à 199 USD. Après on passe à 1000, 2500 USD et plus. Il est possible avec dtSearch desktop with Spider d’indexer tout le contenu de son ordinateur local et/ou d’un site web, et d’effectuer des recherches à distance. Une version de dtSearch peut même fonctionner sur les très puissants hébergements cloud AWS (Amazon Web Services) et Microsoft Azure.
Leur slogan ("Find anything, anywhere, instantly !") n’est pas usurpé : J.M. Le Ray dit utiliser ce produit depuis des années et avoir indexé avec 20 tera-octest de données texte (des centaines de millions de termes indexés). De plus, selon lui, le processus d’indexation est extrêmement rapide.
Un des spécialistes français de dtSearch est le traducteur Dominique Pivard.

Ambitieux et très puissant

- Pour un professionnel solo ou une petite équipe, la base de données Open Avocat montée par l’avocat spécialiste du contentieux des accidents médicaux Dimitri Philopoulos, et qui réutilise Legifrance, est un bon exemple de ce qui est possible pour un coût très faible.
Mais attention : pour les données Legifrance, elles sont en XML. Leur traitement optimal demande des compétences informatiques

- Pour une grosse structure, rappelle Beatriz Chastain, « les systèmes de GED de type iManage (ex-MailSite, ex-FileSite) permettent de gérer des arborescences assez finement construites avec des fonctionnalités très développées. C’est ce que les cabinets de grande taille ont en général, mais c’est cher ».

Une remarque personnelle : l’absence de produit simple à part les "drives" des "clouds" — que d’anglicismes ! — laisse un peu de place pour un produit web centré autour d’un moteur de recherche efficace, rapide et sécurisé par code d’accès. Cela dit, le moteur, c’est toute la difficulté : des qu’on veut de l’optimisé, sauf exception à la dtSearch, ça a tendance à chiffrer.

NB : si vous voulez garder les décisions au format PDF, c’est possible, mais les moteurs de recherche sont moins bons ou plus chers.

Des contacts et des SSII

- Aller faire un tour un soir à une réunion Open Law. Il y a dans ce forum beaucoup de contacts à prendre et de trucs à échanger.

- Plusieurs legal tech ont des compétences dans ces domaines mais celles-ci ne sont pas gratuites. Des sociétés connues ? Luxia, Lexbase, Doctrine.fr ... (liste non exhaustive, merci aux membres de la liste de compléter).

- Faire appel à un documentaliste indépendant pour élaborer une solution peut permettre de mettre en place quelque chose de pratique et pas très cher. Pour une liste des documentalistes indépendants, voir sur ce blog notre billet Documentalistes juridiques free lance et autres indépendants du secteur de l’information juridique. Et là, comme le souligne ma collègue Carole Guelfucci, PMB peut être un choix de logiciel, l’importance de la prestation de service de la société PMB pouvant étre réduite par les connaissances du documentaliste. La société PMB a d’ailleurs l’habitude de travailler avec des bibliothécaires documentalistes.

D’autres pistes ? Les commentaires sont ouverts.

Emmanuel Barthe
documentaliste juridique


Chercher du droit avec Google : un guide rapide et facile ... avec maître Yoda

10 règles à connaître pour les apprentis Jedi de la recherche juridique

Samedi 17 février 2018

Lire la suite »

— Aujourd’hui nous recevons Maître Eolas ... Pardon , c’est Maître Mô ... Ah non finalement ce sera Maître Yoda pour nous apprendre à maîtriser la force de Google ;-) dans les recherches juridiques.
Maître Yoda, c’est à vous.

— Merci, jeune padawan.
La règle zéro, d’abord tu maîtriseras.

0. A tes mots-clés, au moins 30 secondes, tu réfléchiras

Comment c’est écrit dans les documents que tu cherches, tu essaieras de deviner. Le vocabulaire de ce que tu veux trouver, tu imiteras.

Exemple : si des commentaires rédigés par des juristes tu cherches, tu taperas : formation contrat de travail à durée déterminée. Et non pas : comment conclure un CDD.

Exemple : si juste une synthèse pratique des règles du contrat de travail à durée déterminée (CDD) pour Monsieur ou Madame Tout le monde tu cherches, simplement tu taperas : CDD.


1. Pour mot-clé, l’expression juridique à la fois la plus pertinente et la plus "tarte à la crème" (la plus classique) tu emploieras

Exemple : responsabilité du dirigeant.
Pas : responsabilité PDG (plus précis mais pas assez "tarte à la crème" en droit français). Bien sûr, si la responsabilité du président de SAS tu cherches, responsabilité du président de SAS tu taperas.

Exemple : modification de la situation juridique de l’employeur.
Pas : changement d’employeur. Sauf si un particulier tu es et que des documents parlant ton langage tu veux.

Exemple : si tu cherches si un dirigeant peut se faire accompagner au comité d’entreprise par trois collaborateurs et non deux comme écrit dans le Code du travail, tu écriras : comité d’entreprise employeur trois collaborateurs. Et non : deux collaborateurs. Car c’est l’expression dominante sur le Web dans ce contexte (du fait que l’essentiel des documents se contentent de répéter le Code du travail) et les résultats de Google cela influence [71].

2. Plus de trois mots-clés tu taperas

Si une question précise tu as, en entier tape la. Les résultats eux aussi plus précis seront.

3. Par les suggestions de Google, influencer tu ne te laisseras pas

Dans une recherche basique, aux particuliers, les expressions suggérées par Google utiles peuvent être. Aux juristes, pas vraiment.

4. Si des résultats à côté de la plaque Google te renvoie, le mode Mot à mot tu utiliseras

La majeure partie des "interprétations" des questions par Google Mot à mot désactive. Pour y accéder, sous la zone de saisie, à droite, sur Outils, puis Tous les résultats puis Mot à mot, cliquer il faut.

5. Le filetype:pdf presque toujours tu tenteras

A la fin de ta question filetype:pdf tu ajouteras. Histoire de voir si des articles de niveau universitaire et des rapports officiels ça ne ramène pas. Autrement dit : du contenu fiable et de qualité, pas le côté obscur de l’Internet.

6. Google Books tu consulteras

Très très précieux, ça, jeune apprenti. Même si les ouvrages ne sont pas disponibles en entier, sur une question précise les paragraphes visibles sont souvent suffisant.

7. Jusqu’à au moins le 30e résultat toujours tu iras

Voire le 100e résultat. Si, si !

Statistiquement, si tes mots-clés tu as bien choisis et si les filtres et opérateurs de Google tu as bien utilisés, les bons résultats ont 90% de chances de se situer dans les 10 premiers résultats. Mais 9% de se situer entre le 11e et le 30e. Et 1% entre le 30e et le 100e [72].

8. A interroger Google Scholar tu penseras

Surtout si le droit international public, le droit comparé, les libertés publiques, les droits de l’Homme ou le droit de l’Internet tu pratiques [73]

9. (pour les experts) Les opérateurs et les guillemets avec modération tu emploieras

Car la synonymie automatique de Google cela désactive.

Exemple : "modification de la situation juridique de l’employeur" OR "transfert du contrat de travail" OR 122-12 OR 1224-1 le coup vaut, car très efficacement sur les résultats cette formulation juridique influe.

Mais "émission de télévision" "responsabilité civile", bien moins intéressant est par rapport à émission de télévision responsabilité civile.

10. (pour les étudiants en droit et les particuliers) De Google seul rarement tu te contenteras

Un livre de base, une base de données, une plateforme de revues universitaires (Cairn, voire OpenEdition Journals, ex-Revues.org) ou un avocat tu consulteras. Moins cher qu’un 4/20 en contrôle continu ou qu’un procès perdu cela te coûtera.

— Mais Maître, vous avez triché. Vous avez donné 11 enseignements et non 10 !

— C’était pour voir si attentif tu étais !


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 33

Dernières brèves