Pour la recherche avancée et les opérateurs booléens dans les bases de données et moteurs de recherche

Users to publishers : "Don’t kill boolean operators !"

Vendredi 31 août 2018, par Emmanuel Barthe // L’édition juridique

Les éditeurs de bases de données, plateformes en ligne et moteurs de recherche sont régulièrement tentés de supprimer les opérateurs booléens (ET, OU, SAUF, * ...) et la recherche avancée (champ Titre, champ Mots-clés etc.).

Certains ont déjà succombé à cette tentation. Un oubli plus que gênant puisque la qualité et la rapidité des recherches en sont dégradées.

En effet, l’expérience montre que c’est le classement par pertinence ET les opérateurs booléens qui font les meilleures recherches et les meilleures veilles.

Leurs utilisateurs et clients professionnels de haut niveau — et même certains de niveau basique — en font les frais et s’en plaignent [1].

Et ce n’est pas le traitement du langage naturel (NLP) version machine learning (ML), aussi efficace soit-il (et il l’est), qui changera ça. Quant à la personnalisation des résultats, sa version actuelle me laisse rêveur et celle promise par le ML ne prévoit ni la connexion IP [2] ni le cas fréquent où on cherche quelque chose d’inhabituel. La possibilité de tweaker à fond une requête en texte intégral pur TOUT en bénéficiant des dernières technologies de synonymie automatique et de ranking (classement des résultats) est LA clé de la recherche.

Trop de boîte noire, de personnalisation des résultats et de simplicité tue la recherche, la vraie.

Les professionnels et les universitaires ne sont PAS des consommateurs qui cherchent un voyage en solde pour Acapulco ou la brosse à dent la moins chère. Leurs besoins sont nettement plus complexes.

Même des particuliers peuvent avoir besoin de tweaker une recherche de temps à autre. C’est ce que je viens de faire pour trouver un fauteuil/chaise design orange à dos droit d’un style bien précis. La fonction recherche par image de Google "is my friend". Et c’est aussi de la recherche avancée [3].

Emmanuel Barthe
geek et testeur de moteurs since 1991


English summary :

I am an information and monitoring professional with more than 25 years of experience behind me.

I am a big supporter of Boolean operators and other advanced search engine features. Because all my past experience proves that the alliance of machine learning and NPL doesn’t do better than my human knowledge of how to choose words and combine them.

And because Google and the like are available to everyone — while our employers are ready to pay for something that can do better than Google and the like.

That alone should be enough to convince publishers and all the professional databases sector to maintain operators and to allow their customers to use as freely as possible those operators.

Notes de bas de page

[1Et les facettes dans la liste de résultats ne règlent pas le problème.

[2A moins d’une seconde authentification, personnelle celle-là, et hyper casse-pieds pour le gestionnaire de l’abonnement comme pour l’utilisateur.

[3Pour enfoncer le clou, et m’adresser aux éditeurs qui rétorquent souvent qu’il faut faire comme Google (après tout, c’est un de leurs concurrents de facto ...) : Google a maintenu ses rares opérateurs booléens et la grande majorité de ses champs/filtres de recherche textuelle — il a certes fallu à un moment une forte pression des "recherchistes" (terme québécois). Google maintient le OR alors même qu’il a perdu une bonne part de son intérêt depuis l’amélioration des performances sémantiques de l’algorithme (synonymie automatique). Pour plus de détails, voyez mon commentaire sous le billet suivant : More on OR : the Google Boolean Dilemma par Irina Shamaeva, Boolean Strings, 17 avril 2017.

Répondre à cet article

5 Messages

  • Bonjour Emmanuel et merci pour ce petit coup de gueule ! Je me sens moins seule. Je donne des cours de stratégie de recherche dans les bases de données juridiques aux étudiants en master de mon Université et je désespère de la "googlisation" des moteurs de ces bases de données. Je suis une "Fada" des opérateurs de proximité, seul rempart à mon humble avis pour pallier le manque d’indexation humaine (mots-clés) et retrouver des concepts dans le texte intégral

    repondre message

    • Bonjour Emmanuelle,
      Lorsque je dis avoir encore besoin, pour certaines recherches, de ces outils que sont les opérateurs booléens, la si précieuse proximité, les troncatures… "on" me répond que ces recherches sont "statistiquement" marginales (Pour qui ? Par pour celui qui en a besoin en tout cas. Le sont-elles tant que cela ?) et que je pourrai(s) arriver aux même résultat avec les nouveaux algorithmes automatisés de recherche, de classement… Cela viendra peut-être. Force est de constater pour l’instant que ce n’est pas si évident dans certains cas. Pourquoi vouloir remplacer un fonctionnement par un autre là ou on pourrait faire cohabiter différents types de fonctionnement qui ont chacun avantages et limites ? Il ne s’agit pas ici d’une résistance au progrès (qui apporte de nouvelles fonctionnalités utiles, de nouvelles approches de la documentation) mais d’une constatation née d’une pratique régulière, certes universitaire (économiquement peu intéressante ?), de la documentation - juridique principalement.
      Désolé pour la longueur du message :-)

      repondre message

      • L’usage des opérateurs et des versions avancées des moteurs sur les bases de données est très minoritaire. C’est un fait connu.

        Mais qui sont ces 2% ? La réponse, nous la connaissons également :
        — les veilleurs professionnels, qui fournissent en panoramas et revues de presse les dirigeants des grandes entreprises françaises et des cabinets de consultants, avocats etc.
        — les documentalistes. Ce sont elles/eux qui doivent résoudre les questions impossibles posées par leurs dirigeants, les services de leur entreprise et les clients et pas moyen de le faire sans opérateurs booléens et version avancée des moteurs. Mieux : ils/elles sont les gestionnaires des budgets bases de données et donnent leur avis sur le renouvellement des abonnements ...
        — certains utilisateurs experts - si, si, ils/elles existent. Et ceux-là sont intolérants quand on leur supprime leurs fonctionnalités préférées. J’ai des avocats qui se plaignent encore amèrement du changement radical de version d’un éditeur juridique bien connu ... et l’utilisent moins à cause de ça

        En résumé et pour faire simple, ces 2%, ce sont des professionnels :
        — qui savent de quoi ils parlent, très concrètement
        — qui travaillent pour des gens influents.

        Donc, quand ces gens disent aux éditeurs juridiques français que leurs DSI/consultants/chefs de projet se gourent, eh bien, les éditeurs écoutent quand même. Ils sont tiraillés — parce que supprimer les versions avancées leur ferait faire des économies — mais grosso modo, ils tiennent compte.

        Au fait, quel est le moteur de recherche le plus utilisé et le plus connu au monde ?

        Google.

        Et est-ce que Google a supprimé ses opérateurs et sa sa version avancée ?

        Non. Il a même créé une option en 2011 pour désactiver son algorithme de machine learning appliqué au langage (Outils > Mot à mot) à la demande expresse et forte des "search experts" de tous pays. Voir Google Introduces Verbatim Searching Industry, Search Engine Watch, 18 novembre 2011.

        Alors ?

        PS : mon prénom est normalement eau masculin :-) Encore un coup du correcteur orthographoque ;-) ?

        repondre message