Pour la recherche avancée et les opérateurs booléens dans les bases de données et moteurs de recherche

Lundi 17 avril 2017, par Emmanuel Barthe // L’édition juridique

Les éditeurs de bases de données, plateformes en ligne et moteurs de recherche sont régulièrement tentés de supprimer les opérateurs booléens et la recherche.

Certains ont déjà succombé à cette tentation. Un oubli plus que gênant puisque la qualité et la rapidité des recherches en sont dégradées.

En effet, l’expérience montre que c’est le classement par pertinence ET les opérateurs booléens qui font les meilleures recherches et les meilleures veilles.

Leurs utilisateurs et clients professionnels de haut niveau — et même certains de niveau basique — en font les frais et s’en plaignent [1].

Et ce n’est pas le traitement du langage naturel (NLP) version machine learning (ML), aussi efficace soit-il (et il l’est), qui changera ça. Quant à la personnalisation des résultats, sa version actuelle me laisse rêveur et celle promise par le ML ne prévoit ni la connexion IP [2] ni le cas fréquent où on cherche quelque chose d’inhabituel. La possibilité de tweaker à fond une requête en texte intégral pur TOUT en bénéficiant des dernières technologies de synonymie automatique et de ranking (classement des résultats) est LA clé de la recherche.

Trop de boîte noire, de personnalisation des résultats et de simplicité tue la recherche, la vraie.

Les professionnels et les universitaires ne sont PAS des consommateurs qui cherchent un voyage en solde pour Acapulco ou la brosse à dent la moins chère. Leurs besoins sont nettement plus complexes.

Même des particuliers peuvent avoir besoin de tweaker une recherche de temps à autre. C’est ce que je viens de faire pour trouver un fauteuil/chaise design orange à dos droit d’un style bien précis. La fonction recherche par image de Google "is my friend". Et c’est aussi de la recherche avancée [3].

Emmanuel Barthe
geek et testeur de moteurs since 1991

Notes de bas de page

[1Et les facettes dans la liste de résultats ne règlent pas le problème.

[2A moins d’une seconde authentification, personnelle celle-là, et hyper casse-pieds pour le gestionnaire de l’abonnement comme pour l’utilisateur.

[3Pour enfoncer le clou, et m’adresser aux éditeurs qui rétorquent souvent qu’il faut faire comme Google (après tout, c’est un de leurs concurrents de facto ...) : Google a maintenu ses rares opérateurs booléens et la grande majorité de ses champs/filtres de recherche textuelle — il a certes fallu à un moment une forte pression des "recherchistes" (terme québécois). Google maintient le OR alors même qu’il a perdu une bonne part de son intérêt depuis l’amélioration des performances sémantiques de l’algorithme (synonymie automatique). Pour plus de détails, voyez mon commentaire sous le billet suivant : More on OR : the Google Boolean Dilemma par Irina Shamaeva, Boolean Strings, 17 avril 2017.

Répondre à cet article

1 Message

  • Bonjour Emmanuel et merci pour ce petit coup de gueule ! Je me sens moins seule. Je donne des cours de stratégie de recherche dans les bases de données juridiques aux étudiants en master de mon Université et je désespère de la "googlisation" des moteurs de ces bases de données. Je suis une "Fada" des opérateurs de proximité, seul rempart à mon humble avis pour pallier le manque d’indexation humaine (mots-clés) et retrouver des concepts dans le texte intégral

    repondre message