Basile, le nouveau moteur de recherche sur les documents du Sénat

Dimanche 29 mai 2005

Le Sénat présente son nouveau moteur de recherche interne, basé sur le moteur Intuition de Sinequa [1] :

  • il s’appelle "Basile"
  • il est enfin capable de chercher sur l’ensemble des documents/du site, ce que celui de l’Assemblée nationale sait déjà faire (mais le tri des résultats du moteur de l’AN n’a aucune pertinence réelle)
  • il aboutit à une meilleure pertinence des résultats par rapport à la question posée
  • il apporte plein d’innovations utiles dans la présentation des listes de résultats et des documents, notamment le surlignage en jeune fluo, dans les documents trouvés, des mots-clés de la recherche.

Les travaux et développements nécessaires ont été effectués en collaboration avec la société Software AG, spécialisée en logiciels de bases de données XML, en utilisant son produit Tamino XML Server.

Très franchement, la qualité de ce travail permet au Sénat de battre Google en pertinence, puissance et finesse de recherche sur ses fonds. Voyez notamment :

  • la limitation de la recherche par date/période, très facile à utiliser et indispensable vu la masse de documents
  • les petits encadrés qui s’affichent lorsqu’on survole un résultat et qui donnent des extraits pertinents du document, évitant ainsi de le télécharger puis de le lire.

Un exemple de cette pertinence : comparez les réponses (avec les paramètres par défaut) à la question énergies renouvelables en recherche globale sur le site du Sénat, avec ceux de Google ou de Yahoo Search, limités au site du Sénat.

Les résultats du moteur du Sénat sont très récents, placent le projet de loi d’orientation sur l’énergie (PLOE) en premier, sortent des questions-réponses ministérielles pertinentes, etc. Il y a quelques réponses non pertinentes dans la première page de résultats, mais rien de trop gênant. Attention toutefois, sur Basile plus que sur Google, à bien aller consulter au moins la deuxième page de résultats, des documents très pertinents pouvant s’y trouver. Sinon, un tri chronologique ou antichronologique est disponible. A recommander en recherche juridique.

On remarque en revanche que, parmi les dix premiers résultats de Google ou de Yahoo Search, aucun ne cite le PLOE, actuellement en discussion — une discussion parlementaire pourtant plutôt animée et durant depuis 2004. Pire, la majorité de ces dix documents date, non de 2004 ou 2005, mais de 1997, 1998, 2000 et 2001 !

Cela s’explique en partie par les paramètres par défaut des trois moteurs : limitation aux 12 derniers mois sur le site du Sénat, alors que Google et Yahoo par défaut cherchent sur toute sa base ... Mais même en comparant la même requête Google sans limitation de date (le champ Date de Google n’est pas fiable) avec Basile remontant jusqu’en 1978, l’avantage pertinence reste clairement au Sénat. Notamment lorsque Basile affiche son quatrième résultat :
« Projet de loi d’orientation sur l’énergie
Tous les documents de ce dossier répondent à votre recherche. »

Dans cet exemple, il manque toutefois, au 9 mai 2005, les comptes-rendus des débats les plus récents au Sénat, tenus du 2 au 4 mai. A ce jeu-là (rapidité d’indexation), Google est meilleur. Il semble qu’on ne pourra pas utiliser le moteur du Sénat pour la veille d’actualité. Ce n’est pas une catastrophe : d’une part, les logiciels de veille sont là pour ça, d’autre part, le lien, dans les premiers résultats, vers le PLOE assure qu’on ne les manquera pas si on est un tant soit peu curieux ou simplement logique dans sa consultation des résultats.

On peut aussi noter, sur Basile, un temps d’affichage des documents assez important, peut-être dû au fait qu’il faut que le serveur calcule la nouvelle version, surlignée, du document.

Pour une présentation plus complète de ce nouveau moteur, ainsi qu’une comparaison avec celui de l’Assemblée nationale, voyez notre article (remis à jour) Sites web parlementaires : Assemblée nationale contre Sénat.

Notes de bas de page

Répondre à cette brève