Google Dataset Search (bêta) : une marge de progression importante

Le portail Etalab pourrait aider

Mardi 18 septembre 2018, par Emmanuel Barthe // Portails juridiques officiels - Diffusion des données juridiques publiques

Simon Chignard d’Etalab a testé Google Dataset Search (GDS) (encore en version bêta) et en livre un compte-rendu sur son blog [1].

Google Dataset Search (GDS) est le nouveau moteur de recherche de jeux de données open data développé par Google AI. Dataset se traduit par "jeu de données" en français.

Le test de S. Chignard

Pour une présentation de GDS, lire le billet de Nature https://www.nature.com/articles/d41586-018-06201-x [2]

L’évaluation de Simon Chignard est décevante. Principalement :

  • « comme cela a déjà été souligné par d’autres, notamment ce billet de Singapour [en fait le bibliothécaire geek américain Aaron Tay, billet *très* intéressant] l’expérience utilisateur n’est pas à la hauteur de la qualité à laquelle Google nous avait habitué, même en mode bêta. Ici le moteur ne propose ni recherche par facette, ni tri selon la date de fraîcheur ou format de fichier par exemple. C’est minimaliste. »
  • « il n’y a pas de miracle : la découvrabilité des données est un problème complexe que Google, malgré sa bonne volonté et son expertise n’a pas (encore) réussi à résoudre. »

Cependant, comme le rappelle Frédéric Charles de Suez Smart Solutions (voir le fil de discussion Twitter), « Google c’est le pur mode agile. On pose un MVP [produit minimum viable], on regarde les usages, on coupe ou on développe. Donc ce n’est qu’une première "flavor" [3] de ce qu’ils peuvent faire ».

Test personnel sur le juridique

J’ai testé GDS sur mon domaine. Je rejoins S. Chignard. Sur le droit et les données juridiques publiques, ce n’est pas encore ça :-( Ainsi, taper le mot-clé "droit" https://toolbox.google.com/datasetsearch/search?query=droit&docid=5H10VrhD%2BqcVLOxTAAAAAA%3D%3D … devrait amener dans les premiers résultats les jeux de données publiés par Legifrance, la Cour de cassation, le ministère de la Justice et Conseil d’Etat. Eh bien non, aucun.

Avec "cassation", c’est la cata : https://toolbox.google.com/datasetsearch/search?query=cassation&docid=YrLq%2Fxfj8PzLTwoqAAAAAA%3D%3D … "justice" fait à peine mieux.
Pour permettre l’évaluation de ces résultats de GDS, voici ce que le moteur devrait trouver avec ces mots-clés :
https://www.data.gouv.fr/fr/search/?q=justice
https://www.data.gouv.fr/fr/search/?q=cassation
https://www.data.gouv.fr/fr/search/?q=jurisprudence

On le voit, data.gouv.fr est très mal indexé par GDS. S. Chignard confirme : « Pour data.gouv.fr par exemple, Google Dataset Search a amené la semaine dernière un peu plus de 550 visites ... sur un total de 81 000. »

Data.gouv.fr peut lui aussi mieux faire

En défense de Google Dataset Search, il faut reconnaître que les datasets juridiques de data.gouv.fr ne sont pas toujours accompagnés des bons mots-clés :

  • par exemple, sur la page du jeu de données Jurisprudence anonymisée de la Cour des comptes (2006-2008 et 2010-2015) … le mot "droit" n’apparaît pas dans le texte de présentation
  • le droit, le juridique n’est même pas une catégorie thématique du portail d’Etalab. Clairement, data.gouv.fr pourrait bénéficier d’un classement thématique plus précis, plus détaillé, et avec des sous-classes — un seul sous-niveau pourrait suffire à mon avis.

En discutant sur Twitter avec un formateur SEO de Google, Vincent Courson, et S. Chignard, je cerne un peu mieux les causes et remèdes possibles — mais ça reste en partie du domaine de la supputation.

Vincent Courson fait remarquer qu’au début de Google, le moteur s’appuyait fortement sur le déclaratif des gérants de sites web (les balises méta [4] titre et description) pour comprendre de quoi parlait une page web. Aujourd’hui, le moteur va beaucoup plus loin en se baant sur beaucoup d’autres signaux, et préfère d’ailleurs les signaux réels (contenu des textes, champ lexical, images, etc...) plutôt que les signaux déclaratifs. C’est notamment l’effet du NLP (traitement du langage naturel) à la sauce ML (machine learning) implémenté par Google.

Pour S. Chignard la question est : quels sont les signaux réellement pertinents pour les jeux de données ? La pertinence du Page Rank tenant en partie à l’analyse des liens, ce n’est pas forcément aisé à ce stade pour les données puisque par définition il y aura peu de liens vers un jeu de données (un document ayant lui un sens, attirera beaucoup plus de liens).

Cela dit, désormais, le PR n’est plus du tout un facteur majoritaire pour Google Search. Mais cette évolution du moteur a pris des années. C’est peut-être le temps qu’il faudra à GDS, avance Vincent Courson.

Sinon, il estime que le balisage Schema peut servir pour indiquer les détails sur la "coquille" elle-même : titre, keywords, owner, etc... Mais pour autant, il se baserait plutôt sur l’analyse de la data elle-même, plutôt que la coquille.

C’est vrai, le contenu réel est plus pertinent et n’importe quel site peut tricher sur son texte de présentation et ses métadonnées. Il faudrait donc se baser sur le seul jeu de données ?

Je ne pense pas. Je me dis :

  • que certains jeux ayant une masse énorme, cela peut rendre le travail d’indexation extrêmement lourd et difficile
  • et qu’ici une part importante des sites sont des sites officiels, peu susceptibles du jeu malsain consistant à tricher sur la description et les métadonnées des pages. Et les algorithmes le "savent" puisque c’est marqué dans les URLs desdits sites (.gouv.fr).

En résumé, le travail de description thématique par les sites officiels de leurs jeux de données reste à mon avis une piste importante pour améliorer la pertinence des recherches de datasets — et d’ailleurs, pour tous les moteurs du Web.

Souci à long terme ?

Aaron Tay conclut son billet de manière très claire : « Leaving Google dataset search as the one and only comprehensive dataset search is dangerous, Google is a commercial company and could at any time shutter the service. There has been recent talk about the need for open infrastructure on top of open data and open access and clearly the same holds for dataset search tools. »

S. Chignard redoute que les sites officiels se fassent quasiment déposséder de facto de leurs jeux de données : « Il sera alors temps de se poser la question du risque de désintermédiation des plateformes open data au profit du moteur de recherche » Pas faux.

Emmanuel Barthe
recherchiste juridique, veilleur

Notes de bas de page

[2Google unveils search engine for open data, par Davide Castelvecchi, Nature.com, 5 septembre 2018.

[3Avant-goût, pour les non anglophones.

[4Les fameux meta-tags.

Répondre à cet article