Logiciels, Internet, moteurs de recherche

Dernier ajout : 18 octobre.

Derniers articles

Google Book Search : des risques pour les bibliothèques

Les centres d’information face aux moteurs : au delà des outils de recherche

Yahoo/Google Answers : les bibliothécaires et les documentalistes font mieux et depuis longtemps

Mercredi 14 décembre 2005

Lire la suite »

Grâce à un billet d’Olivier Ertzscheidt [1] (affordance.info), je viens de tomber sur un magnifique article sur Google Book Search (ex-Google Print), parfaitement argumenté. Et qui me donne envie de préciser la valeur des professionnels de l’information et celles de leurs centres d’information.

Les bibliothèques et centres de documentation sont plus que la somme de leurs ressources

A Risky Gamble with Google / Siva Vaidhyanathan, "assistant professor" de culture et communication à l’Université de New York, The Chronicle Review vol. 52 n° 15 p. B7 (accès réservé sur http://chronicle.com et en accès libre sur le site de l’auteur
http://www.nyu.edu/classes/siva/archives/002445.html)

Quelques citations, que l’on peut résumer ainsi : « Pour leurs utilisateurs, les bibliothèques sont plus que la somme de leurs livres » :


« It means making sense of what a library signifies to a community and the individuals in that community. Libraries are more than resources. They are both places and functions. They are people and institutions, budgets and books, conversations and collections. They are greater than the sum of their books. The presumption that Google’s powers of indexing and access come close to working as a library ignores all that libraries mean to the lives of their users. All the proprietary algorithms in the world are not going to replace them. »

« We need services like that provided by Google Library. But they should be "Library Library" projects. Libraries should not be relinquishing their core duties to private corporations for the sake of expediency. »

« We have become obsessed with seeing everything in the universe as "information" to be linked and ranked. We have focused on quantity and convenience at the expense of the richness and serendipity of the full library experience. We are making a tremendous mistake. »

L’auteur dans sa conclusion soutient que de tels projets devraient être ceux des bibliothèques (une pierre dans le jardin du président de la BNF, Jean-Noël Jeanneney) et il souligne également la richesse, la valeur humaine et politique de la bibliothèque — et aussi du centre de documentation en entreprise ajouterais-je — : le centre d’information construit une communauté humaine et soutient ses valeurs.

A mon avis, pour que de tels projets restent ceux des bibliothécaires et documentalistes, il serait impératif que ceux-ci cessent de laisser aux seuls informaticiens le monopole de l’implémentation des outils documentaires et bibliothéconomiques. L’informatique est suffisamment adulte aujourd’hui pour être à la portée de qui prend le temps de s’y consacrer. Les professionnels de l’information peuvent et doivent se réapproprier les outils informatiques, surtout avec les possibilités offertes par le XML [2] et l’informatique open source actuelle [3]. Mieux, les meilleures équipes peuvent et doivent, tels des chercheurs, créer de nouvelles applications documentaires. C’est ce à quoi appelle, en somme, Leo Waaijers, responsable du projet DAREnet d’accès aux ressources numériques bâties par les universités hollandaises, dans son article From libraries to "libratories" [4]. Après tout, les premiers bibliothécaires étaient d’abord des lettrés, ils maîtrisaient l’écriture, c’est-à-dire l’outil de l’époque.

Siva Vaidhyanathan rappelle ainsi que les fondateurs de la démocratie américaine estimaient que la République ne pouvait survivre sans bibliothèques. Pour ma part, je pense notamment aux animations assurées en bibiliothèque pour les enfants, à la promotion de la lecture publique faite par les bibliothécaires en zones rurales ou banlieue, aux expositions thématiques d’ouvrages sur des sujets comme les droits de l’Homme ou la liberté de la presse. Je pense aussi aux espaces pour que les collégiens, les lycéens et les étudiants puissent faire leurs devoirs, avec les encyclopédies et les conseils des bibliothécaires sous la main. Et surtout, on peut se souvenir de cette atmosphère de travail intellectuel ou bien de ces enfants perdus, heureux, dans leurs bandes dessinées, cette valorisation implicite de la pensée et de la littérature — et d’une pensée et littérature de qualité.

Les centres d’information en tant que sélectionneurs, hiérarchiseurs, fiabiliseurs et interprètes

Côté centres de documentation (ou plutôt documentalistes), on ne les prétendra pas indispensables à la démocratie, mais particulièrement utiles à la circulation d’une information fiable en entreprise. Surtout s’ils sont animés par des professionnels dynamiques et communiquants — ce qu’est la nouvelle génération : le portrait du bibliothécaire documentaliste perdu sous des piles de livres est complètement "à côté de la plaque". Mes collègues et moi assurons des veilles spécialisées, créons des collections d’ouvrages et de revues, des intranets, des bibliothèques numériques et des applications de KM, comme la base de modèles de contrats développée par Carole Guelfucci, documentaliste du cabinet d’avocats Bignon Lebray [5]. Si on veut vraiment comparer avec Google ou une plateforme en ligne, disons que nous faisons de l’humain et de l’adapté là où ils font de l’automatique, et que nous fiabilisons, hiérarchisons et interprétons une information massivement hypertrophiée. On ne peut pas transmettre des informations valables pour des humains sans qu’elles passent par un filtre et interprète humain. Les spécialistes de l’information sont ces filtres. Un bon exemple : la veille, que les moteurs et éditeurs rêvent d’automatiser avec des alertes automatiques sur questions ou sur profil. On déchante vite. Pour plus de détails sur les limites humaines du suivi de l’actualité et les réponses que peut apporter un documentaliste, voir notre article Suivre l’actualité juridique ou Les défis de la veille.

Car les bibliothèques et centres de documentation, ce ne sont pas seulement des documents en accès libre. C’est aussi — et de nos jours de plus en plus — une sélection des meilleurs documents. Malgré tous leurs algorithmes, les moteurs ne sélectionnent rien par eux-mêmes. Seuls les êtres humains sélectionnent. Google et les autres ne sont rien sans la pertinence des liens hypertextes. Et qui tisse tous ces liens si pertinents ? [6]

Incidemment, histoire de prouver que les moteurs n’ont pas l’apanage des solutions informationnelles innovantes, très loin de là [7], voici quelques exemples de services questions-réponses assurés principalement par des bibliothécaires [8]. Ainsi, par exemple, la BNF assure un service appelé SINDBAD (Service d’INformation Des Bibliothécaires A Distance) [9]. Il faut savoir que ce type de service est assuré en bibliothèques publiques et privées depuis des lustres, particulièrement dans les pays anglo-saxons. C’est ce qu’on appelle un service de référence.

La bibliothèque en tant que collection — ce que n’est pas un moteur ni Google Book Search ou Google Library

Sur un plan plus politique, les projets actuels des moteurs amènent des interrogations formulées par des personnes comme John Mason et Alain Giffard [10] :

  • Une documentation avancée pour une bibliothèque au coeur de la production-circulation des savoirs ? / John Mason, Google et la bibliothèque globale, débat virtuel, BPI, 15 juin 2005 : « Le projet de Google nous conduit donc à penser à nouveau la question des rapports entre une conception universaliste et générale voire totalisante de la mémoire, de La Bibliothèque, et une manière de concevoir la mémoire du monde numérique comme un agrégat vivant de mémoires différenciées, elles-mêmes dynamiques et de pratiques d’exploration exploitation de ces mémoires très variées. »
  • Sur la Bibliothèque Numérique Européenne / Alain Giffard (dirige la Mission interministérielle pour l’accès public à la micro-informatique, à l’Internet et au multimédia), Ars Industrialis, séance du 5 novembre 2005, Concepts et pratiques des technologies cognitives à partir de la question des bibliothèques numériques :
    • « Chacune de ces bibliothèques a sa propre organisation, son intelligence de collection, qui seraient inévitablement perdues si tous les livres étaient redistribués dans une collection unique. » Là aussi, je fais le parallèle avec le travail des spécialistes de l’information du secteur privé : pour construire les bibliothèques papier ou numériques des structures qui les emploient, ceux-ci sélectionnent et orientent les acquisitions. Ce caractère est perdu lorsqu’on passe par les seules plateformes en ligne des éditeurs
    • « Absence d’utilisation des liens dans Google Print : il semble bien que le classement [reposera] sur l’audimat et ne sera pas à même de représenter et d’utiliser le réseau des lectures. Google Print s’éloignerait ainsi de l’hypertexte, de la philosophie du web, des idées même de Google. S’ajoute à cela, le parti pris, particulièrement décevant, de traiter séparément le web (Google), les livres numérisés (Google Print), et la littérature grise (Google scholar) : on aurait difficilement pu trouver manière plus rustique d’approcher le moteur de recherche multimédia, qui est au programme de la bibliothèque numérique depuis au moins dix ans. C’est assez cher payer l’abandon du point de vue des bibliothèques — l’oubli de la collection organisée au sein de la collection unique — et des lecteurs considérés, à la différence de la philosophie du web, comme de purs consommateurs. »

Les questions posées valent aussi bien pour Google que pour Yahoo ou MSN. On se demande d’ailleurs s’il ne serait pas temps de promouvoir des moteurs de recherche réellement publics et open source (exemple pour un moteur open source : Nutch, en partie basé sur Lucene et implémenté comme moteur interne sur le portail Droit francophone).

Emmanuel Barthe
documentaliste juridique


"Content is king ..." (Le contenu est roi ...)

Les limites de Google Print/Google Book Search en matière d’ouvrages de droit français

... Mais Google Print ne laisse pas voir le contenu des ouvrages français

Vendredi 2 décembre 2005

Lire la suite »

[mise à jour au 3 mars 2009 : la version 2 de Gallica semble cette fois d’une facilité de maniement proche de celle de Google et beaucoup plus riche en fonctionnalités. Et d’un contenu encore meilleur que sa version 1 décrite ici, notamment en juridique. Lisez l’analyse de Rémy sur ce blog : Gallica contre Google Books : le match !. ]

Google a lancé depuis la rentrée de septembre 2004 son site permettant d’accéder à des fonds documentaires numérisés, Google Print, rebaptisé [11] en novembre 2005 Google Book Search [12] (en français : Google Recherche de livres). Un nom qui désigne plus clairement la fonction de ce service : indexer le contenu de livres et faciliter leur achat sur une librairie en ligne. Cette indexation est accompagnée d’une reproduction (scan image) de la totalité (ouvrage tombé dans le domaine public), quelques pages (ouvrage envoyé par un éditeur, qui collabore volontairement au programme Google Book Search [13]) ou seulement de très courts extraits (ouvrage protégé par le droit d’auteur, scanné dans le cadre du programme Google Library et accessible par le moteur Google Book Search). Pour mieux comprendre les différentes étendues des reproductions, regardez ces captures d’écran.

Google Print/Book Search plus performant que la base Gallica de la BNF

Comme le faisait remarquer sur la liste Juriconnexion
François-Xavier Mérigard, responsable Documentation & Réseaux au cabinet Alerion, une requête droit français trouve un grand nombre de résultats.

Il note :

« Ce qui est étonnant, et qui montre à première vue la supériorité de Google print sur la base Gallica est que l’on tombe sur des résultats directement dans le texte des ouvrages. Sur la base Gallica, les ouvrages numérisés sont indexés uniquement par leur titre. »

Google a pris de l’avance quant aux fonctionnalités. Notamment, Google Print offre un accès en plein texte plus précis, plus rapide et plus ergonomique que Gallica, la base d’ouvrages numérisés de la Bibliothèque nationale de France (BNF). Certes.

Mais Gallica est le résultat du travail d’une bibliothèque de conservation, pas celui d’un centre de documentation branché sur les besoins des utilisateurs professionnels ... Et les fonctionnalités ne sont pas tout. Il y a le contenu, aussi.

Très peu de contenu juridique français (droit français) sur Google Print/Book Search

Sur ce qui est à mes yeux l’essentiel — le contenu —, très peu de choses utiles, pour nous juristes et documentalistes, sont sur Google Book Search. Sur la requête citée "droit français", certes, de nombreux ouvrages sont récents, mais ce ne sont pratiquement que des ouvrages de droit belge ou éventuellement en anglais et qui plus est très universitaires voire théoriques. Gallica ne fait pas mieux cependant, puisque tous ses ouvrages sont très anciens.

De plus, les ouvrages fournis par des éditeurs ne laissent voir en libre accès que quelques pages. Si on veut en voir plus, il faut un compte Google [14] et s’identifier.

Vu la position de Jean-Noël Jeanneney, directeur de la BNF [15] et le refus des éditeurs français par la voix du Syndicat national de l’édition (SNE) [16], et en dépit de l’offensive de séduction menée par Google en direction des acteurs français [17], je ne suis pas très optimiste quant à l’arrivée d’un contenu juridique intéressant — que son texte intégral soit d’accès réservé ou pas — sur Google Print.

A moins que les bibliothèques universitaires françaises ne fassent bande à part ...

Question contenu : des initiatives locales et nationales, les projets concurrents de Bibliothèque nationale européenne, et d’Amazon, Yahoo et Microsoft, et des travaux universitaires

Du contenu d’ouvrages français aisément accessibles en ligne, il y en a ailleurs.

Il y a bien sûr la riposte de la BNF à Google Library (le projet de Bibliothèque numérique européenne, en cours de préparation) [18] et celles de Yahoo (Open Content Alliance) (en projet) et Microsoft [19] (MSN Book Search, annoncé pour 2006).

Il y a déjà et surtout des initiatives bien avancées, elles, et plus pragmatiques, citées par l’Atelier [20] — sans contenu juridique certes :

Enfin, question contenu juridique, parlons aussi :

A ce sujet, il serait utile, d’ailleurs, que les Universités publient sur Internet sans trop de limite les thèses et mémoires (leurs auteurs ne demandent que ça et les juristes sont assez grands pour évaluer la qualité du travail) : cf mon article sur la diffusion des thèses.

Emmanuel Barthe
documentaliste juridique


Auteurs + moteurs = à chaque site web sa chance

L’interaction entre moteurs de recherche et auteurs sur Internet aide à faire sortir du rang les sites mal référencés mais intéressants pour une communauté

Lundi 21 novembre 2005

Lire la suite »

Olivier Ertzscheid, un des meilleurs analystes de la scène de la recherche documentaire numérique (et notamment du futur des moteurs de recherche [24]), se demande sur son blog affordance.info si « les moteurs de recherche [favorisent] les sites déjà bien "référencés" (idée habituellement répandue) » ou si « contre toute attente les moteurs de recherche ont un effet égalitaire, favorisant les sites les moins "vus" » [25].

Mon point de vue de praticien de la recherche documentaire et de la veille : les moteurs à la fois confirment les sites bien référencés dans leur statut et permettent à d’autres d’être découverts et de sortir du rang.

Dans mes recherches, les moteurs favorisent plus souvent les sites déjà populaires, mais ils me sortent également de temps à autre des sites très peu connus *et* de qualité et ce dans les trente premiers résultats. Il suffit dès lors que je parle de certains d’entre eux sur mon annuaire ou sur mon blog et du fait que mon site est bien référencé, ils grimpent dans le "ranking" [26].

Voilà comment j’interprète la chose : un membre d’une communauté virtuelle, même portant sur un sujet peu vaste ou très pointu, repère un site intéressant pour cette communauté et aussitôt, il va le sortir des résultats, ce site inintéressant pour les autres communautés, pour en parler, le référencer, le citer ou le bloguer. Ce site web sort alors de l’anonymat.

Tout est dans l’interaction entre les moteurs et les auteurs présents sur le Web, qui créent les liens que les moteurs indexeront ensuite. Mais les moteurs ne sont plus les seuls moyens de trouver de l’information. Certains spécialistes de l’information ne cherchent déjà plus, ils trouvent, toujours grâce aux auteurs de blogs (RSS, blogrolls, techniques de visualisation) mais aussi parce qu’ils sont eux-mêmes auteurs (commentaires laissés sur leur blog, referers) [27]

Pour trouver, il ne suffit plus de chercher, il faut aussi participer.

Emmanuel Barthe


1 | ... | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30

Dernières brèves