"Content is king ..." (Le contenu est roi ...)

Les limites de Google Print/Google Book Search en matière d’ouvrages de droit français

... Mais Google Print ne laisse pas voir le contenu des ouvrages français

Vendredi 2 décembre 2005, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

[mise à jour au 3 mars 2009 : la version 2 de Gallica semble cette fois d’une facilité de maniement proche de celle de Google et beaucoup plus riche en fonctionnalités. Et d’un contenu encore meilleur que sa version 1 décrite ici, notamment en juridique. Lisez l’analyse de Rémy sur ce blog : Gallica contre Google Books : le match !. ]

Google a lancé depuis la rentrée de septembre 2004 son site permettant d’accéder à des fonds documentaires numérisés, Google Print, rebaptisé [1] en novembre 2005 Google Book Search [2] (en français : Google Recherche de livres). Un nom qui désigne plus clairement la fonction de ce service : indexer le contenu de livres et faciliter leur achat sur une librairie en ligne. Cette indexation est accompagnée d’une reproduction (scan image) de la totalité (ouvrage tombé dans le domaine public), quelques pages (ouvrage envoyé par un éditeur, qui collabore volontairement au programme Google Book Search [3]) ou seulement de très courts extraits (ouvrage protégé par le droit d’auteur, scanné dans le cadre du programme Google Library et accessible par le moteur Google Book Search). Pour mieux comprendre les différentes étendues des reproductions, regardez ces captures d’écran.

Google Print/Book Search plus performant que la base Gallica de la BNF

Comme le faisait remarquer sur la liste Juriconnexion
François-Xavier Mérigard, responsable Documentation & Réseaux au cabinet Alerion, une requête droit français trouve un grand nombre de résultats.

Il note :

« Ce qui est étonnant, et qui montre à première vue la supériorité de Google print sur la base Gallica est que l’on tombe sur des résultats directement dans le texte des ouvrages. Sur la base Gallica, les ouvrages numérisés sont indexés uniquement par leur titre. »

Google a pris de l’avance quant aux fonctionnalités. Notamment, Google Print offre un accès en plein texte plus précis, plus rapide et plus ergonomique que Gallica, la base d’ouvrages numérisés de la Bibliothèque nationale de France (BNF). Certes.

Mais Gallica est le résultat du travail d’une bibliothèque de conservation, pas celui d’un centre de documentation branché sur les besoins des utilisateurs professionnels ... Et les fonctionnalités ne sont pas tout. Il y a le contenu, aussi.

Très peu de contenu juridique français (droit français) sur Google Print/Book Search

Sur ce qui est à mes yeux l’essentiel — le contenu —, très peu de choses utiles, pour nous juristes et documentalistes, sont sur Google Book Search. Sur la requête citée "droit français", certes, de nombreux ouvrages sont récents, mais ce ne sont pratiquement que des ouvrages de droit belge ou éventuellement en anglais et qui plus est très universitaires voire théoriques. Gallica ne fait pas mieux cependant, puisque tous ses ouvrages sont très anciens.

De plus, les ouvrages fournis par des éditeurs ne laissent voir en libre accès que quelques pages. Si on veut en voir plus, il faut un compte Google [4] et s’identifier.

Vu la position de Jean-Noël Jeanneney, directeur de la BNF [5] et le refus des éditeurs français par la voix du Syndicat national de l’édition (SNE) [6], et en dépit de l’offensive de séduction menée par Google en direction des acteurs français [7], je ne suis pas très optimiste quant à l’arrivée d’un contenu juridique intéressant — que son texte intégral soit d’accès réservé ou pas — sur Google Print.

A moins que les bibliothèques universitaires françaises ne fassent bande à part ...

Question contenu : des initiatives locales et nationales, les projets concurrents de Bibliothèque nationale européenne, et d’Amazon, Yahoo et Microsoft, et des travaux universitaires

Du contenu d’ouvrages français aisément accessibles en ligne, il y en a ailleurs.

Il y a bien sûr la riposte de la BNF à Google Library (le projet de Bibliothèque numérique européenne, en cours de préparation) [8] et celles de Yahoo (Open Content Alliance) (en projet) et Microsoft [9] (MSN Book Search, annoncé pour 2006).

Il y a déjà et surtout des initiatives bien avancées, elles, et plus pragmatiques, citées par l’Atelier [10] — sans contenu juridique certes :

Enfin, question contenu juridique, parlons aussi :

A ce sujet, il serait utile, d’ailleurs, que les Universités publient sur Internet sans trop de limite les thèses et mémoires (leurs auteurs ne demandent que ça et les juristes sont assez grands pour évaluer la qualité du travail) : cf mon article sur la diffusion des thèses.

Emmanuel Barthe
documentaliste juridique

Notes de bas de page

[1Google Print devient Google Book Search / L’Atelier, 21 octobre 2005.

[2Ne pas confondre Google Print/Book Search avec le projet Google Library, qui vise à numériser les fonds de grandes bibliothèques anglo-saxonnes. Un excellente présentation des différences entre les deux programmes est faite par l’article Once Again — The Difference Between Google Print & Google Library posté le 7 novembre 2005 par Danny Sullivan sur SearchEngineWatch. Cet article permet aussi de clarifier les problèmes que pose Google Library (et non Google Print) en termes de droit d’auteur américain.

[4Un compte Gmail suffit.

[5Jean-Noël Jeanneney : L’intelligence, l’innovation ne sont pas seulement outre-Atlantique !, propos recueillis par Emmanuel de Roux, Le Monde, 5 mars 2005.

[6Serge Eyrolles, président du Syndicat national de l’édition : « Tant que nous n’aurons pas d’assurance digne de ce nom quant au risque de piratage, la plupart des éditeurs français refuseront d’y aller. »

[7Lire notamment "Nous voulons pouvoir travailler avec des bibliothèques françaises", un entretien avec Eric Schmidt, PDG de Google (propos recueillis par Jean-Baptiste Su) paru sur LExpansion.com, 26 mai 2005 et l’article de Frédéric Roussel Google, le nouvel ogre de la littérature. Entre parenthèses, Frédéric Roussel confond lui aussi Google Print et Google Library.

[8Sur un autre type de média que le livre, c’est-à-dire Internet, la BNF est aussi dans le projet d’International Internet Preservation Consortium (IIPC) réalisé en partenariat avec l’Internet Archive.

[10Les projets alternatifs : plusieurs existent déjà ... / Jean de Chambure, L’Atelier 17 juin 2005.

[12DjVu est un format de fichier numérique destiné à la reproduisant des docuemnts papier et doté d’un fort taux de compression pour faciliter le stockage et la distribution sur les réseaux numériques et tout particulièrement Internet. DjVu a été développé à l’origine par les laboratoires d’AT&T. Il est téléchargeable sur le site de LizardTech, son éditeur.

Répondre à cet article