Référencer et archiver le contenu de qualité

Sauver les sites perso et les (vrais) blogs

Google les ignore et le link-rot les guette. Mais tout n’est pas perdu

Mardi 19 avril 2022, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

Je suis fatigué des injonctions de Google sur comment mon site doit être pour être bien classé dans ses résultats [1] et pour être lu [2]. Ajoutez que faire refaire son site coûte cher pour un particulier [3]. Google Web Search a t’il donc perdu tout intérêt pour le contenu un tant soit peu personnel (et non institutionnel) et sa valeur ?

Les SEO ont gagné, les petits sites ont perdu : le "search" recule

De mon point de vue de spécialiste du contenu de valeur, Google, en privilégiant les sites super ergonomiques et optimisés pour appareils mobiles, favorise des sites aux moyens financiers supérieurs à ceux des blogs de spécialistes et de particuliers.

Il fut un temps où Google damait le pion aux spamdexing et aux SEO, et indexait et "rankait" très correctement les blogs. Mais, pour reprendre le mot du corbeau dans le célèbre poème d’Edgar Allan Poe : « Nevermore » [4]. Les SEO (spécialistes du référencement et de l’optimisation des sites web pour les moteurs de recherche) et les webmestres des sites et blogs d’entreprise ont gagné face à Google [5]. Leur méthode ? Donner l’impression d’un contenu de qualité avec liens (mais en même temps faire la promotion habile et discrète de produits/sociétés). Sans même parler des réseaux sociaux, des trolls et des "people" qui ont envahi Internet avec leur soupe.

Sur le fond, ce fameux "contenu" de blog ou de presse bien "ranké" [6] ne vaut pas un clou. Il est trop court, sans nuance ni estomac, il drague le lecteur sans lui apporter d’avis tranché [7].

Je m’en doute, personne d’influent chez Google ne lira cette diatribe/humeur/protestation [8] et aucun concurrent valable au moteur de recherche américain n’en naîtra. Je parle dans le vide, pour que ceci soit au moins noté quelque part [9]. J’espère qu’au moins les habitués de ce blog me liront.

Une quarantaine de billets "stars" mis à part [10] , le reste de mon blog est "for the record" et une petite liste de lecteurs fidèles. Désormais, mes nouveaux billets sont une archive, en somme, de mes débats sur Twitter et quelque chose de mieux mis en page et mieux indexé donc plus facilement "trouvable" — on y revient toujours, malgré tout — par les moteurs de recherche (à condition de savoir exactement ce que l’on cherche).

Avoir abandonné les répertoires de liens et autres blogrolls, avoir tout misé sur les moteurs et les avoir laissé faire est un échec des spécialistes de l’information (documentalistes, bibliothécaires, archivistes, veilleurs, journalistes, éditeurs, auteurs) — un échec compréhensible face à la masse démentielle de sites, pages web et publications sur les réseaux sociaux et au coût de leur indexation. Mais cet échec est aussi une erreur des politiques, qui n’ont pas soutenu d’alternatives européennes sérieuses dans le domaine des moteurs de recherche [11].

Cataloguer, indexer et rédiger des notes de bas de page et des bibliographies : keep calm and carry on

Heureusement, ces mêmes spécialistes de l’information continuent à référencer dans leur coin et aussi en ligne.

Heureusement aussi, les notes de bas de page et autres bibliographies demeurent obligatoires dans les articles et ouvrages sérieux. [12]

Pourquoi « heureusement » ?

Parce que tout ce véritable et énorme "système d’information" hérité de la galaxie Gutenberg va s’avérer tout aussi utile à l’avenir que par le passé.

Car si la mission affichée de Google est d’ « organiser les informations à l’échelle mondiale dans le but de les rendre accessibles et utiles à tous », une partie de cette "mission" n’est pas et ne sera pas remplie. Oui, Google a amélioré ses algorithmes de NLP (traitement du langage naturel) à base de machine learning (BERT etc.). Mais les SEO et le torrent de contenu de qualité moyenne à mauvaise sont inarrêtables. Et Google a abandonné en partie sa mission, en tout cas celle de la recherche puissante et dans le détail. La mission réelle de Google [13] n’est plus d’organiser le savoir en ligne, mais de gérer une régie publicitaire [14].

Et puis, au-delà du "search", archiver, conserver, classer, référencer, de fait, ne sont pas l’objet de Google. Plus qu’a son échec face au rédactionnel et au SEO relevé plus haut, on le voit à son abandon de sa copie de l’annuaire généraliste de sites web DMOZ (Google Directory) puis de son lecteur de flux RSS (Google Reader) ou à la faible durée de ses copies cache (environ un mois).

Auteurs, bibliothécaires, blogueurs, éditeurs de petites revues : archivez !

Comme le dit geekiviste : « J’ai récemment fait le tour de nombreux liens et URL que j’avais mis de côté ces 7 dernières années. Il se trouve que l’immense majorité des liens et des sites étaient morts (70+% à vue de nez). Une perte énorme de connaissances professionnelles. »

En effet. Pour certains "papers" clés, je télécharge ou j’ "imprime" en PDF. Et ne pas oublier que Gallica (BNF) et Archive.org archivent le web. Pour mémoire, bookmarker [15] ne crée pas de version de sauvegarde — l’application Pocket (que j’utilise désormais pour mes coups de coeur personnels [16]) non plus.

Et comme le recommande Jean Gasnault (La Loi des Ours) : « se faire référencer dans les sites publics dont la conservation est une des principales missions, comme avec HAL ou se tourner vers les archives privées ».

Pour les avocats, la Grande Bibliothèque du Droit (GBD), qui récemment s’est beaucoup améliorée, est un site à rejoindre, puisque sa mission est de mettre en valeur leurs écrits. Pour les autres professions juridiques, une réflexion à ouvrir sans doute ...

Ce n’est pas seulement pour sauvegarder le contenu de qualité que les sites d’archivage sont précieux mais aussi parce qu’ils offrent un très bon référencement (SEO). Ils répondent ainsi également au problème soulevé au début de ce billet

Ce qui m’amène à me demander : est-ce que l’open access (mais pas les revues prédatrices) n’est pas indirectement l’archive, le système de classement et de référence du futur ? C’est possible.

Une dernière piste — que personnellement je privilégie — noter ce qui est à garder ou le résumer dans une base de savoir interne ou sur son site personnel. Si la page web disparaît, au moins, vous ne perdez pas les informations essentielles qu’elle contenait.

Tout n’est donc pas perdu. Au deux sens du terme.

Emmanuel Barthe
bibliothécaire documentaliste, veilleur

Notes de bas de page

[1Selon l’outil d’analyse SEO Google sur mon site : version mobile nécessaire, trop de liens etc.

[2La paresse de lecture des internautes — au-delà de deux secondes de temps de chargement, ils iraient ailleurs ... — n’est à mes yeux pas une raison pour déclasser des pages pertinentes et de grand intérêt.

[3Entre 500 et 1500 euros selon l’importance du site et le prestataire. Encore cette gamme de tarif suppose-t-elle que le site soit dynamique (le contenu des pages sort d’une base de données) et non statique.

[4Nevermore : jamais plus. The Raven, par Edgar Allan Poe.

[5Google Search Is Dying, DKB.io, 15 février 2022. Is Reddit a better search engine than Google ?, par Mark Sullivan, Fast Company, 18 février 2022. Is Google Search Worse ? Many Seem to Agree, par Roger Montti, Search Engine Journal, 22 avril 2022. La recherche sur Google se meurt, et maintenant ?, par Carole Tisserand-Barthole, blog Bases Netsources, 30 mars 2022.

[6Celui-ci, de blog, n’est pas bien ranké, sauf sur des thématiques extrêmement rares et étroites — et encore, ça dépend des mots-clés utilisés. Par exemple, il n’apparaît jamais dans les 20 premiers résultats de la requête documentaliste juridique (avec ou sans guillemets) sur Google, alors même que plusieurs billets importants traitent de l’évolution de cette profession et des techniques qu’elle emploie.

[7Voir : La Littérature sans estomac, par Pierre Jourde, 2002.

[8En anglais : rant.

[9« For the record », diraient les Anglo-Saxons.

[11Non, hélas, ni Quaero ni Qwant ne sont des alternatives sérieuses.

[12Vous avez dû remarquer l’importance des notes de bas de page sur ce blog. C’est essentiel : elles prouvent que mes citations ne sont pas inventées. Et si le page citée disparaît, ses références bibliographiques (titre, auteur, source, date) aideront à la retrouver tout autant que son URL (adresse web).

[13Autrement dit, là où se situe l’essentiel de ses revenus, son modèle d’affaires ("business model").

[14Google Search Is Dying, DKB.io, 15 février 2022. La recherche sur Google se meurt, et maintenant ?, par Carole Tisserand-Barthole, blog Bases Netsources, 30 mars 2022.

[15Créer un favori/signet dans son navigateur.

[16Pour mes sites professionnels favoris, je passe encore par le bookmark.

Répondre à cet article