Logiciels, Internet, moteurs de recherche

Dernier ajout : 25 septembre 2019.

Derniers articles

Sarchy : A New Hope in Search

A new implementation of the not-so-young, open source search engine YaCy

Jeudi 28 mars 2019

Lire la suite »

Sarchy (URL : sarchy.tech) is an intriguing faceted search engine (with RSS saved search) based on the open source YaCy search engine and developped by Agnel Vishal (Twitter @agnelvishal), a developper from Chennai in the Tamil Nadu region of India. Sarchy has been detected by one of the best French monitoring specialists, Christophe Deschamps (TW @crid ; blog Outils Froids) and relayed by Serge Courrier (TW @secou) of RSS Circus, another French monitoring specialist.

Sarchy is based on the (rather old) YaCy open source search engine

Sarchy is not really a newcomer. It is based on the open source search engine YaCy, which is already 8 years old. YaCy is a distributed peer-to-peer search engine written by a team of German developers. The source code is hosted on GitHub. According to its web site, « you don’t need to install external databases or a web server, everything is already included ».

To be honest, I tested a YaCy implementation some years ago and I wasn’t impressed at the time. And Sarchy’s performances, especially the width of its index (for instance, it indexes quite slowly and poorly the lemonde.fr domain) doesn’t make it competitive in any way with Google or Bing. Nevertheless, *this* implementation of YaCy is very interesting.

According to Agnel Vishal :

  • Sarchy is a fork of YaCy. YaCy does not use pagerank algorithm but Sarchy uses one. Also, Vishal says he uses social media statistics as a ranking parameter
  • Sarchy’s index is a part of Yacy P2P network, but at the same time, Sarchy makes YaCy’s index accessible as a webapp [1]
  • the total number of web pages in YaCy’s index is around 1,7 billion. Sarchy launched a week back and has 2,43 million webpages
  • he plans to increase the crawl speed by 30 times within 2 to 3 weeks
  • he got 3000 USD Google cloud credits thanks to YC startup school. He hopes to get revenues in advertisements and donations before the cloud credits gets over. Let’s hope he will be able to obtain that or other financing in the near future.

As Serge Courrier signals, one can integer RSS feeds. Also, there is a desktop version of Yacy.

And, as argued by YaCy’s lead developper and the Free Software Foundation Europe (FSFE), which supported the YaCy project, this peer-to-peer search engine doesn’t monitor your search and doesn’t do targeted advertising [2]

Relevancy still an issue

I have just tested Sarchy with my favorite, French law oriented, test query — and some others.

The (limited compared to competitors) content indexed is of good quality in my experience. But in the legal field, at the very least, relevancy on Sarchy remains an issue. Sarchy, contrary to Google, does not seem able to guess a query’s context, not even know the query words’ synonyms (in other words, Sarchy doesn’t do machine learning version of natural language processing.

I reckon that, for the time being, relevancy is hampered by the lack of indexed content. In the legal field, I would suggest better, relevancy oriented indexing of official, Gov’t and public institutions web sites (they have good, though free, quality content and Sarchy already indexes them or at least knows their domains).

Agnel Vishal answered my remark : as soon as one searches for a page/site, the crawler automatically starts crawling related pages. To me, that’s a very good idea : it keeps the index from indexing unnecessay pages. But at the same time, there is an associated spamdexing risk. In turn, YaCy’s Twitter account explained that YaCy does link reloading to verify that the presented link actually contains the searched words to protect against spam indexes.

Of course, link reloading, content checking and a distributed architecture mean that response time is somewhat slow (4-5 seconds on an enterprise Internet connection). But I didn’t find it that annoying.

According to Vishal, in order to get faster results, the whole database is not scanned the first time a given search is done. One should try the same query 30 seconds later and may see more webpages.

Also, since relevancy is still somewhat limited (according to my tests), it would be very useful to explain clearly somewhere on the home page what Sarchy’s operators are. The simple use of quotes (" ") on Sarchy is a big bonus to relevancy.

Looking at YaCy self-hosted engine presentation, using it as an alternative to Google CSE is possible.

Search operators and filters

As in Google, one can use site :http://justice.gouv.fr to get results from that domain. For example : https://sarchy.tech/yacysearch.html?query=site%3Ajustice.gouv.fr&Enter=&contentdom=all&strictContentDom=false&former=justice.gouv.fr+site%3Ajustice.gouv.fr&maximumRecords=10&startRecord=0&verify=ifexist&resource=global&nav=all&prefermaskfilter=&depth=0&constraint=&meanCount=0&timezoneOffset=-330

Good to know : YaCy search operators are detailed on its wiki.

One of the main advantage of Sarchy over YaCy’s own portal is its facets (left column in the results page) : domains, year, language ... These suggestions on how to refine your search are practical and relevant. Also, Sarchy works. While YaCy Search is not, right now.

Vishal says search operators list will be added to Sarchy’s home page in 24 hours. It will have location, date, distance between words etc.

What’s funny is that less than two weeks after Sarchy was spotted by Christophe Deschamps, Ahrefs [3] CEO Dmitry Gerasimenko tweeted he wants to build a new search engine with the collaboration of publishers and other online content makers ... [4] Although most SEOs who answered his thread are skeptic, with the growing success of Duck Duck Go and in our French and German lands Qwant, it could be the sign of something serious. The business model he proposes, at least, makes sense.

Emmanuel Barthe
French law librarian reseearcher, monitoring/CI specialist
search engine enthusiast (ex-Google de facto evangelist, ca. 1997, still a Google specialist for law research)

More info about YaCy and Sarchy’s implementation

Legifrance et les autres n’ont pas de fil RSS ? Gênant mais contournable

Créer un flux RSS pour un site web qui n’en possède pas

Les services de création de fils RSS recommandés

Mercredi 30 janvier 2019

Lire la suite »

Les sites officiels et le RSS

Certains (doit on dire beaucoup ?) se plaignent que ne figurent toujours pas de flux RSS (je peux les comprendre !) sur beaucoup de sites publics — et non des moindres, comme Legifrance (à part le sommaire par e-mail du JORF, mais l’e-mail est hors concours dans cet article :-) [5] ou les sites des Bulletins officiels.

Seuls les sites éloignés de France ou au minimum de son administration semblent avoir plus de liberté pour créer des fonctions de veille. Exemples :

On a plus généralement l’impression que les sites publics ont interdiction de créer des fonctionnalités de veille — même basiques comme les alertes e-mail, les newsletters et les fil RSS [6]. Alors que le grand public et les associations — et pas seulement les professionnels — en ont besoin. Et la diffusion du droit ne s’en porterait pas plus mal ...

Pour les plus pressés et ceux que la technique effraie, ils peuvent récupérer des fils déjà créés grâce aux services précités. Mais ils sont très rares. Un exemple : les circulaires, un service créé par Guillaume Adréani, ex-responsable de la documentation du Défenseur des droits, grâce au service Feed43 : circulaire.legifrance.gouv.fr (ce flux fonctionne très bien).

Certains services en ligne permettent de contourner ce manque : ce sont des services de création de fils RSS. Ils créent des flux RSS à partir de quasiment n’importe quelle page web.

Les services de création de fils RSS recommandés

Voici les services de création de fils RSS recommandés et utilisés par la communauté des veilleurs français.

- Gratuits (plus ou moins) :

  • Feed43, un service assez technique mais puissant : expressions régulières acceptées, création d’un nombre illimité de flux, avec une mise à jour toutes les six heures. Version payante avec mise à jour toutes les heures
  • Fivefilters Feed Creator : limité à 10 résultats par fil. On peut acheter le logiciel pour l’installer sur son propre serveur à partir de 20 euros
  • Politepol : version gratuite limitée à 20 fils et des versions payantes. Par le développeur biélorusse Alexandr Nesterenko
  • Deltafeed. Une version gratuite limitée à 15 fils et des versions payantes. Deltafeed est le travail d’un développeur Allemand
  • Queryfeed : très simple d’utilisation : tapez les mots recherchés, lancez, vous obtenez le flux RSS, copiez-collez le dans votre lecteur RSS (voir le mode d’emploi du RSS infra). Il offre un grand nombre d’opérateurs et de champs mais se restreint à convertir en RSS les postes Twitter et Instagram. Malgré ce nom très américain, le développeur de Queryfeed est russe. Selon lui, le site gère 1,5 million de requêtes par jour
  • dernier arrivé : Exileed permet de créer des fils RSS pour les seuls réseaux sociaux suivants : Vkontakte (le développeur d’Exileed est lui aussi russe), Google+, Twitter, Instagram, Facebook, Youtube, Tumblr, Periscope et d’autres.

- Entièrement payants, plus "industriels", avec essai gratuit [7] :

  • Feed43 : voir supra. Je le classe ici aussi, vu la puissance de ses fonctionnalités
  • Feedity : un service facile à utiliser, des millions de requêtes par jour, des références prestigieuses. La version gratuite de Feedity est très limitée, le rafraichissement ne se fait qu’une fois par jour, ne ramène que les 5 dernières actus par jour et surtout, le fil se désactive s’il n’y a rien eu de neuf depuis 7 jours sur la page [8]. C’est généralement insuffisant. C’est pourquoi je l’ai listé dans les services payants
  • FetchRSS (ajouté, cf les commentaires infra) : la version gratuite étant très limitée [9], c’est fondamentalement un service payant. Très simple d’utilisation, il offre en option un délimiteur (pour créer un fil RSS ne fonctionnant qu’à partir des modifications d’une partie de la page suivie) et gère les grands réseaux sociaux : Facebook, Twitter, YouTube, SoundCloud, Instagram et les deux grands sites marchands que sont Amazon et eBay.

Attention, les grands réseaux sociaux ont supprimé leurs fils RSS natifs, il faut donc passer par les solutions alternatives recommandées par la communauté :

A noter (mais assez complexe à mettre en oeuvre) : il est possible de créer un fil RSS à partir des résultats d’un Google Search Engine (GSE). Voir l’article Créer des flux RSS sur Google Search via Google Custom Search Engine (mai 2016) rédigé par des étudiants du Master Intelligence Economique et Stratégies Compétitives de l’Université d’Angers.

Pour trouver de nouveaux services de création de fils RSS

Des pistes pour trouver d’autres services de création de flux RSS :

  • consultez cette page de Bryan Coder, veilleur professionnel et formateur, tient à jour une liste de presque tous les services qui fonctionnent bien à l’heure actuelle : Tout ce qu’il faut savoir pour obtenir des flux RSS sur le web 2.0. Cette page est un travail remarquable bourré de trucs pratiques. Je la recommande
  • consultez la slide très élaborée publiée par Serge Courrier sur son Slideshare : Schéma d’une plateforme de veille "modulaire" 100% RSS (màj 24 novembre 2016)
  • suivez le Scoopit dédié au RSS du même Serge Courrier RSS Circus : les agrégateurs/lecteurs de flux [10], le RSS va t-il mourir (il n’est pas près de décéder en réalité), les services de création de fils RSS etc.
  • ou cherchez avec la requête "web page" OR HTML to OR create OR generator RSS dans un moteur comme Exalead, Google ou Bing. Exemple avec Google : web page to OR create OR generator RSS.

Et pour votre veille sur le RSS, abonnez vous :

Ok, j’ai un fil RSS. Maintenant, j’en fais quoi ?

A l’aide d’un des outils mentionnés plus haut, vous avez créé un flux RSS. Ce que vous voyez dans votre navigateur web, c’est du code avec une adresse (URL) au-dessus.

Voilà ce qu’il y a "sous le capot" dans un fil RSS. Ca a l’air compliqué, mais non : on y trouve le titre de la page nouvellement publiée (title), sa description, le lien pour y aller (link), ici un lien vers un tweet. Au-dessus, l’adresse (URL) du flux. C’est ça qu’on va copier-coller dans le lecteur RSS

Il ne vous reste plus qu’à copier-coller l’adresse du flux RSS au bon endroit dans votre lecteur/agrégateur de flux RSS. Un lecteur RSS comme The Old Reader (gratuit jusqu’à 100 fils), Feedly, Inoreader (payant mais le meilleur lecteur RSS en termes de fonctionnalités à l’heure actuelle) ou Netvibes (gratuit, fonctions avancées payantes) et le tour est joué.

Notez qu’on peut, avec certains outil filtrer par mots-clés les fils RSS reçus avant de les renvoyer, toujours en RSS. Voir à cet égard :

Et si vraiment, in fine, on veut recevoir ça par email, on passe par un service "RSS to Mail" :

Tout ça est un peu compliqué, certes, mais nécessité fait loi. Et puis, on n’a plus tellement le choix : si un bibliothécaire/documentaliste/veilleur/chercheur n’est pas un geek aujourd’hui, quel peut être son avenir professionnel à long terme ?

Emmanuel Barthe
bibliothécaire documentaliste et veilleur juridique

Géoblocage RGPD : accédez aux sites américains inaccessibles

Comment contourner le contournement

Mardi 14 août 2018

Lire la suite »

J’adore lire les articles en ligne de la presse américaine. Leur rigueur dans la dissociation entre faits et commentaires, la richesse de leurs enquêtes de terrain, leur capacité à traiter des sujets sur lesquels la presse française est d’un frileux ...

Malheureusement, depuis l’entrée en application du règlement européen de protection des données personnelles (RGPD) le 25 mai [11], des dizaines de sites américains interdisent aux ordinateurs et appareils basés en Europe de consulter leur contenu.

Cela concerne des journaux prestigieux comme le Los Angeles Times ou le Saint-Louis Post Dispatch [12] (essentiellement des titres du groupe de presse américain Tronc) mais aussi le site Instapaper — rival de Pocket, il permet de sauvegarder des pages web.

Au total, d’après un article du site Nieman Journalism Lab, plus de 1000 sites américains sont encore non disponibles depuis l’Europe, deux mois après que le RGPD est entré en application.

De plus, les sites de presse canadiens refusent de plus en plus les connexions depuis l’Europe à cause du RGPD. Deux accès récemment refusés pour RGPD :
www.journaldemontreal.com et www.tvanouvelles.ca

Les éditeurs (américains) de ces sites, confrontés aux risques de condamnation créés par le RGPD, ont choisi de les esquiver en refusant toute connexion depuis l’Europe, plutôt que de se mettre en conformité.

Voici trois solutions, deux trucs pour contourner ce "géoblocage" :

Bonne navigation quand même.

Emmanuel Barthe
documentaliste, formateur

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 35

Dernières brèves