Actualités : derniers articles

Sarchy : A New Hope in Search

A new implementation of the not-so-young, open source search engine YaCy

Vendredi 15 mars 2019

Sarchy sarchy.condense.press is an intriguing faceted search engine (with RSS saved search) based on the open source YaCy search engine and developped by Agnel Vishal (Twitter @agnelvishal), a developper from Chennai in the Tamil Nadu region of India. Sarchy has been detected by one of the best French monitoring specialists, Christophe Deschamps (TW @crid ; blog Outils Froids) and relayed by Serge Courrier (TW @secou) of RSS Circus, another French monitoring specialist.

Sarchy is based on the (rather old) YaCy open source search engine

Sarchy is not really a newcomer. It is based on the open source search engine YaCy, which is already 8 years old. YaCy is a distributed peer-to-peer search engine written by a team of German developers. The source code is hosted on GitHub. According to its web site, « you don’t need to install external databases or a web server, everything is already included ».

To be honest, I tested a YaCy implementation some years ago and I wasn’t impressed at the time. But *this* time it’s somewhat different. This implementation of YaCy *is* very interesting.

According to Agnel Vishal :

  • Sarchy is a fork of YaCy. YaCy does not use pagerank algorithm but Sarchy uses one. Also, Vishal says he uses social media statistics as a ranking parameter
  • Sarchy’s index is a part of Yacy P2P network, but at the same time, Sarchy makes YaCy’s index accessible as a webapp [1]
  • the total number of web pages in YaCy’s index is around 1,7 billion. Sarchy launched a week back and has 2,43 million webpages
  • he plans to increase the crawl speed by 30 times within 2 to 3 weeks
  • he got 3000 USD Google cloud credits thanks to YC startup school. He hopes to get revenues in advertisements and donations before the cloud credits gets over. Let’s hope he will be able to obtain that or other financing in the near future.

As Serge Courrier signals, one can integer RSS feeds. Also, there is a desktop version of Yacy.

And, as argued by YaCy’s lead developper and the Free Software Foundation Europe (FSFE), which supported the YaCy project, this peer-to-peer search engine doesn’t monitor your search and doesn’t do targeted advertising [2]

Relevancy still an issue

I have just tested Sarchy with my favorite, French law oriented, test query — and some others.

The (limited compared to competitors) content indexed is of good quality in my experience. But in the legal field, at the very least, relevancy on Sarchy remains an issue. Sarchy, contrary to Google, does not seem able to guess a query’s context, not even know the query words’ synonyms (in other words, Sarchy doesn’t do machine learning version of natural language processing.

I reckon that, for the time being, relevancy is hampered by the lack of indexed content. In the legal field, I would suggest better, relevancy oriented indexing of official, Gov’t and public institutions web sites (they have good, though free, quality content and Sarchy already indexes them or at least knows their domains).

Agnel Vishal answered my remark : as soon as one searches for a page/site, the crawler automatically starts crawling related pages. To me, that’s a very good idea : it keeps the index from indexing unnecessay pages. But at the same time, there is an associated spamdexing risk. In turn, YaCy’s Twitter account explained that YaCy does link reloading to verify that the presented link actually contains the searched words to protect against spam indexes.

Of course, link reloading, content checking and a distributed architecture mean that response time is somewhat slow (4-5 seconds on an enterprise Internet connection). But I didn’t find it that annoying.

According to Vishal, in order to get faster results, the whole database is not scanned the first time a given search is done. One should try the same query 30 seconds later and may see more webpages.

Also, since relevancy is still somewhat limited (according to my tests), it would be very useful to explain clearly somewhere on the home page what Sarchy’s operators are. The simple use of quotes (" ") on Sarchy is a big bonus to relevancy.

Looking at YaCy self-hosted engine presentation, using it as an alternative to Google CSE is possible.

Search operators and filters

As in Google, one can use site :http://justice.gouv.fr to get results from that domain. For example : https://sarchy.condense.press/yacysearch.html?query=site%3Ajustice.gouv.fr&Enter=&contentdom=all&strictContentDom=false&former=justice.gouv.fr+site%3Ajustice.gouv.fr&maximumRecords=10&startRecord=0&verify=ifexist&resource=global&nav=all&prefermaskfilter=&depth=0&constraint=&meanCount=0&timezoneOffset=-330

Good to know : YaCy search operators are detailed on its wiki.

One of the main advantage of Sarchy over YaCy’s own portal is its facets (left column in the results page) : domains, year, language ... These suggestions on how to refine your search are practical and relevant. Also, Sarchy works. While YaCy Search is not, right now.

Vishal says search operators list will be added to Sarchy’s home page in 24 hours. It will have location, date, distance between words etc.

More info about YaCy and Sarchy’s implementation

Emmanuel Barthe
French law librarian reseearcher, monitoring/CI specialist
search engine enthusiast (ex-Google de facto evangelist, ca. 1997, still a Google specialist for law research)


Le Canard est mal barré

Pourquoi le Canard enchaîné devrait évoluer — et pas qu’un peu

Jeudi 14 mars 2019

Le Canard Enchaîné est une institution de la presse française. A plus d’un titre :

  • lancé le 10 septembre 1915, c’est un des plus vieux titres de presse français vivant [3]
  • il est très rentable (pour un organe de presse) et possède assez de réserves financières pour vivre pendant plus de cinq ans sans aucune recette.

Le risque

Le Canard refuse de passer en ligne. C’est une position bien ancrée chez eux. Le comble de ce refus est qu’en fait, le Canard enchaîné a bien une appli, mais réservée aux clients hors UE et Suisse !

Du point de vue de certains veilleurs, s’il ne passe pas en numérique, le Canard Enchaîné va mourir insensiblement, très lentement mais très sûrement en une dizaine d’années [4]. Pourquoi ? Parce que :

Le remède

Pourtant, le Canard pourrait parfaitement être rentable en ligne :

  • son prix est (très) bon marché : 60 euros TTC par an l’abonnement (Mediapart est à 132 euros). Il pourrait donc financer son passage en ligne soit avec ses réserves financières soit par une augmentation du prix de son abonnement
  • Mediapart, lancé en 2008 et qui a atteint son point mort dès 2011, en a fait la démonstration avec ses excellents résultats financiers 2017 : la spécialisation/les niches permettent aux pure players de s’en sortir [6]
  • à part la Lettre A et Mediapart, le Canard n’a plus d’autre concurrent sur le segment des "affaires". Marianne n’est plus vraiment un concurrent sur ce segment.

Emmanuel Barthe
veilleur presse

PS : attention, mettons-nous bien d’accord, je n’ai pas écrit que toute la presse pure player est par définition rentable. Loin de là : des initiatives originales et de qualité ont actuellement de grandes difficultés [7]. La presse, quand elle n’exploite pas certains filons en nombre très limité — comme les affaires politico-économico-financières ou les "people" — a besoin d’investisseurs prêts à la soutenir contre vents et marées, qu’ils agissent par conviction, par intérêt ou par souci d’influence [8].


De la nature duale de la référence en droit

Avec un peu de "FCIL"

Vendredi 8 mars 2019

Facade du bâtiment du Bundesgerichtsof

Juristes, documentalistes, attention, quand vous transmettez ou cherchez des références. Elles ne sont pas forcément ce que vous croyez ...

J’apprécie les recherches en droit étranger et international. C’est une véritable matière à elle seule [9], que les anglo-saxons désignent sous le nom de "Foreign, Comparative and International Law" (FCIL).

Je cherchais donc cet arrêt de la juridiction judiciaire suprême allemande, le Bundesgerichtshof (Cour fédérale de justice) : BGH, WuW/E DE-R ...

Mais tel quel, il est très difficile de le trouver sur le site de la BGH.

C’est normal : en fait, il manque la date de l’arrêt et la référence est en fait à un recueil officiel.

Voici la référence complète : BGH v. jj.mm.aaaa, KVR xx/zz, WuW/E DE-R ...

Et là, on trouve.

En fait, en droit allemand, c’est un peu comme en droit anglais ou américain : la référence officielle se fait le plus souvent à un recueil officiel, qui lui-même n’utilise pas forcément la date [10].

Ceci m’a fait revenir sur la notion de référence, que nous autres spécialistes de l’information utilisons beaucoup.

Cette notion a l’inconvénient d’être très polysémique.

En effet, ce qu’on appelle une « référence », en droit, est duale :

  • tantôt elle désigne l’acte (arrêt, texte officiel …) lui-même. Donc, là, on met la date, la chambre, le type de texte officiel (décret ou loi) …
  • tantôt elle désigne un document au sein d’une publication. C’est alors ce qu’on appelle une « référence bibliographique ». La réf. tourne alors essentiellement autour de la publication au lieu de décrire l’acte. Les références de type adresse web (URL) ou URI — comme le numéro ECLI – European Case Law Identifier) ou ELI (European Legislation Identifier) — appartiennent à cette classe.

Emmanuel Barthe
juriste documentaliste, veilleur


Dernières brèves

Sarchy : A New Hope in Search

A new implementation of the not-so-young, open source search engine YaCy

Vendredi 15 mars 2019

Lire la suite »

Sarchy sarchy.condense.press is an intriguing faceted search engine (with RSS saved search) based on the open source YaCy search engine and developped by Agnel Vishal (Twitter @agnelvishal), a developper from Chennai in the Tamil Nadu region of India. Sarchy has been detected by one of the best French monitoring specialists, Christophe Deschamps (TW @crid ; blog Outils Froids) and relayed by Serge Courrier (TW @secou) of RSS Circus, another French monitoring specialist.

Sarchy is based on the (rather old) YaCy open source search engine

Sarchy is not really a newcomer. It is based on the open source search engine YaCy, which is already 8 years old. YaCy is a distributed peer-to-peer search engine written by a team of German developers. The source code is hosted on GitHub. According to its web site, « you don’t need to install external databases or a web server, everything is already included ».

To be honest, I tested a YaCy implementation some years ago and I wasn’t impressed at the time. But *this* time it’s somewhat different. This implementation of YaCy *is* very interesting.

According to Agnel Vishal :

  • Sarchy is a fork of YaCy. YaCy does not use pagerank algorithm but Sarchy uses one. Also, Vishal says he uses social media statistics as a ranking parameter
  • Sarchy’s index is a part of Yacy P2P network, but at the same time, Sarchy makes YaCy’s index accessible as a webapp [1]
  • the total number of web pages in YaCy’s index is around 1,7 billion. Sarchy launched a week back and has 2,43 million webpages
  • he plans to increase the crawl speed by 30 times within 2 to 3 weeks
  • he got 3000 USD Google cloud credits thanks to YC startup school. He hopes to get revenues in advertisements and donations before the cloud credits gets over. Let’s hope he will be able to obtain that or other financing in the near future.

As Serge Courrier signals, one can integer RSS feeds. Also, there is a desktop version of Yacy.

And, as argued by YaCy’s lead developper and the Free Software Foundation Europe (FSFE), which supported the YaCy project, this peer-to-peer search engine doesn’t monitor your search and doesn’t do targeted advertising [2]

Relevancy still an issue

I have just tested Sarchy with my favorite, French law oriented, test query — and some others.

The (limited compared to competitors) content indexed is of good quality in my experience. But in the legal field, at the very least, relevancy on Sarchy remains an issue. Sarchy, contrary to Google, does not seem able to guess a query’s context, not even know the query words’ synonyms (in other words, Sarchy doesn’t do machine learning version of natural language processing.

I reckon that, for the time being, relevancy is hampered by the lack of indexed content. In the legal field, I would suggest better, relevancy oriented indexing of official, Gov’t and public institutions web sites (they have good, though free, quality content and Sarchy already indexes them or at least knows their domains).

Agnel Vishal answered my remark : as soon as one searches for a page/site, the crawler automatically starts crawling related pages. To me, that’s a very good idea : it keeps the index from indexing unnecessay pages. But at the same time, there is an associated spamdexing risk. In turn, YaCy’s Twitter account explained that YaCy does link reloading to verify that the presented link actually contains the searched words to protect against spam indexes.

Of course, link reloading, content checking and a distributed architecture mean that response time is somewhat slow (4-5 seconds on an enterprise Internet connection). But I didn’t find it that annoying.

According to Vishal, in order to get faster results, the whole database is not scanned the first time a given search is done. One should try the same query 30 seconds later and may see more webpages.

Also, since relevancy is still somewhat limited (according to my tests), it would be very useful to explain clearly somewhere on the home page what Sarchy’s operators are. The simple use of quotes (" ") on Sarchy is a big bonus to relevancy.

Looking at YaCy self-hosted engine presentation, using it as an alternative to Google CSE is possible.

Search operators and filters

As in Google, one can use site :http://justice.gouv.fr to get results from that domain. For example : https://sarchy.condense.press/yacysearch.html?query=site%3Ajustice.gouv.fr&Enter=&contentdom=all&strictContentDom=false&former=justice.gouv.fr+site%3Ajustice.gouv.fr&maximumRecords=10&startRecord=0&verify=ifexist&resource=global&nav=all&prefermaskfilter=&depth=0&constraint=&meanCount=0&timezoneOffset=-330

Good to know : YaCy search operators are detailed on its wiki.

One of the main advantage of Sarchy over YaCy’s own portal is its facets (left column in the results page) : domains, year, language ... These suggestions on how to refine your search are practical and relevant. Also, Sarchy works. While YaCy Search is not, right now.

Vishal says search operators list will be added to Sarchy’s home page in 24 hours. It will have location, date, distance between words etc.

More info about YaCy and Sarchy’s implementation

Emmanuel Barthe
French law librarian reseearcher, monitoring/CI specialist
search engine enthusiast (ex-Google de facto evangelist, ca. 1997, still a Google specialist for law research)


Le Canard est mal barré

Pourquoi le Canard enchaîné devrait évoluer — et pas qu’un peu

Jeudi 14 mars 2019

Lire la suite »

Le Canard Enchaîné est une institution de la presse française. A plus d’un titre :

  • lancé le 10 septembre 1915, c’est un des plus vieux titres de presse français vivant [3]
  • il est très rentable (pour un organe de presse) et possède assez de réserves financières pour vivre pendant plus de cinq ans sans aucune recette.

Le risque

Le Canard refuse de passer en ligne. C’est une position bien ancrée chez eux. Le comble de ce refus est qu’en fait, le Canard enchaîné a bien une appli, mais réservée aux clients hors UE et Suisse !

Du point de vue de certains veilleurs, s’il ne passe pas en numérique, le Canard Enchaîné va mourir insensiblement, très lentement mais très sûrement en une dizaine d’années [4]. Pourquoi ? Parce que :

Le remède

Pourtant, le Canard pourrait parfaitement être rentable en ligne :

  • son prix est (très) bon marché : 60 euros TTC par an l’abonnement (Mediapart est à 132 euros). Il pourrait donc financer son passage en ligne soit avec ses réserves financières soit par une augmentation du prix de son abonnement
  • Mediapart, lancé en 2008 et qui a atteint son point mort dès 2011, en a fait la démonstration avec ses excellents résultats financiers 2017 : la spécialisation/les niches permettent aux pure players de s’en sortir [6]
  • à part la Lettre A et Mediapart, le Canard n’a plus d’autre concurrent sur le segment des "affaires". Marianne n’est plus vraiment un concurrent sur ce segment.

Emmanuel Barthe
veilleur presse

PS : attention, mettons-nous bien d’accord, je n’ai pas écrit que toute la presse pure player est par définition rentable. Loin de là : des initiatives originales et de qualité ont actuellement de grandes difficultés [7]. La presse, quand elle n’exploite pas certains filons en nombre très limité — comme les affaires politico-économico-financières ou les "people" — a besoin d’investisseurs prêts à la soutenir contre vents et marées, qu’ils agissent par conviction, par intérêt ou par souci d’influence [8].


De la nature duale de la référence en droit

Avec un peu de "FCIL"

Vendredi 8 mars 2019

Lire la suite »

Facade du bâtiment du Bundesgerichtsof

Juristes, documentalistes, attention, quand vous transmettez ou cherchez des références. Elles ne sont pas forcément ce que vous croyez ...

J’apprécie les recherches en droit étranger et international. C’est une véritable matière à elle seule [9], que les anglo-saxons désignent sous le nom de "Foreign, Comparative and International Law" (FCIL).

Je cherchais donc cet arrêt de la juridiction judiciaire suprême allemande, le Bundesgerichtshof (Cour fédérale de justice) : BGH, WuW/E DE-R ...

Mais tel quel, il est très difficile de le trouver sur le site de la BGH.

C’est normal : en fait, il manque la date de l’arrêt et la référence est en fait à un recueil officiel.

Voici la référence complète : BGH v. jj.mm.aaaa, KVR xx/zz, WuW/E DE-R ...

Et là, on trouve.

En fait, en droit allemand, c’est un peu comme en droit anglais ou américain : la référence officielle se fait le plus souvent à un recueil officiel, qui lui-même n’utilise pas forcément la date [10].

Ceci m’a fait revenir sur la notion de référence, que nous autres spécialistes de l’information utilisons beaucoup.

Cette notion a l’inconvénient d’être très polysémique.

En effet, ce qu’on appelle une « référence », en droit, est duale :

  • tantôt elle désigne l’acte (arrêt, texte officiel …) lui-même. Donc, là, on met la date, la chambre, le type de texte officiel (décret ou loi) …
  • tantôt elle désigne un document au sein d’une publication. C’est alors ce qu’on appelle une « référence bibliographique ». La réf. tourne alors essentiellement autour de la publication au lieu de décrire l’acte. Les références de type adresse web (URL) ou URI — comme le numéro ECLI – European Case Law Identifier) ou ELI (European Legislation Identifier) — appartiennent à cette classe.

Emmanuel Barthe
juriste documentaliste, veilleur


 

Page parrainée par Convention.fr, le spécialiste des conventions collectives et affichages obligatoires.