Logiciels, Internet, moteurs de recherche

Dernier ajout : 4 août.

Derniers articles

About the Colossus search engine directory ...

... and its limits

Lundi 6 mai 2019

Lire la suite »

I’ve been seeing mentions of the Colossus search engines directory searchenginecolossus.com since 1999. Along the years, I sometimes had a go at it and tested some of the search tools (web site directories mainly) it recommends.

Its main and only interest is it lists a number of regional web-site-directories.

Its limits

But apart from that, I do not recommend using Colossus.

Its very ancient HTML code (written in CAPITAL letters) should be enough to keep you away from it [1]. Why ? Because it’s a sign of a probable lack of updating.

Other, more serious reasons for not using and not trusting it much include :

  • it links to other old, not updated directories instead of to final resources. Example : this directory’s page it links to is empty : findelio.com/2888/Automotive/
  • it lures you into believing it indexes a ton of treasure troves but it’s deceptive
  • spelling mistakes
  • same search engine directories repeted in each country section. Example : Ezilon ezilon.com
  • its local countries web-site-directories are :
    • incomplete. For instance, its France section searchenginecolossus.com/France.html does not list premsgo.fr / annuairefrancais.fr, a not too recent but very active actor
    • and they list mainly regional-level, not specifically national, link directories.

To conclude on Colossus :

  • granted, beggars can’t be choosers and there really isn’t a lot of competition in its field (local oriented link directories)
  • but in my opinion, it’s too old/not updated enough, repetitive, deceptive and incomplete. Event the concept of directory itself is outdated — though I appreciate it much personnaly and have long advocated it and taught a course on how to build a link directory [2].

Alternatives

If you’re searching for local resources, it might be among other starting points, but really, it shouldn’t be alone and its links should be tested thoroughly. Personnaly, I’d rather use a standard, reliable, web search engine to locate the main resources and perhaps, in a separate query, some specialised, local link directories and start from there.

What’s your own point of view ? Do you think it’s still worthwhile ? The comment section is open.

Emmanuel Barthe
librarian researcher, Internet search tools evangelist


Sarchy : A New Hope in Search

A new implementation of the not-so-young, open source search engine YaCy

Jeudi 28 mars 2019

Lire la suite »

Sarchy (URL : sarchy.tech) is an intriguing faceted search engine (with RSS saved search) based on the open source YaCy search engine and developped by Agnel Vishal (Twitter @agnelvishal), a developper from Chennai in the Tamil Nadu region of India. Sarchy has been detected by one of the best French monitoring specialists, Christophe Deschamps (TW @crid ; blog Outils Froids) and relayed by Serge Courrier (TW @secou) of RSS Circus, another French monitoring specialist.

Sarchy is based on the (rather old) YaCy open source search engine

Sarchy is not really a newcomer. It is based on the open source search engine YaCy, which is already 8 years old. YaCy is a distributed peer-to-peer search engine written by a team of German developers. The source code is hosted on GitHub. According to its web site, « you don’t need to install external databases or a web server, everything is already included ».

To be honest, I tested a YaCy implementation some years ago and I wasn’t impressed at the time. And Sarchy’s performances, especially the width of its index (for instance, it indexes quite slowly and poorly the lemonde.fr domain) doesn’t make it competitive in any way with Google or Bing. Nevertheless, *this* implementation of YaCy is very interesting.

According to Agnel Vishal :

  • Sarchy is a fork of YaCy. YaCy does not use pagerank algorithm but Sarchy uses one. Also, Vishal says he uses social media statistics as a ranking parameter
  • Sarchy’s index is a part of Yacy P2P network, but at the same time, Sarchy makes YaCy’s index accessible as a webapp [3]
  • the total number of web pages in YaCy’s index is around 1,7 billion. Sarchy launched a week back and has 2,43 million webpages
  • he plans to increase the crawl speed by 30 times within 2 to 3 weeks
  • he got 3000 USD Google cloud credits thanks to YC startup school. He hopes to get revenues in advertisements and donations before the cloud credits gets over. Let’s hope he will be able to obtain that or other financing in the near future.

As Serge Courrier signals, one can integer RSS feeds. Also, there is a desktop version of Yacy.

And, as argued by YaCy’s lead developper and the Free Software Foundation Europe (FSFE), which supported the YaCy project, this peer-to-peer search engine doesn’t monitor your search and doesn’t do targeted advertising [4]

Relevancy still an issue

I have just tested Sarchy with my favorite, French law oriented, test query — and some others.

The (limited compared to competitors) content indexed is of good quality in my experience. But in the legal field, at the very least, relevancy on Sarchy remains an issue. Sarchy, contrary to Google, does not seem able to guess a query’s context, not even know the query words’ synonyms (in other words, Sarchy doesn’t do machine learning version of natural language processing.

I reckon that, for the time being, relevancy is hampered by the lack of indexed content. In the legal field, I would suggest better, relevancy oriented indexing of official, Gov’t and public institutions web sites (they have good, though free, quality content and Sarchy already indexes them or at least knows their domains).

Agnel Vishal answered my remark : as soon as one searches for a page/site, the crawler automatically starts crawling related pages. To me, that’s a very good idea : it keeps the index from indexing unnecessay pages. But at the same time, there is an associated spamdexing risk. In turn, YaCy’s Twitter account explained that YaCy does link reloading to verify that the presented link actually contains the searched words to protect against spam indexes.

Of course, link reloading, content checking and a distributed architecture mean that response time is somewhat slow (4-5 seconds on an enterprise Internet connection). But I didn’t find it that annoying.

According to Vishal, in order to get faster results, the whole database is not scanned the first time a given search is done. One should try the same query 30 seconds later and may see more webpages.

Also, since relevancy is still somewhat limited (according to my tests), it would be very useful to explain clearly somewhere on the home page what Sarchy’s operators are. The simple use of quotes (" ") on Sarchy is a big bonus to relevancy.

Looking at YaCy self-hosted engine presentation, using it as an alternative to Google CSE is possible.

Search operators and filters

As in Google, one can use site :http://justice.gouv.fr to get results from that domain. For example : https://sarchy.tech/yacysearch.html?query=site%3Ajustice.gouv.fr&Enter=&contentdom=all&strictContentDom=false&former=justice.gouv.fr+site%3Ajustice.gouv.fr&maximumRecords=10&startRecord=0&verify=ifexist&resource=global&nav=all&prefermaskfilter=&depth=0&constraint=&meanCount=0&timezoneOffset=-330

Good to know : YaCy search operators are detailed on its wiki.

One of the main advantage of Sarchy over YaCy’s own portal is its facets (left column in the results page) : domains, year, language ... These suggestions on how to refine your search are practical and relevant. Also, Sarchy works. While YaCy Search is not, right now.

Vishal says search operators list will be added to Sarchy’s home page in 24 hours. It will have location, date, distance between words etc.

What’s funny is that less than two weeks after Sarchy was spotted by Christophe Deschamps, Ahrefs [5] CEO Dmitry Gerasimenko tweeted he wants to build a new search engine with the collaboration of publishers and other online content makers ... [6] Although most SEOs who answered his thread are skeptic, with the growing success of Duck Duck Go and in our French and German lands Qwant, it could be the sign of something serious. The business model he proposes, at least, makes sense.

Emmanuel Barthe
French law librarian reseearcher, monitoring/CI specialist
search engine enthusiast (ex-Google de facto evangelist, ca. 1997, still a Google specialist for law research)

More info about YaCy and Sarchy’s implementation


Pourquoi le moteur Qwant n’est pas indépendant

Les technologies de "search" voire une part très importante de son index sont apparemment fournies par Bing de Microsoft

Jeudi 15 novembre 2018

Lire la suite »

Qwant est un moteur de recherche lancé par une équipe française et qui se positionne comme un concurrent éthique de Google. Son credo principal : le respect de la vie privée, comme l’américain Duck Duck Go, mais dont les résultats en langue française sont beaucoup moins pertinents que ceux de Qwant [7].

Chaque fois que je fais un test comparatif entre Qwant, Google et Bing, je constate :

  • la grande — voire très grande — similitude des résultats de Qwant et Bing (voir infra) (il faut comparer sur au moins les 30 premiers résultats, car les pages identiques ne sont pas placées au même endroit dans les résultats). Et lorsque les URL diffèrent, c’est quasiment le même titre et exactement la même information
  • la plus grande pertinence/l’intérêt plus grand des résultats de Google [8] sur les deux autres.

Sur une de mes questions tests favorites, télévision abus de position dominante, voici les trois premiers résultats, ce 15 novembre, des trois moteurs :

  • Bing et Qwant : 2 résultats identiques sur 3, et ces deux résultats sont des pages juridiques générales sur l’abus de position dominante [9] et pas du tout spécifiques à la télévision (qu’elle soit hertzienne, par satellite ou par le câble). Autrement dit, deux résultats à côté de la plaque sur les trois premiers [10]
  • Google : les 3 premiers résultats sont pertinents, ils concernent bien des affaires d’abus de position dominante ciblés *sur le secteur de la télévision*. Et qui plus est, trois affaires distinctes, importantes chacune et réparties dans le temps.



Si on descend dans les résultats des trois moteurs, les différences entre Bing et Qwant semblent s’accentuer mais c’est une apparence trompeuse (vous trouverez ci-joint les PDF des 30 premiers résultats de Bing, 40 premiers de Qwant et 30 premiers de Google). Il suffit de comparer les 30 premiers résultats de Bing et Qwant : 51% de résultats identiques. Certains vont me dire : c’est normal, ce sont là LES pages qui répondent à la question. Sauf que ... comme expliqué au paragraphe précédent, beaucoup de ces pages ne répondent justement *pas* à la question (pages générales sur l’abus de position dominante) et que les résultats de Google montrent que LES pages pertinentes sur le sujet sont tout autres.

Tout cela n’a rien de surprenant. L’index de Qwant et de ses technologies de "search", selon toute apparence [11] et selon les articles de presse cités ici, sont fournies par Bing de Microsoft. Et Bing, sans être un mauvais moteur de recherche web, n’atteint pas le niveau de pertinence et la puissance de Google [12] [13].

Cette utilisation de Bing, c’est ce que dit La Lettre A, toujours aussi indiscrète : « Le moteur de recherche Qwant accumule les subventions publiques sans avoir encore fait ses preuves face à Google. Sa dépendance technique à l’égard du moteur de Microsoft, Bing, interroge sur la stratégie d’un projet anti-Gafam. » [14]

Une des défenses de Qwant consiste à déplacer le débat ailleurs : Qwant ne donne pas nos données, disent-ils [15].

Autres défenses : Qwant a toujours prétendu que si, à ses débuts, il dépendait de la technologie de Bing, par la suite, il s’en est émancipé [16]. Ou bien il ne la reconnaît que pour la régie publicitaire [17].

Mais non : en 2013, plusieurs articles sérieux disent le contraire [18].

Rien n’a vraiment changé : les ressemblances avec les résultats de Bing sont majoritaires et le plus souvent confondantes (cf exemple supra). NextINpact confirme cela en 2017 pour la partie images [19] et la Lettre A confirme donc globalement en 2018.

Le même flou dans la communication du moteur de recherche se retrouve à propos de ses parts de marché (nombre de visiteurs, nombre de visiteurs uniques, pages vues) [20].

Les buts de Qwant [21] sont tout à fait honorables [22] et je les partage [23]. Mais de nobles intentions ne suppriment pas les faits [24].

Emmanuel Barthe
documentaliste/searcher

PS : je remercie Guillaume Champeau d’avoir pris le temps de me répondre. Je regrette toutefois que son billet ne comporte ni lien hypertexte vers une page web indépendante de Qwant, ni référence bibliographique, ni citation d’article de presse ou publié dans une revue universitaire, ni code source open, ni test reproductible. Les seules "preuves" sont de petites copies écran.


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 36

Dernières brèves