Logiciels, Internet, moteurs de recherche

Dernier ajout : 21 mai.

Derniers articles

Métamoteurs : the end ?

Pour les annuaires de sites, en tout cas, c’est déjà plié

Mardi 21 mai 2019

Lire la suite »

Tout est parti d’une question posée sur twitter de Sébastien Billard (compte Twitter @sbillard), responsable SEO chez Auchan.fr et dans le référencement en tant que consultant depuis 2001 :
« Les pros de la veille, demandait-il : existe-t-il encore des méta-moteurs dignes d’intérêt en 2019 ? Le concept même de méta-moteurs (généralistes) est-il encore pertinent selon-vous ? »

TL ;DR : la réponse/conclusion tient en peu de mots :

Les métamoteurs ont largement perdu de leur intérêt (comme l’évolution d’Ixquick vers StartPage le montre) :

  • non pas à cause d’eux-mêmes, mais d’abord et avant tout parce qu’ils se reposent sur des moteurs généralistes de qualité et qu’il n’y en a plus que deux (Google et Bing).
  • aussi parce que les bases de données spécialisées (payantes, certes) ont entièrement basculé sur Internet et que dans beaucoup de domaines, on ne peut pas en faire l’impasse si on veut être rigoureux, complet et à jour
  • et sinon, accessoirement, parce qu’il est techniquement impossible d’utiliser les opérateurs avancés sur un métamoteur.

Maintenant, voici les débats, les arguments et les détails :

Pourquoi les métamoteurs ont perdu la guerre du search

Serge Courrier (TW @secou) estime que « pour ce qui est de leur intérêt, il est modeste pour les fanatiques des opérateurs avancés et ils ne font qu’ajouter leur propres algorithmes de classement à ceux des moteurs interrogés ». Je vais dans son sens.

Christophe Deschamps (TW @crid), lui, « conseille encore (entre autre possibilités) d’utiliser un métamoteur lorsqu’on démarre une recherche de sources thématiques. C’est ce [qu’il] appelle l’effet Top 50. Mais à part ça ... »

A propos de recherche de sources thématiques, il me revient que Béatrice Foenix-Riou (TW @BFoenix) recommandait en 2012 de chercher (par Google) des annuaires thématiques et autres pages de liens (correctement maintenues évidemment). Exemple sur l’industrie textile en Allemagne

Mais comme le fait remarquer Serge Courrier, « les répertoires et sélections de liens se font malheureusement de plus en plus rares. IPL2, les signets de la BNF, Unesco Library Portal, l’excellent annuaire de signets du CERIMES bourré de flux RSS etc., tous ont disparus ou sont en sommeil. Car chronophages, coûteux à maintenir ... et rarement visités ».

Exact, hélas, mais cela n’empêchait pas les moteurs de recherche (dont Google, qui "pompait" allègrement — et légalement — le grand annuaire DMOZ) d’en profiter, et pour le plus grand bien de tous. Et puis, il reste des annuaires maintenus, comme celui de la BU de Sc-Po Paris. Mais globalement, la messe est dite : les annuaires sont morts.

Pierre-Yves Debliquy (Euresis, blog, TW @Euresis_ie), « pour sa part, privilégie l’examen en profondeur des listes de résultats (ce qui l’affranchit des impacts des algorithmes de ranking ...). Pas de méta-moteurs pour [lui], donc. »

Pour Renaud Joly (TW @renaudjoly), « l’info circule plus vite et plus facilement. La question est plus de filtrer ou de chercher dans des bases (ou de suivre des experts) spécialisées que de chercher large ».

Dans sa pratique perso, et en tant que chercheur avancé, Sébastien Billard estime qu’il « est rarissime qu’il doive aller ailleurs que Google pour trouver ce qu’il cherche. Sinon, il va des fois directement dans des moteurs spécialisés (genre PubMed). »

En effet. Et quand on parle de moteurs spécialisés, il faut inclure le payant. Les bases spécialisées, notamment payantes, font beaucoup plus que compléter Google [1]. Sur les sujets "pro" et quand on veut du détail, de l’argumenté, le plus souvent, les résultats du web gratuit, donc de Google, manquent très largement de fiabilité et/ou de mise à jour. Ca dépend des domaines, mais en droit, en veille économique et financière ou en sciences de l’ingénieur, par exemple, on ne peut pas faire l’impasse sur les bases payantes. Sinon, on prend le risque bien réel (et important) de se "planter".

Pour le spécialiste du référencement Internet (SEO) Aymen Loukil (TW @LoukilAymen), « avoir besoin de chercher de l’information en désactivant tous les aléas de la localisation, de la personnalisation et du profiling restera à [s]es yeux utile ».

Sébastien Billard fait alors une incise : « Oui, mais là tu parles plus des moteurs respectueux de la vie privée que des méta-moteurs vu que tu n’évoques pas la diversité des sources ? »

Aymen Loukil maintient l’intérêt de la désactivation de la personnalisation et ajoute qu’il ne « voit pas de non respect dans le fait de présenter des résultats géographiquement plus cohérents. La diversité des sources est une richesse aussi. »

Personnellement, je reste réservé sur l’avantage qu’apporteraient les métamoteurs en terme de diversité des sources au vu, comme précisé supra, du fait que seuls deux moteurs généralistes sérieux ont survécu. Je répond que « si on veut évaluer les performances des moteurs et métamoteurs, il faut prendre en compte le respect de la vie privée [2] mais il faut également savoir distinguer ce critère-là des autres, comme la taille de l’index et la pertinence ». Autrement dit, le respect de la vie privée ne peut pas servir de critère de recommandation unique pour un outil de recherche. Sauf à considérer que performance et pertinence des moteurs de recherche n’ont plus aucun intérêt ...

Ricardo Mendes (TW @rMdes_), enfin, explique « utiliser énormément Inoreader pour filtrer, rechercher à l’intérieur d’agrégation de sources, des infos utiles basé sur des filtres regex (zéro algorithme etc.) ». Ca me paraît malin, car la recherche se fait alors sur un sous-ensemble très étroit du Web et déjà thématiquement cohérent, donc ipso facto avec moins de "bruit".

Si métamoteurs quand même, lesquels ?

Mais bon, si on doit recommander des métamoteurs, alors lesquels ? :

  • réponses de Serge Courrier :
    • « Carrot2, malgré une interface vieillotte
    • DuckDuckGo, un métamoteur intéressant que l’on confond souvent avec un moteur tout court. » NB : personnellement, je trouve DDG peu efficace sur la langue française
  • @bituur_esztreym recommande « Tonton Roger, un métamoteur ne conservant d’informations sur les utilisateurs. Il est basé sur searx, et "tuné" par framasoft. » NB : mon test personnel rapide de Tonton Roger me fait penser que je vais le mettre dans mes (méta)moteurs et annuaires de secours.

NB : une confusion à éviter : Startpage n’a plus rien à voir avec son ancêtre Ixquick et ne réutilise que et uniquement que les résultats de Google — certes d’une manière différente de Google. Et ok, il respecte l’anonymat/vie privée de ses utilisateurs [3]. Autrement dit, à strictement parler, StartPage ne serait pas vraiment un métamoteur puisque le préfixe méta, qui signifie au-delà en grec, équivaut au sens de profond (comme les métadonnées ou le métalangage), haut ou grand (comme méta-revue). On ne peut pas dire qu’un métamoteur qui n’utilise qu’un seul moteur soit plus profond, plus haut ou plus grand que son original.

Emmanuel Barthe
documentaliste veilleur, formateur


Comment se protéger facilement de la curiosité de Facebook, Google, Amazon, LinkedIn etc.

... et d’autres intrusions

Vendredi 10 mai 2019

Lire la suite »

[NB : cet article a été rédigé et mis en ligne dans sa version initiale le 1er février 2018, soit avant que le scandale Facebook/Cambridge Analytica ne soit rendu public. Il est régulièrement mis à jour.]

Nous autres parents reprochons souvent à nos ados le temps qu’ils passent sur leurs écrans. Mais avons-nous conscience du temps que nous, nous y passons ? Nous avons tous regardé un jour autour de nous dans le métro en allant au travail : 70 à 80% des passagers sont sur leur portable.

Vous êtes pressé ou déjà convaincu et le pourquoi ne vous intéresse pas ? Filez directement aux recommandations pratiques à la fin de ce billet.

Pourquoi se protéger de Facebook et des très, très nombreux autres sites qui collectent des données sur nous

Grâce à cette connexion plusieurs heures par jour, nos fournisseurs de messagerie, cloud, réseaux sociaux et autres jeux en ligne nous espionnent, avec notre consentement — vous savez, le fameux contrat de x pages de long [4] que, bien obligé, vous avez validé lors de la création de votre compte. Et soyons clair : même si ces "policies" et "terms of service" disent expressément protéger vos données personnelles, la façon dont c’est rédigé et la réalité peuvent rendre ces déclarations très relatives [5].

Facebook conditions d’utilisation et politique de confidentialité

Puisque c’est gratuit, c’est nous le produit : ce sont nos données de navigation, nos contacts, nos préférences, nos achats, nos opinions, nos intentions, nos émotions que les membres du GAFAM (Google, Amazon, Facebook, Microsoft mais aussi Twitter, LinkedIn et d’autres) et BATX (Baidu, Alibaba, Tencent, Xiaomi) analysent (pour développer de l’intelligence artificielle et étendre leur marché) et vendent [6].

Selon une plainte en matière de "privacy", l’industrie de la publicité en ligne saurait depuis longtemps que le profilage et le partage massif de données ne sont pas conformes à la loi européenne [7], c’est-à-dire au règlement général sur la protection des données personnelles (RGPD), qui exige qu’un consentement informé et explicite précède toute captation et/ou exploitation de vos données personnelles [8].

N’oubliez pas que Google a votre autorisation pour scanner en permanence tous vos fichiers stockés sur Drive, toutes les pages web où vous êtes passé [9] (mais il ne scanne plus vos mails et vous pouvez interdire aux tiers d’en faire autant). Même sans que votre GPS soit activé, Google vous géolocalise en permanence, sauf si vous savez très bien paramétrer votre compte Google (voir infra) — et encore ...

De nombreuses coïncidences m’ont fait comprendre que LinkedIn accède — indirectement, par le biais de mes contacts qui ont laissé LinkedIn copier leur carnet d’adresses — au carnet d’adresses de mon smartphone Android [10]. LinkedIn fait absolument *tout* pour récupérer votre carnet d’adresses [11], y compris vos nouveaux contacts.

La plupart des commentateurs avisés sur Internet estiment que les réseaux sociaux et applications utilisent deux moyens principaux pour trouver vos contacts [12] :

  • si vous avez un smartphone Android, votre carnet d’adresses est quasi-certainement chez Google et quantité d’applications Android, dont LinkedIn, exigent d’y accéder pour fonctionner. Et jusqu’à il y a peu Android ne vous donnait même pas la possibilité de contrôler les autorisations données aux applis (c’était tout ou rien), contrairement à iOS (le système d’exploitation des iPhones)
  • si vous n’avez jamais installé cette app ni une autre du même groupe (pour mémoire, Facebook a racheté WhatsApp...), le réseau social/l’appli possède votre adresse email et numéro de téléphone tout simplement grâce à vos amis et contacts, qui eux ont autorisé l’appli à télécharger leurs contacts ...

De tous les réseaux sociaux, de toutes les sociétés Internet, Facebook est le plus indiscret, le plus intrusif [13].

Le fil de discussion (thread) Twitter de Wolfie Christl dévoile énormément de choses sur ce que Facebook vend comme tracking aux entreprises de publicité et de profilage et ce qu’elle va modifier suite au scandale Cambridge Analytica, sans pour autant véritablement cesser ses pratiques [14]. Ce thread explique notamment que Facebook offrait à ses clients publicitaires et marketers un accès aux bases Acxiom, LiveRamp, Oracle, Experian et Epsilon (initialement des spécialistes du marketing direct, ces "data brokers" vendent des données extrêmement détaillées sur les consommateurs et emprunteurs) et que suite au scandale, ce sera juste au client de FB d’apporter ces bases et de faire le croisement avec les données apportées par FB [15].

Dans le cadre de sa fonctionnalité suggérant des "amis FB" appelée "People You May Know" (PYMK), Facebook scanne toutes les listes de contacts de toutes les personnes qui utilisent ses services ou ceux de ses filiales (notamment WhatsApp [16]). FB sait aussi repérer avec qui vous passez du temps sans même utiliser le GPS de votre smartphone. Facebook génère plus de 1300 catégories dans lesquelles sont projetés ses utilisateurs en fonction des attributs de personnalité déduits de leur activité sur le réseau social et sur les données collectées à partir des sites internet qui lui sont affiliés [17].

Et quand une journaliste fouine dans l’onglet FB de ses préférences publicitaires, elle tombe sur des noms d’entreprises qui utilisent ses données sans qu’elle ait jamais été leur cliente. Et quand elle veut savoir qui a vendu ses données personnelles, même elle — qui n’est pourtant pas un simple particulier — n’obtient quasiment aucune réponse [18].

Pendant longtemps, comme le scandale Cambridge Analytica l’a montré, Facebook n’exerçait aucun contrôle réel sur ce que les appli FB extrayaient comme données sur ses utilisateurs [19]. Lors de seconde audition de Mark Zuckerberg devant le Congrès, une parlementaire démocrate de la Silicon Valley, lui a demandé s’il était prêt à modifier son modèle d’affaires ("business model") de manière à protéger la vie privée ("individual privacy"). La réponse du dirigeant fondateur propriétaire de Facebook est édifiante : « Mme la député, je ne suis pas certain de comprendre ce que cela veut dire » [20]. Une façon de botter en touche qui laisse clairement entendre que FB n’entend pas toucher à son business model, fondé sur l’exploitation des données de ses utilisateurs.

Un aspect peu connu de l’affaire Facebook Cambridge Analytica : la société Palantir a travaillé sur les données Facebook qui ont été acquises par Cambridge Analytica, selon le lanceur d’alerte Christopher Wylie. Palantir a été cofondé par le milliardaire Peter Thiel, qui est également membre du conseil d’administration de Facebook. Palantir agrège des données encore bien plus précises, diverses et puissantes (comme les comptes bancaires, le casier pénal, les trajets en voiture ...) que Facebook. Ses logiciels phares, sont nommés Gotham et Metropolis. Divers organismes fédéraux des secteurs de la défense et des services secrets sont des clients de Palantir, ainsi que des polices locales, comme celles de Los Angeles, qui l’utilise notamment pour de la police prédictive. À l’été 2016, un contrat de 10 millions d’euros a été conclu avec la DGSI. Des formateurs ont été recrutés et déployés au siège de la DGSI, à Levallois [21].

Les mouchards de Google (Google Analytics et ses cookies), expliquent les Décodeurs du Monde, « sont présents sur quasi deux tiers des pages visitées par les participants à une étude menée à grande échelle par Clikz, loin devant Facebook, qui est pourtant proche de suivre ses membres sur presque un tiers des pages qu’ils visitent sur Internet » [22].

Quant à Amazon, pour être plus discret que ses rivaux du GAFAM/BATX sur le plan médiatique, il n’en amasse pas moins, tout comme eux, des tonnes de données personnelles traitées à l’intelligence artificielle (IA) puisque sa plateforme de commerce électronique comptait au 1er trimestre 2016 310 millions de clients [23] et plus de 100 millions d’abonnés à son service d’abonnement Prime en avril 2018 [24]. De plus, c’est peu connu, la société de Jeff Bezos travaille bel et bien dans la publicité en ligne [25].


Extrait de l’infographie des Echos Dans la jungle d’Amazon.

Les enceintes connectées Echo d’Amazon, Google Home, Home Pod d’Apple, Invoke et Djingo — l’assistant franco-allemand d’Orange et Deutsche Telekom — [26] posent de nombreuses questions de sécurité et de respect de la vie privée. Comme l’écrit le journal La Tribune, « le véritable enjeu n’est pas de faire du business avec [ces] enceintes mais bien de s’introduire dans tous les foyers pour s’assurer la plus grosse part du gâteau de la maison connectée, un marché au potentiel énorme qui pourrait peser 138 milliards de dollars en 2023 d’après le cabinet d’étude de marché MarketsandMarkets. Tout en recueillant des masses de données comportementales livrées volontairement par les adeptes du vocal. [...] Votre [voix] peut renseigner sur votre âge, votre état de santé et vos émotions. [...] De plus, les enceintes sont vulnérables aux cyberattaques » [27]. Selon la Commission nationale de l’informatique et des libertés (CNIL), « les requêtes vocales restent enregistrées dans le cloud, de la même manière qu’elles le seraient si l’utilisateur les tapait au clavier dans certains moteurs de recherche », et que ces appareils sont en veille permanente (et donc susceptibles de vous enregistrer).

Quant à Twitter, il vend l’entièreté de sa base de données, y compris les lieux et heures de vos tweets et vos plus vieux tweets — auxquels vous ne pouvez plus accéder et que vous ne pouvez donc plus effacer si besoin est.

Ce n’est pas tout à fait le sujet ici (quoique ...), mais vous noterez au passage que les principaux réseaux sociaux, et plus encore leurs applications pour smartphone, sont conçus pour créer et maintenir une addiction à travers une culture du plaisir immédiat et, plus grave encore, qu’elles tendent à priver leurs utilisateurs du bonheur (par opposition au plaisir, qui n’est pas sur la durée) des relations IRL (in real life), dont l’effet positif a été prouvé bien plus grand.


La structure de la base de données de stockage des tweets de Twitter

Parmi le GAFAM et Twitter, en matière de données personnelles, il faut noter le positionnement particulier d’Apple [28]. Il fait une bonne part de son chiffre d’affaires dans le logiciel et les matériels, moins dans la data que les autres, mais surtout Apple ne vend pas de données sur ses utilisateurs et clients. La meilleure illustration de ce "respect" de la vie privée des clients d’Apple (oui, on parle là, très largement, d’utilisateurs *payants*) est l’étude scientifique Google Data Collection (traduction française) réalisée par Douglas C. Schmidt, professeur d’informatique à l’Université Vanderbilt [29] qu’on peut résumer ainsi : Google collecte vos données même quand vous n’utilisez pas votre smartphone [30].

Mais la vente de data pourrait un jour devenir le business model d’Apple. On note ainsi que de nombreuses applications populaires pour iPhone (Expedia, Abercrombie & Fitch, Hotels.com, Air Canada, Singapore Airlines ...) enregistrent sans vous le dire toutes vos actions sur l’appli (technologie Glassbox) [31].

La vente de données est un basculement que Microsoft, encore peu dans le data business, est en train de faire [32].

Mais Facebook, Amazon, Google, Apple et Microsoft ne sont pas les seuls, très loin de là : c’est presque tout l’écosystème actuel d’Internet qui, en échange de sa gratuité, collecte des données sur nous [33]. Le problème du pillage de nos données par le tracking par les "adtech" n’est pas limité au GAFAM :

  • par exemple, l’ensemble de la presse et des publications d’éditeurs vendent nos profils [34]
  • les "data brokers" (Acxion, Experian etc.) évoqués plus haut jouent un rôle essentiel, alimentés en données par les GAFAM en données et les alimentant à leur tour. Sur ce sujet, c’est l’étude de l’autrichien Wolfie Christl sur la "corporate surveillance" que j’ai trouvée la plus complète [35]
  • et les pouvoirs publics français ne sont pas en reste : plateforme de conservation et consultation des données de connexion, pose de "fourchettes" sur les câbles sous-marins français, participation d’Orange au travail de la DGSE. Au niveau de la loi, si l’article L. 34-1 du Code des postes et des télécommunications pose un principe d’effacement ou d’anonymisation des données de connexion collectées par les fournisseurs d’accès Internet, c’est pour prévoir une dérogation immédiate. Il impose aux intermédiaires techniques de conserver les données pour une durée d’un an. Et ce, malgré l’arrêt Télé2 du 21 décembre 2016 de la Cour de justice de l’Union européenne qui dit que les États membres ne peuvent prévoir une obligation *indiscriminée* de conservation des données de connexion pour les échanges téléphoniques et électroniques passés sur leur territoire [36].

Comme le résume Hubert Guillaud sur Internet-Actu [37] :

« La plupart des sites web financés par la publicité tracent leurs utilisateurs pour tirer de la valeur et améliorer le ciblage publicitaire. Comme l’avait déjà expliqué Zuckerman en 2014 [38], c’est le modèle publicitaire même de l’internet qui est un modèle d’affaires dangereux et socialement corrosif puisque par nature, il vise à mettre les utilisateurs sous surveillance constante. [...]
Tous les médias où se sont exprimés ceux qui condamnent les médias sociaux ou Cambridge Analytica, [...] le New York Times, le New Yorker, comme les autres, divulguent des données de leurs lecteurs à des tiers. Chaque fois qu’une annonce est chargée sur une page, le site envoie l’adresse IP du visiteur, l’URL qu’il consulte et des informations sur son appareil à des centaines d’entreprises (des courtiers de données [39]) qui enchérissent les uns contre les autres pour montrer de la publicité au visiteur (voir ces explications en vidéo pour en saisir le fonctionnement) »

Pour l’expert américain en cybersécurité Bruce Schneier, qui s’exprimait à une conférence en 2014 déjà, « la surveillance de masse est devenue le modèle économique de l’Internet » [40], d’où l’expression d’« économie de la surveillance ».

Cette surveillance de masse est telle que le très respecté journal américain New York Times a consacré en avril 2019 un long dossier au phénomène où il prend clairement parti pour un recul de cette surveillance et une réglementation (aux USA, il n’y a pas de RGPD) [41].

Enfin, n’oubliez pas que si un virus ou un hacker mal intentionné rentre dans votre ordinateur, le pillage de vos données personnelles risque d’être beaucoup plus important encore. D’où antivirus et firewall.

Faut-il vraiment protéger ses données ?

Vous allez me dire : « Mais je n’ai rien à cacher ! »

Voici ce qu’en dit Glen Greenwald, le reporter qui a le plus travaillé sur les révélations d’Edward Snowden [42] :

« Au cours des 16 derniers mois, alors que je discutais de ce problème dans le monde entier, chaque fois que quelqu’un me disait : "Je ne m’inquiète pas vraiment des atteintes à la vie privée parce que je n’ai rien à cacher". Je leur dis toujours la même chose : "Voici mon adresse e-mail : lorsque vous arrivez à la maison, envoyez-moi les mots de passe de tous vos comptes e-mail. Tous. Je veux vraiment me promener à travers ce que vous faites en ligne, lire ce que je veux lire et publier ce que je trouve intéressant, Après tout, si vous n’êtes pas une mauvaise personne, si vous ne faites rien de mal, vous n’avez rien à cacher." Eh bien, pas une seule personne n’a relevé mon défi. »

Vous allez aussi me dire : « Et si je vendais mes données ? Ca me rapporterait, non ? » [43]

Eh bien ... non, comme le montrent deux chercheurs de l’Institut national de recherche en informatique (INRIA), Serge Abiteboul et Gilles Dowek :

  • « première idée fausse : cela poserait un problème aux géants du Web. Une fois notre propriété établie, une clause des contrats qu’ils nous feront signer nous la fera céder pour bénéficier de services »
  • deuxième idée fausse : la valeur de nos données. « Dans les systèmes de "crowd sourcing" comme Amazon Mechanical Turk, des foules d’internautes produisent déjà sur le Web mais pour de très faibles sommes [44]. » Il y a déjà eu des expériences de vente de leurs données par des particuliers. Elles indiquent qu’il est quasiment impossible de faire plus de 300 USD par an. Et que les données actuelles de beaucoup de particuliers de base ne valent guère plus d’1 dollar US. Par exemple, le journaliste Gregory Barber de Wired a fait le test en décembre 2018 et le résultat est peu concluant : en vendant certaines de ses données médicales sur Doc.Ai, ses données de géolocalisation sur Datum et ses infos biographiques Facebook sur Wibson, il a obtenu au total, tout compris ... 0,3 cents (0,03 USD) ! [45] C’est l’agrégation de vos données et leur recoupement avec d’autres données qui leur donnent réellement de la valeur et c’est ça que les entreprises sont prêtes à acheter — mais ça, ce n’est pas à la portée des particuliers
  • « plus profondément, il n’existe que peu de données numériques individuelles. La plupart de ces données sont "sociales". Vous postez une photo sur Facebook : est-elle à vous, aux personnes que vous avez photographiées, aux personnes qui vont la tagger, ou à celles qui vont la commenter, la diffuser ? Parmi vos données les plus utilisées dans la publicité figurent vos courriels. À qui appartient un courriel ? À la personne qui l’écrit, à celles qui le reçoivent, aux personnes en copie ? Si le courriel parle de vous, en êtes-vous un peu propriétaire ? » [46]
  • sur le plan politique, on peut ajouter ce qu’en dit un des pionniers du web français, Tristan Nitot, ancien de Netscape et Mozilla : « Je ne crois pas à la patrimonialité des données, au droit de les revendre, tout simplement parce que la marge de manœuvre de l’individu face à ces plateformes est ridicule. On notera que dans le scandale Cambridge Analytica, plusieurs milliers d’utilisateurs ont perçu 1 ou 2 dollars pour avoir installé l’application. C’est absolument ridicule par rapport aux dégâts causés : une élection démocratique sous influence. » [47].

Car l’utilisation de nos données par les GAFAM a désormais des conséquences importantes en politique en France, comme en 2016 pour les élections présidentielles américaines. A noter que l’utilisation du "data analytics"/"big data" sur des données nominatives en politique a commencé avec Dan Wagner pour la deuxième campagne d’Obama en 2012 [48]. Wagner n’utilisait pas des données issues de réseaux sociaux, mais d’interviews téléphoniques, comptes bancaires, données d’achats etc. Cela permit aux Démocrates de connaître quasiment personnellement chacun de leurs votants et sympathisants. Aujourd’hui, en France même, les conséquences politiques de l’utilisation des données détenues sur nous par les GAFAM sont évidentes : il suffit de constater que l’algorithme de Facebook, combiné aux informations données par les utilisateurs de Facebook, est un des éléments déclencheurs du mouvement des gilets jaunes. Par exemple, une des raisons pour lesquelles l’algo de FB a mis très fortement en avant certains des premiers posts du mouvement réside dans la proximité géographique de leurs auteurs [49]. Cette proximité géographique est beaucoup plus fortement valorisée par l’algo de Facebook depuis leur tentative de corriger le détournement du réseau social par Trump. Or pas de proximité sans indication à FB de son domicile ou (plus fréquent) activation quasi-permanente du GPS [50]. Facebook sur ce même mouvement gilets jaunes est un méga-pourvoyeur de fake news. Et si le média du gouvernement russe RT France (RT = Russia Today) est — et de très loin — le premier auteur et relayeur de posts et vidéos sur Facebook sur le mot-clé "gilets jaunes" [51], c’est de toute évidence pour influencer la vie politique française, notamment les élections.

Pour vous faire une idée très concrète de ce que Facebook et Google ont sur vous — et donc sur le type d’informations et de données qu’ils vendent (même si ce n’est pas exactement ces données-là qu’ils vendent [52]) —, téléchargez donc l’archive de vos données chez eux. Si, si ! Allez-y, c’est très instructif :

  • Google : Téléchargez vos données : laissez tout coché, sélectionnez tout puis cliquez en bas sur Créer une archive. Un mail vous sera envoyé avec un lien. Cliquez sur ce lien, téléchargez puis dézippez l’(les) archive(s)
  • Facebook : sur un ordinateur (pas une tablette ou un smartphone), connectez-vous à votre compte FB, puis dans Paramètres (petite flèche en haut à droite), cliquez sur "Téléchargez une copie de vos données Facebook". FB vous envoie un e-mail quand le contenu est prêt. Téléchargez. Dézippez. Lisez.

La création d’archives est longue : l’email peut arriver des heures voire 48h après. Surtout, avoir entre 1 et 10 Go — pourtant déjà compressés — à télécharger est assez fréquent : le téléchargement de(s) archive(s) prend donc couramment plusieurs heures. Pendant ce temps, ne fermez surtout pas votre navigateur web, sinon vous interromprez le téléchargement.

Comme le suggère un geek et chercheur à l’ARCEP, Vincent Toubiana, vous pouvez demander à Google la liste des annonceurs qui vous ciblent via Customer Match. Il explique que, concernant la liste des annonceurs, Google indique ne pas gérer de base de données avec toutes les publicités vues par un utilisateur particulier. Cela ne signifie pas que Google n’a pas cette information, mais simplement qu’elle n’est pas facilement restituable [53].

Considérez également ceci : Google s’est longtemps autorisé (prévu dans ses CGU) à analyser le contenu de vos mails GMail, y compris les propos de vos correspondants, « alors que ceux-ci n’ont jamais donné leur consentement et n’ont même jamais été informés de cette surveillance » [54]. Et même s’il a annoncé fin 2017 cesser cette pratique, des sociétés de marketing direct peuvent toujours scanner votre mailbox — avec votre consentement [55].

C’est donc pour moi un souci constant que d’éviter de laisser trop de traces au GAFAM. Autrement dit, j’essaie d’assurer un minimum de sécurité et de protection à mes données et ma vie privée. Pas un maximum, car je n’ai aucune illusion : à moins de ne jamais aller sur Internet, de ne pas avoir de smartphone et de ne rien acheter en supermarché ni par carte bancaire, il est impossible de ne pas laisser de traces.

Comment je fais ? Lisez la suite.

Recommandations et précautions pour diminuer les risques pour votre vie privée

Voici les précautions que je prends et que je recommande — si vous ne les connaissez pas déjà. Attention : ce n’est pas une protection parfaite. C’est un compromis et du "faute de mieux".

Ne vous affolez pas : parmi ces quinze précautions, onze se mettent en place une fois pour toutes. Et vous pouvez le faire progressivement, une par une.

1. Videz tous les jours les données personnelles de votre navigateur web, que ce soit sur sur ordinateur ou sur smartphone. Sur Firefox ça s’automatise dans les Options (ordinateur, Android). Sur Google Chrome, comme par hasard, il faut le faire à la main ...
NB : inutile de supprimer les mots de passe et les données de saisie automatique. En revanche, si ce n’est pas votre ordinateur, là, pensez à le faire.

Google Chrome > Paramètres > Confidentialité

Google Chrome > Paramètres > Confidentialité > Effacer les données de navigation

2. Dans les paramètres de votre navigateur, activez la fonctionnalité "Interdire le suivi" (Do not track / Ne pas pister) (Chrome, Firefox).

Vous avez parcouru un site marchand et après, de la publicité pour les produits que vous avez consultés est affichée sur les sites que vous visitez ? La fonctionnalité Do Not Track (DNT) est censée bloquer ce comportement.

3. Si vous avez un compte Google :

4. Ne naviguez pas sous Chrome. Google Chrome est un navigateur web très ergonomique et rapide. Mais il est bourré de fonctionnalités dédiées à espionner la totalité de votre navigation [56] et il est très difficile de toutes les désactiver. Il s’agit entre autres du préchargement des pages web, de la prédiction des recherches, de l’assistance à la navigation (suggestions de pages alternatives similaires à celle à laquelle vous essayez d’accéder), de la saisie automatique dans les formulaires, du suivi des campagnes promotionnelles, de la localisation, de l’option Améliorer les recherches et la navigation (envoie les adresses des pages que vous consultez à Google) ... (cf la page sur la "confidentialité" de Chrome). Évitez Internet Explorer (d’autant plus qu’il est aujourd’hui totalement dépassé [57] mais aussi son successeur Microsoft Edge et le navigateur Opera, particulièrement depuis que ce dernier a été vendu à un conglomérat chinois.

A la place de Chrome, vous pouvez sans problème utiliser Firefox. Le navigateur de la fondation Mozilla est très respectueux de votre vie privée — sans être parfait. Vous y perdrez un peu en rapidité mais vous pourrez bénéficier de fonctionnalités supplémentaires très pratiques grâce aux très nombreux modules (addons/extensions) disponibles. A commencer par celle-ci, indispensable : sur votre smartphone Android, Firefox vous permet d’installer un filtre anti-publicités et anti-traqueurs de type AdBlock Plus (ABP) ou UBlock Origin (le meilleur des deux). Alors que Chrome sur un smartphone n’en accepte aucun ... Pour en savoir plus, voyez le point 11. infra. Pour paramétrer Firefox de manière à maximiser la protection de votre vie privée, consultez la page Firefox Privacy – The Complete How-To Guide du site Restore Privacy.

Sinon, il n’y a pas que Firefox comme alternative. Vous pouvez aussi naviguer avec :

  • sous ordinateur MacOS et sous smartphone iOS, Safari d’Apple, à condition de le paramétrer correctement
  • Brave. Il se rémunère quand même avec de la pub mais elle optionnelle. C’est vous qui choisissez (système dit de l’opt in). C’est le programme Brave rewards, qui rémunère les sites web que vous choisissez. Brave possède un anti-traqueur intégré, et il surfe plus vite que Chrome ou Firefox [58]. Autre gros avantage de Brave : les addons conçus pour Chrome sont compatibles avec Brave [59] — c’est normal puisque Brave est une "version" de Chromium, le projet open source dont dérive aussi Chrome
  • d’autres suggestions sont listées dans la page Best Secure browsers du site Restore Privacy [60].

5. Testez des alternatives à Google Drive [61]. Notamment SpiderOak (sécurité et "privacy" radicaux), Digiposte ou le nouveau service Cozy Cloud créé par le pionnier du Web français Tristan Nitot (5 Go gratuits et des fonctionnalités inédites).

6. Utilisez les messageries cryptées Telegram ou Signal [62] ou le courrier papier en cas de besoin de confidentialité absolue. Ce sont les recommandations de journalistes d’investigation et de spécialistes reconnus de la sécurité informatique [63].

Aux dernières nouvelles, le chiffrement des messages sur Telegram n’a toujours pas été cassé mais la pression russe est intense sur le développeur fondateur Pavel Dourov [64].

Logo de l'application de messagerie Telegram

7. N’utilisez plus Facebook et désactivez ou supprimez votre compte [65]. Si les liens précédents ne marchent pas, cherchez sur le web comment faire, car FB ne le met pas du tout en avant.

Si vraiment vous ne pouvez pas vous en passer :

  • apprenez au moins comment paramétrer Facebook pour limiter les dégâts [66]. Le top du paramétrage pro-vie privée de FB étant probablement la présentation PowerPoint de Serge Courrier Facebook pour les paranos : savoir régler ses paramètres de confidentialité (ok, elle date de 2005 mais tout ou presque est dedans)
  • et utilisez le navigateur Firefox avec l’extension Facebook Container [67]. Une fois téléchargée, l’extension empêche la moisson des données de navigation associées à votre compte sur le réseau social. Facebook Container stocke les informations dans un récipient virtuel. Si vous surfez sur d’autres sites, vos informations ne migrent pas avec vous, elles restent bloquées dans le container.

Si vous avez juste besoin d’une messagerie et que vous ne correspondez jamais avec plus de 10 personnes, utilisez le mail. Si vous voulez vraiment une messagerie instantanée ou que vous correspondez avec de plus grands groupes, utilisez plutôt Messenger ou WhatsApp. Même si ce sont des filiales de Facebook, leur "empreinte sur la vie privée" est moindre. Mais pas nulle : par exemple, si vous installez WhatsApp, Facebook a accès à votre liste de contacts, et WhatsApp, par défaut, configure votre activité, votre photo de profil et votre actu pour qu’ils soient visibles de tous ... Personnellement, j’ai supprimé WhatsApp de mon smartphone.

8. N’utilisez pas WhatsApp [68]. Au minimum, verrouillez votre compte WhatsApp pour que votre activité, votre photo de profil et votre actualité ne soient pas visibles de tous.

Comment faire ? En personnalisant les paramètres du menu Confidentialité. Ouvrez les Réglages, entrez dans Compte puis dans Confidentialité et modifiez les paramètres Photo de profil, Actu et Statut pour qu’ils ne soient visibles que de vous ou de vos contacts [69].

9. Désactivez le GPS de votre smartphone des que vous n’en avez plus besoin.

Ne laissez jamais votre GPS activé en permanence. Autant indiquer à Google ou Apple non seulement où vous habitez et où vous travaillez mais également chez qui vous faites vos courses, la liste de vos amis, votre parcours de footing, chez qui vous avez passé la nuit etc.

10. Lisez et refusez si nécessaire les autorisations demandées par les app de votre smartphone.

Comme l’explique François Charron, un spécialiste québécois des sites web pour PME et excellent vulgarisateur [70] :

« En installant une application sur votre téléphone, vous lui donnez le droit d’accéder à certaines informations : votre carnet de contact, vos photos, vos textos, votre emplacement, l’appareil photo, le microphone, les informations de connexion, Wi-Fi et Bluetooth, etc. [...]

Pourquoi une lampe de poche aurait besoin d’accéder à votre agenda ? Pourquoi un jeu doit être autorisé à accéder au micro ? [...]

Sur iPhone (iOS 8 ou plus récent), vous pouvez accéder aux applications ayant demandé un accès à un type de données en allant dans Réglages > Confidentialité. Seules les apps ayant demandé un accès apparaissent.
Appuyez sur une app pour voir la liste complète de ses permissions et les modifier.

Sur Android (Android Marshmallow 6.0 ou plus récent) vous pouvez voir les autorisations demandées par une app en allant dans Paramètres > Applications.
Appuyez sur une app, puis sur Autorisations pour voir la liste complète de ses permissions et les modifier.
Vous pouvez aussi savoir quelles apps ont accès à votre caméra, vos contacts, votre position ou une autre données en allant dans Paramètres > Applications. Appuyez sur l’engrenage, puis sur Autorisations de l’application. Sélectionnez ensuite une donnée pour voir la liste des apps qui y ont accès. »

11. Ajoutez un module/extension/addon anti-tracking (ce qui comprend généralement l’anti-pub) à votre navigateur web. Les meilleurs sont : Ublock Origin [71], AdBlock Plus (ABP), Ghostery et Privacy Badger (qui lui n’est orienté que anti-tracking, pas anti-pub). Pour un comparatif et plus de détails, voir How to stop browser tracking : 6 free anti-tracking browser extensions, par Aimee O’Driscoll, Comparitech, 15 juillet 2017.

Problème : sur un smartphone, que ce soit sous Android ou iPhone, il n’existe pas de module de ce type pour Chrome. Il vaut donc mieux utiliser Firefox, Safari avec une des extensions supra. Ou le navigateur Brave, qui lui possède un anti-traqueur intégré.

Si vous ne voulez ou pouvez pas utiliser un "ad blocker" — par exemple, parce que certains sites vont refuser l’accès à ceux qui ne veulent pas voir de publicité —, paramétrez au moins le site pour qu’il vous "flique" le moins possible. Depuis que le Règlement général de protection des données (RGPD) est applicable, les sites web sont tenus (sauf s’ils ne collectent rien sur vous) de vous demander votre consentement.


Exemples de trackers bloqués par Ublock Origin sur une page du site Le Point.fr

12. Tous les mois, tapez vos nom et prénom dans Google, ainsi que ceux des membres de votre famille. En cas de publication de données personnelles ou d’informations privées, contactez l’adresse de contact et en cas de refus d’effacer, invoquez la loi CNIL et le règlement européen sur la protection des données personnelles (RGPD). Double refus ? Signalez-le à la CNIL.

13. Sur votre ordinateur :

  • utilisez un pare-feu en permanence ("firewall"). Un firewall ferme automatiquement les "portes" électroniques et logicielles ("ports") inutilement ouvertes de vos appareils. Il est particulièrement utile si vous surfez sans routeur, c’est-à-dire sans "box" [72]. Par exemple, si vous utilisez un ordinateur portable doté d’une clé 4G, vous avez clairement besoin d’un parefeu. Sous Windows, depuis la version 7, il est activé par défaut. D’autres pare-feux gratuits sont disponibles, mais celui de Microsoft fait correctement son travail. Il est en revanche très difficile à paramétrer. Donc, pour des besoins précis ou évolutifs, préférez-lui un concurrent : ZoneAlarm, Comodo, TinyWall (qui améliore le parefeu de Windows, particulièrement sur le plan du paramétrage), Avast ... NB : un pare-feu ne peut être installé sur un smartphone que si on a "rooté" (Android) ou "jailbreaké" (iOS) celui-ci, mais son intérêt est moindre que sur un ordinateur
  • ayez un antivirus et tenez le à jour. Avast est un des meilleurs et il est gratuit pour les particuliers. Sinon, F-Secure, BitDefender, Kaspersky, McAfee, Trend Micro ou Norton de Symantec font bien le job. NB : pour l’instant, les antivirus sont inutiles sur les smartphones
  • sauvegardez vos données, soit sur le cloud, soit sur une (grosse) clé USB ou un disque dur externe
  • ayez un vrai mot de passe (plus de 8 caractères, complexe, cf 11. infra) pour l’accès à l’interface d’administration de votre box
  • vérifiez que votre réseau wifi est crypté en WPA avec une clé assez longue et complexe (cf 11. infra) [73].

14. Ayez partout un mot de passe différent et complexe (avec des chiffres, des majuscules, des caractères non alphabétiques etc., voir ces recommandations très complètes). Vous pouvez le faire générer par un générateur de mot de passe solides.

Si retenir et saisir tous ces mots de passe vous fatigue, utilisez un gestionnaire de mots de passe. Parmi les gestionnaires de mots de passe recommandés : LastPass, Dashlane et KeePass/KeeFox. Ce dernier est de surcroît open source et recommandé par l’Etat français. Autrement dit, il dispose de la certification de l’autorité nationale de sécurité informatique (ANSSI). Mais il ne dispose pas de version mobile. Pour les deux premiers, la version smartphone est payante. Si vous êtes sous Mac, utilisez 1Password.

Biens sûr, comme rien n’est parfait en ce monde, vous prenez quand même un risque. Les gestionnaires de mots de passe ne sont pas totalement blindés contre des attaques [74]. Le gestionnaire de mots de passe OneLogin, par exemple, s’est fait pirater mi-2017. OneLogin comptait des millions de clients et parmi eux plus de 2000 entreprises dans une dizaine de pays ... [75] De ce point de vue, c’est probablement KeePass le plus secure (mais pas totalement [76]).

15. A propos des enceintes connectées, mon conseil est simple : n’en achetez pas. Car non seulement vous risquez d’oublier d’éteindre le micro de ce mouchard, mais en plus, vous pouvez faire faire la même chose avec les applications de votre smartphone, qui se comporte déjà comme un super mouchard.

Si vous tenez absolument à acheter une enceinte connectée [77], la CNIL, dans un guide récent [78] conseille de :

  • ne pas partager de données personnelles avec l’assistant vocal de l’enceinte (« Chérie, c’est quoi déjà le numéro de la CB du compte commun ? » ...)
  • quand elle n’est pas utilisée, couper le micro de l’enceinte (pour Google Home et Amazon Echo, il y a un bouton physique, mais pour le Home Pod d’Apple, il faut désactiver cela via son iPhone ou en disant « Dis, Siri, arrête d’écouter »), ou même carrément l’éteindre
  • avertir les tiers/invités de l’enregistrement potentiel des conversations (ou couper le micro lorsqu’il y a des invités)
  • encadrer les interactions des enfants avec ce type d’appareils (rester dans la pièce, éteindre le dispositif lorsqu’on n’est pas avec eux).

16. Allez un pas plus loin :

  • réclamez une application stricte et systématique de la nouvelle réglementation RGPD (le nouveau règlement européen de protection des données), voire son amélioration. Car le consentement est trop souvent donné sans lire les conditions d’utilisation de x pages de long. Et il est devenu très difficile de se passer d’Internet. Comme le soutient par exemple Zeynep Tufekci, enseignante à l’Université de Caroline du Nord et Harvard et chroniqueuse au NY Times, considérer la défense de l’intimité et de la vie privée et de nos données ("data privacy") comme une responsibilité individuelle n’est plus adéquat : celles-ci devraient désormais être considérées comme un bien public, comme l’air, ou encore comme une liberté publique, telle la liberté d’expression [79]
  • appuyez une évolution du droit de la concurrence en matière de pratiques anticoncurrentielles. Ça n’a rien que de normal : aux Etats-Unis, entre les deux guerres, les pratiques de la Standard Oil amenèrent les politiciens américains à réguler plus avant les monopoles et oligopoles. Un des tout premiers investisseurs de Facebook et spécialiste du secteur du Big Data, Roger McNamee, réclame une telle évolution dans le Financial Times [80]
  • si vous êtes un épargnant avisé, un investisseur ou un entrepreneur geek, soutenez ou créez les entreprises technologiques européennes de demain, aussi bien celles respectueuses de la vie privée que celles, surtout, qui la protègeront. Car comme l’explique Bernard Benhamou, secrétaire général de l’Institut de la souveraineté numérique, un institut privé, sinon, nous sommes condamnés à vivre avec le business modèle de la surveillance [81].

D’autres recommandations et outils pour protéger vos données et vos appareils sont disponibles sur :

Pour aller plus loin en sécurité informatique (dite aussi cybersécurité), vous pouvez :

Vous avez d’autres pratiques de protection de votre vie privée à recommander ? Les commentaires sont ouverts.

Emmanuel Barthe


About the Colossus search engine directory ...

... and its limits

Lundi 6 mai 2019

Lire la suite »

I’ve been seeing mentions of the Colossus search engines directory searchenginecolossus.com since 1999. Along the years, I sometimes had a go at it and tested some of the search tools (web site directories mainly) it recommends.

Its main and only interest is it lists a number of regional web-site-directories.

Its limits

But apart from that, I do not recommend using Colossus.

Its very ancient HTML code (written in CAPITAL letters) should be enough to keep you away from it [82]. Why ? Because it’s a sign of a probable lack of updating.

Other, more serious reasons for not using and not trusting it much include :

  • it links to other old, not updated directories instead of to final resources. Example : this directory’s page it links to is empty : findelio.com/2888/Automotive/
  • it lures you into believing it indexes a ton of treasure troves but it’s deceptive
  • spelling mistakes
  • same search engine directories repeted in each country section. Example : Ezilon ezilon.com
  • its local countries web-site-directories are :
    • incomplete. For instance, its France section searchenginecolossus.com/France.html does not list premsgo.fr / annuairefrancais.fr, a not too recent but very active actor
    • and they list mainly regional-level, not specifically national, link directories.

To conclude on Colossus :

  • granted, beggars can’t be choosers and there really isn’t a lot of competition in its field (local oriented link directories)
  • but in my opinion, it’s too old/not updated enough, repetitive, deceptive and incomplete. Event the concept of directory itself is outdated — though I appreciate it much personnaly and have long advocated it and taught a course on how to build a link directory [83].

Alternatives

If you’re searching for local resources, it might be among other starting points, but really, it shouldn’t be alone and its links should be tested thoroughly. Personnaly, I’d rather use a standard, reliable, web search engine to locate the main resources and perhaps, in a separate query, some specialised, local link directories and start from there.

What’s your own point of view ? Do you think it’s still worthwhile ? The comment section is open.

Emmanuel Barthe
librarian researcher, Internet search tools evangelist


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 34

Dernières brèves