Avocats, documentalistes, attention à la confidentialité de vos recherches en ligne

Réduire la surveillance sur ses recherches et sa navigation, se débarrasser des publicités

Jeudi 25 juillet 2013, par Emmanuel Barthe // Logiciels, Internet, moteurs de recherche

L’éthique professionnelle des documentalistes et des avocats les conduit à protéger la confidentialité de leurs recherches.

Voici donc quelques remarques sur les risques de la recherche en ligne à cet égard et des solutions.

Des risques non négligeables

Rappelons d’abord que tout site web — et donc tout moteur de recherche — sur lequel vous allez reçoit automatiquement l’adresse IP de votre ordinateur. Et la plupart des sites [1] conservent cette donnée, associée à vos mots-clés de recherche, les résultats de recherche et les pages cliqués etc. [2] Or, un simple "IP resolver" (communément et gratuitement disponible sur le Web) permet de traduire cette adresse IP dans le nom de domaine de votre entreprise [3].

De plus, des grands de l’Internet comme Google et Facebook (FB) ont, de par leurs publicités ou leurs boutons Like ou Google+, par votre connexion permanente à votre compte FB ou GG ou encore par le navigateur Chrome, la possibilité de connaître en détail votre consultation quotidienne d’Internet. Il suffit pour s’en convaincre de lire les déclarations de confidentialité, par exemple, de Bing, le moteur de Microsoft, des services Google (incluant son moteur de recherche) [4] et de Chrome.

Pour donner un exemple très concret des risques induits par la conservation des logs et adresses IP par la très grande majorité des moteurs de recherche, voici l’affaire de la "AOL users database", mise en avant par Ixquick. Fin juillet 2006, le département de recherche d’AOL, un des rares fournisseurs d’accès Internet historiques encore actif, a rendu public, pour paraît-il la communauté des chercheurs universitaires, les recherches de 658 000 de ses abonnés effectuées entre mars et mai 2006.

Sans leur demander quoi que ce soit. Mais sans leur nom.

Alors, où est le problème, direz vous ? Eh bien, plusieurs recoupements ... et le tour peut être joué : vous êtes identifié, vous, vos sujets de recherche, vos petites manies, vos goûts. Vos turpitudes aussi. Voyez l’exemple réussi par le New York Times (lien infra) : ils ont identifié sans peine (oui, facilement) une veuve de 62 ans par ses recherches.

« Le problème, comme l’explique Michael Arrington de l’excellent, très respecté et très lu blog IT TechCrunch, c’est que beaucoup de gens [identifiés ici à travers toute la base d’AOL par un numéro ...] font souvent des recherches sur leur propre nom, ou ceux de leur amis et famille, pour voir l’information disponible sur eux sur le Net. Combinez ces recherches à fort coefficient d’égo avec des requêtes pornographiques et bonjour la gêne. Combinez les avec une adresse ou un n° de sécurité sociale etc. et vous avez un vol d’identité en ligne qui n’attend que d’être commis. »

La base en question a été copiée, avant le retrait par AOL des données, par deux étudiants en informatique de l’Université de Pennsylvanie, sur AOL Search Database [5].

Autre scandale qui éclate en 2013, et qui lui aurait tendance à faire penser qu’il est inutile de prendre des précautions : Prism. En effet, Prism comprend un programme de cassage des chiffrements (Bullrun) et la création lors de leur élaboration de "backdoors" dans les logiciels, les programmes de cryptages (les backdoors ne sont pas installées, mais préexistent dans le logiciel, soit exprès, soit par l’exploitation d’une faille) et les matériels de communication américains [6]. NB : Prism est légal aux Etats-Unis.

Enfin, un système d’écoute français de l’Internet existe aussi [7].

Disons que les précautions décrites ci-dessous réduisent tout de même fortement les risques d’interception et de perte de confidentialité. Et que, une fois ces mesures prises, la perte de confidentialité ne peut plus être imputée au juriste.

Des solutions techniques

Faire ses recherches sur le Web en toute confidentialité, Le Monde 10 janvier 2008 : cet article cite Ixquick, un métamoteur qui ne garde aucune donnée (ni adresse IP, ni rien), en même temps qu’un bon métamoteur côté pertinence [8]. A noter qu’Ixquick n’est pas une société américaine : elle est la propriété d’une société néerlandaise, Surfboard Holding BV. Voir aussi la page montée par Ixquick sur les moteurs de recherche et la vie privée, elle en vaut le coup.

Ixquick n’a qu’un défaut à mes yeux : ne pas interroger Google.

Heureusement, ils sont allés plus loin en montant Startpage, un moteur qui utilise Google sans, selon eux, transmettre ni garder la moindre trace.

A part Ixquick et Startpage, il existe aussi des "proxies de moteurs recherche", qui masquent vos identifiants au moteur interrogé. En voici un : Black Box Search, signalé notamment par un anonymiseur de navigation sur le Web et réalisé par un développeur américain, Nemanja Stefanovic.

Il existe aussi des "anomymizers" : des anomymiseurs de navigation. Black Box Search est aussi un anomymiseur gratuit de navigation pour Firefox : installez d’abord GreaseMonkey — un add-on pour Firefox — puis ce script. Dès lors, votre navigation sur le Web passera par l’intermédiaire du proxy Black Box Search : les sites visités ne verront pas votre ordinateur passer chez eux mais celui de Black Box Search. Il permet d’interroger les trois meilleurs moteurs actuels : Google, Yahoo et LiveSearch de Microsoft. Un conseil : mettez le dans vos favoris et menez vos recherches "sensibles" sur le Web uniquement par lui ou Ixquick/Startpage. Cela dit, primo il faut faire confiance à l’anonymiseur (qui peut aussi être l’objet de pressions du FBI et de la NSA) ... et secundo, l’inconvénient de passer par un site "anonymizer", c’est que beaucoup sont payants et que cela ralentit plus ou moins le débit.

Sinon, utilisez la fonction navigation privée de votre navigateur. Cela semble peu pratique tant nous sommes habitués maintenant au en ligne sans restrictions. Mais imaginez que vous travailliez sur un projet de concentration ... Ca revient au même que d’effacer tout votre historique et vos cookies avant la recherche sensible mais c’est plus simple et plus pratique [9].

In fine, le risque le plus faible consiste à rester sur votre réseau d’entreprise — y compris chez vous, donc passer le poste de travail Citrix et le VPN(réseau privé crypté) [10] de l’entreprise au lieu de travailler sur sa messagerie Gmail, YahooMail ou Hotmail (ce qui est pourtant tellement plus pratique, n’est ce pas) — et de faire des recherches uniquement sur papier ou sur cédérom. Rappelons que nos fournisseurs en ligne n’ont bien souvent pas de CGU garantissant la confidentialité de nos recherches chez eux.

Pour se débarrasser des publicités

Utilisez les add-on suivants pour votre navigateur (vous pouvez les installer tous les deux sans problème) pour empêcher l’envoi d’informations de votre navigateur vers les régies publicitaires Internet :

Ces deux modules, recommandés par les spécialistes du "privacy", sont simples à utiliser et en ce qui concerne Ghostery, il est même patronné par l’industrie de la publicité Internet [11].

Et n’oubliez pas que les add-ons/apps et autres petits logiciels ajoutés à votre navigateur ont des collectes de données et des politiques de confidentialité distinctes des grands de l’Internet [12]. Les propres déclarations de confidentialité des cinq grands rappellent d’ailleurs qu’ils ne sont en rien responsables de ce que font les applications tierces. Un des moyens de bloquer l’envoi d’informations vers ces tiers est d’utiliser les bloqueurs de publicité cités infra.

Pour aller au fond des choses :

  • lire notre billet Garder ses communications Internet en dehors des grandes oreilles, surtout ses commentaires
  • Pourquoi AOL, Google, MSN et Yahoo intègrent messageries instantanées, téléphonie internet et moteurs de recherche — Un commentaire de John Battelle / Francis Pisani, sur son blog Transnets 13 septembre 2005
  • The Database of Intentions / John Battelle (journaliste américain fondateur de Wired et décrypteur des stratégies des grands acteurs du Web, particulièrement les moteurs de recherche), sur son blog BattelleMedia 13 novembre 2003
  • Google Now : the tip of a very long spear / John Battelle, 9 octobre 2013. Le but de Google Now — qui n’est pas un produit mais une fonctionnalité de "recherche prédictive" — est de deviner par géolocalisation et connexion permanente à aux produits de Google, ce qu’on va chercher dans les minutes à venir et l’afficher. Selon John Battelle, quand GG Now aura le don d’ubiquité, les questions d’accès et traitement équitable des acteurs, qui se sont posées lors de la création par Google de la recherche universelle, vont se reposer. En clair : GG Now devrait pousser encore plus les internautes à "rester chez Google" (privatisation de facto du Web). Et il devrait fortement impacter, voire éradiquer, quantité de sites concurrents mais n’appartenant pas au même groupe et non intégrés, eux. Et Battelle ne ne parle pas des enjeux de confidentialité/données personnelles ("privacy" en anglais) qui augmenteront de toute évidence avec GG Now.

Emmanuel Barthe
documentaliste juridique

Notes de bas de page

[1Leur hébergeur, en général, pour être plus plus précis.

[2C’est ce qu’on appelle les statistiques de consultation du site.

[3Autrement dit, si vous êtes dans un cabinet d’avocats et que vous cherchez "société X" puis "société Z", des employés du moteur de recherche pourraient en déduire que vous travaillez peut-être sur un projet de rachat de l’un de ces sociétés par l’autre.

[4Juste un extrait, une partie de ce que Google collecte :

  • « Données relatives à l’appareil utilisé
    Nous pouvons collecter des données relatives à l’appareil que vous utilisez (ex : modèle, version du système d’exploitation, identifiants uniques de l’appareil et données relatives au réseau mobile, y compris votre numéro de téléphone). Google peut associer les identifiants de votre appareil ou votre numéro de téléphone à votre Compte Google.
  • Fichiers journaux
    Lorsque vous utilisez nos services ou que vous affichez des contenus fournis par Google, nous pouvons automatiquement collecter et stocker des informations dans les fichiers journaux de nos serveurs. Cela peut inclure :
    • la façon dont vous avez utilisé le service concerné, telles que vos requêtes de recherche
    • des données relatives aux communications téléphoniques, comme votre numéro de téléphone, celui de l’appelant, les numéros de transfert, l’heure et la date des appels, leur durée, les données de routage des SMS et les types d’appels
    • votre adresse IP
    • des données relatives aux événements liés à l’appareil que vous utilisez, tels que plantages, activité du système, paramètres du matériel, type et langue de votre navigateur, date et heure de la requête et URL de provenance
    • des cookies permettant d’identifier votre navigateur ou votre Compte Google de façon unique. [...] ».

[5Le communiqué et la plainte fédérale déposée par l’Electronic Frontier Foundation (EFF). Quelques articles sur le scandale AOL :

[6Microsoft handed the NSA access to encrypted messages / Glenn Greenwald, Ewen MacAskill, Laura Poitras, Spencer Ackerman et Dominic Rushe, The Guardian 12 juillet 2013. Prism : le chiffrement des contenus n’est plus une protection suffisante, ZDNet 6 septembre 2013.

[7Révélations sur le Big Brother français / Jacques Follorou et Franck Johannès, Le Monde.fr 4 juillet 2013.

[8Merci à Michèle Lemu pour avoir signalé cet article sur la liste Juriconnexion.

[9Si vous effacez vos cookies, vous devrez vous ré-identifiez sur tous les sites privés ou payants que vous consultez habituellement.

[10Même contre Prism : un petit fournisseur d’accès Internet de l’Utah estime que le cryptage reste le meilleur outil contre l’"Internet snooping".

[11Car d’une part, il va dans le sens de l’"opt-out", que l’industrie publicitaire préfère au principe inverse de l’opt-in. D’autre part, il restera probablement utilisé par une minorité.

[12Les GAFA, comme on tend à les appeler : Google, Amazon, Facebook, Apple. Auxquels il faut ajouter Microsoft.

Répondre à cet article