Actualités : derniers articles

An open letter to the LinkedIn security team

Some questions I have

Jeudi 26 mai 2016

Dear LinkedIn secury team,

You just sent me an email telling me about the recent publishing on the internet of LI IDs and hashed passwords from 2012.

My sincere thanks for this notification. On the one hand, it’s very positive that LI acknowledges the situation.

On the other hand :

Why don’t you start by exacting from users that they use complex passwords (i.e. with at least one digit and one sign not being a letter) ?
Instead of asking for their phone number, which is much more privacy invading.

Also, why is it that the press has told about the leak days before you sent me this email ?

And finally, why is it that the accounts concerned dit not have their passwords reset in 2012, when the original leak happened ? Does that mean that you did not detect it at the time ?

Thanks for listening.

Sincerely,

E. Barthe

PS 1 : Don’t forget that the European General Data Protection Regulation (GDPR) will come into force in 2018. Although they are not automatic at all, it contains huge penalties for this kind of leak.
PS 2 : I know LI is not the only internet business having those massive data leaking problems. But that is no excuse. And those businesses should beware too the GDPR sanctions.


Des listes de portails open data

Pour trouver des jeux de données publiques réutilisables gratuitement et librement

Lundi 2 mai 2016

NB : cette liste est une ébauche à compléter.

- OpenDataSoft : La liste des Portails Open Data dans le Monde : carte interactive et liste. La liste permet une recherche sommaire par chaîne de caractère (exemple : "econo" pour des portails de statitiques économiques). Semble le plus riche des portails cités ici.

- Data Portals : carte interactive et liste (cherchable comme indiqué supra). Concoctée par des experts open data. Service offert par l’Open Knowledge Foundation (OKF).

- CKAN instances around the world : une liste. Tri par pays ou type d’organismes auteur.

- OpenDataMonitor (projet financé par la Commission européenne) : carte interactive. Uniquement des jeux de données en Europe. Permet des comparaisons sur certains critères qualitatifs ou quantitatifs.

- Portail des données ouvertes de l’Union européenne : contrairement aux autres répertoires cités ici, celui-ci n’offre pas d’accès géographique (en effet, les jeux de données proviennent des institutions de l’UE, pas des Etats membres), mais fournit en revanche un accès par sujet. A signaler aussi les onglets Applications et Le coin des développeurs.

Connaissez-vous d’autres listes/répertoires/annuaires/bases de données de portails open data au niveau international ? Les commentaires sont ouverts.


Synthèse et explications

Les revues en SHS à l’heure des logiciels d’édition et des plateformes de diffusion en ligne

Cairn, Revues.org, Persée, Isidore, barrière mobile, open access, AOI ...

Dimanche 17 avril 2016

Le billet qui suit a été rédigé en février 2015 pour guider une amie dans le monde nouveau (pour elle) des revues scientifiques en ligne. Je le reprend ici quasiment sans mise à jour ni réécriture, brut de décoffrage et avec son côté "les grandes lignes seulement".

Les petites et moyennes revues françaises en sciences humaines et sociales (SHS) utilisent désormais en partie le modèle d’affaires ("business model") du Web-gratuit-et-bien-référencé-par-Google pour augmenter leur diffusion, valoriser leurs numéros et mieux vendre leurs articles et leurs abonnements. Tout en maintenant leur indépendance et en baissant leurs coûts de production et de diffusion [1].

Pour cela, le processus d’édition des revues change :

  • un fichier Word ou RTF déjà balisé par des styles permet de récupérer facilement et automatiquement les informations dans les champs (Titre, Auteur, Résumé etc.)
  • le logiciel d’édition électronique (CMS) :

Lodel est un de ces CMS, c’est celui qui est derrière Revues.org :

Les méta-données (Titre, Auteurs, Mots-clés, Date, Titre de la revue ; mais pas forcément le texte intégral) sont laissées en accès libre et reconnues automatiquement par les robots indexeurs (on appelle ça le moissonnage OAI-PMH [3]) : non seulement les robots indexeurs des moteurs de recherches du Web (Google, Bing) mais aussi et surtout ceux de logiciels de bibliothèque comme PMB et de bases de données internes aux structures, ou externes comme celle tenue par l’Université allemande de Bielefeld BASE, accessible gratuitement en ligne. Le portail français Isidore fonctionne selon le même principe :

Ce sont les éditeurs, les revues et les institutions (Universités) qui sont derrière les trois plateformes de revues en ligne Cairn (plus orienté éditeurs privés), Revues.org (plus orienté universités, il fait partie de OpenEdition géré par le Cleo) et Persée (orienté diffusion de collections patrimoniales [4] et sociétés savantes). Exemples et liens utiles :

Le tout est interrogeable, entre autres sources, sur le méga-portail des publications françaises en SHS Isidore :

Concrètement, ces portails en ligne financés en commun mélangent un accès gratuit aux numéros anciens et le vente des productions récentes à la pièce (quelques euros l’article) ou par bouquets de revues. Les éditeurs ou les revues déterminent eux-mêmes quelle période de leurs collections est en accès gratuit. C’est souvent le modèle de la barrière mobile ("moving paywall") qui est appliqué : la dernière ou les 2 ou 3 dernières années de la revue sont payantes.

L’abonnement direct auprès de l’éditeur reste possible pour certaines revues (ex. les revues des Editions du CNRS sont à la fois disponibles à la vente auprès du CNRS et sur le portail Cairn). Pour d’autres, toutes les fonctions de vente et abonnement sont déléguées au portail. Par exemple, les revues des Presses de la FNSP sont uniquement disponibles sur Cairn.

Emmanuel Barthe
documentaliste, gestionnaire de site web


Dernières brèves

Quelques listes de webscrapers

En avez-vous d’autres ?

Mercredi 3 février 2016

Lire la suite »

Scraper un site web, c’est en extraire de manière ordonnée des informations, souvent sous forme de notices/fiches ou de tableaux de chiffres. Pour plus de détails sur la définition, voir Wikipedia. Pour mieux comprendre en quoi ça consiste, voir l’excellent et très pédagogique billet de Nicolas Galita.

Serge Courrier a dans son Diigo une liste de méthodes tout type de scraping confondus, et une section Web Scraping.

Sinon une bonne sélection : Etat des lieux sur les Webscrapers du marché / Lawrence Carbon, Press Inov’ 17 novembre 2015.

En voyez vous d’autres ?

NB : bien distinguer les webscrapers des "Yahoo-Pipes-like" [1].

Emmanuel Barthe
veilleur


Inventaire

Les collections anciennes de revues juridiques dans Gallica

Une mine jusqu’en 1939

Jeudi 28 janvier 2016

Lire la suite »

 [2] Voici les liens vers les collections anciennes de revues juridiques dans Gallica :

Attention, la collection est souvent moins complète qu’annoncé :

  • moins complète qu’annoncé dans la notice Gallica. Par exemple, la notice (cliquer sur le titre de la revue en haut de la page) de la collection de la Revue trimestrielle du droit des sociétés et du droit financier annonce 1932-1944, alors que seules les années 1932 à 1936 sont en ligne. Cette différence semble venir d’un copier-coller des dates de la notice présente dans le catalogue BN Opale des collections papier de la Bibliothèque nationale. Cela peut signifier que la BNF entend continuer son programme de numérisation sur ces revues à court ou moyen terme
  • de plus, même en se basant sur la liste des volumes (et non sur la notice Gallica), on a parfois de mauvaises surprises :
    • des années considérées comme faisant partie de la collection peuvent être en fait de simples tables (exemple : l’année 1792 du Bull. civ. est en fait une table alphabétique 1792-1824)
    • si on cherche l’arrêt Blanco (Tribunal des conflits 8 février 1873, Leb. supp. 1, p. 61) Le Lebon 1873 est censé y être, mais il manque justement les 150 pages du premier supplément où devrait se trouver cet arrêt [4].

Pour la comparaison (à l’avantage de Gallica en termes de contenu) avec Google Books, voir notre article Gallica contre Google Books : le match !.

Emmanuel Barthe
bibliothécaire documentaliste juridique


La dématérialisation des publications officielles touche à sa (ses) fin(s)

Au 1er janvier 2016, le Journal officiel papier disparaît

Après les BO, le JO

Mercredi 20 janvier 2016

Lire la suite »

Après (quasiment-tous) les Bulletins officiels (BO) [5], le Journal officiel (JORF) est dématérialisé, la version imprimée disparaît.

Les textes

Voici les textes officiels, tous publiés au JO n° 297 du 23 décembre 2015, qui permettent ce passage au pur numérique :

Le problème des naturalisations et changements de nom

Concernant les décrets de naturalisation et de changement de nom, lors de l’apparition du JO numérique sur Legifrance et sur journal-officiel.gouv.fr, le choix avait été fait de ne pas les publier en numérique vu le caractère nominatif et sensible de ces informations et après avis en ce sens de la CNIL (application de la loi Informatique et libertés du 6 janvier 1978). Ces textes n’étaient donc pas publiés dans les versions en ligne du JO mais uniquement sur sa version imprimée.

Avec la dématérialisation, donc la suppression de cette version papier, les changements de nom et naturalisations doivent donc migrer en ligne tout en empêchant leur indexation par les moteurs de recherche [6]. La DILA a donc mis en place :

  • un avertissement expliquant que ces informations sont protégées et ne doivent pas faire l’objet d’une réutilisation/rediffusion telles quelles
  • et un système d’accès anti-robots à ces décrets de type captcha (on demande à l’internaute le résultat d’une addition).

La page du site Legifrance intitulée Recherche d’une information nominative à accès protégé dans un numéro du Journal officiel depuis le 1er janvier 2016, accès au PDF décrit en détail les catégories d’« informations nominatives à accès protégé » (INAP)‎ et comment y accéder désormais. Les premiers décrets protégés de cette façon ont été publiés au JORF du 20 janvier 2016 (voir tout en bas la partie Annonces).

Les aspects financiers

Extraits du rapport Anziani sur le projet de loi [7] (le gras est d’origine) :

« L’élaboration et l’impression de la version papier du Journal officiel est devenue, selon les indications du directeur de l’information légale et administrative, une partie secondaire des missions de la SACIJO.
[...]

Ce changement s’inscrit, au demeurant, dans un mouvement général de dématérialisation continue des publications officielles. Ainsi, 9 bulletins officiels ministériels édités par la DILA sont uniquement publiés sous forme électronique. Ont été également dématérialisées les éditions du Bulletin officiel des annonces des marchés publics (BOAMP), depuis 2012, et du Bulletin officiel des annonces civiles et commerciales (Bodacc) en 2015.

L’économie financière pour l’État est notable sans être déterminante puisque, selon les informations transmises à votre rapporteur, l’impression quotidienne de 1 676 exemplaires du Journal officiel de la République française conduit à un million d’euros de dépenses annuelles de fonctionnement, couvertes en partie par le montant, en baisse constante, du produit des abonnements qui s’élève à 600 000 euros. L’économie nette attendue peut donc être évaluée à près de 400 000 euros, sachant que la dématérialisation intégrale du Journal officiel nécessitera un investissement de l’ordre de 100 000 euros pour ajouter les déclinaisons informatiques nécessaires à l’outil de production éditorial existant (STILA).

La dématérialisation intégrale du Journal officiel de la République française présenterait également des effets environnementaux positifs en évitant l’impression sur papier des exemplaires quotidiens. »

Quelles publications officielles restent imprimées aujourd’hui ?

Extrait de l’actualité publiée en ligne par la DILA sur son site [8] :

« Au 1er janvier 2016, à propos des éditions JO :

  1. Bulletin officiel des décorations médailles et récompenses (BODMR) – Edition papier maintenue
  2. Journal officiel – Associations – Edition dématérialisée
  3. Journal officiel - Documents administratifs – Edition dématérialisée
  4. Journal officiel - Lois et décrets - Tables mensuelles et annuelle – Edition supprimée
  5. Journal officiel - Tables Débats du Sénat - Compte Rendu – Edition supprimée
  6. Journal officiel - Débats de l’Assemblée nationale – Questions-Réponses – Edition dématérialisée
  7. Journal officiel - Débats du Sénat – Questions-Réponses – Edition dématérialisée
  8. Journal officiel de la République Française - Avis du Conseil économique, social et environnement (sous forme de fascicules couleur). – Edition papier maintenue »

A noter que le Bodacc a été dématérialisé au 1er juillet 2015. Seuls donc, demeurent en version papier :

  • le BOAMP semble t-il — pour combien de temps ?
  • le Bulletin officiel des décorations médailles et récompenses, comme précisé supra
  • le JO Avis du CESE, comme précisé supra.