Actualités : derniers articles

Quelques listes de webscrapers

En avez-vous d’autres ?

Mercredi 3 février 2016

Scraper un site web, c’est en extraire de manière ordonnée des informations, souvent sous forme de notices/fiches ou de tableaux de chiffres. Pour plus de détails sur la définition, voir Wikipedia. Pour mieux comprendre en quoi ça consiste, voir l’excellent et très pédagogique billet de Nicolas Galita.

Serge Courrier a dans son Diigo une liste de méthodes tout type de scraping confondus, et une section Web Scraping.

Sinon une bonne sélection : Etat des lieux sur les Webscrapers du marché / Lawrence Carbon, Press Inov’ 17 novembre 2015.

En voyez vous d’autres ?

NB : bien distinguer les webscrapers des "Yahoo-Pipes-like" [1].

Emmanuel Barthe
veilleur


Inventaire

Les collections anciennes de revues juridiques dans Gallica

Une mine jusqu’en 1939

Jeudi 28 janvier 2016

 [2] Voici les liens vers les collections anciennes de revues juridiques dans Gallica :

Attention, la collection est souvent moins complète qu’annoncé :

  • moins complète qu’annoncé dans la notice Gallica. Par exemple, la notice (cliquer sur le titre de la revue en haut de la page) de la collection de la Revue trimestrielle du droit des sociétés et du droit financier annonce 1932-1944, alors que seules les années 1932 à 1936 sont en ligne. Cette différence semble venir d’un copier-coller des dates de la notice présente dans le catalogue BN Opale des collections papier de la Bibliothèque nationale. Cela peut signifier que la BNF entend continuer son programme de numérisation sur ces revues à court ou moyen terme
  • de plus, même en se basant sur la liste des volumes (et non sur la notice Gallica), on a parfois de mauvaises surprises :
    • des années considérées comme faisant partie de la collection peuvent être en fait de simples tables (exemple : l’année 1792 du Bull. civ. est en fait une table alphabétique 1792-1824)
    • si on cherche l’arrêt Blanco (Tribunal des conflits 8 février 1873, Leb. supp. 1, p. 61) Le Lebon 1873 est censé y être, mais il manque justement les 150 pages du premier supplément où devrait se trouver cet arrêt [4].

Pour la comparaison (à l’avantage de Gallica en termes de contenu) avec Google Books, voir notre article Gallica contre Google Books : le match !.

Emmanuel Barthe
bibliothécaire documentaliste juridique


La dématérialisation des publications officielles touche à sa (ses) fin(s)

Au 1er janvier 2016, le Journal officiel papier disparaît

Après les BO, le JO

Mercredi 20 janvier 2016

Après (quasiment-tous) les Bulletins officiels (BO) [5], le Journal officiel (JORF) est dématérialisé, la version imprimée disparaît.

Les textes

Voici les textes officiels, tous publiés au JO n° 297 du 23 décembre 2015, qui permettent ce passage au pur numérique :

Le problème des naturalisations et changements de nom

Concernant les décrets de naturalisation et de changement de nom, lors de l’apparition du JO numérique sur Legifrance et sur journal-officiel.gouv.fr, le choix avait été fait de ne pas les publier en numérique vu le caractère nominatif et sensible de ces informations et après avis en ce sens de la CNIL (application de la loi Informatique et libertés du 6 janvier 1978). Ces textes n’étaient donc pas publiés dans les versions en ligne du JO mais uniquement sur sa version imprimée.

Avec la dématérialisation, donc la suppression de cette version papier, les changements de nom et naturalisations doivent donc migrer en ligne tout en empêchant leur indexation par les moteurs de recherche [6]. La DILA a donc mis en place :

  • un avertissement expliquant que ces informations sont protégées et ne doivent pas faire l’objet d’une réutilisation/rediffusion telles quelles
  • et un système d’accès anti-robots à ces décrets de type captcha (on demande à l’internaute le résultat d’une addition).

La page du site Legifrance intitulée Recherche d’une information nominative à accès protégé dans un numéro du Journal officiel depuis le 1er janvier 2016, accès au PDF décrit en détail les catégories d’« informations nominatives à accès protégé » (INAP)‎ et comment y accéder désormais. Les premiers décrets protégés de cette façon ont été publiés au JORF du 20 janvier 2016 (voir tout en bas la partie Annonces).

Les aspects financiers

Extraits du rapport Anziani sur le projet de loi [7] (le gras est d’origine) :

« L’élaboration et l’impression de la version papier du Journal officiel est devenue, selon les indications du directeur de l’information légale et administrative, une partie secondaire des missions de la SACIJO.
[...]

Ce changement s’inscrit, au demeurant, dans un mouvement général de dématérialisation continue des publications officielles. Ainsi, 9 bulletins officiels ministériels édités par la DILA sont uniquement publiés sous forme électronique. Ont été également dématérialisées les éditions du Bulletin officiel des annonces des marchés publics (BOAMP), depuis 2012, et du Bulletin officiel des annonces civiles et commerciales (Bodacc) en 2015.

L’économie financière pour l’État est notable sans être déterminante puisque, selon les informations transmises à votre rapporteur, l’impression quotidienne de 1 676 exemplaires du Journal officiel de la République française conduit à un million d’euros de dépenses annuelles de fonctionnement, couvertes en partie par le montant, en baisse constante, du produit des abonnements qui s’élève à 600 000 euros. L’économie nette attendue peut donc être évaluée à près de 400 000 euros, sachant que la dématérialisation intégrale du Journal officiel nécessitera un investissement de l’ordre de 100 000 euros pour ajouter les déclinaisons informatiques nécessaires à l’outil de production éditorial existant (STILA).

La dématérialisation intégrale du Journal officiel de la République française présenterait également des effets environnementaux positifs en évitant l’impression sur papier des exemplaires quotidiens. »

Quelles publications officielles restent imprimées aujourd’hui ?

Extrait de l’actualité publiée en ligne par la DILA sur son site [8] :

« Au 1er janvier 2016, à propos des éditions JO :

  1. Bulletin officiel des décorations médailles et récompenses (BODMR) – Edition papier maintenue
  2. Journal officiel – Associations – Edition dématérialisée
  3. Journal officiel - Documents administratifs – Edition dématérialisée
  4. Journal officiel - Lois et décrets - Tables mensuelles et annuelle – Edition supprimée
  5. Journal officiel - Tables Débats du Sénat - Compte Rendu – Edition supprimée
  6. Journal officiel - Débats de l’Assemblée nationale – Questions-Réponses – Edition dématérialisée
  7. Journal officiel - Débats du Sénat – Questions-Réponses – Edition dématérialisée
  8. Journal officiel de la République Française - Avis du Conseil économique, social et environnement (sous forme de fascicules couleur). – Edition papier maintenue »

A noter que le Bodacc a été dématérialisé au 1er juillet 2015. Seuls donc, demeurent en version papier :

  • le BOAMP semble t-il — pour combien de temps ?
  • le Bulletin officiel des décorations médailles et récompenses, comme précisé supra
  • le JO Avis du CESE, comme précisé supra.

Dernières brèves

Le JO numérique devient un outil de veille législative (partielle)

Mercredi 6 janvier 2016

Lire la suite »

Vu dans le Journal officiel Lois et décrets du 1er janvier 2016 (voir infra) : une rubrique Informations parlementaires, non vue jusqu’ici dans le sommaire du JO envoyé quotidiennement par mail par Legifrance.

C’est une conséquence de la suppression de l’édition imprimée du Journal officiel [1].

Cela existait déjà dans le JO papier, mais pas dans le JO version Legifrance. Le JO papier étant supprimé, il a logiquement fallu rapatrier cette rubrique Informations parlementaires dans l’unique édition restant [2].

Le fait de retrouver désormais ces informations parlementaires dans le mail du sommaire de la version Legifrance est un avantage pour le "veilleur législatif" : en deux-trois clics, on vérifie qu’il n’y a pas de document qui nous intéresse. Si c’est le cas, il faut aller le chercher sur les sites parlementaires.

Le JO pur numérique devient donc un outil de veille législative par le biais de ces mentions et des liens associés :

  • textes déposés, textes en débat, travaux parlementaires, textes adoptés : ça, c’est nouveau dans le sommaire par mail du JO
  • textes promulgués, ordonnances, rapports au Président de la République sur les ordonnances : ça, on l’avait déjà.

Il manque cependant :

  • la mention des réunions des commissions et de la publication de leurs travaux
  • les sujets d’auditions
  • et les liens vers les documents cités.

Voilà une évolution toute tout simple, mais qui pourrait bien avoir un effet sur le suivi des travaux du Parlement. Tous les lecteurs de l’ancien JO numérique "non Parlement" vont devenir aussi des lecteurs d’une sorte de newsletter, certes réduite aux acquêts, du Parlement. Le JO permet désormais de suivre à la fois la production de l’exécutif (sauf les circulaires [3]) et (une part importante de) celle du législatif.

Emmanuel Barthe
documentaliste juridique, veilleur

La rubrique telle que reçue dans l’e-mail du sommaire du JORF du 1er janvier 2016 :

INFORMATIONS PARLEMENTAIRES

ASSEMBLEE NATIONALE

121 Ordre du jour
http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000031742652&dateTexte=&categorieLien=id

122 Commissions et organes de contrôle
http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000031742654&dateTexte=&categorieLien=id

SENAT

123 Ordre du jour
http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000031742657&dateTexte=&categorieLien=id

124 Conférence des présidents
http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000031742659&dateTexte=&categorieLien=id

OFFICES ET DELEGATIONS

125 Office parlementaire d’évaluation des choix scientifiques et technologiques
http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000031742662&dateTexte=&categorieLien=id

Le début de l’ordre du jour du Sénat tel que publié dans le JO Legifrance du 1er janvier 2016 :

L'ordre du jour du Sénat - Extrait de la rubrique Informations parlementaires du JORF Lois et décrets du 1er janvier 2016


Un ouvrage qui vient combler un manque

Investissement socialement responsable, éthique et fonds : une thèse en droit unique

ISR mais aussi finance islamique etc.

Mardi 5 janvier 2016

Lire la suite »

Elisabeth Forget, L’investissement éthique : Analyse juridique (thèse 2013)
788 pages
Presses Universitaires de Strasbourg
ISBN 9782868206084
79 euros

L’auteure est spécialiste des fonds d’investissement et des aspects juridiques et de l’investissement éthique, autrement dit de la finance islamique et de l’investissement socialement responsable (ISR) [4], mais aussi de la responsabilité sociale des entreprises (RSE). Ancienne enseignante chercheuse à l’Université de Strasbourg, elle travaille comme juriste au bureau de Luxembourg du cabinet Loyens & Loeff (Benelux et Suisse).

Il s’agit d’un ouvrage rare :

  • de par sa qualité. Cette thèse [5] a reçu trois prix :
    • double prix de la meilleure thèse en droit privé et de la meilleure thèse en droit financier de la Faculté de droit de Strasbourg
    • prix spécial de la recherche en gouvernance 2014 de l’Institut français des administrateurs (IFA).
  • de par son sujet, très rarement traité en droit (à part les commentaires en 2010 des articles 224 et 225 de la loi Grenelle II [6] puis en 2012 du décret d’application de l’article 225 [7]). Il suffit pour s’en convaincre de regarder les ouvrages disponibles au catalogue de la LGDJ et, côté articles, la bibliographie citée dans les notes de bas de page de l’article publié à la RDBF après la loi Grenelle II.

Emmanuel Barthe
documentaliste juridique, veilleur


Des guides pour bien utiliser Twitter

Mercredi 23 décembre 2015

Lire la suite »

Voici plusieurs guides sérieux et gratuits pour se lancer ou s’améliorer sur Twitter.

Les plus courts sont souvent les meilleurs :

  • pour s’initier et apprendre le fonctionnement de base de Twitter : Guide Twitter / Bernard Manzerolle, novembre 2012, 6 pages (PDF)
  • Guide pratique des réseaux sociaux : Twitter / CCI Poitou-Charente (PDF). Ce 4 pages fait partie d’un programme de sensibilisation aux enjeux et usages des technologies de l’information et de la communication appelé "Mon entreprise sur le web", mis en place par cette chambre de commerce.

Lire les autres pour creuser, pour des exemples d’application détaillés ou selon le public :

Bonne lecture et bons tweets !

Emmanuel Barthe
documentaliste et veilleur juridique
tweete sur @precisement.