Apprendre des choses sur le droit qu’aucun cerveau n’aurait pu concevoir
C’est l’enjeu clé du futur pour les données juridiques
Il y a quelques jours, sur Twitter, quelqu’un (Benoît Tabaka ? [1]) évoquait le passage futur, la prochaine étape : de l’Open Data (les données publiques librement accessibles) au Big Data.
Très bien. Mais qu’est ce que le "Big Data" ? Selon l’article de Wikipedia (qui n’est en général jamais aussi bon que sur ce genre de sujet pour "geek") :
« Big data (« grosse donnée ») est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement gros qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données.
Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l’analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l’analyse d’opinions ou de tendances industrielles, la génomique, l’épidémiologie ou la lutte contre la criminalité.
La production de données par les utilisateurs, et notamment le partage d’informations ubiquitaires (capteurs et senseurs mobiles, caméras, microphones, appareils photos, lecteurs RFID, réseaux de capteurs sans fil, etc.) augmentent drastiquement le nombre de données pouvant être traitées, mais aussi les perspectives d’interprétation de ces données, et conduisent de nombreux chercheurs et industriels à réfléchir à une refondation profonde des architectures des réseaux, de la logique des bases de données, de l’algorithmique et même des règles d’interprétation de ces données.
Ce déluge de données a également des propriétés très neuves et importantes :
- ce sont des données non structurées ;
- elles sont produites en temps réel ;
- elles arrivent mondialement en flots continus ;
- elles sont méta taguées mais de façon disparate (localisation, heure, jour, etc.) ;
- elles proviennent de sources très disparates (téléphone mobile, capteurs, téléviseurs connectés, tablettes, PC fixes, PC portables, objets, machines), de façon désordonnée et non prédictible. »
Ah bon ! Très bien. Mais à quoi ça va servir si c’est aussi difficile à travailler ?
L’intérêt/l’enjeu du Big Data est décrit dans cet article [2] de David Weinberger, auteur de Too big to Know [3], publié sur le site de The Atlantic [4].
Dans ce qui est en fait un extrait réécrit de son livre, David Weinberger explique que les énormes paquets de données nécessaires pour faire face à des phénomènes complexes dépassent les capacités de compréhension de n’importe quel cerveau, mais que les réseaux et la capacité de calcul des ordinateurs derrière permettent de dépasser cette limite.
Pour en savoir plus sur le Big Data et les outils qu’il faut utiliser pour en être (notamment l’application Haddoop développé par la fondation Apache), lisez cet autre billet sur TechCrunch : Big Data Is Less About Size, And More About Freedom / Bradford Cross, TechCrunch 16 mars 2010.
Sur l’excellent et réputé blog (réservé aux "geeks") TechCrunch, l’entrepreneur américain Semil Shah avance quant à lui l’importance des futurs apports des mathématiciens et physiciens pour fournir les outils et modèles pouvant analyser ces amas de données [5].
In fine, l’avenir dira si cette révolution s’appliquera aux données juridiques françaises et européennes, donc au droit continental. Ca devrait être le cas, quand on voit les analyses inédites de la jurisprudence américaine auxquelles des professeurs de droit américains et les grands éditeurs juridiques US se livrent déjà.
Les données publiques, à travers le mouvement de l’Open Data et le futur à la Big Data sont potentiellement une aubaine pour les éditeurs, qui disposent des compétences pour les valoriser et faire de la recherche en matière de Big Data. Surtout si on ajoute à l’Open Data les techniques d’indexation et de recherche sémantique et de recherche fédérée et les technologies du Web sémantique [6] (RDF, ontologies décrivant pas seulement les relations de sens mais aussi les actions entre les objets et les personnes [7]).
Il est évident que si les juristes, universitaires, avocats, notaires, magistrats ... ne s’intéressent pas au Big Data et ne s’approprient pas pour les retraiter les grandes masses de données publiques juridiques, les grands éditeurs le feront pour eux et le leur vendront. Et que ça ne pourra pas être à la portée du premier venu. Le marché suivra t-il ? C’est une autre histoire.
Mais dans l’Open Data et le Big Data, il y a une histoire qui est capitale pour l’avenir des juristes, qu’ils soient étudiants, professionnels, associatifs ou pouvoirs publics : les données publiques massives (Open Data) font déjà émerger un savoir qui n’est plus tout à fait celui des juristes (exemple avec l’application Jurisprudence chiffrée des Editions Lefebvre Sarrut). Avec le Big Data, c’est un pan entier du savoir juridique qui passera dans des réseaux et certains serveurs. Lesquels, toute la question est là ...
Emmanuel Barthe
documentaliste, veilleur, "geek" (entre autres :-)
Notes
[1] Impossible de retrouver : le moteur de recherche interne de Twitter aussi bien que GG sont très limités — pour ne pas dire mauvais. Twazzup est à peine mieux. Il faut vraiment que je fasse un benchmark sur ce sujet. Il ya une liste chez Phil Bradley mais pas de sélection ni de classement. Quelqu’un aurait il des suggestions de *bons* moteurs de recherche sur Twitter ?
[2] To Know, but Not Understand : David Weinberger on Science and Big Data
David Weinberger / David Weinberger, The Atlantic.com 3 janvier 2012.
[3] Même si les critiques de son ouvrage publiées sur Amazon ne sont pas formidablement enthousiastes, Weinberger a travaillé plus de 20 ans dans l’industrie informatique et des moteurs de recherche comme responsable marketing et plus de 15 ans comme consultant en marketing Internet (cf son CV).
[4] The Atlantic (ex-The Atlantic Monthly) est une revue américaine papier et en ligne dynamique et de haut niveau. Son site publie gratuitement ses archives. Elle s’adresse aux leaders d’opinion et au milieu littéraire depuis 1857.
[5] Big Data Needs To Think Bigger / Samil Shah, TechCrunch 20 mars 2011.
[6] Les langages et technologies du Web sémantique peuvent être présentés comme des outils de représentation des connaissances adaptés à l’environnement Web, permettant de transformer automatiquement les données en information, et les informations en savoir.
[7] Autrement dit, les ontologies dépassent les thésaurus. Bon, elles requièrent encore plus de travail, c’est vrai. Mais avec le temps, certaines pourraient bien dominer certains domaines du savoir ...
Commentaires
Aucun commentaire
Laisser un commentaire