Il est aujourd'hui devenu difficile de nier l'impérieuse nécessité de chiffrer le web. Tout le web, oui, même toi avec ta page Multimania migrée sur un spip au nouveau millénaire et qui tourne désormais sur ton Raspberry Pi Zero W derrière un Cloudflare.
SSL/TLS : une rustine sur la fuite de nos données personnelles
En attendant de pouvoir jouir un jour d'un TCP/IP tout neuf embarquant nativement une couche de chiffrement pour chiffrer tout Internet, nous nous sommes acharnés à palier ce manque, protocole après protocole, par le biais d'implémentations cryptographiques parfois bien senties, parfois plus douteuses. Mais toutes naissaient de ce besoin : la confidentialité.
Et comme le web est devenu le réceptacle de prédilection pour les protocoles tombés en désuétude, l'urgence commençait à se faire sentir... En fait, il y avait carrément le feu à la baraque concernant notre web qui ressemblait de plus en plus à un hamburger dont les données sensibles seraient la sauce qui vous coule sur les doigts quand vous croquez dedans.
Tim Berners Lee travaille sur un nouveau protocole, SOLID . C'est expérimental pour le moment, mais ceci pourrait bien vous donner quelques idées de ce à quoi ressemblerait un internet chiffré et respectueux de nos données personnelles.
Cette approche plus globale est devenue nécessaire, car initialement, on sentait qu'il y avait comme un manque dans ce casting. On avait oublié les données elles-mêmes dans toute leur complexité de typage, en partant du principe qu'en chiffrant tout, le tour était joué. Sauf que toute donnée chiffrée n'est pas anonymisée, que les métadonnées demeurent en clair... Bref, on répondait à la moitié de la problématique en faisant gober au internautes que tout allait pour le mieux dans le meilleur des mondes possibles.
Quelques considérations géopolitiques plus tard, le problème était enfin identifié :
- beaucoup de données n'étant pourtant pas des données personnelles doivent être chiffrées (et c'est bien ce qui justifie un chiffrement du Net) puisque leur classification est un casse-tête et surtout une usine à gaz ;
- tout admin qui stocke des passwords en clair mérite des baffes ;
- toute donnée personnelle n'a pas l'impérieux besoin d'être chiffrée (quoi que... garantir son authenticité n'est jamais idiot) ;
- toute donnée personnelle devrait être contrôlée, pleinement et entièrement, par la personne qu'elle caractérise, son seul et unique "owner".
Le chiffrement ne suffit pas
Partant de ces quatre simples constats, si on répond par le chiffrement aux deux premiers, il nous manque une solution, un protocole, pour répondre aux défits soulevés par les deux derniers. Mais pour bien comprendre l'importance du problème, il faut rappeler une ou deux notions concernant l'identité numérique. Celle-ci se définit comme la somme de l'identité déclarative (qui on déclare être sur Internet), de l'identité agissante (ce que l'on fait sur Internet), et de l'identité calculée : comment les systèmes d'information nous voient et calculent une identité pour nous faire acheter des choses. Car oui, ce besoin de calcul d'identité n'est pas né d'une dérive à la Minority Report, mais bien des services marketing des marchands du Net.
La gestion de l'identité numérique sur Internet place de fait certaines de nos données personnelles au centre du réseau (s'il devait y avoir un centre d'Internet, il se situerait globalement aux USA, entre les datacenters d'Amazon, Apple, Facebook et de Google). Ils ont beau nous assurer que tout est correctement chiffré, on sent bien que la confidentialité persistante n'est pas spécialement la règle. Ces sociétés ont un modèle basé sur la collecte et la cession à des annonceurs de ces données. C'est-à-dire que l'opacité sur vos données commence au moment même où vous validez les conditions générales d'utilisation de ces services.
Lorsque l'on observe, par exemple, que lors d'une conversation privée sur Messenger avec un contact sur un thème tout neuf pour nous, les publicités affichées se métamorphosent comme par magie en publicités ciblées sur un thème que l'on découvre pourtant depuis moins de 10 minutes... on se dit que la chaîne de confidentialité est, restons polis, perfectible.
Et si la bonne question n'était pas "comment chiffrer tout Internet ?" mais "comment chiffrer tout Internet et permettre aux Internautes un contrôle accru de leurs données personnelles ?". Spoiler : ça ne fonctionne pas avec Messenger.
Kill the raw personnal data
Pour chiffrer tout le web, nous avons déjà Let's Encrypt et ZeroSSL (qui était le motif initial de cet article mais comme vous pouvez le constater, nous avons un peu dévié). Et comme on range par paquets d'autres protocoles pour les envoyer par le web, SSL/TLS a permis une sensible amélioration pour le transport d'autres protocoles.
Et en attendant un Internet respectueux de nos données personnelles, il y a cet autre brillant projet du MIT : OpenPDS/SA . OpenPDS/Safe Answer est une sorte de protocole permettant le contrôle de vos données personnelles par l'entremise d'un "magasin" à données personnelles qui est votre propriété, que vous ne pouvez céder à des tiers de confiance, et que l'on viendrait questionner par l'entremise de Safe Answer.
Il part du constat que très peu de données à caractère personnel suffiraient à identifier formellement une personne. Pour exemple, il suffirait de 4 données de géolocalisation pour identifier formellement 95% des individus dans une base de données en contenant 1,5 milions... Oui seulement 4, donc réfléchissez-y à deux fois quand on vous jure la main sur le coeur que vos données sont anonymisées, c'est factuellement un mensonge dans l'immense majorité des cas.
OpenPDS a donc pris le parti de se dire que nous avons déjà atteint le seuil critique et qu'il sera impossible d'anonymiser correctement toutes ces données personnelles, leur masse, leur structure, leurs "interdépendances" sont autant d'obstacles. Et attention, c'est là que l'approche d'OpenPDS/SafeAnswers est un contrepied :
" SafeAnswers permet aux applications de poser des questions auxquelles il sera répondu en utilisant les données personnelles de l'utilisateur. Dans la pratique, les applications enverront du code à exécuter sur les données et la réponse leur sera renvoyée. OpenPDS / SafeAnswers fournit du code, pas des données. OpenPDS / SafeAnswers transforme un problème d'anonymisation très difficile en un problème de sécurité plus simple ".
Concrètement : il n'y a plus de données brutes du tout, uniquement des réponses à des questions faites à votre Personal Data Store (PDS), impossible donc de les croiser. Toutes les données sensibles sont manipulées dans le PDS et n'en sortent pas. Le questionnement à Safe Answer se fait via une identité calculée tierce faisant office de "prête-nom" qui a même le super pouvoir d'agréger les données d'un groupe d'utilisateurs, toujours en renvoyant du code et non les données brutes.
Un autre énorme avantage du PDS, c'est qu'il risque de vous donner quelques sueurs froides les premiers temps quand vous découvrirez la masse de données personnelles que vous diffusiez jusque-là plus ou moins consciemment. Cette centralisation dans le PDS vous incitera à faire du tri et finira de vous convaincre qu'il est nécessaire de les contrôler de manière attentive.
OpenPDS il doit être considéré comme un proof of concept, le projet a plusieurs années et vous trouverez le code vintage et dans son jus, bien évidemment libre comme il est de tradition au MIT, ici .
Crédit Image Personal data Crédit Image Mème you shall not pass