La collecte de données est un art difficile. Déjà parce que la bête s'en nourrit et elle est insatiable, d'autre part parce que ceci pose toujours à un moment ou l'autre des problèmes de confidentialité. Au milieu des années 2000, une chercheuse de Microsoft travaillait déjà sur l'art d'aspirer ces données, toujours plus de données, et que ceci soit à peu près durable. Entendez par durable le fait d'anticiper un RGPD avec 15 ans d'avance.
La magie
Le concept s'appelle confidentialité différentielle , et vous risquez d'en entendre parler ces prochains mois vu que Google commence à envoyer l'artillerie lourde pour pousser ce concept. Rappel des faits : il y a environ un an, Google publiait sa bibliothèque dédiée . Il n'est pas le premier à s'intéresser à ce concept. Apple avait placé ses pions en 2016 , mais de manière peut-être moins ostantatoire. Normal car, contrairement à Google, la collecte des données n'est pas la principale source de revenu d'Apple.
Nous lisons plusieurs fois par jour, et ce bien avant le RGPD sur les CGU des services que nous utilisons, des déclarations souvent peu étayées fondées sur du "promis on ne collecte rien" ou le sempiternel "les données que nous collectons sont anonymisées".
Nous nous posons cependant rarement ces quelques questions pourtant de bon sens :
- Anonymisées pourquoi ? (dans le contexte précis dans lequel je me trouve, de quelles données parle-t-on ?).
- Anonymisées par qui ? (là c'est à la fois simple et funky).
- Anonymisées comment ? (à ce stade et si on ne vous a pas déjà perdu, vous répondez : "confidentialité différentielle" ).
Si on arrive sans grand mal à répondre aux deux premières questions, la dernière est tout de même plus délicate. Délicate car elle fait nécessairement appel à des mécanismes cryptographiques avancés si on veut être un peu sérieux et réussir son tour de magie. C'est bien ce que propose la confidentialité différentielle en introduisant des aléas mathématique dans les sets de données afin qu'un croisement ultérieur non prévu ne permette pas d'identifier nomminativement une personne.
Le malaise
En effet, on sent rapidement qu'il y a comme un malaise, et qu'en 2020 l'anonymisation des données est loin d'être une pratique adoptée par la majorité des sociétés qui collectent ces données. Pourquoi ? Parce que c'est compliqué. Quand un acteur soutient qu'il anonymise les données, il se garde souvent d'expliquer par quel procédé il parvient à une anonymisation interdisant à des tiers, mais aussi à lui-même, de "désanonymiser" ces données. Et, fort souvent, quand on est discret sur des questions de confidentialité, c'est qu'on cache des cadavres dans sa base de données. C'est ainsi que vous trouverez principalement des déclarations d'intention sur ces gros et plus petits services qui collectent de la donnée personnelle et que tout ce qui touche à cette question stratégique est traité avec la plus grande opacité possible... Comme ça on montre qu'on est trop fort pour garder la recette de ce qu'on ne sait pas faire, qu'on ne fait pas, ou que l'on fait très mal.
Pourquoi anonymiser des données ?
Les données personnelles, une fois accumulées et corrélées, ont ceci de particulier qu'elles vous identifient. L'identité monnayable d'une personne est issue de la somme et des croisements de ses données personnelles.
Or, l'identité nominative "isolée" d'une personne est une donnée qui n'a au final pas de valeur. Dans le cadre d'un traitement à des fins de ciblage publicitaire, ce ne sont pas le nom et le prénom qui définissent la valeur de notre profil... le profil étant ce que l'on revend aux annonceurs.
Prenons un exemple qui devrait marquer un peu plus les esprits : quand vous avez des enfants, vous n'avez aucun besoin de leur donner un prénom pour savoir que ce sont vos enfants et lequel est lequel. Vous disposez d'un contexte suffisant de quelques années d'éducation vous permettant de l'identifier de 1001 manières... Eh bien le profilage publicitaire sur Internet, ça fonctionne de la même manière. Votre nom et votre prénom, ou votre adresse mail, ne sont que des éléments constituants votre identité, et ce ne sont pas forcément ceux qui intéressent le plus les professionnels pour vous cibler.
La véritable valeur ajoutée de ces données personnelles, c'est, selon la pratique de la confidentialité différentielle, l'art de transformer les individus ayant des interactions en profils anonymes monétisables. Le RGPD a sifflé la fin d'une récréation et ceci a été anticipé de longue date par quelques gros acteurs qui voient dans l'anonymisation de la collecte une piste pour continuer à exploiter ces données personnelles.
La confidentialité différentielle va donc sans surprise continuer son intégration dans des services proposés par Google aux particuliers (ce sera invisible pour eux), mais surtout aux professionnels qui signeront une nouvelle promesse d'aliénation cryptographique.
Qui va anonymiser nos données ?
Selon le principe du pompier pyromane, c'est celui qui collecte qui "anonymise", qui stocke, qui traite, et qui monétise... Au doigt mouillé, c'est ce que l'on appelle un bug d'architecture.
Mais par quelle incantation cryptographique nos données sont-elles anonymisées ?
En septembre 2019, Google rendait publique sa bibliothèque de confidentialité différentielle . Cette dernière a pour vocation de se retrouver comme un élément nourrissant le cœur de la bête. C'est vous dire si son développement a été pris au sérieux. C'est aussi une innovation qui œuvre pour un monde meilleur, qui permet aux utilisateurs d'avoir confiance et donc de continuer à offrir toujours plus de données. Et en plus, selon le service marketing, c'est probablement CO2Less™.
C'est encore l'un des coups de génie de Google qui va s'approprier la généralisation du concept de confidentialité différentielle. L'objectif est ici de se poser en "tiers de confiance" et ainsi enfermer un peu plus un public déjà captif de professionnels qui pourront brandir ce nouvel argument pour instaurer un climat de confiance avec leurs propres clients... Parce que le client, "il a confiance en Google".
Maintenant à titre individuel, allez-vous être rassuré par cette techno-réponse à une question simple de protection de votre vie privée : "Google va-t-il continuer à tracer mon comportement en croisant mes données personnelles" ? Nous vous laissons deviner si le G de GAFAM a renoncé. Un indice : les trois quarts des revenus de Google sont issus de sa régie publicitaire qui vend... l'utilisation de vos données comportementales.