En quoi consiste la pseudonymisation de données ?
La pseudonymisation est une technique de protection des données, qui consiste à traiter des données de telle sorte qu’il ne soit pas possible de les attribuer à une personne spécifique sans avoir recours à des informations additionnelles. En effet, plus concrètement, il s’agit de remplacer les identificateurs personnels réels (noms, prénoms, emails, adresses, numéros de téléphone, etc.) avec des pseudonymes.
L’objectif de la pseudonymisation est double : renforcer la protection des données et réduire les risques liés à la confidentialité tout en permettant aux entreprises de traiter ces données pour des fins légitimes (analyse, partage, etc.).
Prenons par exemple le cas d’un site e-commerce pour illustrer les principes de la pseudonymisation.
Pour effectuer un achat, les clients doivent créer un compte sur la plateforme (via un identifiant – généralement un email – et un mot de passe) et fournir différentes informations personnelles afin que l’entreprise derrière le site e-commerce puisse traiter une ou plusieurs commandes. Ces informations sont très souvent : le nom, prénom, adresse de livraison et de facturation, numéro de téléphone, etc. Notons que toutes ces données sont considérées comme sensibles au sens du RGPD.
De fait, on peut imaginer que la base de données (simplifiée pour l’exemple) avant pseudonymisation aurait la forme suivante :
ID client | Nom | Prénom | Ville | ID compte | Total commandes HT |
45682 | Wayne | Bruce | Marseille | [email protected] | 259,99€ |
58562 | Kent | Clark | Lyon | [email protected] | 129,99€ |
49952 | Prince | Diana | Paris | [email protected] | 229,99€ |
Imaginons maintenant que cette entreprise souhaite, via un tiers, analyser le panier moyen de ses clients en fonction de leur localisation.
Pour partager ces données au tiers chargé de l’étude et dans le respect des normes du RGPD, les exigences suivantes doivent être respectées :
- Les données ne peuvent pas permettre d’identifier une personne sans l’utilisation d’informations additionnelles.
- Les données pseudonymisées et les données additionnelles doivent être stockées séparément.
- Des mesures techniques et organisationnelles doivent être mises en œuvre pour assurer la confidentialité et l’intégrité des données.
Ainsi, la base de données pourrait prendre cette forme :
ID client | Nom | Prénom | Ville | ID compte | Total commandes HT |
45682 | Dark | Donnie | Marseille | [email protected] | 259,99€ |
58562 | Blue | Billie | Lyon | [email protected] | 129,99€ |
49952 | Red | Rosie | Paris | [email protected] | 229,99€ |
On peut voir que les valeurs sensibles ont été pseudonymisées. D’ailleurs, toutes les informations sensibles qui n’entrent pas dans l’analyse souhaitée n’ont pas besoin d’être partagées au tiers.
Enfin, une clé de pseudonymisation qui serait une table d’éléments de la forme « pseudonyme-valeur réelle » doit être générée et stockée de manière sécurisée.
Cette clé de pseudonymisation peut se présenter de la manière suivante :
Pseudonyme | Valeur réelle |
---|---|
Dark | Wayne |
Blue | Kent |
Red | Prince |
Rosie | Diana |
Par ailleurs, les données brutes doivent être stockées à un emplacement A et les données pseudonymisées à un autre, disons B. Aussi, la clé de pseudonymisation doit être stockée, de préférence, sur un autre emplacement et surtout pas sur B.
Quelle est la différence entre anonymisation et pseudonymisation des données ?
L’anonymisation et la pseudonymisation sont deux mesures, assez similaires, permettant d’assurer la confidentialité des données. Cependant, elles diffèrent en ce qui concerne le degré de protection des données.
En effet, l’anonymisation consiste à retirer toutes les informations d’identification d’une personne d’un ensemble de données, de sorte que la personne ne puisse pas être identifiée de manière directe ou indirecte, tandis que la pseudonymisation remplace ces informations par des pseudonymes (attribuables avec la clé de pseudonymisation notamment).
Quels sont les techniques et meilleures pratiques de pseudonymisation ?
Tokenisation des données
La tokenisation consiste à remplacer les valeurs sensibles d’une base de données par des identificateurs uniques (tokens) générés par un algorithme, tout en maintenant la relation entre les données brutes et les tokens générés. Ainsi, lorsqu’une requête est effectuée pour accéder aux données, les tokens peuvent être utilisés pour retrouver les informations brutes associées.
Cette technique permet de protéger les données sensibles tout en permettant leur traitement. Dans notre use case, le tiers chargé de l’étude pourra par exemple utiliser les données tokenisées pour effectuer l’analyse des habitudes de consommation des clients du site e-commerce, et ce sans avoir accès aux informations personnelles « sensibles ».
Chiffrement des données
Le chiffrement consiste à convertir des données en un code indéchiffrable sans une clé spécifique (clé de chiffrement). Cette technique garantit que les données sensibles ne peuvent pas être lues, interprétées ou modifiées par des tiers non autorisés.
Dans le cadre de la pseudonymisation, les différentes méthodes utilisées lors de la création de pseudonymes peuvent intégrer le hachage, le chiffrement asymétrique et le chiffrement symétrique.
Revenons sur l’exemple de notre site e-commerce. Dans ce cas de figure, les pseudonymes pourraient être créés avec la fonction de hachage SHA-512 pour protéger toutes les données sensibles.
Cependant, le chiffrement peut (et doit) être utilisé en parallèle avec la tokenisation pour renforcer la protection des données sensibles, car, chiffrer les données n’a de sens que si la clé de chiffrement est robuste et ne peut être devinée via du brute force notamment. Ainsi, il est important de gérer de manière sécurisée les clés de chiffrement et d’implémenter les mesures et bonnes pratiques de sécurité pour réduire les risques de compromission.
La pseudonymisation, une mesure essentielle pour assurer le traitement sécurisé des données
Pour traiter les données, il est nécessaire que les pseudonymes soient créés de telle sorte qu’ils puissent être dépseudonymisés de manière sélective ou qu’on puisse déduire des relations (égalité, supériorité, infériorité, etc). Par exemple « âge pseudonymisé 1 » > « âge pseudonymisé 2 »). Pour ce faire, plusieurs options sont disponibles :
Divulgation des données
Ici, il s’agit de faire en sorte qu’une partie des pseudonymes soit divulgable. Par exemple, les données « Âge » pourraient être chiffrées avec une clé X et les valeurs de « Nom » et « Prénom » avec une clé Y. De cette façon, on peut accéder à certaines valeurs alors que le reste des données reste confidentiel. Ainsi, l’accès se fait uniquement via la clé de déchiffrement associée.
Liaison des données
Dans ce cas de figure, il s’agit notamment de faire en sorte que les valeurs d’origine de deux pseudonymes soient liées par une relation comme l’égalité. Par exemple, le pseudonyme de l’âge du client X est supérieur à celui du client Y.
La pseudonymisation est une mesure de sécurité nécessaire à ne pas prendre à la légère. Effectivement, elle doit s’appuyer sur les techniques éprouvées de chiffrement (hash, sel, etc.) et intervenir le plus tôt possible lors du traitement des données. En effet, la pseudonymisation doit être pensée, intégrée et suivie pour assurer la confidentialité et l’intégrité des données.