Protection des données à caractère personnel pour les services énergétiques

Résultats de thèse réalisés dans le cadre du laboratoire commun SEIDO Télécom SudParis et EDF R&D

Franklin Leukam a soutenu le 3 mars 2021 une thèse de doctorat CIFRE sous l’encadrement de Maryline Laurent, Télécom SudParis, co-fondatrice de la Chaire VP-IP et Paul Lajoie-Mazenc, EDF R&D. Cette thèse porte sur la problématique de la protection des données personnelles dans le contexte de services énergétiques plus respectueux de la vie privée et s’intéresse à différentes technologies PETs (Privacy Enhancing Technologies) pour assurer cette protection. Elle prend place au sein du laboratoire commun entre EDF R&D, l’Institut Mines Télécom et le LAAS-CNRS.

Cette brève fait état de certains résultats obtenus dans le cadre de cette thèse. Ils ont été publiés dans le mémoire de thèse [5] et dans le journal international Hindawi Security and Communication Networks [6].

Qu’est-ce qu’une courbe de charge ?

Une courbe de charge est un ensemble de données de consommation relatives à un foyer, un quartier, une ville, etc. Les compteurs communicants installés dans des foyers permettent de collecter la courbe de charge à un pas de temps allant en France jusqu’à 10 minutes.

La Figure 1 représente une courbe de charge de 250 foyers irlandais à un pas de temps de 30 minutes [4]. On remarque deux pics de consommation dans la journée, à 12h et à 18h. On peut également noter une baisse de consommation dans la nuit, de minuit à 6h.

Figure 1 : Courbe de charge de 250 foyers à un pas de temps de 30 minutes sur une semaine [4].

Il est courant d’utiliser ces courbes de charge pour fournir de nouveaux services énergétiques, comme la prévision de consommation des clients, la demande d’effacement à la pointe ou l’autoconsommation collective [7]. Les services d’effacement permettent d’éviter les pics de consommation dans un quartier en s’assurant qu’à chaque instant, la consommation des utilisateurs ne dépasse pas la puissance maximale fournie au niveau du quartier. L’autoconsommation collective est un nouvel usage croissant qui consiste à consommer tout ou une partie de l’énergie produite par des clients, grâce aux énergies renouvelables, ces clients faisant partie d’une association, d’une coopérative, d’une copropriété...

Cependant, ces courbes révèlent des informations personnelles sur les clients (heures de lever, de coucher, âge, sexe, religion, etc.). Ainsi, une courbe de charge est considérée comme une donnée à caractère personnel [1], et tout traitement les exploitant doit respecter les dispositions du Règlement Général sur la Protection des Données (RGPD) [8].

La confidentialité différentielle et son application directe : des résultats décevants

La publication de courbes de charge anonymisées [1] permet aux fournisseurs d’offrir des services additionnels tout en protégeant les informations personnelles de leurs clients.

La confidentialité différentielle [2]. est une théorie œuvrant à la protection de la vie privée. Elle permet de publier des courbes de charge anonymisées mais entraîne une perte d’utilité, cette dernière variant en fonction du niveau de protection voulu. La perte d’utilité pouvant être pénalisante pour la qualité du service rendu, elle doit être limitée et mise en balance avec le gain en vie privée.

La méthode souvent utilisée dans la littérature pour garantir la confidentialité différentielle est le mécanisme de Laplace [3], qui consiste à rajouter un bruit de Laplace à l’agrégat de données à publier. Le bruit de Laplace prend en entrée deux paramètres : la sensibilité de la fonction à publier et le budget de privacy ϵ .

Plus ϵ est petit, plus la protection est grande, mais plus l’utilité est faible. La valeur ϵ=1 correspond à un bon niveau de protection, tandis que ϵ=10 est considéré comme un mauvais niveau de protection.

La Figure 2 représente la courbe de charge de la Figure 1, bruitée en utilisant le mécanisme de Laplace avec un budget de protection ϵ=1 sur chaque journée. On remarque que la forme de la courbe bruitée est très différente de celle non bruitée. En outre, les valeurs de consommation de la courbe de charge bruitée sont très différentes de celles de la courbe initiale. On peut noter aussi des valeurs aberrantes (consommation négative). Cette méthode n’est donc pas appropriée pour publier des courbes de charge de 250 foyers.

Figure 2 : Courbe de charge bruitée de 250 foyers [4], en utilisant le mécanisme de Laplace avec un budget de privacy ϵ=1 sur chaque journée.

La confidentialité différentielle associée à une meilleure représentation de séries temporelles : des résultats très prometteurs permettant d’envisager la publication de courbes de charge anonymisées

Afin d’obtenir une meilleure utilité, Franklin Leukam  propose d’utiliser dans sa thèse de doctorat [5]. des algorithmes de perturbation bornés. Cette méthode s’effectue en trois étapes :

  1. Transformation de la courbe de charge à publier dans une autre représentation.
  2. Perturbation de la transformée obtenue en utilisant le bornage des coefficients et le mécanisme de Laplace.
  3. Révélation de la transformée inverse.

La première étape consiste à conserver uniquement les informations les plus importantes sur la courbe de charge à publier, ce qui permet lors de l’étape suivante de perturber un nombre réduit de valeurs et ainsi de diminuer l’impact du bruit de Laplace. Les transformées qui peuvent être utilisées sont la transformée de Fourier discrète ou la transformée en ondelettes discrète.

Dans la deuxième étape, le bornage des coefficients permet de réduire l’amplitude du bruit de Laplace ajouté, ce qui a un impact positif sur l’utilité finale.

Enfin le calcul de la transformée inverse fournit la courbe de charge bruitée. Les lecteurs sont invités à consulter [6] pour plus d’informations sur cette méthode.

La Figure 3 représente la courbe de charge de 250 foyers, et sa version bruitée en utilisant l’algorithme de perturbation de Fourier borné avec un budget de privacy ϵ=1.

Figure 3 : Courbe de charge de 250 foyers [4], et sa version bruitée en utilisant l’algorithme de perturbation de Fourier borné avec un budget de privacy ϵ=1 sur chaque journée. L’erreur relative moyenne (ERM) entre ces deux courbes de charge est de 9.72%.

On remarque que la courbe de charge bruitée présente la même forme que la courbe de charge initiale, avec une erreur relative inférieure à 10 %. Les algorithmes de perturbation bornés permettent donc de publier des courbes de charge tout en garantissant une bonne protection de la vie privée des foyers et une bonne utilité.

Conclusions

Les résultats apportés par ces travaux sont particulièrement intéressants au regard des travaux menés jusqu’à présent sur la confidentialité différentielle. Ils démontrent qu’il est possible, avec une perte d’utilité raisonnable (et un gain de vie privée correct), de mettre en œuvre un procédé d’anonymisation sur des séries temporelles, comme des courbes de charge sur une journée, à l’aide de la confidentialité différentielle et d’une modélisation des données adéquate.


Franklin Leukam, Docteur en informatique

Paul Lajoie-Mazenc, Ingénieur chercheur, EDF R&D

Maryline Laurent, Professeure en sciences de l’informatique à Télécom SudParis, co-fondatrice de la Chaire VP-IP


Références

[1] CNIL, Délibération No. 2012-404 du 15 novembre 2012 portant recommandation relative aux traitements des données de consommation détaillées collectées par les compteurs communicants, 2013.https://www.legifrance.gouv.fr/cnil/id/CNILTEXT000026958542/

[2] Cynthia Dwork, Frank McSherry, Kobbi Nissim and Adam Smith, Calibrating noise to sensitivity in private data analysis, Theory of cryptography conference, 2006. https://link.springer.com/chapter/10.1007/11681878_14

[3] Cynthia Dwork, Aaron Roth, The algorithmic foundations of differential privacy. Foundations and Trends in Theoretical Computer Science, 2014. http://www.tau.ac.il/~saharon/BigData2018/privacybook.pdf

[4] Commission for Energy Regulation (CER), Smart Metering Project - Electricity Customer Behaviour Trial, 2009-2010 [dataset], 2012. http://www.ucd.ie/issda/data/commissionforenergyregulationcer/

[5] Franklin Leukam Lako, Protection des données à caractère personnel pour les services énergétiques. Thèse, 2021.

[6] Franklin Leukam Lako, Paul Lajoie-Mazenc, Maryline Laurent, Privacy-Preserving Publication of Time-Series Data in Smart Grid. Security and Communication Networks, 2021. https://www.hindawi.com/journals/scn/2021/6643566/

[7] Ministère de la Transition Écologique, Vers un système électrique plus flexible. 2018. https://www.ecologie.gouv.fr/vers-systeme-electrique-plus-flexible

[8] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données), Journal officiel de l'Union européenne, 2016. http://data.europa.eu/eli/reg/2016/679/oj

Commentaires Clos.