Quand un internaute interagit avec un fournisseur de services sur Internet, il est soumis dans la plupart des cas à un système de recommandations qui lui propose, par exemple, des publicités, de l’actualité ou des produits ciblés en fonction de ses centres d’intérêt. Le fournisseur de services, qui peut prendre la forme d’un moteur de recherche, n’agit pas seul : il est souvent en relation avec un tiers comme une agence publicitaire ou, plus généralement, un fournisseur de recommandations. Ce dernier a besoin des données personnelles de l’internaute pour proposer une recommandation qui soit pertinente. Les méthodes et les technologies employées sont variées, et nous invitons les lecteurs intéressés à télécharger le livre électronique « Personnalisation de services : quelles technologies pour la préservation de la vie privée ? » [1] publié par la Chaire VP-IP en avril 2019, qui leur permettra de mieux comprendre les enjeux autour de la personnalisation de services.
Les chercheurs de la Chaire ont récemment conçu un nouveau système de recommandations qui a pour avantage de conjuguer la nécessaire préservation de la vie privée des internautes vis-à-vis des fournisseurs de services enclins à collecter leurs données et le besoin d’utilité de ces recommandations qui doivent être aussi proches que possible de leurs centres d’intérêt. Ces travaux de recherche font suite à une première contribution qui portait sur un système de recommandation, publiée en 2020 conjointement avec Qwant lors de la 35e édition du Symposium On Applied Computing (SAC 2020) [2]. La contribution proposée à présent franchit une nouvelle étape en démontrant, par l’expérimentation, que la nouvelle approche suivie préserve l’utilité de la recommandation.
Comment ce système de recommandation fonctionne-t-il ?
La solution proposée s’appuie sur le principe de la confidentialité différentielle locale (LDP – Local Differential Privacy), à la manière de la solution RAPPOR [3], qui permet au navigateur web d’un internaute de bruiter le profil des préférences de la personne, ces préférences pouvant prendre la forme de {Cinéma (comédie, drame, science-fiction), Sport (football, natation, hockey), Musique (classique, jazz, pop), Littérature (roman, poésie, théâtre)}. La technique consiste tout d’abord, comme le montre la figure 1 (dans sa partie gauche), à encoder ces préférences dans un filtre de Bloom, puis à exécuter deux étapes successives de perturbation (ou bruitage). Ces deux étapes ont pour avantage d’atteindre un niveau élevé de protection de la vie privée.
Figure 1: Fonctionnement du nouveau système de recommandations
Une fois le profil perturbé transmis via le fournisseur de services (partie droite de la figure 1), la partie tierce « décode » les préférences à l'aide d'un algorithme d'apprentissage automatique. Elle reconstitue ainsi un profil approximatif du client. Reste alors au fournisseur de recommandations à calculer des similarités entre le profil du client et les profils des autres utilisateurs afin de classer ce client dans un groupe d’utilisateurs partageant des préférences similaires. Cette classification permet au fournisseur de recommandations de fournir à l’internaute client des recommandations ciblées adaptées à ses préférences, sans avoir pour autant accès à son profil exact, et donc sans porter atteinte à sa vie privée.
Une chaîne complète expérimentale qui présente un bon équilibre entre utilité et vie privée
La chaîne complète expérimentale a pu être mise en place, avec un algorithme de « décodage » par apprentissage machine basé sur un réseau de neurones ou sur XGBoost pour « décoder » les filtres de Bloom perturbés et l'outil de classification Kmeans pour classifier les utilisateurs. Grâce à une analyse expérimentale approfondie sur deux jeux de données, il a été montré que notre méthode parvient à un bon équilibre « utilité-vie privée » : la classification obtient un taux de succès de 90% (resp. 80,3%) pour une valeur de LDP ε = 0,8 (resp. ε = 2), ce qui correspond à des valeurs habituellement utilisées dans les solutions reposant sur la confidentialité différentielle.
Des propriétés de respect de la vie privée garanties
Grâce à l’utilisation de la confidentialité différentielle locale dans le nouveau système de recommandations, certaines propriétés sont garanties : (a) le déni plausible (plausible deniability), admettant qu’un adversaire ayant accès aux résultats en sortie de l’algorithme se trouve dans l’impossibilité de déterminer si une préférence a été utilisée en entrée de cet algorithme, et (b) la résistance aux attaques par la moyenne, supposant qu’un adversaire ayant accès à plusieurs versions perturbées du filtre de Bloom n’est pas capable de déterminer les préférences traitées à l’origine par l’algorithme. Toutes ces propriétés ont été démontrées à travers une analyse de sécurité, ce qui confère à la solution un niveau satisfaisant de respect de la vie privée.
Conclusions
Cette contribution scientifique propose un système de recommandations respectueux de la vie privée. Ce système permet à un internaute de décider du type de données personnelles (ses préférences) qu'il souhaite divulguer à un fournisseur de recommandations, et de la quantité de bruit LDP qu'il souhaite introduire lors du traitement de ses données. Ainsi, l'internaute peut décider du niveau de protection de sa vie privée/son expérience utilisateur dont il souhaite bénéficier. En particulier, il a été montré qu'un compromis vie privée/utilité peut être trouvé pour ε = 0,58, avec un niveau de respect de la vie privée de 84% et une utilité de 80%.
Nous sommes conscientes que la confidentialité différentielle présente l’inconvénient de cumulativement (en répétant les opérations de divulgation de profils perturbés) divulguer peu à peu les données personnelles d’un internaute. Néanmoins, cette technique est largement utilisée par certaines approches, notamment par Google avec la solution RAPPOR qui collecte des statistiques sur les URL malveillantes dans les navigateurs [4], ou Microsoft qui enregistre le temps passé par les utilisateurs sur ses différentes applications [5]. Cependant, notre recherche permet de mieux comprendre l’utilisation et les limites de la confidentialité différentielle locale, de tester expérimentalement les différents outils et d’enrichir la communauté scientifique de ces nouveaux résultats et réflexions.
La solution proposée a été développée dans le cadre d’un projet d’étudiants ingénieurs de M1 de Télécom SudParis et d’un stage de M2 réalisés au sein du laboratoire Samovar de Télécom SudParis, Institut Polytechnique de Paris. Cette approche a été soumise et acceptée à la conférence BigDataSE 2021 [Rah21]. Du fait de la situation sanitaire couplée à la volonté des organisateurs de conserver le mode hybride, la conférence qui devait avoir lieu en août 2021 en Chine a été reportée à une date ultérieure.
Souha Masmoudi, doctorante en informatique à Télécom SudParis, membre de de la Chaire VP-IP
Maryline Laurent, Professeure en sciences de l’informatique à Télécom SudParis, Institut Polytechnique de Paris, et membre co-fondatrice de la Chaire VP-IP
[1] Nesrine Kaâniche et Maryline Laurent. « Personnalisation de services : quelles technologies pour la préservation de la vie privée ? », 2019, https://cvpip.wp.imt.fr/2019/04/29/livre-electronique-avril-2019-personnalisation-de-services-quelles-technologies-pour-la-preservation-de-la-vie-privee/.
[2]Nesrine Kaâniche, Souha Masmoudi, Souha Znina, Maryline Laurent, Levent Demir. 2020. « Privacy preserving cooperative computation for personalized web search applications ». In Proceedings of the 35th Annual ACM Symposium on Applied Computing (SAC '20). Association for Computing Machinery, New York, NY, USA, 250–258. DOI:https://doi.org/10.1145/3341105.3373947
[3] Elfar Erlingsson, Vasyl Pihur, Aleksandra Korolova. « Rappor: Randomized aggregatable privacy-preserving ordinal response ». Proceedings of the 2014 ACM SIGSAC conference on computer and communications security, 2014. https://dl.acm.org/doi/10.1145/2660267.2660348
[4]B. Ding, J. Kulkarni, S. Yekhanin, « Collecting telemetry data privately ». Advances in Neural Information Processing Systems, pages 3571–3580, 2017. https://dl.acm.org/doi/10.5555/3294996.3295115
[5]S. Rahali, M. Laurent, S. Masmoudi, C. Roux, B. Mazeau, « A Validated Privacy-Utility Preserving Recommendation System with Local Differential Privacy », TrustCom/BigDataSE 2021, Shenyang, China, 18-20 August 2021. https://arxiv.org/abs/2109.11340