Allard, Tristan
Protection des données personnelles destinées à être publiées : description d’une attaque minimaliste sur un jeu de données pseudonymisées
- 2018.
66
Les logiciels d’aide à la décision basés sur des techniques d’intelligence artificielle sont de plus en plus utilisés dans le domaine de la justice. Or ces techniques nécessitent souvent d’accéder à de grandes quantités d’informations personnelles afin de réaliser un apprentissage de qualité. En France, le cadre légal semble aujourd’hui favorable à l’ouverture des jugements, pourvu que la vie privée des personnes concernées soit respectée. Cependant, la protection des données personnelles destinées à être publiées reste difficile techniquement. Cet article a pour objectif de décrire une attaque minimaliste qui a été réalisée en 2014 sur un jeu de données protégé par l’application d’un algorithme de pseudonymisation. L’originalité de cette attaque réside dans sa simplicité de fonctionnement – elle ne nécessite pas d’accès à un jeu de données auxiliaire – et dans sa cible – l’algorithme de pseudonymisation. Nous présentons la famille des algorithmes de pseudonymisation, décrivons et analysons l’attaque, et concluons sur la place de la pseudonymisation dans le Règlement Général sur la Protection des Données personnelles. Software assisting in decision-making, relying on artificial intelligence techniques is increasingly used in the field of justice. However these techniques often require access to large amounts of personal information to achieve quality learning. In France, the legal framework seems today favorable to the disclosure of judgments, provided that the privacy of the persons concerned is respected. Nevertheless, it is still technically difficult to protect personal data before disclosure. This article aims to describe a minimalist attack that was performed in 2014 on a dataset protected by performing a pseudonymization algorithm. The originality of this attack lies in its simplicity - it did not require access to an auxiliary dataset - and in its target - the pseudonymization algorithm. We present the family of pseudonymization algorithms, describe and analyze the attack, and conclude on the role pseudonymization is playing in the General Regulation on the Protection of Personal Data.