Categories

Archives

Billet

L’anonymisation automatique des enquêtés

Billet publié le 12/10/2012

Les sociologues anonymisent leurs enquêtés : c’est une des différences avec le journalisme. Mme Dupont deviendra Mme Ponteau, ou alors Geneviève Pruvost deviendra Mme Genevost. Dans un des seuls articles existant sur la question, Anonymiser les enquêtés, Emmanuelle Zolesio donne quelques conseils.
La question a pris d’autant plus d’importance, ces dernières années, que se développaient des impératifs de protection de la vie privée : “confidentialité et anonymat sont (…) les deux faces d’un même problème” écrivent Béliard et Eideliman (cités dans Zolesio).
Il y a un peu plus d’un an, une collègue [Muriel D., ou Mme Murmon] m’écrivait, après avoir reçu Sociologie des prénoms :

je cherchais des outils internet pour anonymiser des enquêtés! Je cherchais notamment s’il n’y avait pas des données de type Besnard en ligne, et je suis rapidement arrivé à ton blog, à ta discussion sur les prenoms et aux sites que tu conseillais (ah, pas mal, ces sites, mais rien ne saurait remplacer un “anonymisateur” que tu vas inventer bientôt j’en suis sûre : un petit programme dans lequel les sociologues rentrent une liste de prénoms d’enquêtés, et qui sort une liste de prénoms anonymisés en tenant compte de la génération, de l’origine sociale etc!

Quelle demande ! Mais quelle demande intéressante. Et qui simplifierait un peu le travail. Ce mail m’est revenu en tête alors que je cherchais, moi-même, à anonymiser quelques personnes… et que je me suis tourné vers l’outil interactif mis en place après la petite étude sur les prénoms et les résultats au bac : http://coulmont.com/bac/
Et j’ai trouvé que, dans certaines circonstances, cela anonymisait pas mal. La “classification ascendante hiérarchique” réalisée à partir, simplement, de la répartition des résultats au bac groupait ensemble “Samir, Brahim et Said”, et les distinguait bien de “Alix, Jeanne, Josephine et Coline”. En discutant avec une autre collègue récemment, j’ai appris que je n’étais pas le seul à agir ainsi. En effet, me dit-elle, une doctorante du CREST, Joanie Cayouette, avait utilisé l’anonymisateur. Voici ce que Joannie m’écrit :

Dans le cadre de ma thèse en sociologie de l’éducation, qui consiste principalement à étudier, au moyen de leurs dossiers scolaires, les trajectoires d’une cohorte de 530 élèves, j’ai dû anonymiser, pour le moment, près de 120 prénoms d’élèves. Pour ce faire, outre le fait de choisir un prénom de même sexe, j’ai veillé à conserver l’appartenance nationale et/ou religieuse du prénom et, enfin, la connotation sociale des prénoms. Cela peut parfois se révéler particulièrement complexe. L’application coulmont.com/bac/ m’aide principalement pour les élèves au prénom français. Je chercher à partir du prénom de l’élève à anonymiser, un prénom dans la liste des prénoms au même profil. La principale contrainte apparaît lorsque le prénom de l’enquêté est trop rare et n’est pas inclus dans l’application. Il arrive alors que je trouve un prénom « analogue » mais déjà utilisé ou trop proche. À ce moment-là, je cherche à partir de celui-ci. Mais c’est parfois impossible. L’outil se révèle par contre moins adapté pour anonymiser les prénoms d’origine étrangère.

Lorsque j’ai commencé à travailler avec l’application coulmont.com/bac/, j’avais déjà anonymisé plus de la moitié des prénoms (grâce à la consultation de sites prénoms et/ou ma connaissance intuitive des prénoms et/ou en choisissant un prénom d’un élève « comparable » dans la base de données). Je pense qu’il est bon que tous les prénoms ne soient pas non plus anonymisés grâce à l’application puisque, les choix se révélant parfois limités lorsqu’il s’agit de choisir, au sein du groupe de prénoms, un prénom de même sexe et de même origine nationale et/ou religieuse, un risque existe que des enquêtés ou autres personnes refassent le chemin inverse à partir de l’application.

L’intérêt que J. Cayouette a trouvé à l’anonymisateur est lié à la grande proximité entre son objet d’étude (des élèves scolarisés dans le secondaire) et la source des données utilisées (les résultats nominatifs au bac). Il est très probable que, pour des populations plus “anciennes” (sur les maisons de retraites…), l’outil ne fonctionne pas du tout.
Et elle pointe un problème : l’anonymisateur permet parfois de “remonter la chaîne” de l’anonymisation, et de retrouver le prénom de départ. Dans ce cas précis, elle n’a pas d’inquiétude à avoir : dans quelques mois, la liste changera, et les “groupes-prénoms” seront plus larges ou légèrement modifiés, grâce à l’apport des résultats du bac 2013.

Comme vous le constatez, mes réflexions au sujet de l’anonymisation automatisée ne font que débuter. Si vous êtes sociologue (professeur émérite à Harvard ou étudiante de master à Reims, ou l’inverse), et si vous avez utilisé http://coulmont.com/bac/, dites-moi ce qui vous a été utile, ce que vous souhaiteriez voir intégré à l’anonymisateur, etc…

5 commentaires

Un commentaire par Sincère nain (15/10/2012 à 12:32)

Cher Monsieur Bapcoul,

“anonymiser” Muriel Darmon en “Mme Murmon” me rappelle un peu une récente transmission “anonymisée” des notes obtenues à deux des épreuves écrites du concours d’entrée dans l’une des trois E.N.S par les candidats identifiés par leur seul numéro d’inscription dont il s’est avéré que l’ordre respectait scrupuleusement l’ordre alphabétique au sein de chacune des CPGE concernées …
Bien à vous.

Un commentaire par Zolesio Emmanuelle (15/10/2012 à 15:24)

Formidable cette idée d’anonymisateur ! J’aurais aimé y penser, et je suis ravie de découvrir l’outil

Un commentaire par Baptiste Coulmont (15/10/2012 à 15:28)

> “Sincère-Nain” : je n’étais pas au courant de ce problème d’anonymisation des copies de l’ENS ! Merci de l’info.

Un commentaire par Marc G. (29/10/2012 à 15:27)

Bonjour

dans notre équipe (informatique) on travaille sur l’algorithmique d’anonymisation de jeux de données :
http://hal.univ-nantes.fr/view_by_stamp.php?&halsid=klf8nusjidvf7athiiqqp7lam5&label=LINA-GRIM&langue=fr&action_todo=view&id=hal-00617193&version=1

Marc G.
me contacter via @MgNantes ou mail si intéressé par plus d’infos !
(volontairement le pdf de l’article n’est pas sur HAL car en cours d’éval pour revue internat.)

Un commentaire par Le Gall brice (28/01/2013 à 17:44)

Super idée cet anonymisateur. merci…