Categories

Archives

Dis-moi, combien de prénoms as-tu ?

L’on sait peu de choses sur les seconds, troisièmes… et parfois quatrièmes, cinquièmes et sixièmes prénoms. Ce sont des prénoms invisibles dans la vie quotidienne. « Bonjour, je m’appelle Marie, Adélaïde, Charlotte, Garance, Domitille, Sixtine d’Aniel de la Rochefoucault… »
Et dans la plupart des cas, les données statistiques disponibles ne recueillent pas ces prénoms fantômes. Il en va différemment sur les listes électorales, où noms et prénoms permettent l’indexation d’une personne à une carte d’identité. Il est ainsi possible de repérer l’évolution, dans le temps, du nombre moyen de prénoms des personnes inscrites sur les listes électorales.
Sur le graphique suivant, j’ai distingué trois groupes principaux (et distingué, dans ces groupes, les hommes des femmes). Premier groupe, les électeurs nés à l’étranger. Le groupe du milieu, l’ensemble des inscrits. Le groupe du haut les électeurs ayant un nom de famille à particule [la particule semble être un indicateur intéressant].
prenoms-inscrits
Les deux groupes “électeurs nés à l’étranger” et “électeurs à particule” se distinguent fortement : les électeurs nés à l’étranger ont en moyenne moins de deux prénoms. Les électeurs à particule en moyenne plus de deux prénoms, voire trois pour les plus jeunes. Alors qu’une particule rallonge déjà le nom de famille moyen, les parents à particule choisissent des formules prénominales plus longues [ce qui complexifie le théorème de Bérurier mentionné par Marie-Anne Paveau]. Manière d’égaliser les deux côtés de la balance onomastique?

Si hommes et femmes né°e°s à l’étranger se ressemblent sous le rapport du nombre de prénom, il n’en va pas de même pour les électeurs à particule, ni, dans une moindre mesure, pour l’ensemble des inscrits : les femmes ont en moyenne moins de prénoms que les hommes. Elles sont peut-être privées d’un capital onomastique (les prénoms des ancêtres, transmis aux hommes de préférence ?)…

Une première lecture de ce graphique insisterait ensuite sur l’augmentation régulière du nombre moyen de prénoms des électeurs.

Mais attention :

  1. il est probable, très probable, que les jeunes inscrits n’ont pas les mêmes caractéristiques sociales que les inscrits plus âgés (la mal-inscription touchant tendanciellement certaines personnes plutôt que d’autres), et si le nombre de prénom varie en tendance avec l’origine sociale, alors on repère ici les conséquences graphiques d’un effet de sélection
  2. l’augmentation du nombre de prénoms est peut-être due à des changements administratifs-informatiques dans l’enregistrement des personnes qui se sont inscrites récemment : ceux qui se sont inscrits dans les années 1990 ne pouvaient, peut-être, qu’inscrire deux ou trois prénoms, alors que ceux qui se sont inscrits dans les années 1990-2000 ont eu la possibilité d’inscrire tous leurs prénoms… Cela pourrait expliquer en partie le “saut” visible pour les électeurs nés vers 1980.

Où sont les femmes ?

Les listes électorales contiennent des informations intéressantes, à l’échelle du bureau de vote. On peut mettre en carte la proportion d’inscrits dont le nom de famille comporte une particule. On peut aussi cartographier d’autres caractéristiques, plus classiques.

Si l’on sait qu’il nait chaque année environ 105 hommes pour 100 femmes, l’on voit que cette proportion est inégalement répartie sur le territoire parisien. Au centre-nord de Paris, les inscrits sont plus souvent des hommes que des femmes. Ces dernières sont plus “rive-gauche” finalement.
femmesinscrites

D’autres informations montrent la diversité de l’espace parisien. Ainsi l’âge. L’âge de l’inscrit médian est d’environ 50 ans dans le XVIe… et d’environ 40 ans dans le XVIIIe.

agemedian
Mais la dispersion est aussi intéressante : le “centre-nord” de Paris a des inscrits moins dispersée en âge, alors que les XVIe, VIIe, XVe arrondissement ont une population d’inscrits plus diverses (sous le rapport de l’âge).

dispersionage

Et si l’on s’intéresse au lieu de naissance des électeurs ? On peut voir que les électeurs nés à l’étranger se trouvent surtout à proximité des périphériques. Le XVIe a plus d’étrangers que ce que j’aurai pensé a priori, mais ce ne sont probablement pas les mêmes étrangers que dans le XVIIIe arrondissement. Et Montmartre serait le dernier village gaulois.
paris-etranger

Tous des menteurs ?

Vous parcourez peut-être ces lignes parce que vous venez de lire le billet publié dans Le Monde, à la une du cahier « Science & Médecine » du mercredi 5 mars 2014, et que vous avez voulu en savoir un peu plus ?

Parfois les enquêtés mentent… Les questionnaires des enquêtes quantitatives demandent alors aux enquêteurs (qui posent les questions) d’estimer la “bonne volonté” des enquêtés, comme ici à la fin du questionnaire de l’enquête TeO :

TeO-controle

Le cœur de la chronique vise à souligner que, si les enquêtés mentent parfois, ils tendent quand même à être honnête quand on leur demande s’ils ont répondu honnêtement. Le problème des sociologues n’est donc pas que “tous les Crétois sont menteurs”, mais d’arriver à faire quelque chose avec les réponses des 5% de Crétois menteurs (qui disent, quand on leur demande, qu’ils sont peut-être menteurs).
J’avais déjà abordé ce thème dans un vieux billet sur les réticences à répondre : A. Béjin expliquait, dans un article, les procédures de contrôle des réponses. L’article qui m’a donné l’occasion de la chronique de cette semaine m’a semblé intéressant dans la mesure où, au lieu de reposer sur une procédure externe, le contrôle de la parole des enquêtés repose sur eux-mêmes. Une injonction disciplinaire qui, en plaçant les individus en position de sujets, les incite à dire une vérité… Foucault, sort de ce questionnaire !

Le rythme amoureux

saisons-naissances-smallLa chose est connue par de nombreux travaux, mais je voulais continuer mon exploration des rythmes sociaux.
Voici donc, à partir des données quotidiennes de l’état civil de 1968 à 2011 (naissances), disponibles sur le site de l’INSEE, une estimation du rythme des conceptions. J’ai soustrait 9 mois [9 fois 30 jours] au jour des naissances :

conception
Le mois d’août est propice aux conceptions, ainsi que les vacances (bien arrosées) de Noël.

En cliquant sur l’image, vous pourrez même distinguer le pic de la Saint-Valentin (14 février) qui donne lieu à un peu plus de naissances que la moyenne de février.

Les choses ont bien changé depuis 1968 : le pic de mai a disparu :
saisons-naissances

Parmi les choses à lire : A. Régnier Loillier, “Évolution de la saisonnalité des naissances en France de 1975 à nos jours“, Population, 2010.

De quels prénoms le vôtre est proche ?

Le mini-site coulmont.com/bac/ a été mis à jour, avec les données de 2012 et de 2013. Il comporte deux parties pour l’instant distinctes :

  1. un formulaire qui permet de dresser la liste des prénoms qui ont le même profil de résultats au bac : la base comporte 1186 prénoms différents
  2. un “nuage des prénoms” construit avec la proportion de mentions “très bien” en abscisses, les effectifs en ordonnées. Il est possible de sélectionner le nuage correspondant au bac 2013 ou le nuage correspondant au bac 2012

Les deux parties permettent de repérer des proximités entre prénoms, soit par un parcours dans le nuage, soit au moyen d’un formulaire… Allez vérifier sur coulmont.com/bac/.

Ce “mini site” est une “soupe” de techniques différentes : du simple css+html (Bootstrap), du php, du javascript (d3.js et “google charts”). J’ai l’impression que cela peut exploser à n’importe quel moment… et j’ai atteint ici mes limites de programmeur.

Prénoms et mentions au bac, édition 2013

Mise à jour :

  1. Le mini-site https://coulmont.com/bac/ permet d’accéder à des résultats plus précis (distribution des mentions et liste des prénoms ayant le même “profil”).
  2. Une visualisation dynamique du graphique est maintenant en ligne ici
    bac-mention-2013

Cette année encore, la proportion de mentions “Très bien” que reçoivent les porteurs de certains prénoms permet de dessiner un espace social qui, immédiatement, fait sens. Prénoms choisis par des parents des classes intellectuelles, de la bourgeoisie ou du salariat d’encadrement d’un côté, prénoms choisis par des parents des classes populaires de l’autre.
Le graphique ci-dessous place les prénoms suivant :
– en abscisses la proportion de mention “très bien” associée au groupe des porteurs du prénom
– en ordonnées le nombre de candidats au bac, en 2013.

bac-2013
Lien vers le graphique au format PDF

En 2013, 20% des Diane et des Adèle ont obtenu une mention “TB”. Ce n’est le cas que de 4% des Enzo et des Anissa. 16% des Clara, 4,5% des Jeremy. Ces différences entre prénoms ne sont pas dues aux prénoms : les copies sont corrigées anonymement, et le prénom n’a rien de magique. Le prénom indique — de manière imparfaite et floue — l’origine sociale de celles et ceux qui le portent, et la réussite scolaire est, en partie, liée à cette origine sociale : “Parmi les élèves entrés en sixième en 1995, 71,7% des enfants d’enseignants ont finalement décroché en 2010 un bac général, 68,2% des enfants de cadres supérieurs, 20,1% des enfants d’ouvriers qualifiés, 13% des enfants d’ouvriers non qualifiés, et 9,2% des enfants d’inactifs”.
Pour revenir aux prénoms, si l’on ne garde que les prénoms qui apparaissent plus de 30 fois dans la base, ceux qui sont associés à un taux énorme de mention TB sont : Ulysse, Guillemette, Quitterie, Madeleine, Anne-Claire, Ella, Sibylle, Marguerite, Hannah, Irene, Octave, Domitille (qui sont entre un quart et un tiers à obtenir une mention). À l’opposé moins de 2% des Asma, Sephora, Hakim, Kimberley, Assia, Cynthia, Brenda, Christian, Bilal, Brian, Melvin, Johann, Eddy, et Rudy ont obtenu mention TB.

Les données portent sur plus de 338000 candidats au bac général ou technologique en 2013, qui ont obtenu une moyenne supérieure à 8/20 et qui ont accepté la diffusion de leurs résultats. 8,6% de cette population a obtenu une mention TB. L’aide d’Etienne O. fut précieuse !

Pour en savoir plus sur l’aspect sociologique des prénoms : Sociologie des prénoms, [sur amazon, dans une librairie indépendante]
Les années précédentes : 2012 [précisions] et 2011

Mise à jour : Les observateurs minutieux repèrent que l’on trouve surtout des prénoms de fille à droite. L’explication de départ est que les filles réussissant mieux que les garçons à l’école, elles reçoivent aussi, plus souvent que les garçons, des mentions TB. Une autre explication s’intéresse aux prénoms eux-mêmes : les prénoms des garçons choisis par les parents de “classes supérieures” sont peut-être moins socialement clivants que les prénoms de filles.

L’accès sécurisé aux données

Jusque dans les années 1960-1970, l’accès aux données administratives était relativement facile aux sociologues. Depuis le développement des législations protégeant la vie privée des acteurs sociaux, c’est plus compliqué. Heureusement, la plupart du temps, la sociologue n’a pas besoin d’informations comme le revenu déclaré par les individus et les ménages habitant telle adresse. Mais parfois, si.
Dans ce cadre a été créé le CASD, “Centre d’accès sécurisé aux données”.

C’était l’introduction.

Depuis quelques années, je travaille à comprendre les usages sociaux du prénom. Le “Fichier des prénoms” de l’INSEE, ou de vieilles “Enquêtes Emploi” non anonymisées permettent de répliquer des résultats connus depuis les travaux de Besnard et Desplanques. Mais on en fait le tour. Ma recherche sur les changements de prénoms et la lecture de travaux sur les prénoms donnés par les migrants à leurs enfants m’a incité à diriger mes recherches vers ce thème: quels prénoms sont donnés par les migrants et leurs descendants ?
L’enquête TeO, Trajectoires et Origines, est une enquête récente. Y ont été interrogées 11 000 personnes nées en France métropolitaine et 11 000 hors de France métropolitaine. Comme il est de coutume dans les enquêtes de l’INED et de l’INSEE, les prénoms sont recueillis au départ du questionnaire, afin que les questions posées soient “Depuis combien de temps Robert est-il…” et non pas “Depuis combien de temps Individu7 est-il…”
TeO-prenoms
[extrait du questionnaire de l’enquête TeO]
Puis les prénoms sont séparés de la base de données : les chercheurs n’y ont pas accès, ils n’ont accès qu’à des identifiants numériques. Et Robert n’y pourra rien : il n’est maintenant qu’un numéro.

J’ai donc demandé, après plusieurs contacts auprès de l’INSEE et de l’INED, au Comité du Secret Statistique l’autorisation d’avoir accès aux prénoms de TeO. En décembre 2012, j’ai été auditionné par le Comité (l’audition fut très courte, le dossier avait été instruit et ne soulevait pas de problèmes particuliers). Les données seront accessibles par l’intermédiaire du “CASD”, le Centre d’accès sécurisé aux données.

Le CASD fournit un terminal (gros comme une demi-freebox) qui permet de faire des traitements statistiques sur les données, mais ne permet ni copie d’écran ni téléchargement des données : les données restent sur un serveur localisé — peut-être — dans les sous-sols de Malakoff. Le terminal ne fonctionne qu’à travers une double identification individuelle : par carte à puce et empreintes digitales. Un VPN permet d’accéder au serveur. Si le terminal, qui est dans un placard fermé dans un bureau fermé dans un lieu surveillé, est volé, le voleur ne pourra rien faire. Il lui faudrait ma carte à puce (conservée ailleurs) et mes doigts (toujours sur moi).
sdbox
Une fois les traitements statistiques effectués, les tableaux ou graphiques seront évalués par un agent du CASD, afin de vérifier qu’ils ne contiennent pas de données permettant d’identifier un individu précis.

Ce système, un peu complexe, me semble pour l’instant parfait [même si, pour des raisons liées à la configuration du réseau dans les locaux où je travaille, le VPN n’a pas encore pu être mis en place] : la nécessaire protection de la vie privée s’accompagne de la possibilité de travailler sur des données individuelles.

Séries de prénoms

J’ai récupéré les résultats nominatifs au bac de 2012 (bac général et bac techno). Il est facile de repérer, à partir de ces résultats, qu’à certains prénoms sont associés des proportions de mentions spécifiques.
On peut aussi s’intéresser aux relations entre séries et prénoms. A chaque série est associée un groupe de prénoms surreprésentés (je n’ai gardé que les prénoms qui apparaissaient plus de 60 fois). Ainsi, les “Aliénor” représentent au total 2 candidates sur 10 000, mais elles sont 6 sur 10 000 candidates au bac “L” (littéraire) : elles sont 3 fois plus nombreuses à passer le bac “L” (littéraire) que ce qui est attendu à partir de leur nombre total. Et les prénoms diffèrent. Dans certaines séries (“S” et “STG” par exemple), ce sont des prénoms masculins qui sont surreprésentés… mais ce ne sont pas les mêmes : Augustin est plus fréquent en série S, Ahmed en série STG.
Le tableau suivant montre — pour quelques séries du bac — ces prénoms surreprésentés (12 par série). Ces prénoms “ont un air de famille” : Pierre-Louis est avec Pierre-Antoine; Yoann avec Yohan; Alison avec Allison et Alisson (dans la même liste que Stéphanie, Tiphanie et Tiffany) — mais bien séparées des Lison. Cet “air de famille” s’étend au delà de la proximité graphique : les prénoms “anglosaxons” et “arabes” semblent associés à des séries différentes.

prenoms-series-2012

Georges Felouzis et ses collègues (Joëlle Perroton notamment) ont bien analysé la ségrégation ethnique et le rôle qu’elle joue dans la reproduction sociale : il s’est d’ailleurs appuyé sur un codage des prénoms pour repérer l’ethnicité revendiquée par les parents.
Ils s’intéressaient aux collèges, mais les séries du bac ne remettent pas a priori en cause cette ségrégation ethnique et sociale (ici, je m’intéresse simplement aux prénoms surreprésentés, et pas à la concentration).

Mise à jour :

  • “Chaillot”, commentateur averti, m’a indiqué une erreur sur le tableau, que j’ai corrigé. Merci.
  • La liste ne concerne pas les prénoms les plus fréquents par série, mais les prénoms surreprésentés relativement à l’ensemble de la population des candidats au bac (pour lesquels je dispose de résultats)

Un classement ? Non, sire, un espace !

La semaine dernière, j’ai proposé de jouer à classer entre eux les départements de sociologie. Le jeu consistait à choisir entre des paires de départements (Paris 8 contre Perpignan; Paris 4 contre Paris 7…).
Deux cents personnes ont fourni plus de 5600 votes, et 2000 “non-votes”. J’ai commencé à analyser les données de ces votes. Les contraintes du jeu lui-même orientent fortement ce qu’il est possible de faire à partir des données.
Commençons par regarder les “non-votes”. Les votants avaient la possibilité de signaler qu’entre deux universités, ils ne pouvaient pas choisir car ils n’avaient pas assez d’informations sur ces universités, ou parce que ces deux universités étaient semblablement les mêmes.
Le graphe suivant considère que deux universités (mais il faudrait dire “deux départements de socio”) ont un “lien” entre elles quand des votants ont déclaré que ce sont “les mêmes” :
reseau-same-socio
Si vous cliquez, vous verrez mieux [pdf]

Les universités sont représentées par un point, et la taille du point dépend du nombre de réponses “ce sont les mêmes”. Comme on le voit, certaines universités/départements (Montpellier3, repère postmoderne; l’IEP de Paris; Paris9-Dauphine) apparaissent suffisamment distinctement pour ne pas être jugé “comme les autres”. Les universités “centrales” dans ce graphe (Amiens/Besançon/Metz) sont celles qui apparaissent souvent difficiles à distinguer. Mais Amiens, par exemple, apparaît très peu dans les réponses “je ne connais pas” (ce sont Chambéry et Saint-Etienne qui sont dans cette situation).
Enfin, j’ai réalisé une Analyse en composantes principales, en prenant en compte, pour chaque votant et chaque université, la proportion de votes “gagnants” : si V(i) [le votant n°i] a voté 3 fois pour le département de socio de l’université j, U(j), et une fois contre, alors P(i/j) est de 75%.
ACP-socio
C’est illisible : cliquez pour ouvrir un PDF

Dans ce graphique, les universités en rouge sont celles pour lesquelles les votants mettent beaucoup de temps avant de les déclarer préférables à d’autres.
Le premier axe oppose les universités/départements sur une échelle Province/Paris, qui est peut-être corrélée à une échelle de prestige : mais cela est peut-être directement lié aux contraintes du jeu lui-même. Le deuxième axe apparaît plus intéressant, en opposant entre elles des universités/départements sur ce qui m’apparaît être un principe de vision et de division “politique” (sur le principe générateur gauche/droite, où Paris8 s’oppose à l’IEP).
Si le jeu conduisait à l’établissement d’un “ranking” automatique, l’analyse rapide des données recueillies auprès de collègues (200 votants, 5600 votes et 2000 non-votes) montre la diversité des principes de division, qui pointent même quand l’on cherche uniquement à recueillir “l’évaluation sociale des formations”. C’est peut-être ce qui explique l’échec de la diffusion, en France, des tentatives de création d’échelles de prestige [Chambaz, Maurin, Torelli. L’évaluation sociale des professions en France. Construction et analyse d’une échelle des professions. Revue française de sociologie. 1998, 39-1. pp. 177-226. doi : 10.2307/3322788]. Sous l’échelle unidimensionnel, c’est l’espace multidimensionnel qui pointe.

La boîte à moustaches

On n’utilise pas assez les boîtes à moustaches. Je ne suis pas le seul à faire le constat. Howard Becker, qui n’est pas connu pour être un “quantitatif”, regrette l’absence de telles boîtes moustachues dans les principales revues de sociologie américaines.
Rappelons ce que sont ces boîtes. Pour citer Becker, elles fournissent “une grande quantité de données sur un ensemble de chiffres, dans un format pratique, facile à lire et aisément comparable. La boîte à moustache montre de manière graphique (…) les données le splus importantes d’une distrtibution numérique — la médiane, les charnières (les points marquant les quartiles approximatifs), l’aire complète de distribution –, elle permet d’identifier facilement les cas qui sortent de la moyenne, pour s’y intéresser plus particulièrement.” [Becker, Howard S. Comment parler de la société, Paris, La Découverte, 2009 (édition originale, 2007), p.91]
C’est un graphique synthétique, qui permet de connaître, pour une distribution, sa dispersion, la tendance centrale, l’aire… mais aussi les extrêmes.
Ainsi la répartition des notes dans deux classes :
boitemoustache
La note médiane de classe “t1” est 10, celle de la classe t2 est 9. Mais la distribution des notes des deux classes diffère : la classe “t1” est plus homogène.
La zone en grisé représente ce qui se trouve entre le premier quartile et le troisième quartile. Les “charnières” se trouvent situées au point maximal situé en dessous de 1,5 fois l’écart inter-quartile en partant du 3e quartile (même chose, mais de manière inverse, pour le 1er quartile). Tous les points situés au dessus de cette “charnière” se trouvera représenté par un point, ce qui permet d’attirer l’attention sur certaines valeurs extrêmes. En l’occurrence, ici, les deux élèves ayant eu 20 de moyenne.

La boîte à moustache a été inventée par John Tukey dans les années 1970 : le caractère relativement récent de cette création explique probablement qu’il n’y a pas qu’une seule convention de représentation. La moyenne est parfois représentée dans la boîte. Certains quantiles sont parfois aussi représentés… bref, il y a de la variation, et on n’est jamais certain (sauf à regarder la note de bas de page) de la convention utilisée pour dessiner la boîte à moustaches que l’on a sous les yeux.
Ceci explique probablement pourquoi Becker n’a trouvé aucune boîte dans les 77 articles de l’American Sociological Review et de l’American Journal of Sociology de l’année 2001, alors que 68 articles, écrit-il, contenaient des données qui auraient pu être synthétisées à l’aide de telles boîtes.

Note : avec R, l’instruction boxplot() dessine les boîtes à moustaches.