Categories

Archives

Defne et Alparslan… Les prénoms en Turquie (2024)

L’Insee turc, le TUİK, a publié aujourd’hui le fichier annuel contenant les prénoms les plus fréquents dans le « Address Based Population Registration System ».
Ce qui me frappe, comme chaque année, c’est la présence des prénoms neufs parmi les prénoms les plus donnés, que ce soit chez les bébés garçons ou les bébés filles. Même si ça semble plus présent encore pour les prénoms des filles.

Pour un texte un peu plus long, mais un peu ancien : les prénoms à la mode en Turquie

La stabilité des classes

Vous êtes sociologue et vous avez décidé, parce que vous avez un beau jeu de données, de réaliser une analyse des correspondances multiples suivie d’une classification ascendante hiérarchique (ACM puis CAH). Mais deux choses vous gênent : vous savez que certains petits effectifs (ceux des modalités de certaines variables) vont se retrouver aux extrémités des axes, et vous doutez de la stabilité des classifications produites. Or les diagnostics habituels de l’ACM ne proposent aucun « intervalle de confiance ».

J’essaye ici de proposer une méthode, très empirique, pour se faire une idée de la stabilité des classes. Le code est sur github et doit permettre très simplement la réplication sur d’autres données.

Commençons par un petit graphique. J’y représente les résultats d’une ACM, axes 1 et 2, où les points sont coloriés en fonction d’un des trois clusters déterminés par une CAH.

Que se serait-il passé si, au lieu des 400 individus du jeu de données utilisé ici, il n’y avait eu que 320 individus… est-ce que des individus auraient changé de cluster ?

Pour le savoir, je sélectionne au hasard 320 individus parmi les 400 de l’échantillon de départ, je fais une ACM suivie d’une CAH et je regarde le résultat. Je fais ça à 1000 reprises, en sélectionnant à chaque fois 320 individus au hasard, et je calcule la fréquence à laquelle ces individus changent de cluster.

Voici ce que ça donne. Les gros points sont les individus qui changent de cluster relativement souvent.

 

72 individus changent de clusters dans plus de 5% des simulations. Ils se répartissent sur tout le deuxième axe, et à proximité de “x = 0” sur le premier axe.

Techniquement, repérer « quels sont les individus de la simulation qui ont changé de cluster par rapport à la situation de départ » a posé un petit problème. Je pensais utiliser les numéros de cluster (1, 2 ou 3) et repérer les individus qui sont passés de « cluster 1 » à « cluster 2 ». Mais ces numéros ne sont pas stables. Je suis donc passé par une comparaison des « voisins ». Etre dans un cluster, c’est avoir les individus du cluster comme voisins. Si les voisins changent entre la situation de départ et la simulation, alors ça signifie un changement de cluster… mais pas pour tout le monde, uniquement pour la/les personne/s qui n’a/ont plus, dans la simulation, les voisins qu’elle/s avait/avaient au départ.
Vous verrez dans le script R sur github, si vous allez jusque là, comment j’ai fait.

Enfin se pose un autre problème : 72 individus qui changent de cluster, est-ce que c’est un indicateur de stabilité ou d’instabilité ? Quel seuil prendre ? À quoi comparer ce chiffre ?

Professions et couples de même sexe

Depuis que le Recensement ne recode plus le sexe du conjoint (ou de la conjointe) quand le couple est de même sexe, il est possible d’étudier ces couples de même sexe. Du moins une partie de ces couples. Dans le graphique suivant, on trouvera les professions où la proportion de couples de même sexe est élevée. Je différencie les professions par sexe, et ainsi les « Stewards » sont les hommes de la profession « 546d » (Hôtesses de l’air et stewards). Les « Ambulancières salariées » sont les femmes de la profession « 526e : Ambulanciers salariés ». Et attention, je ne calcule ces proportions que sur les personnes en couple (il n’y a pas 9% d’ambulancières en couple avec une personne de même sexe, il y a 9% des ambulancières-en-couple qui sont en couple avec une personne de même sexe).

Ce graphique a été créé à partir des données du « Recensement 2021, fichier détail, individus localisés à la région » de l’Insee.

Mec de droite

L’European social survey, dans sa 11e édition, a demandé aux personnes interrogées de se placer sur une échelle Gauche-Droite, et aussi sur une échelle de masculinité et une échelle de féminité…

Il semble qu’à droite le respect des normes de genre soit plus affirmé qu’à gauche.

Le « Projet mentions », v 2.0

J’ai mis à jour et légèrement modifié le Projet mentions, qui présente, pour environ 3500 prénoms, les résultats au bac des personnes qui portaient ce prénom. Les données concernent les bacs de 2012 à 2020, et uniquement les bacs généraux et technologiques.
Les modifications sont tout d’abord cosmétiques : l’ancienne version était un peu grise, la nouvelle est colorée, et il y a maintenant quelques animations. Elles sont aussi techniques : l’ancienne version ne permettait pas de cliquer de prénom à prénom, et maintenant c’est possible. Si vous recherchez les résultats d’un prénom qui n’est pas dans la base, le site vous propose un prénom graphiquement proche. Le « Nuage des prénoms » est lui aussi cliquable. Et, en plus des « prénoms similaires » je propose aussi quelques prénoms qui ne sont pas dans le même regroupement de prénoms.
Enfin, j’indique, pour chaque prénom de la base du « Projet mentions » le nombre annuel de naissance de bébés portant ces prénoms, à partir du Fichier des prénoms de l’Insee : c’est une manière simple de se faire une idée de la situation du prénom au moment où les candidat·e·s au bac sont né·e·s. Prénoms en croissance ? prénom en déclin ?

 

Cliquez !
copie ecran projet mentions

 

Compter l’émancipation

L’émancipation des mineurs, qui leur donne les capacités civiles des majeurs, est une très ancienne catégorie du droit. Et depuis qu’il existe des statistiques judiciaires, on les compte.
Si on les compte, on peut faire des graphiques :
 

 

Ainsi, en 1841, le Compte général de l’administration de la justice civile et commerciale en France précise qu’un peu plus de 9000 actes d’émancipation ont été reçus par les juges de paix :

On peut donc, avec un peu de temps, récupérer, sur gallica, le nombre annuel d’émancipations entre 1841 et le milieu des années 1930. Ensuite c’est un peu plus compliqué… L’Annuaire statistique de la justice n’est pas numérisé, on les trouve à la Bibliothèque nationale. Mais pas tous : il faut aussi aller en chercher à la Bibliothèque de la chancellerie… En 1961 il n’y a plus que 4253 émancipations :

Les années récentes voient la disparition des annuaires statistiques, remplacés par des publications peu régulières, et beaucoup moins précises.

Pour plus d’information sur l’émancipation, et comprendre pourquoi on trouve un tel pic au tout début des années 1970, vous pouvez lire Des adultes en mode mineur. Enquête sur les procédures d’émancipation judiciaire.

La Grande Guerre fut une surprise…

… du moins au début. Si on récupère, grâce à Gallica, le texte de huit quotidiens nationaux français en 1914 et qu’on compte les occurrences du mot « guerre », on s’aperçoit que ce n’est que dans les éditions du 26 juillet — un mois après l’assassinat de l’Archiduc, quelques jours avant la mobilisation générale en France — que le mot « guerre » dépasse sa fréquence moyenne.


cliquez pour agrandir

Autour du 16 juillet 1914, les journaux parlent de « guerre », mais pas vraiment comme une menace immédiate : ils en parlent parce que le Congrès de la SFIO discute de l’impérialisme et de la guerre. Et autour du 23-24 juillet, les journaux n’utilisent presque pas le mot « guerre ».

On peut comprendre que, sans télé, sans radio, le risque de déclenchement des hostilités ne soit pas entré dans les esprits des Françaises et des Français. La guerre fut une surprise.

L’argent des normaliens

Cette année, l’École normale supérieure Paris-Saclay (du moins la formation de sociologie) est entrée dans le Collectif POF qui forme les étudiants à la recherche par la recherche. Cette année neuf universités et l’ENS Paris-Saclay ont donc préparé un questionnaire, au premier semestre, recueilli les réponses de plus de 12 000 étudiants, et, au deuxième semestre, procédé à l’analyse des réponses. Cette année, le thème de l’enquête portait sur le budget des étudiants : leurs ressources, les usages de l’argent, le suivi des dépenses, etc… Et comme les élèves des ENS sont fonctionnaires-stagiaires, et donc rémunérés, le thème était particulièrement intéressant.
Avec Marion Michel qui était responsable du cours du premier semestre, j’ai rédigé un « 4 pages » qui présente quelques résultats.

Vous pouvez télécharger l’article :
Coulmont Baptiste et Michel Marion, « L’argent n’est pas un problème… », Documents Études Recherches SHS, 2024, n°2, p.1-4

Deux articles : féminisme, immigration

Je signale rapidement deux articles publiés récemment :

  1. «Faire référence. L’économie de la citation dans dix revues féministes» est un chapitre, écrit avec Isabelle Clair et Elsa Dorlin, dans leur ouvrage Photo de famille. Penser des vies intellectuelles d’un point de vue féministe. Dans ce travail, nous avons compté les citations faisant référence à 31 autrices et auteurs, dans 2981 articles dans dix revues féministes, principalement françaises (Travail, genre et société, les Cahiers du genre, Clio, etc…). Nous avons suivi les références faites à 26 femmes (avant 2016) et 5 hommes. Notre corpus compte 2705 auteurs et autrices citant (ou pas) les 31 auteurs et autrices suivies. Une chose m’a frappé : les hommes (a priori féministes) écrivant dans des revues explicitement féministes citent plus souvent des auteurs hommes (et donc moins souvent les autrices) que les femmes…
  2. La diversité des origines et la mixité des unions progressent au fil des générations (dans Insee première, n°1910), écrit avec Jérôme Lê et Patrick Simon, s’intéresse à la proportion d’immigrés, de descendants d’immigrés de 2e génération, et de descendants d’immigrés de troisième génération. On suit donc l’immigration sur trois générations. Et on met en évidence les conséquences de la mixité des unions sur plusieurs générations : Parmi les descendants de 3e génération, neuf sur dix n’ont qu’un ou deux grands-parents immigrés, 92% ont au moins un grand-parent né français en France.

Les prénoms des élus

Il y a, en 2022, environ 502 000 élus dans les différents conseils municipaux en France. Le répertoire national des élus est téléchargeable sur data.gouv.fr. Les prénoms les plus fréquents sont Jean, Marie, Philippe, Michel…
Mais ces prénoms sont aussi fréquents dans la population française non élue. Quels sont donc les prénoms qui sont sur-représentés chez les élus ?

Voici le raisonnement que j’ai suivi : j’ai comparé les prénoms des élus avec les prénoms des personnes nées en France, à partir du Fichier des prénoms, de l’Insee. Je vais présenter les résultats sous la forme d’un graphique qui compare la distribution des prénoms dans le Répertoire national des élus avec la distribution du Fichier des prénoms. Voici un graphique explicatif :
 

Vous remarquerez que les échelles sont logarithmiques.

Première comparaison

Je commence par comparer la population des élus et élues avec la population née en France depuis 1900 à partir du Fichier des prénoms. S’il y a 1,2% des naissances qui sont des naissances de bébés prénommés Zygloub et qu’il y a 2,4% de Zygloub parmi les élus, alors Zygloub est 2 fois plus présent chez les élus que ce qui est attendu (2 = 2,4 / 1,2).

Apparemment, il y a “trop” de Didier et de Régis parmi les élus, et “pas assez” de Jeannine, de Mohamed et de Thérèse. Quatre fois moins de Louis qu’attendu, et trois fois plus d’Hervé.
Mais on a tout de suite un problème : la population des élus municipaux compte moins de femmes que la population française, ce qui va se refléter sur la position des prénoms sur ce graphique. Je vais donc faire une deuxième comparaison, en tenant compte de la part des femmes parmi les élu·e·s.

Deuxième comparaison

Cela ne change pas grand chose, mais on voit des prénoms comme Justine ou Marie se rapprocher d’un rapport d’égalité :
 

Et de l’autre côté du graphique, les prénoms masculins sur-représentés apparaissent moins sur-représentés (étant donné que les hommes constituent la majorité des élus).

Troisième comparaison

On peut aller plus loin : les élus municipaux sont principalement des élus de toutes petites communes. Et à Paris, par exemple, il y a peu d’élus municipaux par comparaison avec la population. Quand on compare les prénoms de la population à ceux des élus, on peut le faire sur une base départementale : s’il y a peu de Samira en Corrèze, il y aura sans doute peu d’élues nommées Samira (même si, dans le Nord, il va naitre plus de Samira).

Dans le graphique suivant, je contrôle donc par les naissances départementales :


 
Peu de changements, là aussi. Mais quand même : si les Mohamed étaient quatre fois moins fréquents qu’attendus quand on ne prenait pas en compte les départements, ils ne sont plus que 2,5 fois moins fréquents qu’attendus.

Quatrième comparaison

Il faut donc probablement contrôler par le sexe et le département, comme je le propose ci-dessous :


 
Bof, non ? Ça ne conduit pas à une modification radicale des sur- et sous-représentations. C’est probablement parce que j’ai oublié que les élus n’avaient pas 110 ans, et qu’ils n’avaient pas 10 ans non plus.

Cinquième comparaison

Il faut donc, bien entendu, contrôler par l’année de naissance. Et cela d’autant plus que les prénoms connaissent souvent une période – plutôt courte – pendant laquelle ils sont beaucoup donnés. Si les Jeannine sont peu présentes parmi les élus, c’est parce qu’elles sont en grande partie déjà décédées.

Dans le graphique suivant, je prend donc en compte la distribution par âge de la population des élus.


 
Ah, là il y a du changement. Une bonne partie des prénoms se retrouvent à proximité du rapport d’égalité entre le nombre d’élus et le nombre attendu d’élus. Mais ne peut-on pas aussi prendre en compte le sexe et le département ?

Sixième comparaison

Oh que si : dans le dernier graphique, je montre les résultats d’un calcul prenant en compte l’année de naissance, le sexe et le département d’élection des élu·e·s :

La “boule” centrale s’est encore rétrécie : on prévoie assez bien combien il y a aura de Céline élues si l’on connaît la distribution par âge, sexe et départements de la population des élues. Il reste quelques prénoms que ces variables expliquent mal : Bertrand, Armelle, Bénédicte, Etienne, Benoît, Hugues et Hubert se retrouvent trop souvent parmi les élus. Est-ce un signe que ces prénoms sont attachés à des personnes disposant de ressources sociales plus importantes ? De l’autre côté, on trouve des prénoms symétriques : Tony, Kevin, Sabrina, Nadia, Jonathan, Jessica… que l’on devrait retrouver plus souvent chez les élus.

Et Mohamed et Karim : même en tenant compte de l’âge des élus, de leur département d’élection, de leur sexe… il y a “trop peu” de Mohamed et de Karim parmi les élus municipaux. Pour quelles raisons ? Peut-être l’utilisation d’un autre prénom au quotidien et une candidature sous un autre prénom que le prénom de naissance (comme le firent ou le font Marie-Ségolène “Ségolène” Royal, Marion-Anne “Marine” Le Pen et tant d’autres). Peut-être qu’il faudrait prendre en compte une échelle plus fine que le département ? Ou peut-être qu’on trouverait d’autres raisons si on cherchait un peu.

Notes :

  1. J’ai transformé les prénoms composés : Anne-Marie est Anne, Jean-Philippe est Jean…
  2. J’ai asciifié les prénoms : ils n’ont plus aucun accent ni cédilles
  3. C’est un peu stupide de prendre en compte les naissances départementales pour estimer une proportion attendue, comme si les élus étaient nés là où ils sont élus
  4. Et en plus, avec la fin du département de la Seine en 1968, les codages bizarres de l’Outre-Mer, je ne suis pas certain de ne pas avoir été trop rapide parfois
  5. J’ai sans doute fait des erreurs, mais si vous voulez les corriger, le code est sur github