Categories

Archives

Les billets de February, 2025 (ordre chronologique)

Mec de droite

L’European social survey, dans sa 11e édition, a demandé aux personnes interrogées de se placer sur une échelle Gauche-Droite, et aussi sur une échelle de masculinité et une échelle de féminité…

Il semble qu’à droite le respect des normes de genre soit plus affirmé qu’à gauche.

Professions et couples de même sexe

Depuis que le Recensement ne recode plus le sexe du conjoint (ou de la conjointe) quand le couple est de même sexe, il est possible d’étudier ces couples de même sexe. Du moins une partie de ces couples. Dans le graphique suivant, on trouvera les professions où la proportion de couples de même sexe est élevée. Je différencie les professions par sexe, et ainsi les « Stewards » sont les hommes de la profession « 546d » (Hôtesses de l’air et stewards). Les « Ambulancières salariées » sont les femmes de la profession « 526e : Ambulanciers salariés ». Et attention, je ne calcule ces proportions que sur les personnes en couple (il n’y a pas 9% d’ambulancières en couple avec une personne de même sexe, il y a 9% des ambulancières-en-couple qui sont en couple avec une personne de même sexe).

Ce graphique a été créé à partir des données du « Recensement 2021, fichier détail, individus localisés à la région » de l’Insee.

La stabilité des classes

Vous êtes sociologue et vous avez décidé, parce que vous avez un beau jeu de données, de réaliser une analyse des correspondances multiples suivie d’une classification ascendante hiérarchique (ACM puis CAH). Mais deux choses vous gênent : vous savez que certains petits effectifs (ceux des modalités de certaines variables) vont se retrouver aux extrémités des axes, et vous doutez de la stabilité des classifications produites. Or les diagnostics habituels de l’ACM ne proposent aucun « intervalle de confiance ».

J’essaye ici de proposer une méthode, très empirique, pour se faire une idée de la stabilité des classes. Le code est sur github et doit permettre très simplement la réplication sur d’autres données.

Commençons par un petit graphique. J’y représente les résultats d’une ACM, axes 1 et 2, où les points sont coloriés en fonction d’un des trois clusters déterminés par une CAH.

Que se serait-il passé si, au lieu des 400 individus du jeu de données utilisé ici, il n’y avait eu que 320 individus… est-ce que des individus auraient changé de cluster ?

Pour le savoir, je sélectionne au hasard 320 individus parmi les 400 de l’échantillon de départ, je fais une ACM suivie d’une CAH et je regarde le résultat. Je fais ça à 1000 reprises, en sélectionnant à chaque fois 320 individus au hasard, et je calcule la fréquence à laquelle ces individus changent de cluster.

Voici ce que ça donne. Les gros points sont les individus qui changent de cluster relativement souvent.

 

72 individus changent de clusters dans plus de 5% des simulations. Ils se répartissent sur tout le deuxième axe, et à proximité de “x = 0” sur le premier axe.

Techniquement, repérer « quels sont les individus de la simulation qui ont changé de cluster par rapport à la situation de départ » a posé un petit problème. Je pensais utiliser les numéros de cluster (1, 2 ou 3) et repérer les individus qui sont passés de « cluster 1 » à « cluster 2 ». Mais ces numéros ne sont pas stables. Je suis donc passé par une comparaison des « voisins ». Etre dans un cluster, c’est avoir les individus du cluster comme voisins. Si les voisins changent entre la situation de départ et la simulation, alors ça signifie un changement de cluster… mais pas pour tout le monde, uniquement pour la/les personne/s qui n’a/ont plus, dans la simulation, les voisins qu’elle/s avait/avaient au départ.
Vous verrez dans le script R sur github, si vous allez jusque là, comment j’ai fait.

Enfin se pose un autre problème : 72 individus qui changent de cluster, est-ce que c’est un indicateur de stabilité ou d’instabilité ? Quel seuil prendre ? À quoi comparer ce chiffre ?

Defne et Alparslan… Les prénoms en Turquie (2024)

L’Insee turc, le TUİK, a publié aujourd’hui le fichier annuel contenant les prénoms les plus fréquents dans le « Address Based Population Registration System ».
Ce qui me frappe, comme chaque année, c’est la présence des prénoms neufs parmi les prénoms les plus donnés, que ce soit chez les bébés garçons ou les bébés filles. Même si ça semble plus présent encore pour les prénoms des filles.

Pour un texte un peu plus long, mais un peu ancien : les prénoms à la mode en Turquie

Genre des un·e·s, genre des autres

Les directeurs et directrices de thèses ont-ils ont-elles les mêmes doctorant·e·s&nbsp? À partir du fichier des thèses soutenues, il semble bien que non. Par exemple, les directrices ont plus souvent des doctorantes que les directeurs. En sociologie, pour les thèses soutenues après 2010 : 49 des doctorant·e·s des directeurs (hommes) sont des doctorantes… mais 60% des doctorant·e·s des directrices (femmes) sont des doctorantes.
Et cette différence se retrouve discipline après discipline : les directrices ont toujours plus de doctorantes que les directeurs.

… sauf en “microbiologie” et en “automatique”.

Celles et ceux qui ont déjà étudié les données de theses.fr savent que la variable « disciplines » pourrait être améliorée.

On pourrait se demander pourquoi les doctorantes semblent éviter les directeurs. Ou pourquoi les directeurs semblent préférer les doctorants. Se demander si c’est un effet de structure (des directeurs en moyenne plus anciens dans la carrière que les directrices).