Categories

Archives

Archive for 2025

Conseils pour la rédaction du projet de thèse

Les Conseils pour la rédaction du projet de thèse sont une série de conseils pour rédiger un projet de thèse.

Le projet de thèse a un seul but: être suffisamment lisible pour qu’un·e évaluateur·rice le considère comme devant être financé. Il n’est donc pas destiné à vos ami·e·s, ni même uniquement à votre directrice·eur de thèse. Vous ne devez pas mentir, vous devez expliquer ce que vous allez faire et pourquoi c’est important — socialement important, pas juste scolastiquement important — de le faire. Mais vous devez rédiger en sachant que le lectorat, c’est juste les évaluatrices. Vous devez donc avant tout simplifier leur travail d’évaluation, en étant clair·e, précis·e, direct·e.

Le texte complet est disponible ici :

cliquez

Et quand vous aurez fini votre thèse, vous reviendrez pour les conseils concernant le CV analytique.

Réussite au bac

Proportion de candidats reçus au bac, en fonction de leur origine sociale, de l’année et du type de bac.

Réseaux de disciplines

Mise à jour d’un graphique déjà présenté ici, concernant l’espace partagé des disciplines.

Je m’appuie ici sur les postes universitaires (professeur·e·s et maître·sse·s de conférences) rattachés à plusieurs sections du Conseil national des universités. Ça donne à voir un espace de l’interdisciplinarité, et notamment un grand espace de disciplines proches, en sciences humaines et sociales.

Genre des un·e·s, genre des autres

Les directeurs et directrices de thèses ont-ils ont-elles les mêmes doctorant·e·s&nbsp? À partir du fichier des thèses soutenues, il semble bien que non. Par exemple, les directrices ont plus souvent des doctorantes que les directeurs. En sociologie, pour les thèses soutenues après 2010 : 49 des doctorant·e·s des directeurs (hommes) sont des doctorantes… mais 60% des doctorant·e·s des directrices (femmes) sont des doctorantes.
Et cette différence se retrouve discipline après discipline : les directrices ont toujours plus de doctorantes que les directeurs.

… sauf en “microbiologie” et en “automatique”.

Celles et ceux qui ont déjà étudié les données de theses.fr savent que la variable « disciplines » pourrait être améliorée.

On pourrait se demander pourquoi les doctorantes semblent éviter les directeurs. Ou pourquoi les directeurs semblent préférer les doctorants. Se demander si c’est un effet de structure (des directeurs en moyenne plus anciens dans la carrière que les directrices).

Defne et Alparslan… Les prénoms en Turquie (2024)

L’Insee turc, le TUİK, a publié aujourd’hui le fichier annuel contenant les prénoms les plus fréquents dans le « Address Based Population Registration System ».
Ce qui me frappe, comme chaque année, c’est la présence des prénoms neufs parmi les prénoms les plus donnés, que ce soit chez les bébés garçons ou les bébés filles. Même si ça semble plus présent encore pour les prénoms des filles.

Pour un texte un peu plus long, mais un peu ancien : les prénoms à la mode en Turquie

La stabilité des classes

Vous êtes sociologue et vous avez décidé, parce que vous avez un beau jeu de données, de réaliser une analyse des correspondances multiples suivie d’une classification ascendante hiérarchique (ACM puis CAH). Mais deux choses vous gênent : vous savez que certains petits effectifs (ceux des modalités de certaines variables) vont se retrouver aux extrémités des axes, et vous doutez de la stabilité des classifications produites. Or les diagnostics habituels de l’ACM ne proposent aucun « intervalle de confiance ».

J’essaye ici de proposer une méthode, très empirique, pour se faire une idée de la stabilité des classes. Le code est sur github et doit permettre très simplement la réplication sur d’autres données.

Commençons par un petit graphique. J’y représente les résultats d’une ACM, axes 1 et 2, où les points sont coloriés en fonction d’un des trois clusters déterminés par une CAH.

Que se serait-il passé si, au lieu des 400 individus du jeu de données utilisé ici, il n’y avait eu que 320 individus… est-ce que des individus auraient changé de cluster ?

Pour le savoir, je sélectionne au hasard 320 individus parmi les 400 de l’échantillon de départ, je fais une ACM suivie d’une CAH et je regarde le résultat. Je fais ça à 1000 reprises, en sélectionnant à chaque fois 320 individus au hasard, et je calcule la fréquence à laquelle ces individus changent de cluster.

Voici ce que ça donne. Les gros points sont les individus qui changent de cluster relativement souvent.

 

72 individus changent de clusters dans plus de 5% des simulations. Ils se répartissent sur tout le deuxième axe, et à proximité de “x = 0” sur le premier axe.

Techniquement, repérer « quels sont les individus de la simulation qui ont changé de cluster par rapport à la situation de départ » a posé un petit problème. Je pensais utiliser les numéros de cluster (1, 2 ou 3) et repérer les individus qui sont passés de « cluster 1 » à « cluster 2 ». Mais ces numéros ne sont pas stables. Je suis donc passé par une comparaison des « voisins ». Etre dans un cluster, c’est avoir les individus du cluster comme voisins. Si les voisins changent entre la situation de départ et la simulation, alors ça signifie un changement de cluster… mais pas pour tout le monde, uniquement pour la/les personne/s qui n’a/ont plus, dans la simulation, les voisins qu’elle/s avait/avaient au départ.
Vous verrez dans le script R sur github, si vous allez jusque là, comment j’ai fait.

Enfin se pose un autre problème : 72 individus qui changent de cluster, est-ce que c’est un indicateur de stabilité ou d’instabilité ? Quel seuil prendre ? À quoi comparer ce chiffre ?

Professions et couples de même sexe

Depuis que le Recensement ne recode plus le sexe du conjoint (ou de la conjointe) quand le couple est de même sexe, il est possible d’étudier ces couples de même sexe. Du moins une partie de ces couples. Dans le graphique suivant, on trouvera les professions où la proportion de couples de même sexe est élevée. Je différencie les professions par sexe, et ainsi les « Stewards » sont les hommes de la profession « 546d » (Hôtesses de l’air et stewards). Les « Ambulancières salariées » sont les femmes de la profession « 526e : Ambulanciers salariés ». Et attention, je ne calcule ces proportions que sur les personnes en couple (il n’y a pas 9% d’ambulancières en couple avec une personne de même sexe, il y a 9% des ambulancières-en-couple qui sont en couple avec une personne de même sexe).

Ce graphique a été créé à partir des données du « Recensement 2021, fichier détail, individus localisés à la région » de l’Insee.

Mec de droite

L’European social survey, dans sa 11e édition, a demandé aux personnes interrogées de se placer sur une échelle Gauche-Droite, et aussi sur une échelle de masculinité et une échelle de féminité…

Il semble qu’à droite le respect des normes de genre soit plus affirmé qu’à gauche.

En avance tous·tes !

On trouve, sur le site opendata du ministère de l’enseignement supérieur et de la recherche, un fichier qui donne quelques indications sur la composition socio-démographique des établissements d’enseignement supérieur sous tutelle du ministère.
À partir de ce fichier, on peut produire un graphique qui présente la proportion d’étudiant·e·s arrivé·e·s au bac avec un an d’avance au moins, par établissement.

saut de classe par établissement
cliquez pour agrandir

Dans ce graphique, les écoles qui recrutent à bac+2/bac+3, et qui ne recrutent donc que des survivant·e·s, devraient être comparées aux universités « à niveau égal »… ce que ne permet pas le fichier agrégé en opendata. Et l’absence des écoles militaires, comme l’école polytechnique de Palaiseau, des écoles de commerce ou d’une grande partie des écoles d’ingénieur·e·s rend ce graphique moins intéressant.

Mais il vous est offert gratuitement.

Le « Projet mentions », v 2.0

J’ai mis à jour et légèrement modifié le Projet mentions, qui présente, pour environ 3500 prénoms, les résultats au bac des personnes qui portaient ce prénom. Les données concernent les bacs de 2012 à 2020, et uniquement les bacs généraux et technologiques.
Les modifications sont tout d’abord cosmétiques : l’ancienne version était un peu grise, la nouvelle est colorée, et il y a maintenant quelques animations. Elles sont aussi techniques : l’ancienne version ne permettait pas de cliquer de prénom à prénom, et maintenant c’est possible. Si vous recherchez les résultats d’un prénom qui n’est pas dans la base, le site vous propose un prénom graphiquement proche. Le « Nuage des prénoms » est lui aussi cliquable. Et, en plus des « prénoms similaires » je propose aussi quelques prénoms qui ne sont pas dans le même regroupement de prénoms.
Enfin, j’indique, pour chaque prénom de la base du « Projet mentions » le nombre annuel de naissance de bébés portant ces prénoms, à partir du Fichier des prénoms de l’Insee : c’est une manière simple de se faire une idée de la situation du prénom au moment où les candidat·e·s au bac sont né·e·s. Prénoms en croissance ? prénom en déclin ?

 

Cliquez !
copie ecran projet mentions