Categories

Archives

Les billets de March, 2013 (ordre chronologique)

L’évaporation académique : les qualifiés non postulants

Je vais parler ici de l’évaporation académique, c’est-à-dire des personnes qui, qualifiées par le Conseil national des universités, ne candidatent à aucun poste universitaire. Je vais m’appuyer sur les données des “DGRH A / LT & DGRH A1-1 / PR”.
Dans l’Etude de la promotion 2012 des qualifiés aux fonctions de MCF et de PR, on trouve quelques pages consacrées à ceci : “3589 personnes détenant globalement 4911 qualifications délivrées cette année n’ont pas candidaté sur les postes ouverts au recrutement. Elles représentent 43,5% des personnes qualifiées par le CNU au titre de l’année 2012”. La DGRH-A appelle cela “l’évaporation”.
Près d’une candidate sur deux, donc, qualifiée, ne candidate pas. Peut-être parce qu’il n’y a aucun poste qui lui convienne. Peut-être par autocensure…
Mais ce n’est peut-être pas dû uniquement aux candidates elles-mêmes. La plus ou moins grande sévérité des sections est liée à la plus ou moins grande proportion d’évaporées.
evaporation
Cliquez pour avoir un beau graphique en PDF

La taille des points est fonction (linéaire) du nombre de candidats qualifiés (je me suis limité, ici, à la qualification “maître de conférences”. La droite orange est la droite de régression linéaire. Une relation croissante existe entre le taux de qualification et le taux d’évaporation : dans les sections les plus “laxistes”, de nombreux candidats abandonnent avant même de postuler.
Mais c’est un peu plus compliqué encore (rien qu’avec les données de la DGRH A), car une relation évidente existe entre la “pression” (le nombre de qualifiés de l’année rapporté au nombre de postes ouverts au recrutement dans l’année). Ainsi, quand il y a environ un poste pour chaque qualifié (en droit, par exemple), il y a très peu d’évaporation. Mais quand il y a un poste pour 20 candidats, alors près de 60% des candidats abandonnent.pression
Cliquer pour agrandir

On remarquera, sur ce graphique, le comportement “optimiste” des politistes, de la 4e section du CNU : 15 candidats pour chaque poste, mais à peine 20% d’évaporation.
Et si l’on combine le tout ? En coloriant les points en fonction du taux de qualification ? On arrive, je pense, à la limite de la synthèse graphique possible.
evaporation-pression
Le “taux d’évaporation” était de 34% en 2007, et, depuis, il augmente régulièrement.
[mise à jour 2013-03-02] Regardons maintenant la relation entre la “porosité” des sections CNU et le taux d’évaporation. Le graphique suivant met en relation la proportion de “multiqualifiés” par section et l’évaporation. Il apparaît que, globalement, plus la section comporte de candidats multiqualifiés, plus ces candidats s’évaporent…
multiqualifies
Je trouve cela a priori étrange : je pensais que la proportion de multiqualifiés pouvait être un indicateur de la volonté des candidats de postuler aux postes universitaires.

Note : Données : evaporation.csv [j’ai extrait ces données du rapport de la DGRH-A, qui est au format PDF]

Mise à jour : Poursuite de l’analyse chez Olivier Bouba-Olga

Où faire une licence de sociologie ?

Un des signes distinctifs de la sociologie américaine, c’est l’objectivation du prestige. On en trouverait des exemples dans Street Corner Society, dans Middletown, mais aussi plus récemment chez Podolny (Status Signals). C’est dans cette tradition, probablement, que s’inscrit cette tentative d’établissement d’un classement des départements de socio étatsuniens.
J’ai utilisé le même outil, avec une liste des universités et autres établissements proposant des licences ou des masters de sociologie : vous pouvez répondre à la question Dans quel département de sociologie faire sa licence ou son master ? en choisissant, dans une paire de départements, celui que vous préférez.
On peut, avec ce processus, arriver à un “classement” (mais qui exprime quoi ? le “prestige” ? ce n’est pas certain) :
classement-paires-socio
Mais comme les données sont exportables, et que chaque “votant” reçoit un identifiant, il sera possible de faire d’autres traitements statistiques, qui montrent, probablement, un espace qui n’est pas structuré par une seule échelle.
classement-data-socio
Je donnerai accès au fichier de données à toute personne qui souhaiterait travailler dessus. En attendant, allez dire Où faire sa licence ou son master de sociologie.

La féminisation des revues de sociologie depuis 1960

Billet rédigé par B. Coulmont, A. Hobeika et É. Ollion, publié conjointement sur http://coulmont.com et http://data.hypotheses.org/637

Dans un récent article (PDF), West (un biologiste, pas la sociologue du genre) et ses collègues montraient à partir des articles de JSTOR que si le sex-ratio évolue sensiblement au cours des dernières décennies, l’égalité n’est pas encore de mise entre hommes et femmes dans les publications. Ils soulignaient en particulier que les hommes sont toujours sur-représentés dans des positions de prestige (premier et dernier auteur).

Qu’en est-il en France ? Partant d’une base des revues de sciences sociales françaises compilée par A. Hobeika et E. Ollion dans le cadre d’une recherche en cours sur l’histoire de la discipline par ses publications[1], on obtient une image de la sociologie dans le temps.

D’un point de vue global, au cours des années soixante aux années quatre-vingt-dix, la féminisation progresse, mais très lentement : 81% des auteurs sont des hommes dans les années 1960, ils ne sont plus que 71% dans les années 1990[2].

pie60s

pie90s

 

 

La féminisation est aussi très inégale suivant les revues. Certaines (Archives de sciences sociales des religions, Économie et statistique, Population) voient la part des auteures féminines augmenter substantiellement, alors que d’autres restent des bastions masculins (comme les Actes de la recherche en sciences sociales et la Revue française de sociologie)[3].

paletteRdYlBu

Déterminer le sexe des auteurs à partir de leurs prénoms ?

Pour établir le sexe des auteurs, nous nous sommes appuyés sur leur prénom, méthode utilisée par West (cité plus haut) ou par Carrasco pour retrouver le sexe des pacsés [Carrasco V., 2007. — « Le pacte civil de solidarité : une forme d’union qui se banalise ». Infostat justice, 97 pp. 1–4.]

Mais quand on cherche à inférer le sexe du prénom, plusieurs méthodes sont possibles.

La première consiste à faire ce codage manuellement : la familiarité avec la discipline permet de savoir que Claude Poliak n’a pas le même sexe que Claude Dargent, que Dominique Méda et Dominique Wolton non plus. Mais c’est très chronophage.

Parmi les techniques de codage automatique, deux autres sont possibles. On peut établir une liste de prénoms indiscutablement sexués (Baptiste, Yvette, Émile) à partir d’annuaires, et leur attribuer une valeur (M/F ou 0/1), laissant indéterminés les prénoms épicènes. Toutefois, si on dispose du fichier des prénoms (INSEE), une autre possibilité est d’associer à chaque prénom un score (de féminité, de masculinité) en fonction de son usage social : ainsi 99,95% des Catherine, au XXe siècle en France, ont été déclarées à la naissance comme étant du sexe féminin ; ce chiffre est de 0,08% pour les Simon. Les Dominique sont à 41% des filles, les Claude le sont à 12%, etc. Utiliser cette méthode revient donc à supposer que les prénoms des sociologues ont la même fréquence d’utilisation pour des hommes/femmes que dans la société française toute entière, ce qui semble raisonnable.

On a ici mené un test de ces méthodes, en recodant manuellement le sexe des auteurs pour une revue, la Revue Française de Sociologie. On compare les résultats à ceux des deux autres procédures. Pour la période 1960-1999, le nombre d’articles de cette revue dans notre base est de 1723. En excluant ceux pour lesquels aucun auteur n’est mentionné[4], on a in fine 1329 prénoms.

Les trois méthodes donnent sensiblement le même résultat, malgré des nombres de cas différents sur lesquels elles butent (« NA méthode » ci-dessous). Avec 17 prénoms non-détectés seulement (parfois répétés, d’où les 28 NA), le fichier des prénoms (INSEE) apparaît comme une solution à la fois commode et efficace pour un traitement automatisé tel que celui qu’on vient de faire[5].

Codage manuel Liste restreinte de prénoms Fichier des prénoms
Homme 79.08 78.64 78.67
Femme 20.92 21.35 21.33
Nb. individus 1329/1723 1063/1723 1301/1723
Infos manquantes 394 394 394
NA méthode 0 266 28

 

Des chiffres sur la situation dans la sociologie étasunienne, calculés avec des méthodes similaires, sont disponibles chez Neal Caren et chez Philip Cohen.

Et ci-dessous le graphique avec l’ensemble des revues de sociologies prises en compte dans l’analyse.

 

All-BuYlRd


[1] Elle recense les publications dans les revues de sociologie française depuis les années 1960 (articles et symposiums, mais pas compte-rendus). La base est organisée par signatures : chaque ligne désigne un auteur et un article (par exemple, Bourdieu P. & Wacquant L. 1999 donne lieu à deux lignes dans la base : une pour chaque auteur).

[2] La base recense plus de 20 000 articles et comptes-rendus dans une vingtaine de journaux : Agora, Actes de la Recherche en Sciences Sociales, Archives de Sciences Sociales des Religions, Critique internationale, Déviance et société, Espace population et sociétés, économie et statistiques, Genèses, Pôle Sud, Politix, Population, Réseaux, la Revue Française de Sociologie, Sociétés contemporaines, Sociologie et santé, Tiers-Monde. Elle s’appuie largement sur les données du site Persée, complétées ponctuellement pour les revues qui en sont absentes.

[3] Dont B. Lahire disait récemment qu’elles étaient « les deux revues françaises de sociologie les plus académiques »).

[4] Soit il n’y en avait pas, soit on n’a pas réussi à le dissocier du nom dans les rares cas où les deux n’étaient pas clairement séparés. C’est une limite de ce traitement complètement automatisé, même si on a de bonnes raisons de penser que cela ne change rien aux résultats présentés ici.

[5] Si les prénoms sont à l’avenir plus épicènes, alors cette méthode pourrait s’avérer problématique. Elle l’est parfois entre pays, Jean Leca n’étant pas du même sexe que Jean Comaroff.

Sociologie d’un quartier

Un correspondant m’envoie un problème. Dans le cadre d’une enquête portant sur la socio-histoire d’un quartier, il a eu accès à des archives qui indiquent, pour quelques pâtés de maison (pâtés d’immeubles), la composition sociale.
Ces données apparaissent sur des cartes réalisées à différents moments :
quartier
Les zones les plus foncées sont celles où la population a fréquemment une certaine caractéristique (peu importe la caractéristique, que ce soit la composition sexuée, la proportion de cadres ou de joueurs de banjo).
La question posée était : comment refaire la carte ? Plus précisément, il m’écrit : “Je souhaite montrer les évolutions que connaissent ces différentes zones en utilisant les fonctions cartographiques de R, surtout les cartes choroplèthes et en cercles proportionnels. En bref, comment faire pour coder ces zones ?”

Ce n’est pas très compliqué :
Pour commencer, il faut retracer les formes. Pour cela, il est possible de créer une carte sur google maps (cliquer sur “My places” (à côté de “Get Directions”) dans l’interface de google maps (il vous faudra peut-être un compte google).
Il est ensuite possible de dessiner des formes (“shapes”), et de leur associer un identifiant (qui sera la “clé” à partir de laquelle associer les données chiffrées).
map-google-quartier
Ensuite, google maps permet d’exporter les “shapes” au format .kml

Voici une explication en vidéo :

Et dès qu’on a du .kml, alors on peut lancer R.
Imaginons que notre fichier .kml s’appelle quartier.kml

Dans R : (Note : il faut le package osmar, que j’ai présenté ici)

library(maptools)
library(rgdal)
library(osmar)
#charger les polygones du quartier :
quartier < - readOGR("Desktop/quartier.kml",layer="quartier")
#charger la carte du quartier
#grâce au package osmar [info] 
src < - osmsource_api()
bb <- center_bbox(LONGITUDE,LATITUDE, 800, 800)
ua <- get_osm(bb, source = src)
#dessiner les bâtiments (c'est optionnel)
bg_ids <- find(ua, way(tags(k == "building")))
bg_ids <- find_down(ua, way(bg_ids))
bg <- subset(ua, ids = bg_ids)
bg_poly <- as_sp(bg, "polygons")
#dessiner les routes (pour donner une idée)
plot(bg_poly, col = "lightgray",border="#ffffff00")
cw_ids <- find(ua, way(tags(k %in% c("highway"))))
cw_ids <- find_down(ua, way(cw_ids))
cw <- subset(ua, ids = cw_ids)
cw_line <- as_sp(cw, "lines")
plot(cw_line, add = TRUE, col = "black",lwd=10)
plot(quartier,add=TRUE,col=CODECOULEUR)

Created by Pretty R at inside-R.org

carto-quartier
Cliquez pour avoir un PDF vraiment yummy-yummy

Par comparaison, voici un morceau de la carte originale :
quartier-comparaison
Je ne sais pas ce que mon correspondant va faire avec ses cartes, mais l’objectivation cartographique peut sans doute contribuer au raisonnement sociologique.

Un classement ? Non, sire, un espace !

La semaine dernière, j’ai proposé de jouer à classer entre eux les départements de sociologie. Le jeu consistait à choisir entre des paires de départements (Paris 8 contre Perpignan; Paris 4 contre Paris 7…).
Deux cents personnes ont fourni plus de 5600 votes, et 2000 “non-votes”. J’ai commencé à analyser les données de ces votes. Les contraintes du jeu lui-même orientent fortement ce qu’il est possible de faire à partir des données.
Commençons par regarder les “non-votes”. Les votants avaient la possibilité de signaler qu’entre deux universités, ils ne pouvaient pas choisir car ils n’avaient pas assez d’informations sur ces universités, ou parce que ces deux universités étaient semblablement les mêmes.
Le graphe suivant considère que deux universités (mais il faudrait dire “deux départements de socio”) ont un “lien” entre elles quand des votants ont déclaré que ce sont “les mêmes” :
reseau-same-socio
Si vous cliquez, vous verrez mieux [pdf]

Les universités sont représentées par un point, et la taille du point dépend du nombre de réponses “ce sont les mêmes”. Comme on le voit, certaines universités/départements (Montpellier3, repère postmoderne; l’IEP de Paris; Paris9-Dauphine) apparaissent suffisamment distinctement pour ne pas être jugé “comme les autres”. Les universités “centrales” dans ce graphe (Amiens/Besançon/Metz) sont celles qui apparaissent souvent difficiles à distinguer. Mais Amiens, par exemple, apparaît très peu dans les réponses “je ne connais pas” (ce sont Chambéry et Saint-Etienne qui sont dans cette situation).
Enfin, j’ai réalisé une Analyse en composantes principales, en prenant en compte, pour chaque votant et chaque université, la proportion de votes “gagnants” : si V(i) [le votant n°i] a voté 3 fois pour le département de socio de l’université j, U(j), et une fois contre, alors P(i/j) est de 75%.
ACP-socio
C’est illisible : cliquez pour ouvrir un PDF

Dans ce graphique, les universités en rouge sont celles pour lesquelles les votants mettent beaucoup de temps avant de les déclarer préférables à d’autres.
Le premier axe oppose les universités/départements sur une échelle Province/Paris, qui est peut-être corrélée à une échelle de prestige : mais cela est peut-être directement lié aux contraintes du jeu lui-même. Le deuxième axe apparaît plus intéressant, en opposant entre elles des universités/départements sur ce qui m’apparaît être un principe de vision et de division “politique” (sur le principe générateur gauche/droite, où Paris8 s’oppose à l’IEP).
Si le jeu conduisait à l’établissement d’un “ranking” automatique, l’analyse rapide des données recueillies auprès de collègues (200 votants, 5600 votes et 2000 non-votes) montre la diversité des principes de division, qui pointent même quand l’on cherche uniquement à recueillir “l’évaluation sociale des formations”. C’est peut-être ce qui explique l’échec de la diffusion, en France, des tentatives de création d’échelles de prestige [Chambaz, Maurin, Torelli. L’évaluation sociale des professions en France. Construction et analyse d’une échelle des professions. Revue française de sociologie. 1998, 39-1. pp. 177-226. doi : 10.2307/3322788]. Sous l’échelle unidimensionnel, c’est l’espace multidimensionnel qui pointe.

L’initiale de mon prénom a-t-elle un genre ?

Les prénoms ont un genre : Aurélia et Aurélien n’ont probablement pas été déclarés avec le même sexe. La terminaison des prénoms aussi : Clara, Léa, Zora, Anna… Sophie, Mélanie, Marie…
Mais qu’en est-il de l’initiale ?
Sur les graphiques suivant, vous trouvez en abscisses un ‘taux de masculinité’ (nombre de bébés garçons / nombre de bébé filles [merci Pierre !]) et en ordonnées le nombre total de naissances.
Pour les naissances de 2008, les prénoms en C, L, Z ou O comptent principalement des filles (2 fois plus de filles que de garçons). Les prénoms en T, G, Y, B, W, U, Q, et X sont surtout donnés aux garçons.
lettres-masculines-2008
En 1970, les prénoms en Z étaient déjà féminins (ainsi que les prénoms en I, K, V et N). Mais les prénoms en L étaient autant féminins que masculins.
lettres-masculines-1970
Il semble donc que si les initiales des prénoms sont objectivement “genrées”, l’association entre genre et initiale est instable : la terminaison marque bien plus que l’initiale le genre de la personne qui porte le prénom.
Ceci s’aperçoit bien si l’on regarde l’évolution temporelle, en fonction du “taux de masculinité” des 26 initiales disponibles en français.
lettres-a-z
Cliquez pour ouvrir l’image et pouvoir la déchiffrer [pdf]

À un moment donné, la plupart des initiales semblent bien “genrées” : mais quelques années après, l’association initiale/genre a pu s’inverser. Et les initiales qui restent constamment masculines ou féminines ne sont pas très répandues.

Séries de prénoms

J’ai récupéré les résultats nominatifs au bac de 2012 (bac général et bac techno). Il est facile de repérer, à partir de ces résultats, qu’à certains prénoms sont associés des proportions de mentions spécifiques.
On peut aussi s’intéresser aux relations entre séries et prénoms. A chaque série est associée un groupe de prénoms surreprésentés (je n’ai gardé que les prénoms qui apparaissaient plus de 60 fois). Ainsi, les “Aliénor” représentent au total 2 candidates sur 10 000, mais elles sont 6 sur 10 000 candidates au bac “L” (littéraire) : elles sont 3 fois plus nombreuses à passer le bac “L” (littéraire) que ce qui est attendu à partir de leur nombre total. Et les prénoms diffèrent. Dans certaines séries (“S” et “STG” par exemple), ce sont des prénoms masculins qui sont surreprésentés… mais ce ne sont pas les mêmes : Augustin est plus fréquent en série S, Ahmed en série STG.
Le tableau suivant montre — pour quelques séries du bac — ces prénoms surreprésentés (12 par série). Ces prénoms “ont un air de famille” : Pierre-Louis est avec Pierre-Antoine; Yoann avec Yohan; Alison avec Allison et Alisson (dans la même liste que Stéphanie, Tiphanie et Tiffany) — mais bien séparées des Lison. Cet “air de famille” s’étend au delà de la proximité graphique : les prénoms “anglosaxons” et “arabes” semblent associés à des séries différentes.

prenoms-series-2012

Georges Felouzis et ses collègues (Joëlle Perroton notamment) ont bien analysé la ségrégation ethnique et le rôle qu’elle joue dans la reproduction sociale : il s’est d’ailleurs appuyé sur un codage des prénoms pour repérer l’ethnicité revendiquée par les parents.
Ils s’intéressaient aux collèges, mais les séries du bac ne remettent pas a priori en cause cette ségrégation ethnique et sociale (ici, je m’intéresse simplement aux prénoms surreprésentés, et pas à la concentration).

Mise à jour :

  • “Chaillot”, commentateur averti, m’a indiqué une erreur sur le tableau, que j’ai corrigé. Merci.
  • La liste ne concerne pas les prénoms les plus fréquents par série, mais les prénoms surreprésentés relativement à l’ensemble de la population des candidats au bac (pour lesquels je dispose de résultats)