Categories

Archives

Communautés de prénoms

Le monde social est complexe, mais pour le penser, il faut d’abord le simplifier. D’où la production de catégories, catégories savante ou du sens commun. C’est ainsi qu’on parlera de « prénoms arabes », de « prénoms juifs », de « prénoms turcs », de « prénoms aristocratiques »… en mélangeant aléatoirement et allègrement des ethnies, des positions sociales, des religions, ou des origines nationales et linguistiques. Faire cela, c’est ne pas rendre justice à la complexité du monde social ni à celle des classements quotidiens. Car ce qui est « arabe » pour certains est « méditerranéen » pour d’autres, par exemple, ce qui est « aristo » pour les uns est juste « moche et ringard » pour d’autres.
On peut cependant essayer de repérer des proximités et des distances entre prénoms, à partir des choix effectifs des parents. Notamment quand les parents ont plusieurs enfants. Si l’aîné est Augustin, la cadette sera-t-elle Clotilde ou Carla ? À partir des listes électorales parisiennes, j’ai constitué des « fratries » (à partir de l’année de naissance, du nom de naissance et de l’adresse d’inscription) : ce ne sont pas des fratries complètes (il n’y a que les personnes inscrites à Paris) et je capte sans doute de fausses fratries. Mais on fait avec ce qu’on a.
Le graphique suivant rapproche entre eux des prénoms qui sont assez souvent donnés au sein d’une même fratrie : à Paris, le frère d’Augustin c’est Timothée.


cliquez pour agrandir l’image

cliquez

Les couleurs ont été déterminées par un algorithme de recherche de communautés, mais elles sur-interprètent les différences : il n’y a pas des archipels de prénoms, mais un grand continuum le long duquel l’on passe, insensiblement, de Philippine à Abdoulaye.

Certains “clusters” font sens. Ainsi, en bas à droite, on trouve un groupe de prénoms qui ont été donnés “en retard”. Le corpus utilisé contient des individus qui sont au plus âgés de 28 ans et au plus tôt nés en 1986. Les Delphine, Thierry, Stéphanie… nées après 1986 ont reçu ces prénoms alors qu’ils étaient déjà sur le déclin. Qu’ils apparaissent ici ensemble est le signe que les parents aiment ces “prénoms démodés” ensemble. Dans les années 1990, si l’ainée est Célia, la cadette ne sera pas Virginie.

Tout en bas du graphique, deux “clusters” : l’un comportant une série de prénoms bourgeois (Augustin, Domitille), l’autre comportant des prénoms moins bourgeois (Quentin, Romain, Marion), des prénoms à la mode dans les années 1990… et ces prénoms sont reliés à des prénoms exotiques, néo-bretons ou pseudo-polynésiens (Nolwenn et Maéva). En combinant Thibaut et Thibault, Gautier et Gauthier, prénoms proches mais un peu différents, j’ai probablement contribué à la création de liens qui n’en sont pas.

Au centre du graphique, on trouve des prénoms à la mode entre 1990 et 2000 :

Cela explique leur caractère central : ce sont les prénoms du cœur de mon corpus de fratrie, et ils ont tendance à être fortement reliés entre eux. J’y verrai une petite différence, probablement : le groupe bleu/vert des Charlotte-Pauline-Paul né enter 1990 et 2000 est sans doute d’une origine sociale un peu plus élevée que le groupe des Alexandre-Nicolas-Audrey.

Au centre-gauche, un autre cluster de prénoms bourgeois (on est à Paris, il y en a beaucoup, mais il me faudrait un vocabulaire plus fin).

Oscar, Virgile et Hippolyte, Gabrielle et Héloïse. Mais Ophélie ? N’y a-t-il que moi qui aurait mis “Ophélie” ailleurs ?

Et en haut du graphique, trois clusters de prénoms.

Tout en haut, De Abdoulaye à Ibrahim, des prénoms d’Afrique sub-saharienne : le frère de Fatoumata est Moussa. En vert, des prénoms maghrébins, Mohamed formant un grand “hub”. Des prénoms plutôt en voie d’abandon (Walid, Ali, Ahmed), ou donnés en début de période (1986-1990). En rose le cluster le plus complexe, puisqu’on y trouve Isaure et Sofiane, Nathan et Aymeric. Comment est-ce possible ? Deux prénoms en sont responsables. Sarah, qui a comme frère Mohamed et David. Et Inès, qui a comme frère Yanis et comme sœur Alix. Deux prénoms assez fréquemment donnés dans les années 1990, et par des parents différents. Si Sarah avait été un garçon, certains parents aurait choisi Sofiane, d’autres parents Nathan. Si Inès avait été un garçon, c’aurait pu être Samy (ou Axel). Un même prénom, des mondes différents.

Si j’avais à poursuivre l’exploration, je pourrai projeter « l’arrondissement moyen » des prénoms de chaque cluster : 19e pour les uns, 6e pour les autres… Mais cela conduirait encore à différencier les prénoms, alors que, comme on peut le voir ici, c’est sans solution de continuité que l’on passe de l’un à l’autre.

Notes : Pour simplifier le graphique, je n’ai retenu que les liens les plus fréquents entre prénoms. Dans le monde réel, il y a des Augustins qui ont comme sœur Célia. Mais cela n’arrive pas souvent. Le but de cette simplification était de montrer l’enchaînement des choix, sans proposer une grosse boule de laine emmêlée où tout aurait été relié avec tout.

Sociologue, avec qui t’associes-tu ?

Les données du site theses.fr s’enrichissent de plus en plus. On dispose maintenant, assez souvent, du jury complet de la soutenance. Il manque des jurys : certaines universités, comme Toulouse 7 ou Rennes 11 (sans les nommer), ou certaines écoles doctorales, ne renseignent pas toujours les jurys complets.
J’ai récupéré les jurys d’environ 700 thèses soutenues depuis 2015, en “Sociologie” ou “Sciences sociales”. J’ai ensuite considéré qu’une codirection indiquait un lien fort, qu’une invitation à participer à un jury indiquait un lien moyen, et qu’une coparticipation à un même jury indiquait un lien faible. Le poids de ces liens s’additionne : certains collègues font des codirections, mais participent aussi parfois en même temps à des jurys, et quand ils ne codirigent pas, ils s’invitent entre eux aux jurys des doctorants qu’ils encadrent.
Pour tracer le dessin ci-dessous, je n’ai gardé que les liens forts, issus de la participation à plusieurs jurys en commun, ou de codirections de thèse, ou d’invitations multiples à participer à un jury.
La taille des points correspond à l’importance de la “centralité d’intermédiarité” (betweenness), la couleur à l’appartenance à une même “communauté” (identifiée à partir de l’algorithme “cluster_walktrap” : mais c’est surtout pour colorier le graphique), l’épaisseur des liens à la force du lien entre les sociologues. Je n’ai pas indiqué tous les noms, seulement ceux des personnes qui ont participé à plusieurs jurys (4 ou 5 ou plus dans la base, en gros) depuis 2015.
Au centre, Stéphane Beaud.
Les spécialistes arriveront à identifier des groupes plutôt “Sociologie économique”, un autre plutôt “genre et sexualité”, un groupe “socio de la culture”, ou encore un autre plutôt “socio du travail et des professions”.


cliquez pour agrandir (document PDF)

Cette image ne raconte pas la vérité des relations : c’est une image partielle, réalisée à partir de données partielles, sur une période courte, et en ne conservant que certains liens… pour produire une image plutôt jolie et lisible.
Mais elle n’est pas fausse non plus.

Le parisien mobile

En comparant les listes électorales de 2014 et 2015, on peut repérer environ 12500 personnes qui ont changé d’arrondissement. Il y a des mouvements privilégiés, par exemple entre les 15e et 16e arrondissements (160 déménagements du 15e vers le 16e), et des mouvements rares (seulement 44 déménagements entre le 15e et le 19e). Eliminons tous les mouvements rares, en comparant la matrice des déplacements observés et la matrice que l’on observerait si les déplacements étaient aléatoires.
mouvements2014-2015
On voit mieux la structure des échanges privilégiés et celle des évitements.

Quelques relations

J’ai participé, pour voir, au Open-Data-Camp Elections organisé lundi dernier. De nombreux projets émergeaient en relation avec la libération des données des élections.
Mais comme un représentant de l’INA (Gautier Poupeau, @lespetitescases) proposait de travailler sur des données “semi-ouvertes”, sur les méta-données politiques des journaux télévisés, j’ai regardé s’il était possible de repérer des proximités entre individus à partir des co-participations aux reportages, interviews, etc…
J’ai retenu comme lien significatif les liens qui apparaissent au moins trois fois plus fréquemment que ce qui serait attendu si les individus étaient répartis au hasard dans l’espace médiatique :
reseau-ina-1
cliquez pour agrandir

Les couleurs sont liées à des “communautés” repérées à l’aide de l’algorithme WalktrapCommunity.
Rien de surprenant, mais c’est assez illustratif, et assez simple à faire.

At the Top of the Bill

I’m very happy to see the publication in English of the article I wrote on the networks of black evangelicals in Paris.
At the Top of the Bill : A Structural Analysis of Claims to Charisma
[available on cairn.info]

2014-affiches-charisma

Here is the introduction :

Two prophets are in a boat … Do they try to push one another into the water, each believing in the exceptional nature of his own charisma ? Or do they decide that the sum of their two charismas is a collective charisma from which they could both benefit ? In short, is there anything other than conflict between bearers of charisma ? A “Key Idea” (Geertz [1986] 2012) of Weberian sociology, the concept of charisma sees the prophet, and more broadly the bearer of charisma, as an exceptional individual, or more precisely as the individual in whom those “charismatically dominated” recognize extraordinary qualities (Weber [1921-1922] 1971 : 320-9). It is the “face to face” relationship between charismatic man and his followers or adepts that is involved in the typological study. In the pure type, the charismatic man holds no institutional legitimacy—legal, bureaucratic—nor a legitimacy inherited from tradition : his charisma is personal. In this context, two prophets in the same boat would necessarily be in a situation of conflict.

But there is at least one everyday world populated by prophets, charismatic individuals in a relationship not just of competition but also, as we shall see, of collaboration. The Pentecostalist and evangelical “African” churches installed in the Paris area, of which there several hundred today, demonstrate the possible coexistence of “prophets” who have not monopolized the manipulation of charisma. These assemblies are not easy for sociologists to observe, but the advertising they use to promote some of their activities is an instructive source for investigating the actual forms of the manipulation of charisma.

Château-Rouge, in Paris (18th arrondissement), a hundred metres north of Barbès-Rochechouart metro station, is a working class “African” quarter ; a residential but especially a shopping area. The multitude of posters for “crusades,” “prophets” and “miracles,” posters featuring almost entirely black pastors, are striking for the passerby. In an area bounded by a few streets, religious advertising similar to Figure 1 cover blank walls and the barriers around building sites.

Next…

Les amis de mes amis sont directeurs de thèse

Voici plusieurs graphes établis à partir des codirections de thèse en France.

math-reseau
Les couleurs indiquent les disciplines des directeurs.

Et l’on constate que les disciplines “proches” (socio / histoire) ont tendance à se retrouver à proximité sur le graphique.
socio-reseau

On peut s’intéresser de plus près aux thèses codirigées inscrites dans une discipline particulière, par exemple, au hasard, la sociologie. [cliquez pour voir en grand]
socio-reseau
Dans ce dernier graphique, les couleurs placent ensemble des individus que l’algorithme walktrap.community a placé dans la même “communauté”. Globalement “ça fait sens”. Et l’on ne remerciera jamais assez Nicky Le Feuvre de servir de “bridge” entre des mondes distincts.

Le même graphique pour l’histoire, pour la philosophie et directement en images pour l’économie
economie-reseau

&npsb;

Comment ont été construits ces graphes :

Grâce à @cynorrhodon (qui avait étudié la longueur des titres de thèse), j’ai récupéré des informations sur plus de 315 000 thèses françaises (oui, 315 000). Parmi ces thèses, un peu plus de 38 000 thèses sont effectuées ou ont été effectuées en codirection. En général, cela implique deux directeurs ou directrices de thèse, mais parfois trois ou quatre. Très très rarement plus.
Chaque thèse est associée à une discipline au moins, parfois deux ou trois.
La base ainsi constituée est relativement sale, et il a fallu la nettoyer un peu, en normalisant les noms et prénoms. Ceci fut fait de manière automatisée et rapide, sans chercher à dissocier “Jean Dupont” professeur de Mathématiques à Rennes 2 et “Jean Dupont” professeur de sociologie à Montpellier 3. J’espère qu’ils ne sont pas très nombreux à être ainsi homonymes. De même je n’ai pas cherché à indiquer que J. Dupont, professeur de mathématiques à Montpellier 3 est la même personne que Jean Dupont professeur de mathématiques à Montpellier 3.
Se posait ensuite un problème d’association, entre une personne et une discipline. Un seul exemple, Stéphane Beaud, sociologue, apparaissait 7 fois comme “sociologues”, et à une reprise comme “Sciences de la société”. Julia Kristeva apparaissait 15 fois comme “littérature française” et sinon sous de multiples autres disciplines. J’ai donc considéré que la discipline à retenir était celle qui était le plus souvent associée avec une personne.
Le réseau comprenait un grand nombre de liens et de personnes. J’ai donc réduit ce réseau aux individus qui avaient au moins N liens, et je n’ai gardé que la plus grosse composante (pour produire les graphes représentés).
Il y a un grand nombre de disciplines différentes, plus de 4 400. Parfois un intitulé généraliste est proposé : “Sociologie” ou “Chimie”, parfois, c’est un indicateur très précis, comme “Anthropologie psychanalytique et pratiques cliniques du corps” ou “Chimie organique, minerale, analytique, industrielle” ou encore (sans correction) “Ingenierie de la cognition, de linteraction, de lapprentissage et de la creation Sciences du langage”. Pour associer des couleurs aux points, je cherche donc la présence d’une chaine de caractère dans la discipline. “Socio” pour tout ce qui est sociologie, socioanthropologie… “politi” pour tout ce qui est science politique, sciences politiques.

Le graphique spécifique à la sociologie illustre certaines des difficultés : l’on repèrera que des individus identiques apparaissent sous deux formes nominales… et sont donc considérés comme deux individus différents. Je n’ai gardé que les individus ayant participé à deux codirections ou plus (les individus qui n’ont participé qu’à une seule codirection ont disparu).

« Tenir le haut de l’affiche » en accès libre

La Revue française de sociologie a placé mon article, « Tenir le haut de l’affiche. Analyse structurale des prétentions au charisme » en accès libre. Il est disponible ici en PDF : http://www.rfs-revue.com/sites/rfs/IMG/pdf/RFS-2013-3-B-_Coulmont.pdf.
L’article revisite la sociologie wébérienne du charisme en insistant non pas sur la reconnaissance par une population dominée charismatiquement, mais sur la reconnaissance entre porteurs de charismes.
Je ne peux que vous encourager à le lire, à le discuter, à le partager… Je rappelle que les données initiales (200 affiches pour des événements évangéliques) sont elles aussi disponibles sur flickr.

Mobilité des enseignants-chercheurs

L’on trouve, dans les bilans statistiques publiés par la DGRH-A du ministère de l’enseignement supérieur, des informations intéressantes sur la mobilité des enseignants-chercheurs.
Pour 2011, par exemple, il est possible de voir de quelle académie et vers quelle académie ont eu lieu les mutations. Les mutations ne sont pas des changements de corps (MCF–>PR), mais des mouvements entre deux universités, mais dans le même corps. Les mutations ne sont effectives que si un département (par la voix d’un comité de sélection) accepte la candidature : il ne s’agit donc pas, à la différence des mutations dans le Secondaire, de mutations à l’ancienneté.
Le graphe suivant synthétise ces mutations. Je n’ai gardé que les mutations d’académie à académie qui apparaissaient plus d’une fois. Il faudrait cumuler les mutations sur plusieurs années pour obtenir des données plus solides. Mais on remarque déjà une ébauche de mouvements intra-région (entre Rennes et Nantes, entre Montpellier et Aix-Marseille, ou entre Lyon et Aix).
mobilite-2012
On remarque surtout l’attraction de Paris : les mouvements se font, visiblement et de manière importante, vers Paris.
Si l’on fait la somme des soldes migratoires, sur plusieurs années (2004-2011), alors on voit apparaître des académies plus recherchées que d’autres.

solde Académie
-134 Lille
-61 Nantes
-55 Nancy-Metz
-53 Rouen
-50 Rennes
-47 Amiens
-45 Orléans-Tours
-37 Reims
-36 Besançon
-29 Clermont-Ferrand
-27 Poitiers
-25 Caen
-21 Dijon
-19 Antilles-Guyane
-19 Limoges
-11 La Réunion
-10 Nice
-5 Grenoble
-4 Corse
-1 Strasbourg
1 Pacifique
17 Lyon
24 Créteil
26 Aix-Marseille
31 Toulouse
39 Bordeaux
43 Montpellier
54 Versailles
453 Paris

Ces données sont grossières : il faudrait pouvoir travailler non pas sur les académies (de taille très inégales), mais sur les universités elles-mêmes. Mais elles montrent un phénomène massif : le mouvement vers Paris.

Source des données Bilan des recrutements en 2011 : Bilan de la session « synchronisée » 2011, SECRÉTARIAT GÉNÉRAL, DIRECTION GÉNÉRALE DES RESSOURCES HUMAINES, Service des personnels enseignants de l’enseignement supérieur et de la recherche Sous direction des études de gestion prévisionnelle, statutaires et des affaires communes DGRH A1-1.

Un classement ? Non, sire, un espace !

La semaine dernière, j’ai proposé de jouer à classer entre eux les départements de sociologie. Le jeu consistait à choisir entre des paires de départements (Paris 8 contre Perpignan; Paris 4 contre Paris 7…).
Deux cents personnes ont fourni plus de 5600 votes, et 2000 “non-votes”. J’ai commencé à analyser les données de ces votes. Les contraintes du jeu lui-même orientent fortement ce qu’il est possible de faire à partir des données.
Commençons par regarder les “non-votes”. Les votants avaient la possibilité de signaler qu’entre deux universités, ils ne pouvaient pas choisir car ils n’avaient pas assez d’informations sur ces universités, ou parce que ces deux universités étaient semblablement les mêmes.
Le graphe suivant considère que deux universités (mais il faudrait dire “deux départements de socio”) ont un “lien” entre elles quand des votants ont déclaré que ce sont “les mêmes” :
reseau-same-socio
Si vous cliquez, vous verrez mieux [pdf]

Les universités sont représentées par un point, et la taille du point dépend du nombre de réponses “ce sont les mêmes”. Comme on le voit, certaines universités/départements (Montpellier3, repère postmoderne; l’IEP de Paris; Paris9-Dauphine) apparaissent suffisamment distinctement pour ne pas être jugé “comme les autres”. Les universités “centrales” dans ce graphe (Amiens/Besançon/Metz) sont celles qui apparaissent souvent difficiles à distinguer. Mais Amiens, par exemple, apparaît très peu dans les réponses “je ne connais pas” (ce sont Chambéry et Saint-Etienne qui sont dans cette situation).
Enfin, j’ai réalisé une Analyse en composantes principales, en prenant en compte, pour chaque votant et chaque université, la proportion de votes “gagnants” : si V(i) [le votant n°i] a voté 3 fois pour le département de socio de l’université j, U(j), et une fois contre, alors P(i/j) est de 75%.
ACP-socio
C’est illisible : cliquez pour ouvrir un PDF

Dans ce graphique, les universités en rouge sont celles pour lesquelles les votants mettent beaucoup de temps avant de les déclarer préférables à d’autres.
Le premier axe oppose les universités/départements sur une échelle Province/Paris, qui est peut-être corrélée à une échelle de prestige : mais cela est peut-être directement lié aux contraintes du jeu lui-même. Le deuxième axe apparaît plus intéressant, en opposant entre elles des universités/départements sur ce qui m’apparaît être un principe de vision et de division “politique” (sur le principe générateur gauche/droite, où Paris8 s’oppose à l’IEP).
Si le jeu conduisait à l’établissement d’un “ranking” automatique, l’analyse rapide des données recueillies auprès de collègues (200 votants, 5600 votes et 2000 non-votes) montre la diversité des principes de division, qui pointent même quand l’on cherche uniquement à recueillir “l’évaluation sociale des formations”. C’est peut-être ce qui explique l’échec de la diffusion, en France, des tentatives de création d’échelles de prestige [Chambaz, Maurin, Torelli. L’évaluation sociale des professions en France. Construction et analyse d’une échelle des professions. Revue française de sociologie. 1998, 39-1. pp. 177-226. doi : 10.2307/3322788]. Sous l’échelle unidimensionnel, c’est l’espace multidimensionnel qui pointe.

Un graphe dynamique et interactif avec d3.js

R est un logiciel formidable. Mais d’autres outils sont plus adaptés pour une présentation sur internet. Il existe un ensemble d’instructions appelées d3.js, qui permettent en quelques instructions de mettre en ligne des graphiques interactifs. Pour deux exemples, voir ce réseau de sociologues et ce réseau d’écrivains.

Voici comment faire la même chose, chez vous.
Ce “tutoriel” nécessite quelques connaissances de R et de html.

Le point de départ :
– vous avez créé un graphe, dans R, avec le package igraph. Ce graphe se nomme g2. Il est constitué de “vertices” (des individus par exemple) et de “edges” (des liens entre individus). À chaque individu, vous avez associé un “groupe” : V(g2)$group (il peut y avoir plein de groupes, numérotez-les)
– il s’agit maintenant d’exporter ce graphe (ou une partie), dans un format que d3.js peut comprendre… et d3.js comprend surtout le .json
– le code suivant va enregistrer un fichier .json utilisable par d3.js, en se servant du package RJSONIO

library(RJSONIO)
 
#creation de la partie qui renseigne les "nodes"
temp<-cbind(V(g2)$name,V(g2)$group)
colnames(temp)<-c("name","group")
js1<-toJSON(temp)
#creation de la partie qui renseigne les "liens"
write.graph(g2,"Desktop/edgelist.csv",format="edgelist")
edges<-read.csv("Desktop/edgelist.csv",sep=" ",header=F)
colnames(edges)<-c("source","target")
edges<-as.matrix(edges)
js2<-toJSON(edges)
#concatenation des deux parties
reseau<-paste('{"nodes":',js1,',"links":',js2,'}',sep="")
write(reseau,file="Desktop/reseau.json")

Created by Pretty R at inside-R.org

Ce fichier .json a normalement la structure suivante :

{
"nodes":[
{"name":"Nom1","group":4},
...
{"name":"Nom3","group":3}],
"links":[
{"source":0,"target":1},
...
{"source":138,"target":126}]
}

Ensuite : téléchargez ce fichier reseau.txt, enregistrez le dans le même répertoire que celui dans lequel est enregistré reseau.json. Changez l’extension (remplacez .txt par .html).