Categories

Archives

Un classement ? Non, sire, un espace !

La semaine dernière, j’ai proposé de jouer à classer entre eux les départements de sociologie. Le jeu consistait à choisir entre des paires de départements (Paris 8 contre Perpignan; Paris 4 contre Paris 7…).
Deux cents personnes ont fourni plus de 5600 votes, et 2000 “non-votes”. J’ai commencé à analyser les données de ces votes. Les contraintes du jeu lui-même orientent fortement ce qu’il est possible de faire à partir des données.
Commençons par regarder les “non-votes”. Les votants avaient la possibilité de signaler qu’entre deux universités, ils ne pouvaient pas choisir car ils n’avaient pas assez d’informations sur ces universités, ou parce que ces deux universités étaient semblablement les mêmes.
Le graphe suivant considère que deux universités (mais il faudrait dire “deux départements de socio”) ont un “lien” entre elles quand des votants ont déclaré que ce sont “les mêmes” :
reseau-same-socio
Si vous cliquez, vous verrez mieux [pdf]

Les universités sont représentées par un point, et la taille du point dépend du nombre de réponses “ce sont les mêmes”. Comme on le voit, certaines universités/départements (Montpellier3, repère postmoderne; l’IEP de Paris; Paris9-Dauphine) apparaissent suffisamment distinctement pour ne pas être jugé “comme les autres”. Les universités “centrales” dans ce graphe (Amiens/Besançon/Metz) sont celles qui apparaissent souvent difficiles à distinguer. Mais Amiens, par exemple, apparaît très peu dans les réponses “je ne connais pas” (ce sont Chambéry et Saint-Etienne qui sont dans cette situation).
Enfin, j’ai réalisé une Analyse en composantes principales, en prenant en compte, pour chaque votant et chaque université, la proportion de votes “gagnants” : si V(i) [le votant n°i] a voté 3 fois pour le département de socio de l’université j, U(j), et une fois contre, alors P(i/j) est de 75%.
ACP-socio
C’est illisible : cliquez pour ouvrir un PDF

Dans ce graphique, les universités en rouge sont celles pour lesquelles les votants mettent beaucoup de temps avant de les déclarer préférables à d’autres.
Le premier axe oppose les universités/départements sur une échelle Province/Paris, qui est peut-être corrélée à une échelle de prestige : mais cela est peut-être directement lié aux contraintes du jeu lui-même. Le deuxième axe apparaît plus intéressant, en opposant entre elles des universités/départements sur ce qui m’apparaît être un principe de vision et de division “politique” (sur le principe générateur gauche/droite, où Paris8 s’oppose à l’IEP).
Si le jeu conduisait à l’établissement d’un “ranking” automatique, l’analyse rapide des données recueillies auprès de collègues (200 votants, 5600 votes et 2000 non-votes) montre la diversité des principes de division, qui pointent même quand l’on cherche uniquement à recueillir “l’évaluation sociale des formations”. C’est peut-être ce qui explique l’échec de la diffusion, en France, des tentatives de création d’échelles de prestige [Chambaz, Maurin, Torelli. L’évaluation sociale des professions en France. Construction et analyse d’une échelle des professions. Revue française de sociologie. 1998, 39-1. pp. 177-226. doi : 10.2307/3322788]. Sous l’échelle unidimensionnel, c’est l’espace multidimensionnel qui pointe.

Un graphe dynamique et interactif avec d3.js

R est un logiciel formidable. Mais d’autres outils sont plus adaptés pour une présentation sur internet. Il existe un ensemble d’instructions appelées d3.js, qui permettent en quelques instructions de mettre en ligne des graphiques interactifs. Pour deux exemples, voir ce réseau de sociologues et ce réseau d’écrivains.

Voici comment faire la même chose, chez vous.
Ce “tutoriel” nécessite quelques connaissances de R et de html.

Le point de départ :
– vous avez créé un graphe, dans R, avec le package igraph. Ce graphe se nomme g2. Il est constitué de “vertices” (des individus par exemple) et de “edges” (des liens entre individus). À chaque individu, vous avez associé un “groupe” : V(g2)$group (il peut y avoir plein de groupes, numérotez-les)
– il s’agit maintenant d’exporter ce graphe (ou une partie), dans un format que d3.js peut comprendre… et d3.js comprend surtout le .json
– le code suivant va enregistrer un fichier .json utilisable par d3.js, en se servant du package RJSONIO

library(RJSONIO)
 
#creation de la partie qui renseigne les "nodes"
temp<-cbind(V(g2)$name,V(g2)$group)
colnames(temp)<-c("name","group")
js1<-toJSON(temp)
#creation de la partie qui renseigne les "liens"
write.graph(g2,"Desktop/edgelist.csv",format="edgelist")
edges<-read.csv("Desktop/edgelist.csv",sep=" ",header=F)
colnames(edges)<-c("source","target")
edges<-as.matrix(edges)
js2<-toJSON(edges)
#concatenation des deux parties
reseau<-paste('{"nodes":',js1,',"links":',js2,'}',sep="")
write(reseau,file="Desktop/reseau.json")

Created by Pretty R at inside-R.org

Ce fichier .json a normalement la structure suivante :

{
"nodes":[
{"name":"Nom1","group":4},
...
{"name":"Nom3","group":3}],
"links":[
{"source":0,"target":1},
...
{"source":138,"target":126}]
}

Ensuite : téléchargez ce fichier reseau.txt, enregistrez le dans le même répertoire que celui dans lequel est enregistré reseau.json. Changez l’extension (remplacez .txt par .html).

Des proximités commerciales entre sociologues

Le site amazon propose des choses intéressantes. Non seulement mes livres, mais aussi les livres des collègues, et, souvent, une liste d’auteurs “similaires”. Ainsi, si vous allez sur la page du Coulmont, vous verrez que “les clients ont aussi acheté les livres de ces personnes” :

Aujourd’hui — car cette liste est mouvante — “je” me retrouve associé à d’illustres sociologues. Mais ce n’est pas réciproque. Sur la page du Bourdieu, “je” n’apparais pas comme lui étant associé.
Mais bon… amazon nous propose une sorte de trou de serrure par lequel apercevoir un réseau de relations commerciales entre auteurs.
On peut essayer de recomposer une partie de ce réseau (en agrandissant le trou de la serrure).

Cliquez pour télécharger un fichier PDF zoomable

Dans ce réseau, tel qu’il est ici reconstitué (en partant de la page “Coulmont” et en récupérant tous les liens d’ordre 2 — les voisins des voisins du Coulmont), fait sens : par exemple, les économistes ont tendance à se retrouver associés aux économistes (même si, ici, c’est une branche particulière, plutôt régulationniste, qui apparaît) :

Le point de départ importe : partir de “Coulmont” ne donnera pas tout à fait le même réseau de relations que partir de Louis Pinto ou du Lord Voldemort de la sociologie française… Mais quel que soit le point de départ, les “communautés” que l’on peut repérer semblent faire sens, de manière disciplinaire (sociologie, histoire, économie, philosophie) ou même entre sous-disciplines (sociologie de la culture, sociologie économique…).
Le tout a été réalisé avec R. Je peux mettre le code en ligne, mais je n’en suis pas très fier, c’est du code bidouillé et redondant.
Pour aller plus loin, je vous conseille le blog Data Sciences Sociales de Ollion et Hobeika.
mise à jour (31/10/12) : une visualisation plus interactive est proposée ici

Quelques flux de mobilité

Je continue l’exploration commencée dans le billet précédent. Je regarde ici, à partir de quelques dizaines de millier d’actes de mariage au XIXe siècle, les professions de l’époux, du père de l’époux et du père de l’épouse. Ceci pour prendre en compte non pas seulement la mobilité “père–>fils”, mais aussi la mobilité “beau-père–>beau-fils”.
Les “flux” ne sont pas les mêmes.
Ainsi “l’employé aux chemin de fer”, plus que de raison, épouse une fille d’employé, mais il est lui-même fils de mécanicien. L'”avoué” est fils de “propriétaire”, mais il épouse une fille de “rentier”. Le garçon boucher est fils de boucher, il épouse la fille d’un marchand. Les serruriers “donnent” leurs filles à leurs partenaires de travail : aux mécaniciens et aux menuisiers. Les filles de terrassiers et de peintres choisissent des maçons.
Explorez le graphe en haute résolution

La proximité sociale

Comment savoir si deux professions sont “proches” ? Blum et Gribaudi, dans un article célèbre, Des catégories aux liens individuels [ci après B&G] s’appuient sur l’enquête “TRA” (enquête des “3000 familles” dirigée par Dupâquier) pour repérer une partie des proximités.
Aujourd’hui, cette enquête est accessible aux chercheurs — et j’en ai demandé l’accès dans le cadre d’une enquête en cours. J’ai reproduit, très rapidement, une partie de la méthode utilisée par B&G pour repérer des professions proches.
Ici, j’ai restreint ma recherche aux époux : je considère que deux professions sont en lien quand le couple (ProfessionA–ProfessionB) est au moins neuf fois plus représenté dans la base que dans une population qui se marierait “au hasard”.

Cliquez pour visualiser le graphe

Ce graphe, une première exploration, laisse voir des choses amusantes : Les domestiques agricoles, ouvriers agricoles et servantes s’épousent… et épousent des métayers/métayères, fermiers et fermières. Les ouvriers du fil (fileuse, tisseurs, teinturiers…) s’épousent en suivant la chaîne de production. Les employés et instituteurs voisinent avec les comptables, les boulangers et les négociants. [Les couleurs des étiquettes ont été déterminées par un algorithme de recherche de communautés, “walktrap”]

Réseau de travail chez les députés (suite)

Il y a quelques mois, j’avais exploré le réseau de relations de travail objectivées par les propositions de loi faites par les députés. Mais leur travail ne consiste pas qu’à proposer des lois. Les députés amendent aussi, et souvent, très souvent : il y a eu quelques dizaines de milliers d’amendements déposés entre 2007 et 2009 (presque 50 000).
Rédiger et signer des amendements est donc beaucoup plus fréquent que rédiger ou signer des propositions de loi.
Les amendements tissent un réseau différent de celui des propositions de loi. Dans le graphe suivant, les UMP sont en bleu, les socialistes en rose, les “GDR” en rouge (c’étaient les Verts et les communistes), les “nouveaux-centre” en orange, les non-inscrits en noir.

On distingue bien, à gauche les socialistes, à droite l’UMP. Mais aussi, au centre, un groupe de députés cosignant de nombreux amendements. Au “Centre-Sud”, un rassemblement (comportant des rouges, des roses et des bleus) réunit celles et ceux qui sont les champions des amendements, qui en ont signé ou rédigé un nombre gigantesque.
Mais cette représentation est trompeuse. Pour la produire, j’ai considéré comme étant d’un poids égal toutes les signatures d’amendement. Or il existe de nombreux amendements “de groupe”, signés par plus de 100 ou 200 députés. Le graphe suivant (réalisé avec le même algorithme que le précédent) prend en compte le poids des liens : j’affecte un poids de 1/n à une signature quand l’amendement est signé par n personnes.

Et là, on retrouve, semble-t-il, la structure observée quand on s’intéressait uniquement aux propositions de loi.

Pour réaliser cette étude, je me suis appuyé sur les données diffusées par nosdeputes.fr. Mais au lieu d’établir des statistiques individuelles comme celles qu’utilise Mme Hoffman-Rispal (usage repéré par Sylvain Parasie), j’essaie de repérer des relations entre députés. J’imagine que “Nosdeputes.fr” le fera prochainement : repérer la députée la plus connectée.

Réseaux de sociologues : l’état actuel de la sociologie française

Plusieurs articles récents viennent éclairer l’état actuel de la sociologie française. Un article de Demazière, un autre de Stéphane Beaud. Je voulais apporter ma contribution au débat. Beaud et Demazières diagnostiquent la sociologie française depuis leur position, et les méchantes langues disent que ces articles reflètent moins l’état actuel de la sociologie française que l’état actuel de Beaud et Demazière. Mon approche est différente : de par mes fonctions au CNU, et intéressé par l’objectivation statistique de la discipline, j’ai recueilli le jury de soutenance de tous les candidats à la qualification en section 19 cette année (un peu plus de 500) [ce qui vient compléter l’étude de la proximité entre sections du CNU et permettra de mieux rédiger le rapport annuel de la section].
On sait, par les travaux de Godechot notamment [un exemple ici], que les jurys de soutenance permettent d’établir d’intéressants constats. Beaud, par exemple, à la fois par sa position institutionnelle, ses intérêts scientifiques, sa connaissance du comportement des collègues… n’invite pas n’importe qui aux soutenances de ses doctorantes. Et c’est la même chose pour tous les autres.
Ces invitations et co-participations permettent de dresser une sorte de carte de la sociologie française, en utilisant un algorithme qui rapproche les personnes qui s’invitent les unes les autres aux jurys de thèse.

Cliquez pour télécharger un fichier PDF zoomable (mais pas toujours très lisible)

Sur ce graphe présentant une sélection des données [1] vous constaterez qu’au Nord se trouve une certaine sociologie économique (autour de Flichy, Cochoy, Paradeise, Vatin, Grossetti, Segrestin, Licoppe) Weber et Steiner se trouvent un peu plus au sud de ces personnes.
Au Sud-Sud commence l’empire du STAPS, avec During, qui se poursuit au Sud-Est où se trouve plusieurs représentant de la sociologie/anthropologie du corps, ou ce qu’on appelle les “STAPS” : Andrieu, Héas, Le Breton, Bodin, Duret. Dans la même zone se trouve aussi plusieurs représentants de la sociologie du travail (Bercot, Lallemand, Demazière, Gadéa) : une représentation n’utilisant que deux dimension fait se superposer des personnes ayant peu de liens.
A l’Ouest se trouve les islamisants ou les spécialistes des relations interethniques Roy, Fregosi, Khosrokhavar, Gole, Streiff-fenart.
Au coeur de la constellation vont se trouver les politistes (Spire, Deloye, Gaiti, Offerlé, Sommier) et un groupe où je retiens les noms de Beaud, Mauger, Schwartz, Lagrave Marry, Carricaburu, Fabiani, Sapiro…
Au total, les liens multiples engendrés par les jurys de soutenances ne dessinent pas un monde fragmenté, où une faction serait ostracisée par toutes les autres. Au contraire, des liens multiples relient tout le monde avec tout le monde.
Certes la méthode ici utilisée a ses nombreuses limites : il faudrait, sur une période plus longue, mettre en valeur les liens répétés, ou les invitations rendues. Pour l’instant, mes données permettent de repérer certains liens habituels (qui sont épais, sur le graphe), mais ces liens sont peu nombreux (et tendraient à faire ressortir les politistes). Rendez-vous l’année prochaine pour une étude sur deux ans.
 
Notes : [1] n’ont été retenues que les individus invitées au moins 2 fois ou ayant été directeures d’au moins une thèse.

Proximités disciplinaires

Comment, en France, est organisée la proximité entre disciplines universitaires? Est-ce que la psychologie et la sociologie sont proches ? Est-ce que la géophysique et la géographie partagent beaucoup ?
On pourrait regarder “qui cite qui” dans les articles académiques. On peut aussi estimer la proximité à partir du travail du Conseil national des universités. Pour devenir Maître de conférences, en France, il faut être “qualifié” par une section du CNU au moins. On peut l’être dans deux sections ou plus. Et certaines sections partagent des qualifiés. La 04 (science politique) et la 19 (sociologie, démographie) partagent des qualifiés. La 25 et la 26 (mathématiques) aussi.
Et au niveau global ?

Au niveau global [lien vers le PDF], il apparaît deux groupements bien séparés. Avec des intermédiaires, comme l’économie, la gestion, les STAPS, la psychologie, avec un pied dans les lettres, un pied vers les maths ou la médecine.
Je me suis servi ici, outre du package igraph de R, de données qui ne concernent que les doubles qualifs MCF.

Origine des données : Thomas (Loic) et Rossi (Pasquin) “Etude de la promotion 2011 des qualifiés aux fonctions de maître de conférences et de professeur des universités“. Ministère de l’enseignement supérieur et de la Recherche, DGRH A1-1

Quand s’arrêter ?

Il est conseillé d’arrêter l’enquête ethnographique quand est atteinte une certaine “saturation”.

Lorsqu’une hypothèse, par rectifications successives, atteint un degré de pertinence, vient un moment où les données empiriques diverses lui apportent une confirmation régulière. Cette régularité, est-il besoin de le dire, n’a jamais rien d’une «loi» de la nature, mais renvoie simplement à la notion approximative de «bonne résistance» dans des situations empiriques variées. Alors on peut estimer que cette hypothèse est «saturée», c’est-à-dire qu’elle se comporte suffisamment bien au cours de nombreuses mises à l’épreuve pour pouvoir être considérée comme fiable.
(p. 286 de la postface au Hobo de Nels Anderson, le fameux texte sur “l’empirisme irréductible”)

La petite recherche que je mène actuellement sur les affichage des assemblées pentecôtistes africaines en région parisienne n’est pas vraiment ethnographique… Je constitue un corpus. Mais quand saurais-je que j’ai atteint un moment de saturation. Pas de saturation des hypothèses, mais de saturation des données ?
Je me dis actuellement que c’est quand j’aurai une vision assez complète des personnes présentes sur les affiches. On peut représenter cela par des points noirs (les personnes) sur des affiches (des carrés gris). Quand une personne se trouve sur une affiche, alors un point noir relie un carré gris.
Le dessin suivant montre six mois d’observation.

Ce graphe comporte une grosse vingtaine de “composantes connexes” (de groupes non reliés entre eux). Comme le montre le graphique suivant, le nombre de composantes ne cesse d’augmenter : pour l’instant, après trois ans de recueil, je vois toujours arriver des affiches qui ne comportent aucun individu qui était déjà présent dans mon corpus. [Vous pouvez voir ce phénomène dans l’animation du réseau proposée ici].

Mais depuis début 2009, il arrive que des nouvelles affiches fassent chuter le nombre de composantes, en reliant entre elles des composantes qui n’avaient aucun lien avant.
Peut-être que la saturation sera atteinte quand une nouvelle affiche ne pourra plus que faire diminuer le nombre de composantes.

Animer un réseau

Depuis 2008, je recueille des données sur des “grandes croisades”, événements organisés par des assemblées protestantes “noires” ou “africaines”, en région parisienne. La récurrence de certaines personnes sur les affiches publicitaires liées à ces “nuits de délivrance” permet de dresser un graphe, et surtout, parce qu’il y a un événement en moyenne par semaine, d’animer ce graphe :

C’est bien joli, tout ça, mais on me dit que, pour de tels réseaux dynamiques, il faut utiliser Siena.

(Fait avec R, package “igraph”, imageMagick et un peu de post-processing ensuite…)