Baptiste Coulmont

Droite-gauche… haut-bas ?

18/02/2011 / General / 4 commentaires

L’axe “gauche-droite” structure une vision commune des opinions politiques. De l’extrême droite (Front national) à la droite classique (UMP), au centre (MoDem), au PS, et, à sa gauche, les Verts, le PC… et enfin, à l’extrême gauche, les corpuscules trotskistes.
Oui, mais voilà.
Si l’on produit, à partir des données “open data” publiées sur paris.fr, une analyse des correspondances [basées sur le pourcentage des votes reçus par chaque candidate dans chaque bureau de vote], on obtient ceci :
1- pour les élections régionales de 2010 :

2- pour les présidentielles de 2007 :

[Ce n’est pas très lisible : cliquez sur l’image pour obtenir les PDF]

Sur cette représentation, l’on trouve bien un axe “droite-gauche”. En 2010 comme en 2007, le premier axe (celui des abscisses) semble ordonner les candidats de l’extrême-gauche à la droite (de Besancenot à Sarkozy ou Pécresse). Mais cet axe ne résume pas toute l’information. Le deuxième axe (celui des ordonnées) nous donne d’autres informations, et c’est une sorte d’axe qui résume et oppose deux sortes d’émergences politiques. L’émergence “verte” (Duflot/Voynet) opposée à l’émergence d’extrême-gauche ou d’extrême-droite. Les “options perturbatrices” (pour les partis établis) s’écartent de la droite “y=0”.

Ce constat est assez classique [voir par exemple Pascal Perrineau , Jean Chiche , Brigitte Le Roux , Henry Rouanet L’espace politique des électeurs français à la fin des années 1990. Nouveaux et anciens clivages, hétérogénéité des électorats. Revue française de science politique Année 2000 Volume 50 Numéro 3 pp. 463-488]. Mais il m’a beaucoup amusé de voir les électeurs parisiens si “néo-paradigmatiques”.

Note : les données “open data” de paris.fr sont assez propres. Mais il me semble qu’une coquille s’était glissée dans les résultats d’un bureau de vote (une inversion du nombre de voix entre Royal, Bayrou et des petits candidats). Ce qui donnait cette première analyse des correspondances, ma foi très étrange.

J’ai donc corrigé les résultats du bureau n°548.

Identifier des acteurs importants

16/02/2011 / General, religion / 2 commentaires

Continuons l’exploration des réseaux d’invitation que l’on peut objectiver à partir des affiches d’églises “noires”, collées un peu partout en région parisienne (en réalité pas partout, mais bon…).
On peut supposer que les personnes qui, par leur présence, assurent des liens entre composantes qui seraient autrement disjointes sont “importants”. On peut identifier ces personnes comme des “cutpoints“. Je les ai coloriées dans le graphe ci-contre en vert.
Dans l’état présent de mes données, il y a 28 “cutpoints“. Et, chose amusante, sur ces 28 personnes, 7 ne sont pas des pasteurs, ni des prophètes, ni des évêques… Ce sont du “petit personnel” religieux, des détenteurs de “tous petits titres” : typiquement, “frère”, “soeur”, “servante” ou “chantre”. [Celles et ceux qui apparaissent vers la gauche de l’analyse en composante principale de ce billet]
Mais on pourrait supposer, d’une autre manière, que les acteurs les plus “importants” sont ceux qui sont connectés, directement ou indirectement, à de nombreux autres acteurs. On appelle cela la “centralité d’intermédiarité” et on peut donner un score à cette notion, à partir de l’algorithme betweenness (dans le package “sna” de R). Sûrement, là, on trouverait des pasteurs et des prophètes, les “big mens” de ce monde.
Mais mes données indiquent que, parmi les 11 personnes les plus “centrales”, 6 sont du “petit personnel” religieux. Il y a même mieux : la personne la plus centrale est un chanteur, René L***. Et cela peut se constater sur l’ensemble du graphe : si l’on calcule la “centralité par titre” (en ne gardant que 2 grosses catégories, “pasteurs” et “autres”, alors la catégorie “autres” a un score moyen de centralité plus important).
Le monde pentecôtiste est souvent décrit comme un monde d’entrepreneurs religieux indépendants (certains devenant “grands” en accumulant des fidèles). Au minimum, on voit ici à partir d’une approche de “sociologie structurale” que ces entrepreneurs s’adossent à des acteurs marginaux pour monter leur entreprise. J’appelle ces acteurs “marginaux” car ce ne sont ni des fidèles au sens strict, ni des outsiders radicaux, ni des porteurs de titres prestigieux (comme “bishop”) ni des “sans-titres”. Et je les appelle “marginaux” car, dans la quarantaine d’articles, de thèses, de livres… de sociologie et d’anthropologie portant sur ces églises, les “frères” et “soeurs” chanteurs et chanteuses n’apparaissent pas vraiment. Est-ce parce qu’ils sont vraiment anecdotiques ? Ou est-ce parce que le regard (et la problématique) de mes collègues les a invisibilisés ? [Il est facile de les invisibiliser, à partir d’une vision d’emblée “cléricale” du monde religieux, où les “grands” sont les porteurs d’un charisme personnel.]

Un peu de sociologie électorale

15/02/2011 / cartographie, General / 4 commentaires

Je n’avais qu’une heure, alors c’est fait à l’arrache.
Voici la “couleur” politique de votre bureau de vote, si vous votez à Paris :

Les données proviennent de Paris “Open Data” et décrivent les résultats du premier tour des régionales de 2010. Je me suis inspiré de Mounir&Simon mais j’ai fait une petite classification ascendante pour distinguer des “clusters” (ils ne distinguaient que Droite / Gauche et cela me semblait un peu trop simple).

Groupe 1 : noir : une zone frontière (mais où Pécresse fait le double de Huchon)
Groupe 2 : rouge : ce doit être une ancienne zone à droite, passée à gauche. Huchon et Duflot, ensemble, sont bien au dessus de Pécresse.
Groupe 3 : vert : C’est là où la candidate verte, Duflot, fait son score maximal et talonne Huchon. Le PC est aussi en “force”.
Groupe 4 : bleu foncé : LA zone Pécresse : là, on vote à droite en majorité.
Groupe 5 : bleu clair : la zone des marges, où le score de Pécresse est faible, et où les petits candidats (Arnautu, Besancenot, Governatori, Kanoute, Laurent, Mercier…) font un score plus important qu’ailleurs.

Mise à jour, avec de nouvelles couleurs.
Les groupes sont construits de la même manière que ci-dessus, mais le “barplot”, sous la carte, insiste sur les “petits” candidats, en insistant sur la déviation par rapport à leur moyenne sur Paris.

[Attention : c’est embrouillé. Ce n’est pas “faux”, mais le “barplot” ne représente pas les informations sur lesquelles je me suis basé pour construire les groupes.].

Où ont-ils (et elles) fait leur meilleur score ?

Deuxième mise à jour
Une analyse des correspondances produit ce joli graphe. L’Axe 1 explique les 3 quarts de l’inertie (et place les personnes sur un axe droite (à gauche) — gauche (à droite du dessin).
Mais l’on voit aussi l’importance du 2e axe : qui répartit les candidats de partis “hétérodoxes” : FN, NPA, Verts, etc…

Réseaux “aléatoires”, suite

14/02/2011 / General / 2 commentaires

J’ai essayé de comprendre un peu plus précisément les résultats du billet précédent.
Partons d’un réseau bimodal représenté, ci-dessous, sous la forme d’une matrice puis d’un graphe :

La Matrice

—	x1	x2	x3	x4	x5	x6	x7	x8
a	1	1	0	0	0	0	0	0
b	1	1	0	0	0	0	0	0
c	0	1	1	1	0	0	0	0
d	1	1	0	0	0	0	0	0
e	0	0	0	0	1	0	0	0
f	0	0	0	0	1	1	0	0
g	0	0	0	0	1	0	0	0
h	0	0	0	0	0	0	1	1
i	0	0	0	0	0	0	1	1

Le Graphe

On peut comprendre ce réseau comme une description d’événements (X1 à X8) auxquels participent (ou non), les personnes “a”… “i”.
Ce réseau est un peu spécifique : Le premier et le deuxième “événement” (X1 et X2) réunissent les mêmes personnes (a, b et d), la personne “c” participant au 2e événement seulement. J’observe, dans les invitations de pasteurs repérées sur les affiches pentecôtistes, le même genre de “réinvitations”.
Ce qui m’intéressait était de comparer ce réseau avec des réseaux qui auraient une structure similaire. Par “structure similaire”, j’entends “les marges des matrices sont les mêmes” : l’événement X a n participants dans le réseau de départ et dans le réseau auquel on le compare.
Un problème similaire s’est posé en “écologie quantitative” (ou écologie des communautés) : on peut imaginer que la matrice, plutôt que de représenter un réseau, représente une “communauté” (en colonne, les espèces — présentes ou non –, et en ligne, des lieux échantillonés). On en trouve, par exemple, un usage dans cet article
Partitioning of functional diversity reveals the scale and extent of trait convergence and divergence ou dans cet autre article Using biodiversity deconstruction to disentangle assembly… :

We generated 1000 random matrices by a quasi swap algorithm (Miklós & Podani, 2004) using the function ‘commsimulator’ in vegan for R (Oksanen et al., 2007). The null matrices were subsequently uploaded into a custom-coded (…)

Ce problème, sous des formes plus proches des miennes, s’est aussi posé à des sociologues travaillant sur des réseaux sociaux. Jean Finez, travaillant sur la co-participation aux comités d’administration (les liens interlocks), a tenté d’en comprendre la logique en les comparant à des réseaux aléatoires de même structure Solidarités patronales et formation des interlocks [halshs] :

nous comparons le réseau des interlocks à des réseaux générés aléatoirement de manière à mettre en évidence ses spécificités et à ne pas mésinterpréter des propriétés qui relèvent en fait des contraintes juridiques et organisationnelles. Nous avons généré 50 réseaux aléatoires bimodaux, construits de manière à posséder de nombreuses caractéristiques identiques à celles du réseau interlock. […]
Dans chaque réseau aléatoire bimodal, les conseils d’administration sont choisis par les individus par un tirage dans une loi uniforme. En outre, les réseaux ont été construits de manière à partager de nombreuses caractéristiques avec le réseau interlock de l’élite de premier ordre. Premièrement, comme dans le réseau réel, chaque réseau aléatoire est composé de 27 sommets « dirigeants » et de 40 sommets « entreprises » reliés par 91 liens dirigeants-entreprises. Deuxièmement, chaque dirigeant est présent dans 3 à 5 conseils d’administration et chacune des 40 entreprises ne peut accueillir plus de 18 dirigeants.

J’ai donc utilisé, dans le package “vegan”, l’instruction commsimulator (méthode “quasi swap”), qui génère une matrice aléatoire respectant les marges de la matrice de départ.

Souvent, l’instruction va donner quelque chose de ce genre : Il n’y a plus que 2 composantes (par rapport au réseau de départ, il y a moins de “ré-invitations”.)
Si l’on génère 10 000 réseaux, l’histogramme du nombre de composantes est celui-ci :

A quelques 500 reprises, des réseaux à 3 composantes apparaissent. Et, surprise, à 3 reprises, des réseaux à 4 composantes (très rares, donc, dans cette configuration).
Voici ce réseau à 4 composantes respectant les contraintes de départ :

Dans cet exemple, les “ré-invitations” sont maximales.

Des réseaux religieux d’invitations

11/02/2011 / religion / 11 commentaires

Les données recueillies à partir d’une collection de 150 affiches d’églises africaines sont très riches. J’ai déjà montré ici qu’on pouvait y déceler des indications d’implantation géographique, ou une “politique du titre” qui manifeste l’existence d’une hiérarchisation poussée.
Ces affiches donnent aussi des informations “réticulaires” : les pasteurs pentecôtistes passant une partie de leur temps à s’inviter les uns les autres, à pratiquer le “partage de la chaire”, un réseau apparaît. Voici une représentation graphique de ce réseau d’invitations. Vous remarquerez, en plissant les yeux, une grosse composante et de nombreuses petits groupes. Le nombre de composantes est de 60.
La question que je me pose est : mais comment donc un tel réseau est généré ? Est-ce qu’il peut être simplement déduit de certaines contraintes ?
Pour commencer à apporter une réponse, j’ai demandé à R de générer des réseaux aléatoires qui respectent 2 contraintes.

1/ si dans le réseau observé l’individu (i) participe à (n) événements, il en va de même dans le réseau généré
2/ si dans le réseau observé l’événement (j) a réuni (m) personnes, il en va de même dans le réseau généré

Les réseaux générés “aléatoirement et sous contraintes” ont une particularité : leur nombre moyen de composantes n’est pas proche de 60, il est proche de 41. Les réseaux “aléatoires” relient beaucoup plus les individus (alors que chaque individu participe au même nombre d’événements et que chaque événement réuni le même nombre de personnes, par comparaison avec le réseau observé).
Mes pasteurs pentecôtistes noirs, donc, semblent ne pas “inviter au hasard”, mais choisir une “distance” moindre que les “pasteurs aléatoires”. De ce fait, ils créent un monde un peu plus “troué” que celui du modèle.
Note : Je ne sais pas si je dois vraiment mettre cela en ligne. En effet, je ne maîtrise pas totalement ce dont je parle et j’ai peut-être fait n’importe quoi… J’expose donc maintenant la méthode utilisée. Je démarre d’une matrice d’adjacence, nommée “mat”, qui indique “qui participe à quoi” :
E1 E2 E3 E4 P1 1 0 1 0 P2 1 1 0 0 P3 0 1 0 1 P4 0 0 0 1 P5 0 0 0 1 P6 1 1 1 0
Dans laquelle E1 est l’événement n°1, P1 la personne n°1 (qui ici, participe à E1 et E3).
Dans le logiciel R, le package “vegan” dispose d’une commande :
b< -commsimulator(mat, method="quasiswap")

Methods quasiswap and backtracking are not sequential, but each call produces a matrix that is independent of previous matrices, and has the same marginal totals as the original data.

Cette commande permet de générer des matrices qui ont les mêmes marges que les matrices de départ (ce qui fait que chaque événement aura le même nombre de participants et chaque personne participera au même nombre d'événements).

Suites : Voici un synthèse du nombre de composantes après avoir généré 1000 réseaux aléatoires :

La probabilité de tomber sur un réseau à 60 composantes (avec les contraintes de départ) est donc bien faible.

Sociologie statistique de la religion

28/11/2010 / religion / 6 commentaires

Après avoir, depuis deux ans et demi, recueilli quelques 150 affiches différentes présentant des “Grandes croisades” évangéliques organisées par des pasteurs noirs, en région parisienne, me voici avec une base de données amusante à manipuler.
Les personnes photographiées ou mentionnées sur les affiches revendiquent des titres (“pasteur”, “bishop”, “maman”…). Ces titres sont associés à des caractéristiques qui ne sont pas aléatoirement distribuées : les femmes, par exemple, sont plus souvent “invisibles” (mentionnées mais pas photographiées). Certains titres sont associés de manière intense avec “tenir une bible dans la main” ou avec “tenir un micro”.
J’ai en tête que ces représentations peuvent, indirectement, être liées à une hiérarchisation interne du monde des “églises africaines”.
Une petite “analyse par clusters” donne ceci :

Apparemment, les détenteurs (et détentrices) d’un titre indiquant une position cléricale (de “évangéliste” à “pasteur”) sont relativement proches entre eux. Un groupe féminin et laïque (maman… servante) se différencie du premier. J’avais cru voir, sur les affiches, les “mamans” en position dominante (mais il s’avère qu’elles sont moins souvent visibles, qu’elles n’ont ni bible, ni micro)…

Et une analyse en composante principale donnerait ceci :

J’ai bien envie de conclure que ces affiches permettent assez bien de comprendre certains des principes de hiérarchisation d’un monde, celui des églises évangéliques et pentecôtistes dirigées par des pasteurs noirs, qui se présente avant tout comme un monde de petits entrepreneurs religieux individuels.

Quelques courbes de niveau

14/11/2010 / cartographie, religion / 2 commentaires

Sur la carte suivante, chaque point représente le lieu de réunion d’une “église d’expression africaine” :

Cette série de points montre la dispersion, mais ne permet pas de repérer “immédiatement” une sorte de centre. Ce que fait la carte suivante, à lire comme des courbes de niveau. Il y a peut-être des espaces “inégalement religieux”.

Mais que trouve-t-on donc au centre ? Des églises plus anciennement implantées ? des “grosses” églises qui attirent, comme un supermarché des petits concurrents différenciés, d’autres églises, plus petites, qui tentent de capter le public… ?
Ces cartes ont été produites à partir de cet exemple de cartographie du crime à Houston, TX.

R, cartographie, suite

08/11/2010 / cartographie / 8 commentaires

Comment obtenir rapidement cette carte représentant le taux brut de natalité dans divers pays d’Europe, en 2009 :

Il faut tout d’abord disposer de données (issues de Eurostat) et d’un fichier shapefile — trouvé sur le site de la Commission européenne par François “Politbistro” B. — (Voici le tout dans une archive zippée : maps.zip)

Voici le code.

library(maptools)
library(RColorBrewer)
library(classInt)
library(reshape)
setwd("~/Desktop/maps")
data <- read.table("tauxbrutnatalite.csv",header=T,sep=";")
head(data)
europe<- readShapeSpatial("CNTR_RG_60M_2006.shp",proj4string=CRS("+proj=longlat"))
summary(europe)
xcoord <- c(-10,40)
ycoord <- c(35,70)
nclr <- 6
colours <- brewer.pal(nclr, "RdBu")
v<-data$X2009
class <- classIntervals(v, nclr, style="equal")
colcode <- findColours(class, colours)
test<-match(europe$CNTR_ID,data$code)
x<-colcode[test]
x[ is.na(x) ] <- "darkgrey"
plot(europe,col=x,xlim=xcoord,ylim=ycoord)
legend(-10,70,legend=names(attr(colcode,"table")), fill=attr(colcode, "palette"), cex=1.2, bty="n")

Somme toute, ce n’est pas un code très lourd pour générer une aussi jolie carte (les couleurs auraient pu être mieux choisies, ainsi que les intervalles, mais tout ceci est grandement modifiable). Ce qui est compliqué, c’est d’associer les données dont on dispose et le fichier shapefile. Deux problèmes se posaient ici :

les pays, dans le shapefile, sont indexés par leur code à 2 lettres (FR pour France…) : il fallait donc travailler un peu les données d’Eurostat, en Français
il fallait ensuite être certain que R coloriait les pays avec les bonnes indications : c’est à cela que l’instruction match sert : elle établit, dans l’objet “test” une grille de correspondance entre le code-pays du fichier de données et le code-pays du fichier shapefile.

J’ai colorié en gris les pays pour lesquels les données manquent.
Maintenant, François “Politbistro” B., à toi de jouer.

Politique sociologique

06/10/2010 / Université / 7 commentaires

L’on trouve en ligne la composition du nouveau comité de rédaction de la Revue française de sociologie. J’y repère l’entrée de mon collègue de Paris 8 Camille Peugny (et futur camarade de bureau, quand les travaux seront réalisés rue Pouchet) et de mon condisciple de l’ENS Olivier Godechot.
Ce comité est maintenant composé de 8 femmes sur 25 membres : la tierité est atteinte, la parité est pour bientôt. Je suis trop paresseux pour repérer les autres caractéristiques (“provinciaux” / “parisiens” ; “rang A” / “rang B” ; “CNRS” / “Université”) ni même pour comparer l’ancien et le nouveau comité.

En revanche, je me suis amusé à repérer quels laboratoires étaient dans quelles revues :

Il y a des labos centraux et d’autres moins… Mais il me faudrait d’autres données, sur d’autres revues.

Mise à jour : un beau PDF avec 13 revues (RFS, ARSS, politix, sociétés contemporaines, sociologie, socio du travail, travail genre société, cahiers du genre, regards sociologiques, revue fra de socio-éco, genèses et l’année sociologique) : reseau des revues

Basques et bretons au collège

28/09/2010 / cartographie, General, prénoms / 9 commentaires

Dans un quotidien, récemment, l’un des frères Fassin disait que la culture, ce n’est pas une explication, c’est ce qu’il faut expliquer. Pour cela, il faut probablement encore croire que la culture existe un tant soit peu, ce qui n’est pas vraiment mon cas.
Cependant, il faut reconnaître que certaines personnes construisent activement des identités collectives et qu’on ne peut les effacer aussi rapidement. J’avais déjà mentionné l’existence de prénoms bretons : depuis une cinquantaine d’années, des promoteurs de la culture bretonne publient dictionnaires, calendriers, listes… comprenant ce qu’ils appellent des “prénoms bretons”. Si l’on agrège différentes listes, l’on finit par obtenir une grosse liste de prénoms bretons.
Le “fichier des prénoms” de l’INSEE propose des données au niveau national et au niveau de chaque département. Mais rien en dessous : rien au niveau des communes ou des cantons.
Mais, peut-être par inadvertance, l’éducation nationale, elle, donne accès à des données intéressantes. Une bonne partie des académies publient les résultats nominatifs au brevet des collèges. Henry Ciesielski a repéré cela et a réussi à récupérer une bonne partie de cette liste.
L’on dispose ainsi d’informations assez fines au niveau de chaque collège. La suite est le résultat d’une collaboration entre Henry et moi. Les 4800 collèges ont été géolocalisés (assez grossièrement et avec des erreurs, car nous ne disposions que de la commune, pas de l’adresse postale complète). Et, pour chaque collège, la proportion de “prénoms bretons” parmi les admis au brevet a été calculée.
La carte suivante permet de voir, rapidement, qu’il y a plus de prénoms bretons en Bretagne qu’en dehors. Il est bien dommage que les académies limitrophes n’aient pas publié les résultats au brevet : l’on aurait pu voir où s’arrêtait la frontière culturelle… [Notez : la taille des points est fonction du nombre de prénoms bretons, la couleur fonction de la proportion.]

Des résultats plus fins sont disponibles : les collèges “Diwan” regroupent plus d’enfants avec des prénoms bretons.
La carte suivante m’intéresse plus. En effet, les promoteurs de la culture bretonne semblent avoir réussi un double essai : rendre visible les prénoms bretons à l’état civil pour une minorité non négligeable d’enfants, et diffuser à l’ensemble de la Bretagne-région cette pratique. Cela dans un contexte intéressant : plus personne ou presque ne parle breton…
Les promoteurs du basque n’en sont pas là encore. Voyez la carte : seuls une poignée de collèges contiennent une proportion importante de prénoms basques, et cela est limité à l’extrême sud-ouest du Sud-Ouest. Autant les Morgane, les Gwenn et les Ewen se sont diffusés au delà du monde des bretonisants, autant les Bixente, les Ainhoa et les Aguxtin restent confinés au pied des Pyrénées-Atlantiques. [Ce n’est peut-être pas vrai pour quelques prénoms, mais, pris collectivement, ils n’ont aucune existence en dehors de la micro-région.]

Prenez ces deux cartes comme un début de recherche, une première visualisation des effets à la fois de la libéralisation du choix du prénom et, je le pense, des entreprises politiques de différenciation culturelle.