Categories

Archives

Un peu en avance

De nombreux travaux ont montré que, s’agissant des prénoms les plus fréquents, les cadres étaient “en avance” sur le reste des professions et catégories socioprofessionnelles. Des parents cadres vont avoir tendance à donner des prénoms un peu avant que des parents “professions intermédiaires” ou “employés” ne donnent les mêmes prénoms.
L’avance sur la mode peut-elle alors être prise comme indicateur indirect de position sociale ?
À partir des listes électorales parisienne, j’ai comparé, pour chaque “premier prénom”, l’année de naissance de l’électeur et l’année pendant laquelle son prénom atteint son rang le plus élevé. Ainsi un électeur prénommé Matthieu, né en 1979, sera considéré comme “en avance” de dix ans sur la mode (le prénom “Matthieu” atteint son meilleur rang national en 1989). On peut faire cela pour le million d’électeurs et d’électrices né-e-s en France et inscrit-e-s à Paris. Les prénoms très rares posent problème, car les données disponibles ne permettent pas de calculer l’année de leur “pic”. C’est le cas pour 8,3% des électeurs/trices.
La carte suivante montre, à l’échelle du bureau de vote, quelle est la proportion d’inscrits dont le prénom est au moins 3 ans “en avance” sur le pic.

avance

On remarquera aisément que les quartiers de Paris les plus “bourgeois” sont aussi ceux où les prénoms sont les plus fréquemment “en avance”. Comme si la mode pouvait naître dans un coin caché du septième arrondissement et essaimer, ensuite, dans le reste du corps social.

Paris en couleurs

Les listes électorales sont une source de données formidables. J’ai eu l’occasion de les explorer récemment. Première tentative de synthèse ici.
mds-couleur
click to embigen

J’ai conservé quelques variables, à l’échelle du bureau de vote : l’âge moyen, la proportion de femmes inscrites, la proportion de personnes nées à l’étranger, la proportion de “nobles”, la proportion de personnes portant plus de deux prénoms.
J’ai appliqué à cela une procédure appelée “Multi-dimensional scaling“, qui permet de rapprocher entre eux des individus ayant des caractéristiques proches. Ici, les individus sont des bureaux de vote.
J’ai retenu trois dimensions.
La première dimension rassemble entre eux les bureaux de vote selon la proportion d’inscrits nés à l’étranger [on remarque que le 16e arrondissement est un peu différent du 8e et du 7e].
La deuxième dimension capture les variations de l’âge et du sexe apparemment.
La troisième dimension est plus complexe à interpréter immédiatement (et je n’ai pas encore exploré en détail).
Sur ces trois dimensions, chaque bureau de vote a un score, que je normalise entre 0 et 255, ce qui permet d’associer une couleur “RVB” à chaque bureau. Un bureau ayant un score semblable sur les trois dimension sera plutôt gris (clair ou foncé).

La carte oppose alors un bureau de vote situé au cœur du septième arrondissement (qui est ici vert foncé) aux bureaux de votes rose/orangés des marges de Paris. Mais aussi un bureau “vert-clair”, au cœur de Paris (plus masculin et jeune) à d’autres que je vous laisse trouver. La Butte Montmartre apparaît bien bleue. L’opposition entre Ouest et Est, importante à Paris, apparaît indirectement : les couleurs les plus sombres sont à l’Ouest, comme si un nuage était posé sur l’Ouest.
[Première synthèse qu’il faudra affiner, bien sûr].

d <- dist(mydata)
fit <- cmdscale(d,eig=TRUE, k=3)
x <- fit$points[,1]
y <- fit$points[,2]
z <- fit$points[,3]
range01 <- function(x){round(255*(x-min(x))/(max(x)-min(x)))}
xs<-range01(x)
ys<-range01(y)
zs<-range01(z)
mds<-cbind(xs,ys,zs)
couleurs<-rgb(mds[,1],mds[,2],mds[,3],maxColorValue=255)
# et ensuite, il suffit d'associer chaque Bureau de vote à chaque couleurs : le BV[i] recevra couleur[i]

Pretty R at inside-R.org

La méthode a été inspirée par cet article : Delineating Europe’s Cultural Regions: Population Structure and Surname Clustering [James Cheshire, Pablo Mateos et Paul A. Longley]

E pluribus…

Les électeurs français nés à l’étranger constituent une petite partie (environ 10%) de l’électorat : ce sont soit des personnes ayant acquis la nationalité française, soit des électeurs nés français mais dans un pays qui est aujourd’hui un pays étranger, par exemple devenu indépendant, soit des électeurs nés de parents français à l’étranger… J’imagine que d’autres cas sont possibles. L’histoire de la nationalité est complexe.
Les listes électorales indiquent dans quel pays sont nés les électeurs. Voici une carte montrant, par bureau de vote, à Paris, en 2014, le pays de naissance le plus fréquent.
nes-hors-france
Comme l’on peut s’y attendre étant donné l’histoire coloniale (et l’histoire de la nationalité) ce sont les personnes nées en Algérie qui sont les électrices-nées-à-l’étranger les plus fréquentes. Maroc et Tunisie suivent.
Un bureau de vote, dans le 16e arrondissement, a suffisamment d’électeurs nés au Liban pour faire apparaître ce pays. Un autre, dans le 15e, a plus d’électeurs nés en Iran que d’électeurs nés dans d’autres pays.
Cambodge et Viet Nam apparaissent au sud du 13 arrondissement.
Quelques bureaux de vote ont plus d’électeurs nés au Sénégal que d’électeurs nés dans d’autres pays.
Cette première exploration est insuffisante : il faudrait probablement regrouper plusieurs pays ensemble, ou indiquer par l’intensité des couleurs des fréquences…

Versatile « Marie »

À la fin du XIXe siècle, Marie était dans le “top 20” des prénoms les plus donnés aux garçons. Souvenons-nous, par exemple de Marie Koenig, connu sous le prénom de Pierre. Ou de Marie Revillon, connu sous le nom de Michel Tony-Revillon.
Mais ce prénom cesse rapidement d’être donnés aux bébés de sexe masculin. Du moins en première position. Car « Marie » est versatile. On trouve des Louis-Marie et Jean-Marie, des Hubert-Marie et autres Pierre-Marie. Mais l’on trouve aussi des “Louis, Marie, Octave” ou des “Charles, Marie, Geoffroy”.
Et Wikipedia nous dit vaguement que « dans certaines familles catholiques, le prénom Marie sera systématiquement choisi pour premier ou deuxième prénom, même pour un garçon, en hommage à la Vierge Marie. »
Choisir « Marie » en 2e, en 3e ou en 7e prénom permettrait de signifier (en quasi-cachette, mais administrativement) une forme de catholicité. Possible, mais cela reste à creuser.
Il est possible, dès maintenant, de cartographier des « Marie-hommes », à partir des listes électorales à Paris :

homme-marie

Les arrondissements dans lesquels on trouve le plus de Marie-hommes (Marie étant ici utilisé sans “tiret” et après le premier prénom) sont les 7e et les alentours du Parc Monceau (8e et 17e). 16e, 15e, 6e suivent. Les arrondissements plus populaires, 18e, 19e, qui comptent aussi peu d’électeurs à particule, comptent peu de Marie-homme.
Difficile en l’état de valider totalement l’hypothèse de Marie comme signal catholique. Mais comme signal bourgeois, peut-être un peu plus.

Note méthodologique : la carte compare entre eux uniquement les hommes ayant plusieurs prénoms (car la probabilité d’avoir “Marie” en second prénom est nulle quand on n’a qu’un seul prénom). Une comparaison entre les porteurs du prénom Marie et tous les hommes (quel que soit le nombre de prénom) ne change pas la distribution.

Mise à jour : une version précédente de la carte était basée sur des données inexactes.

Le prénom à l’échelle “micro”

Certains naissent avec un seul prénom, d’autres avec une demi-douzaine. Les listes électorales indiquent, pour chaque électeur, le nombre de prénoms.
A Paris en 2014, 5 électeurs inscrits ont 8 prénoms. L’un d’entre eux (les prénoms ont été modifié) est “Philippe-René Louis André Pierre Arthur Clément Jac Léon” une autre est “Annieke Bénédicte Lia Huguette Carline Sophie Aurélie Marie”… et peut-être que la liste continue, mais que les prénoms, faute de place informatique, n’apparaissent pas. Et 59 personnes ont sept prénoms ou plus.

À l’échelle du bureau de vote, le nombre moyen de prénoms diffère. Dans les bureaux de vote des 5e, 6e, 7e, 8e et 17e (sud), les électeurs ont plus de 2,2 prénoms. Dans les bureaux de votes du 19e et du 18e (est), ils en ont moins de 1,8.

nbprenoms-bv

Mais le nombre moyen est peut-être un indicateur imparfait. Voici donc la carte montrant la proportion d’électeurs ayant 3 prénoms ou plus. C’est presque la même chose, mais les écarts sont magnifiés (certains bureaux de votes ont moins de 15% d’électeurs du type “Marie Clothilde Elizabeth Gentiane”).

prenoms3-bv

La carte reproduit bien la division entre un paris plutôt populaire, à l’Est, et un Paris plusbourgeois, à l’Ouest. L’habitude de donner plusieurs prénoms à la naissance est répandue en France, mais est peu fréquente dans de nombreux pays, et la proportion d’électeurs nés à l’étranger influe.
Mais on repère aussi probablement des pratiques administratives distinctes : il me semble probable que, dans le 9e arrondissement, tous les prénoms ne soient pas notés (ce qui expliquerait la coloration bleu-clair de cet arrondissement).

La province à Paris

De quel endroit viennent les Parisiens ?
parisprovince
En utilisant les données de l’INSEE sur la mobilité des résidents entre 2005 et 2008, il est possible de repérer les départements d’origine des néo-parisiens.
J’ai essayé de prendre en compte la taille des départements d’origine et des arrondissements d’arrivée, pour repérer les flux “significatifs” (qui ne sont pas toujours les flux les plus importants).
Note de lecture : cette carte compte tous les “78” comme des Versaillais, et tous les “77” comme des Melunais.
La carte avec les numéros de département est ci-dessous :
parisprovince-nombres

Vote à distance, distance au vote ?

Dans un article sur Metropolitiques, Lucie Bargel analyse le vote des “originaires”, celles et ceux qui sont vues comme étant “d’ici”, mais qui vivent “là bas”. Elle pointe l’existence de villages dans lesquels il y a plus d’inscrits (sur les listes électorales) que de résidents (au sens du recensement). Cet “effet Bargel”, est-il fréquent ?

La carte suivante laisse penser que oui.
france-inscrits-residents
Cliquez pour agrandir

Sur cette carte, les zones en rouge sont celles où les inscrits sur les listes électorales de la commune sont plus nombreux que les résidents de la commune. Certes il existe un lien entre la résidence et l’inscription sur les listes électorales. Mais une résidence “secondaire” dans une commune peut suffire à être inscrit sur la liste de cette commune. Et il y a aussi tous ces “jeunes” (et moins jeunes), qui, ayant quitté leurs parents, continuent, par attachement peut-être, à voter là où ils résidaient. Traditionnellement, ces personnes ont été qualifiées de “faux inscrits” [Sineau. “L’abstentionnisme parisien…” RFSP 28(1), 1978, 55-72] (on trouve aussi l’expression chez Gaxie dans Explication du vote: Un bilan des études électorales en France) en suivant l’idée que ces personnes ne devraient pas être inscrites.

Creusons un peu cette carte. Si l’on se restreint aux résidents majeurs (en enlevant les enfants, qui ne votent pas et qui donc n’ont rien à faire dans l’histoire), que remarque-t-on ?

france-inscrits-residents19
Cliquez pour agrandir

On voit donc apparaître une France de l’attachement, en rouge. Une “France du vide” (démographique) mais une France qui n’a pas été entièrement quittée par celles et ceux qui n’y habitent plus vraiment. La France des montagnes : Morvan, Alpes, Pyrénées. La France des plâteaux : le Perche, les Ardennes sont visibles sur cette carte. Et, aussi, une France de la Côte (regardez bien, à l’Ouest normand ou breton, où presque tous les villages du littoral immédiat sont roses ou rouges) pleine de résidences secondaires. Au total, plus de 17 000 communes ont plus d’inscrits sur les listes électorales que de résidents majeurs. Cela peut sans doute contribuer aux difficultés rencontrées par de nombreux villages dans la constitution de listes de candidats complètes pour les municipales.

Une représentation graphique montre une relation entre l’altitude d’une commune et le rapport entre nombre d’inscrits et nombre de résidents… là se niche peut-être le cœur de “l’effet Bargel”.
altitude-inscrits-residents
Mais une altitude (1000 mètres) ne signifie pas la même chose partout en France. Il y a des “1000 mètres” très difficiles à atteindre et des “1000 mètres” bien plus aisés à atteindre. Je propose deux régressions (linéaires et locales), sans pondération (ce qui donne à chaque village ou ville un poids égal) ou avec une pondération par le nombre d’inscrits. Dans les quatre cas, la relation est positive.

L’étude de la relation entre la variation de la population et la “surinscription” est moins univoque. Le graphique suivant met en abscisse la variation relative de la population (entre 1999 et 2011) et le ratio “inscrits sur résidents majeurs” en 2008/2009.
La régression linéaire sur les communes a un coefficient négatif : avoir perdu des habitants est corrélé à “avoir plus d’inscrits que de résidents majeurs”. Mais si on prend en compte la taille des communes (leur population en 2011), alors le coefficient est très proche de zéro : la surinscription n’est pas liée à la variation relative du nombre d’habitants.

population-evolution-inscrits
Cliquez pour agrandir

L’inscription sur les listes électorales étant liée, quand même, à une forme de résidence (ancienne, partielle, secondaire…) il est possible que les villes et villages comptant une grande proportion de résidences secondaires soient aussi des endroits avec une surinscription plus forte. C’est, globalement, le cas :
surinscription-secondaires
Cliquez pour agrandir

Plus il y a de résidences secondaires (en proportion) plus il y a d’inscrits “en trop” (par rapport aux résidents majeurs).

On peut aussi regarder s’il existe une relation entre la proportion d’actifs résidents dont le travail se trouve à l’extérieur de la commune et la surinscription. J’utilise là une variable non pas pour elle-même, mais comme indicateur de la situation communale : une zone de résidence plus que de travail. Une partie des surinscrits sont peut-être des personnes qui travaillent et vivent en dehors de la commune où ils sont inscrits.

Le graphique suivant résume les corrélations entre variables (prises deux à deux) :
corrplot

Mais alors, ce rôle de l’altitude c’est peut-être juste la combinaison du déclin de la population et d’un nombre important de résidences secondaires combiné à une situation d’emploi particulière ? Une régression linéaire multiple, sur ces quatre variables, laisse penser que non : une altitude plus élevée reste associée à une surinscription plus forte (en contrôlant les autres variables). L’effet Bargel résiste bien à la régression !

Cette surinscription a-t-elle des conséquences électorales ? Après tout, ces non-résidents ne votent peut-être pas, s’il faut, pour voter, se déplacer. Ces villages où se trouvent plus d’inscrits que de résidents, doivent connaître un taux d’abstention plus élevé que la moyenne, n’est-ce-pas ? Pas vraiment : participation et surinscription semblent corrélées.
participation-bargel

Peut-être que les “surinscriptions” ont lieu dans des zones électoralistes… et que ceux qui résident ailleurs mais y sont inscrits continuent, même à distance, à participer intensément. Il est probable (à vérifier…) que si ces résidents temporaires font l’effort de s’inscrire (ou ne font pas l’effort de s’inscrire ailleurs), alors ils font aussi, peut-être, l’effort de voter (ou d’établir une procuration). Distance au vote ou vote à distance ? ce “ou” n’est pas exclusif. Il est certainement possible d’analyser cette “surinscription” comme la surmobilisation de groupes ou de personnes, qui arrivent à voter, à élire, sans avoir à résider.

Maintenant, vous pouvez retourner lire l’article de Lucie Bargel.

Notes : Les cartes ont été réalisées avec R, package maptools, à partir d’un shapefile des communes (GeoFla) et de données de l’INSEE (pour le recensement) et du ministère de l’intérieur (pour le nombre d’inscrits sur les listes électorales). J’ai bien conscience que ces sources n’ont pas la même origine, qu’une “résidente” et qu’une “inscrite” sont les résultats de définitions différentes… mais qui ne sont pas sans lien entre elles. L’appariement des données s’est fait très rapidement mais un peu “à la louche” quand même.

Sociologie d’un quartier

Un correspondant m’envoie un problème. Dans le cadre d’une enquête portant sur la socio-histoire d’un quartier, il a eu accès à des archives qui indiquent, pour quelques pâtés de maison (pâtés d’immeubles), la composition sociale.
Ces données apparaissent sur des cartes réalisées à différents moments :
quartier
Les zones les plus foncées sont celles où la population a fréquemment une certaine caractéristique (peu importe la caractéristique, que ce soit la composition sexuée, la proportion de cadres ou de joueurs de banjo).
La question posée était : comment refaire la carte ? Plus précisément, il m’écrit : “Je souhaite montrer les évolutions que connaissent ces différentes zones en utilisant les fonctions cartographiques de R, surtout les cartes choroplèthes et en cercles proportionnels. En bref, comment faire pour coder ces zones ?”

Ce n’est pas très compliqué :
Pour commencer, il faut retracer les formes. Pour cela, il est possible de créer une carte sur google maps (cliquer sur “My places” (à côté de “Get Directions”) dans l’interface de google maps (il vous faudra peut-être un compte google).
Il est ensuite possible de dessiner des formes (“shapes”), et de leur associer un identifiant (qui sera la “clé” à partir de laquelle associer les données chiffrées).
map-google-quartier
Ensuite, google maps permet d’exporter les “shapes” au format .kml

Voici une explication en vidéo :

Et dès qu’on a du .kml, alors on peut lancer R.
Imaginons que notre fichier .kml s’appelle quartier.kml

Dans R : (Note : il faut le package osmar, que j’ai présenté ici)

library(maptools)
library(rgdal)
library(osmar)
#charger les polygones du quartier :
quartier < - readOGR("Desktop/quartier.kml",layer="quartier")
#charger la carte du quartier
#grâce au package osmar [info] 
src < - osmsource_api()
bb <- center_bbox(LONGITUDE,LATITUDE, 800, 800)
ua <- get_osm(bb, source = src)
#dessiner les bâtiments (c'est optionnel)
bg_ids <- find(ua, way(tags(k == "building")))
bg_ids <- find_down(ua, way(bg_ids))
bg <- subset(ua, ids = bg_ids)
bg_poly <- as_sp(bg, "polygons")
#dessiner les routes (pour donner une idée)
plot(bg_poly, col = "lightgray",border="#ffffff00")
cw_ids <- find(ua, way(tags(k %in% c("highway"))))
cw_ids <- find_down(ua, way(cw_ids))
cw <- subset(ua, ids = cw_ids)
cw_line <- as_sp(cw, "lines")
plot(cw_line, add = TRUE, col = "black",lwd=10)
plot(quartier,add=TRUE,col=CODECOULEUR)

Created by Pretty R at inside-R.org

carto-quartier
Cliquez pour avoir un PDF vraiment yummy-yummy

Par comparaison, voici un morceau de la carte originale :
quartier-comparaison
Je ne sais pas ce que mon correspondant va faire avec ses cartes, mais l’objectivation cartographique peut sans doute contribuer au raisonnement sociologique.

Osmar : manipuler des données OpenStreetMap avec R

Il y a parfois un intérêt certain à créer des cartes dans un format vectoriel. Je vais ici utiliser le paquet “osmar”, qui permet d’utiliser des données en provenance d’OpenStreetMap, avec le logiciel R.


cliquez pour ouvrir la carte au format pdf

Pour réaliser cette carte, j’ai suivi les instructions présentées dans ce document osmar: OpenStreetMap and R, by Manuel J. A. Eugster and Thomas Schlesinger.
Pourquoi passer par osmar ? L’on trouve des shapefiles extraits de OpenStreetMap sur différents sites (comme cloudmade), mais ces shapefiles commencent à être très lourds, et ils ne contiennent qu’une partie des informations disponibles sur OpenStreetMap.

install.package(osmar)
library(osmar)
src <- osmsource_api()
bb <- center_bbox(3.0775880813598633,50.37404355240673, 1000, 1000)
ua <- get_osm(bb, source = src)
 
#tracer les bâtiments
bg_ids <- find(ua, way(tags(k == "building")))
bg_ids <- find_down(ua, way(bg_ids))
bg <- subset(ua, ids = bg_ids)
bg_poly <- as_sp(bg, "polygons")
plot(bg_poly, col = "gray",border="gray")
 
#tracer une zone "commerciale"
nat_ids <- find(ua, way(tags(v %in% c("commercial"))))
nat_ids <- find_down(ua, way(nat_ids))
nat <- subset(ua, ids = nat_ids)
nat_poly <- as_sp(nat, "polygons")
plot(nat_poly, col = "#ffaaaa11",add=TRUE,border="#ffffff00")
 
#tracer les cours d'eau
nat_ids <- find(ua, way(tags(k %in% c("waterway"))))
nat_ids <- find_down(ua, way(nat_ids))
nat <- subset(ua, ids = nat_ids)
nat_poly <- as_sp(nat, "polygons")
plot(nat_poly, col = "#aaaaff",add=TRUE,border="#aaaaff",lwd=2)
 
#tracer les parcs
nat_ids <- find(ua, way(tags(k %in% c("leisure"))))
nat_ids <- find_down(ua, way(nat_ids))
nat <- subset(ua, ids = nat_ids)
nat_poly <- as_sp(nat, "polygons")
plot(nat_poly, col = "#99dd99",add=TRUE,border="#99dd99")
 
#tracer les rues, de différentes épaisseurs
cw_ids <- find(ua, way(tags(v %in% c("residential","pedestrian"))))
cw_ids <- find_down(ua, way(cw_ids))
cw <- subset(ua, ids = cw_ids)
cw_line <- as_sp(cw, "lines")
plot(cw_line, add = TRUE, col = "pink",lwd=1)
 
cw_ids <- find(ua, way(tags(v %in% c("secondary"))))
cw_ids <- find_down(ua, way(cw_ids))
cw <- subset(ua, ids = cw_ids)
cw_line <- as_sp(cw, "lines")
plot(cw_line, add = TRUE, col = "pink",lwd=5)
 
cw_ids <- find(ua, way(tags(v %in% c("tertiary"))))
cw_ids <- find_down(ua, way(cw_ids))
cw <- subset(ua, ids = cw_ids)
cw_line <- as_sp(cw, "lines")
plot(cw_line, add = TRUE, col = "pink",lwd=3)

Created by Pretty R at inside-R.org

La procuration à Lyon

Les relations observées entre les candidats et la fréquence du vote par procuration se repèrent-elles ailleurs qu’à Paris ? On peut commencer par regarder ce qui se passe dans une autre grande ville, Lyon.
Tout d’abord, une petite carte. Où l’on voit que les arrondissements centraux de Lyon, 1er, 2e et 6e, pratiquent plus la procuration que le 8e arrondissement.

Comme à Paris, la relation est positive entre la fréquence de la procuration et le taux de participation (graphique non reproduit).
Et les grandes corrélations perçues à Paris sont encore valables à Lyon. Les bureaux de vote favorables à l’extrême gauche ont peu de procurations :


Idem avec les bureaux de vote où Mélenchon réalise un score élevé.

La relation est encore négative pour ce qui est des votes lepénistes :

Et ce n’est pas le candidat Hollande qui se trouve faire un score élevé dans les bureaux de vote où la procuration est élevée.

Comme à Paris, donc, on observe une relation positive entre votes Sarkozy et votes par procurations [entre bureaux de votes “sarkozystes” et bureaux de votes “à procuration”]

Mais à la différence de Paris, on observe une relation positive entre votes pour Eva Joly et votes par procuration, avec, cependant, une forte variance.

[Idem avec le vote Bayrou, qui, à Paris comme à Lyon, est positivement relié — par bureau de vote — au vote par procuration]
J’ai donc bien tendance à croire que le vote par procuration n’est pas socialement neutre ni politiquement neutre. Bien que le droit soit offert à tous, et que la libéralisation de la procédure avait pour but de favoriser le vote, il me semble que le recours à ce droit est plus le fait de certaines personnes que d’autres. Est-ce pour des raisons “objectives” (du type : les ménages aisés partent plus en vacances que les autres), ou pour des raisons d’engagement politique (du type : je suis empêché de voter, mais je vais tout faire pour voter pour mon candidat) ou de socialisation politique… il semble bien que les “procurateurs” soient le reflet inversé des abstentionnistes.

Note : j’ai récupéré les données sur le site de la ville de Lyon, avec R (package XML).