Categories

Archives

Quinze ans de procurations à Paris, 2007-2022

La carte ci-dessous représente la proportion des voix exprimées qui sont des votes par procuration, à Paris, par bureau de vote, pour les élections municipales, législatives et présidentielles, de 2007 à 2022.

cliquez pour agrandir

On retrouve des régularités : (1) le vote par procuration est plus fréquent en période de vacances scolaires ou de «pont» (et donc au moment des présidentielles, qui ont lieu pendant les vacances de printemps), (2) le vote par procuration est plus fréquent dans les beaux quartiers que dans la ceinture de logements sociaux situés à proximité du périphérique, et (3) le vote par procuration, lors des municipales, est plus fréquent là où le résultat de l’élection est incertain (mais ce point, je devrais le vérifier).

Si l’on calcule la fréquence moyenne, sur ces vingt scrutins, du vote par procuration, on peut tracer la carte suivante :

Comme les frontières des bureaux de vote ont changé entre 2007 et 2022, j’ai découpé Paris en petits carrés et estimé la fréquence qu’on aurait si les bureaux de vote étaient ces petits carrés.

La question privée

L’Annuaire de l’éducation, ce sont des informations sur près de 70 000 établissements scolaires et administrations diverses de l’Éducation nationale. Il est en ligne sur data.gouv.fr.
Les établissements sont géolocalisés, et on dispose de leur statut (public, privé) et du nombre d’élèves.
On peut alors tracer assez rapidement une carte, comme celle-ci :

Les proportions ne doivent pas être totalement fausses : on retrouve bien la géographie connue de l’implantation des écoles privées en France.

Les établissements scolaires ont un nom, et ces noms varient en fonction du statut.

Le tout a été réalisé avec R, et le code est sur github : 2021-annuaire-education-github.R (parce que science ouverte, données libres, partage de code).

Découpages incongrus

Maintenant que l’Institut géographique national a libéré ses données, on dispose des découpages géographiques à des échelles très fines : IRIS ou communes, par exemple.
Mais parfois, on a besoin d’un autre découpage de la France, parce que les données sont disponibles à une autre échelle, celle des ressorts des tribunaux judiciaires par exemple, ou un mélange de départements, régions, EPCI…

Commençons par les tribunaux. On trouve, sur le site de l’observatoire des territoires le tribunal de rattachement de toutes les communes françaises. On peut donc, à partir du fichier “ADMIN EXPRESS” de l’IGN, faire la jointure entre communes et tribunal, pour dessiner la carte des ressorts des 164 tribunaux.

La carte des ressorts des tribunaux :

que l’on peut relier à des données (comme la durée moyenne des affaires) :

Et maintenant le recensement. L’insee met à disposition, en accès libre, les fichiers détail du recensement. Il existe un fichier avec les individus localisés à la région, fichier proposant des variables avec des modalités très fines, comme la profession détaillée. Le titre du fichier est légèrement trompeur, car les individus sont localisés à l’échelle de la région pour les régions peu peuplées, mais aussi à l’échelle du département, pour les départements de plus de 700 000 personnes, et à l’échelle de l’EPCI (pour Paris, Marseille, Lille, Lyon, Bordeaux et Toulouse). Cela donne un découpage un peu incongru de la France, que voici :

Comme vous pouvez le constater, on trouve les départements peuplés de la Bretagne, des grosses métropoles, et de larges régions un peu plus vides.

Ce découpage n’est pas inutile. Voici, par exemple, une cartographie de la part d’immigré.e.s parmi les hommes et femmes de ménage auprès des particuliers :

Je vais essayer de mettre le code permettant de générer ces cartes sur github.

Le taux de suicide départemental en France, 1827 – 2012

[jwplayer mediaid=”8839″]

Le taux de suicide s’exprime en nombre de décès par 100 000 individus. Pour calculer ce taux (brut) à l’échelle des départements de la France métropolitaine, il faut donc à la fois le nombre de suicides et la population du département.
En France, on dispose, grâce au Compte général de l’administration de la justice criminelle, du nombre de suicides par départements depuis 1827, jusque 1931. Il faut juste tout recopier, à la main, dans un tableau. Ce sont des statistiques judiciaires, qui contiennent aussi une partie des tentatives de suicide connues de la justice.
On dispose aussi, depuis 1906, de statistiques dites “sanitaires”, issues des certificats de décès. Depuis 1968, c’est l’INSERM qui s’en occupe.
Mais il y a des trous : en raison des guerres, en raison de problèmes administratifs, certaines années ne sont pas disponibles. Ainsi on ne connait pas le nombre de suicides à Paris en 1870. On ne sait pas ce qui se passe en Alsace entre 1919 et 1925…
La population départementale est connue précisément à partir des recensements : mais ces recensements, jusqu’au début des années 2000, étaient réalisés tous les 5 ou 10 ans.
Pour produire l’animation, j’ai donc du extrapoler, imputer et lisser les données. Quelle est donc la population de l’Ariège en 1863 ? Si on connaît la population de 1861 et celle de 1865, on peut se dire que c’est entre les deux. L’effet des guerres, qui font chuter le taux de suicide, n’est pas visible ici : les cartes, trop lissées, font comme si rien n’avait eu lieu. Parfois, dans des départements à la population réduite, une poignée de suicides en plus (ou en moins) fait brutalement augmenter (ou chuter) le taux à un moment, sans que cette hausse se poursuive les années suivantes : je lisse donc les pics de la courbe.
L’ensemble permet de rendre visible l’augmentation du taux de suicide au XIXe siècle, que ce taux soit le reflet d’une augmentation de la fréquence réelle des suicide ou celui d’une plus grande attention administrative portée à l’identification des suicides. On repère aussi bien l’augmentation qui a lieu à partir du milieu des années 1970 et le reflux à partir de la fin des années 1980.

Géographie des prénoms en Turquie, suite

Suite de l’étude des prénoms en Turquie commencée hier.
On dispose, pour chaque province, des 3 prénoms les plus donnés aux garçons et des trois prénoms les plus donnés aux filles. On peut considérer que plus deux provinces partagent des prénoms, plus elles sont similaires : si elles en partagent six, elles sont “semblables”.
Nous sommes limités dans l’analyse par le nombre réduit de prénoms et par l’absence d’informations sur la fréquence. Etre “numéro 1” quand on est donné à 20% des garçons et “numéro 1” quand on est donné qu’à 5% des garçons… ce n’est pas vraiment pareil.
J’ai réalisé une analyse en composantes principales (ACP) à partir des informations recueillies. Le premier axe n’est pas représenté : il est du à la seule province de Tunceli, petite et avec moins de 1000 naissances en 2013. Je ne représente ici que les axes 2 et 3.
pca-resume
L’axe 2 oppose des prénoms comme Hiranur, Nisanur, Muhammed et Yusuf à des prénoms comme Emir, Cinar, Kerem et Elif. L’axe 3 Mehmet et Mustafa à Irmak, Arda ou Emir.
Les individus, ici, sont les provinces : TR213 est Kiklareli province à la frontière de la Bulgarie (et que les Bulgares appellent Lozengrad).TRB24, c’ets Hakkari, à l’extrême Est de la Turquie (à la frontière avec l’Iran et l’Irak). D’un côté, à l’Ouest, les parents choisissent plutôt Emir et Elif, et à l’Est plutôt Nisanur et Muhammed.
Dans la carte suivante, les provinces sont coloriées en fonction de leur coordonnée sur l’axe 2 de l’ACP. Les rouges/orangées ont des coordonnées positives (les provinces à la droite du graphique, à l’Ouest géographiquement), les bleues foncées ont des coordonnées négatives (les provinces à l’Est, à gauche du graphique).

acp2

A partir d’une analyse des six prénoms les plus donnés aux enfants par province, en 2013, on voit apparaître des différences entre l’Est et l’Ouest de la Turquie.

À pied, en voiture, à cheval ou en métro ?

Comment se déplacent les Franciliens pour aller au travail ?
Voici une petite exploration à partir des données du recensement 2010 (disponibles sur le site de l’INSEE). Il y a trois possibilités : à pied, en voiture, ou en transport en commun. L’occasion de faire une analyse “ternaire”. Ici, le vert-vert signifie le recours à la voiture, le bleu le recours aux transports en commun, et plus cela tend vers le rouge, plus les pieds sont utilisés pour aller au travail.
deplacements

Voici le “ternary plot” :

ggtern

J’étais tombé sur une image proche visualisant les transports dans le grand-Londres, mais je ne sais plus où.
Et si vous me dites : « mais moi, je marche jusqu’à ma voiture et je roule jusqu’à la gare… » Je vous répondrai d’aller visiter le site de l’INSEE pour comprendre la construction des données.
Note : par “à pied”, il faut comprendre “sans aucun déplacement”, “à pied”, ou “en deux-roues”

Un peu en avance

De nombreux travaux ont montré que, s’agissant des prénoms les plus fréquents, les cadres étaient “en avance” sur le reste des professions et catégories socioprofessionnelles. Des parents cadres vont avoir tendance à donner des prénoms un peu avant que des parents “professions intermédiaires” ou “employés” ne donnent les mêmes prénoms.
L’avance sur la mode peut-elle alors être prise comme indicateur indirect de position sociale ?
À partir des listes électorales parisienne, j’ai comparé, pour chaque “premier prénom”, l’année de naissance de l’électeur et l’année pendant laquelle son prénom atteint son rang le plus élevé. Ainsi un électeur prénommé Matthieu, né en 1979, sera considéré comme “en avance” de dix ans sur la mode (le prénom “Matthieu” atteint son meilleur rang national en 1989). On peut faire cela pour le million d’électeurs et d’électrices né-e-s en France et inscrit-e-s à Paris. Les prénoms très rares posent problème, car les données disponibles ne permettent pas de calculer l’année de leur “pic”. C’est le cas pour 8,3% des électeurs/trices.
La carte suivante montre, à l’échelle du bureau de vote, quelle est la proportion d’inscrits dont le prénom est au moins 3 ans “en avance” sur le pic.

avance

On remarquera aisément que les quartiers de Paris les plus “bourgeois” sont aussi ceux où les prénoms sont les plus fréquemment “en avance”. Comme si la mode pouvait naître dans un coin caché du septième arrondissement et essaimer, ensuite, dans le reste du corps social.

Paris en couleurs

Les listes électorales sont une source de données formidables. J’ai eu l’occasion de les explorer récemment. Première tentative de synthèse ici.
mds-couleur
click to embigen

J’ai conservé quelques variables, à l’échelle du bureau de vote : l’âge moyen, la proportion de femmes inscrites, la proportion de personnes nées à l’étranger, la proportion de “nobles”, la proportion de personnes portant plus de deux prénoms.
J’ai appliqué à cela une procédure appelée “Multi-dimensional scaling“, qui permet de rapprocher entre eux des individus ayant des caractéristiques proches. Ici, les individus sont des bureaux de vote.
J’ai retenu trois dimensions.
La première dimension rassemble entre eux les bureaux de vote selon la proportion d’inscrits nés à l’étranger [on remarque que le 16e arrondissement est un peu différent du 8e et du 7e].
La deuxième dimension capture les variations de l’âge et du sexe apparemment.
La troisième dimension est plus complexe à interpréter immédiatement (et je n’ai pas encore exploré en détail).
Sur ces trois dimensions, chaque bureau de vote a un score, que je normalise entre 0 et 255, ce qui permet d’associer une couleur “RVB” à chaque bureau. Un bureau ayant un score semblable sur les trois dimension sera plutôt gris (clair ou foncé).

La carte oppose alors un bureau de vote situé au cœur du septième arrondissement (qui est ici vert foncé) aux bureaux de votes rose/orangés des marges de Paris. Mais aussi un bureau “vert-clair”, au cœur de Paris (plus masculin et jeune) à d’autres que je vous laisse trouver. La Butte Montmartre apparaît bien bleue. L’opposition entre Ouest et Est, importante à Paris, apparaît indirectement : les couleurs les plus sombres sont à l’Ouest, comme si un nuage était posé sur l’Ouest.
[Première synthèse qu’il faudra affiner, bien sûr].

d <- dist(mydata)
fit <- cmdscale(d,eig=TRUE, k=3)
x <- fit$points[,1]
y <- fit$points[,2]
z <- fit$points[,3]
range01 <- function(x){round(255*(x-min(x))/(max(x)-min(x)))}
xs<-range01(x)
ys<-range01(y)
zs<-range01(z)
mds<-cbind(xs,ys,zs)
couleurs<-rgb(mds[,1],mds[,2],mds[,3],maxColorValue=255)
# et ensuite, il suffit d'associer chaque Bureau de vote à chaque couleurs : le BV[i] recevra couleur[i]

Pretty R at inside-R.org

La méthode a été inspirée par cet article : Delineating Europe’s Cultural Regions: Population Structure and Surname Clustering [James Cheshire, Pablo Mateos et Paul A. Longley]

Où sont les femmes ?

Les listes électorales contiennent des informations intéressantes, à l’échelle du bureau de vote. On peut mettre en carte la proportion d’inscrits dont le nom de famille comporte une particule. On peut aussi cartographier d’autres caractéristiques, plus classiques.

Si l’on sait qu’il nait chaque année environ 105 hommes pour 100 femmes, l’on voit que cette proportion est inégalement répartie sur le territoire parisien. Au centre-nord de Paris, les inscrits sont plus souvent des hommes que des femmes. Ces dernières sont plus “rive-gauche” finalement.
femmesinscrites

D’autres informations montrent la diversité de l’espace parisien. Ainsi l’âge. L’âge de l’inscrit médian est d’environ 50 ans dans le XVIe… et d’environ 40 ans dans le XVIIIe.

agemedian
Mais la dispersion est aussi intéressante : le “centre-nord” de Paris a des inscrits moins dispersée en âge, alors que les XVIe, VIIe, XVe arrondissement ont une population d’inscrits plus diverses (sous le rapport de l’âge).

dispersionage

Et si l’on s’intéresse au lieu de naissance des électeurs ? On peut voir que les électeurs nés à l’étranger se trouvent surtout à proximité des périphériques. Le XVIe a plus d’étrangers que ce que j’aurai pensé a priori, mais ce ne sont probablement pas les mêmes étrangers que dans le XVIIIe arrondissement. Et Montmartre serait le dernier village gaulois.
paris-etranger

Sociologie d’un quartier

Un correspondant m’envoie un problème. Dans le cadre d’une enquête portant sur la socio-histoire d’un quartier, il a eu accès à des archives qui indiquent, pour quelques pâtés de maison (pâtés d’immeubles), la composition sociale.
Ces données apparaissent sur des cartes réalisées à différents moments :
quartier
Les zones les plus foncées sont celles où la population a fréquemment une certaine caractéristique (peu importe la caractéristique, que ce soit la composition sexuée, la proportion de cadres ou de joueurs de banjo).
La question posée était : comment refaire la carte ? Plus précisément, il m’écrit : “Je souhaite montrer les évolutions que connaissent ces différentes zones en utilisant les fonctions cartographiques de R, surtout les cartes choroplèthes et en cercles proportionnels. En bref, comment faire pour coder ces zones ?”

Ce n’est pas très compliqué :
Pour commencer, il faut retracer les formes. Pour cela, il est possible de créer une carte sur google maps (cliquer sur “My places” (à côté de “Get Directions”) dans l’interface de google maps (il vous faudra peut-être un compte google).
Il est ensuite possible de dessiner des formes (“shapes”), et de leur associer un identifiant (qui sera la “clé” à partir de laquelle associer les données chiffrées).
map-google-quartier
Ensuite, google maps permet d’exporter les “shapes” au format .kml

Voici une explication en vidéo :

Et dès qu’on a du .kml, alors on peut lancer R.
Imaginons que notre fichier .kml s’appelle quartier.kml

Dans R : (Note : il faut le package osmar, que j’ai présenté ici)

library(maptools)
library(rgdal)
library(osmar)
#charger les polygones du quartier :
quartier < - readOGR("Desktop/quartier.kml",layer="quartier")
#charger la carte du quartier
#grâce au package osmar [info] 
src < - osmsource_api()
bb <- center_bbox(LONGITUDE,LATITUDE, 800, 800)
ua <- get_osm(bb, source = src)
#dessiner les bâtiments (c'est optionnel)
bg_ids <- find(ua, way(tags(k == "building")))
bg_ids <- find_down(ua, way(bg_ids))
bg <- subset(ua, ids = bg_ids)
bg_poly <- as_sp(bg, "polygons")
#dessiner les routes (pour donner une idée)
plot(bg_poly, col = "lightgray",border="#ffffff00")
cw_ids <- find(ua, way(tags(k %in% c("highway"))))
cw_ids <- find_down(ua, way(cw_ids))
cw <- subset(ua, ids = cw_ids)
cw_line <- as_sp(cw, "lines")
plot(cw_line, add = TRUE, col = "black",lwd=10)
plot(quartier,add=TRUE,col=CODECOULEUR)

Created by Pretty R at inside-R.org

carto-quartier
Cliquez pour avoir un PDF vraiment yummy-yummy

Par comparaison, voici un morceau de la carte originale :
quartier-comparaison
Je ne sais pas ce que mon correspondant va faire avec ses cartes, mais l’objectivation cartographique peut sans doute contribuer au raisonnement sociologique.