Categories

Archives

Quinze ans de procurations à Paris, 2007-2022

La carte ci-dessous représente la proportion des voix exprimées qui sont des votes par procuration, à Paris, par bureau de vote, pour les élections municipales, législatives et présidentielles, de 2007 à 2022.

cliquez pour agrandir

On retrouve des régularités : (1) le vote par procuration est plus fréquent en période de vacances scolaires ou de «pont» (et donc au moment des présidentielles, qui ont lieu pendant les vacances de printemps), (2) le vote par procuration est plus fréquent dans les beaux quartiers que dans la ceinture de logements sociaux situés à proximité du périphérique, et (3) le vote par procuration, lors des municipales, est plus fréquent là où le résultat de l’élection est incertain (mais ce point, je devrais le vérifier).

Si l’on calcule la fréquence moyenne, sur ces vingt scrutins, du vote par procuration, on peut tracer la carte suivante :

Comme les frontières des bureaux de vote ont changé entre 2007 et 2022, j’ai découpé Paris en petits carrés et estimé la fréquence qu’on aurait si les bureaux de vote étaient ces petits carrés.

Présidentielles : les parrainages à particule

Si la particule du nom de famille (de, du, d’ ou des) ne voulait rien dire, alors les gens à particule auraient la même distribution sociale que les gens sans particule. Monsieur Dupont et monsieur du Pont seraient équivalents.
J’ai pu montrer, dans Dupont n’est pas du Pont (Histoire & mesure, 2019), que, précisément, Dupont n’est pas du Pont.
On peut en trouver une nouvelle illustration dans ce graphique, qui présente la proportion des « parrainages » (ou « présentations ») des candidats et candidates, aux élections présidentielles, depuis 1981. Soit 41 ans, huit élections, 56 candidats, et plus de 60 700 parrainages et marrainages.

Comme on peut le constater, c’est un gradient gauche-droite qui se révèle dans la distribution des « parrainages à particule ». Statistiquement, la chose est intéressante : il y a peu d’élus à particule, environ 1%, et les parrainages sont peu nombreux (entre 500 et 2000). Il ne suffirait que de quelques parrainages à particule en plus ici ou là pour faire basculer un.e candidat.e du bas en haut de cette liste. Mais ce n’est pas ce que l’on observe…

 

Pour comprendre dans quelles recherches s’inscrit ce graphique, vous pouvez lire Dupont n’est pas du Pont.

Le redoublement de minorité

Qui utilise son prénom dans son enseigne commerciale ?
Dans le fichier Sirene, je sélectionne les entrepreneurs individuels (au sens de « unités légales » identifiées par un nom et un prénom) et dont l’entreprise dispose d’une « enseigne commerciale », soit environ 560 000 entreprises fin 2021.
Environ 10% de ces entreprises ont, dans leur enseigne commerciale, le prénom de l’entrepreneur/entrepreneuse. Par exemple « Aux fleurs de Line » est le magasin de Line Dupont. Les femmes ont tendance à utiliser un peu plus leur prénom que les hommes, qui, eux, utilisent beaucoup plus leur nom de famille : « Maçonnerie Dupont » est l’entreprise de Maurice Dupont. Les femmes constituent environ 43% des entrepreneuses individuelles dont l’entreprise a une enseigne commerciale.
La chose amusante, du moins je la trouve amusante, c’est que dans les secteurs où les femmes sont peu fréquentes (les «travaux d’installation électrique», l’«entretien et réparation de véhicules»…), elles utilisent beaucoup moins leur prénom que les hommes. «Dupont Réparation» est la boîte de mécanique de Line Dupont, «Maurice Répare» est la boîte de mécanique de Maurice Dupont. On voit moins ça quand les hommes sont ultraminoritaires : certes ils utilisent moins leur prénom en coiffure ou «soins de beauté», mais pas autant, et on ne retrouve pas un tel coude à droite du graphique.
 

cliquez pour agrandir

 
Dans les secteurs masculins, les femmes ne mettent pas en avant leur appartenance minoritaire… ce qui fait qu’elles apparaissent encore moins présentes qu’elles ne le sont en réalité.

La question privée

L’Annuaire de l’éducation, ce sont des informations sur près de 70 000 établissements scolaires et administrations diverses de l’Éducation nationale. Il est en ligne sur data.gouv.fr.
Les établissements sont géolocalisés, et on dispose de leur statut (public, privé) et du nombre d’élèves.
On peut alors tracer assez rapidement une carte, comme celle-ci :

Les proportions ne doivent pas être totalement fausses : on retrouve bien la géographie connue de l’implantation des écoles privées en France.

Les établissements scolaires ont un nom, et ces noms varient en fonction du statut.

Le tout a été réalisé avec R, et le code est sur github : 2021-annuaire-education-github.R (parce que science ouverte, données libres, partage de code).

Mon père, ce héros ? (ou Son père, mon héros)

Le Journal of Interdisciplinary History vient de publier un article (co-écrit avec Nicolas Todd, du Centre Roland Mousnier, CNRS) sur la transmission des prénoms pendant la Première Guerre mondiale.
Ce que nous avons cherché à expliquer, c’est, essentiellement, ce graphique :

Entre 1905 et le 1er août 1914, mois après mois, semaine après semaine, 12% des garçons environ reçoivent en premier prénom le premier prénom de leur père. D’après les données fournies par geneanet, c’est très stable mais à la baisse, à mesure que les parents cessent de transmettre un prénom et préfèrent, pour leurs enfants, des prénoms nouveaux. Le graphique précédent se concentre sur le taux hebdomadaire entre janvier 1913 et mars 1915, pour les garçons (on observerait la même chose pour les filles).
Mais dès la semaine du 3 août 1914, après la déclaration de guerre et la mobilisation générale du 1er août 1914, le taux de transmission passe à 17 ou 18%. On observerait des choses similaires, mais avec des proportions plus élevées, si l’on s’était intéressé à « la transmission d’un des prénoms du père à son fils » (par exemple le 3e prénom du père transmis en première position).
Toute la question est de savoir à quoi est due cette augmentation rapide ? On pourrait croire à de l’imitation, mais c’est trop rapide, le basculement se fait en quelques heures à peine, et qui donc les mères imiteraient ? Ce n’est pas non plus — en tout cas pas au cours des trois premières semaines d’août — lié aux décès des pères. Enfin ce n’est pas — à elle seule — la situation de guerre et la perturbation générale de la « division sociale du travail » qui conduit à cette hausse. Car tout redevient normal (au niveau des prénoms) en mai 1915 alors que tout reste en guerre.

Pourquoi donc, neuf mois environ après le début du conflit, ce taux de transmission revient au niveau initial ? (Indice : neuf mois).

Dans l’article, nous avançons l’idée selon laquelle la sur-transmission est liée au niveau de risque encouru par le père : ce sont les pères susceptibles de décéder dont le prénom est transmis. Ainsi les pères qui décèderont après la naissance de leur enfant, pendant la guerre, voient leur prénom plus transmis que les autres pères. Et les pères qui décèdent *avant* la naissance de leur enfant (les pères dont le risque est avéré, donc) « voient » très souvent leur prénom transmis.

On s’intéresse aussi à l’héroïsation, mais en se penchant sur la transmission du prénom des oncles. En effet, le créneau de transmission, pour les pères, est limité : leurs enfants ne peuvent naître plus de neuf mois après son décès. Ce n’est pas le cas des oncles : cinq ou six ans après leur décès, leur prénom peut toujours être transmis. Et la surtransmission du prénom des oncles décédés pendant la guerre dure longtemps, jusqu’au milieu des années vingt.

Pour en savoir plus, vous pouvez lire l’article “Naming for Kin during World War I: Baby Names as Markers for War”, mais aussi regarder la capsule vidéo sur youtube, ou consulter le code de déduplication utilisé pour cette enquête (et posté sur github). Une page spécifique consacré à “Naming for Kin” contient d’autres informations.

Découpages incongrus

Maintenant que l’Institut géographique national a libéré ses données, on dispose des découpages géographiques à des échelles très fines : IRIS ou communes, par exemple.
Mais parfois, on a besoin d’un autre découpage de la France, parce que les données sont disponibles à une autre échelle, celle des ressorts des tribunaux judiciaires par exemple, ou un mélange de départements, régions, EPCI…

Commençons par les tribunaux. On trouve, sur le site de l’observatoire des territoires le tribunal de rattachement de toutes les communes françaises. On peut donc, à partir du fichier “ADMIN EXPRESS” de l’IGN, faire la jointure entre communes et tribunal, pour dessiner la carte des ressorts des 164 tribunaux.

La carte des ressorts des tribunaux :

que l’on peut relier à des données (comme la durée moyenne des affaires) :

Et maintenant le recensement. L’insee met à disposition, en accès libre, les fichiers détail du recensement. Il existe un fichier avec les individus localisés à la région, fichier proposant des variables avec des modalités très fines, comme la profession détaillée. Le titre du fichier est légèrement trompeur, car les individus sont localisés à l’échelle de la région pour les régions peu peuplées, mais aussi à l’échelle du département, pour les départements de plus de 700 000 personnes, et à l’échelle de l’EPCI (pour Paris, Marseille, Lille, Lyon, Bordeaux et Toulouse). Cela donne un découpage un peu incongru de la France, que voici :

Comme vous pouvez le constater, on trouve les départements peuplés de la Bretagne, des grosses métropoles, et de larges régions un peu plus vides.

Ce découpage n’est pas inutile. Voici, par exemple, une cartographie de la part d’immigré.e.s parmi les hommes et femmes de ménage auprès des particuliers :

Je vais essayer de mettre le code permettant de générer ces cartes sur github.

La spirale de Du Bois

Dans un cours de visualisation des données (une introduction à {ggplot}), j’ai rapidement présenté quelques graphiques réalisés par le sociologue W.E.B Du Bois pour l’exposition universelle de Paris en 1900. Si vous ne connaissez pas ces graphiques et le contexte de leur création, regardez cette série d’articles : W. E. B. Du Bois’ staggering Data Visualizations are as powerful today as they were in 1900.
Une étudiante m’a demandé s’il était facile de reproduire ces graphiques avec R. On trouve des réplications de ces graphiques réalisées avec R :

Mais je n’ai pas trouvé de réplication de ce graphique :


Daniel Murray collection (Library of Congress).

Alors je me suis mis au travail, et voici le résultat :

(J’ai déposé le code sur github)

Une deuxième vague

En novembre 2020, la « Deuxième vague » de décès covid apparaît très visible dans les données publiées, presque en temps réel, par l’INSEE.

cliquez pour agrandir

La courbe rouge, les décès toutes causes confondues, dépasse largement le nombre de décès attendus, et est très proche de la courbe verte qui additionne le nombre moyen décennal de décès et le nombre de décès du covid.
L’INSEE fait un travail formidable de publication, semaine après semaine, des décès comptabilisés en France. Les chiffres les plus récents concernent les décès datant de 11 jours à peine.
Mais tous les décès ne sont pas parvenus à l’INSEE 11 jours après la date du décès. Parfois la remontée des informations met plus de temps.
Ce qui fait que, quand on représente sur un même graphique les différents fichiers publiés par l’INSEE depuis avril, on voit que les chiffres des décès les plus récents sont toujours révisés à la hausse.
Dans le graphique suivant, j’indique par une flèche rouge la différence entre le nombre initial de décès et le nombre final quand le fichier est publié environ onze jours après la date des décès. On le voit, la sous-estimation est toujours là.

Si on représente les choses autrement, en indiquant le ratio “nombre final de décès / nombre initial” en fonction de la distance temporelle entre la date de publication et la date du décès, on voit que, quand les décès sont très récents (environ 11 jours), le nombre final sera environ 10% plus élevé que le nombre initial. Cette sous-estimation est régulière et stable, et décroît rapidement.

On peut donc affecter les chiffres publiés d’un coefficient multiplicateur, pour avoir une idée plus précise du nombre réel de décès “à 11 jours”. C’est la courbe rouge, dans le graphique suivant :

Et c’est cette courbe redressée que j’utilise pour le graphique initial.

L’identité en réseau : sous la pelote, la race ?

L’identité, dictionnaire encyclopédique (Gallimard, 2020, dir. Jean Gayon) [lien amazon], qui vient d’être publié, propose environ 140 notices, de trinité à épigénétique, dont une dont je suis l’auteur. Chaque notice compte entre deux et neuf renvois vers d’autres notices, et chaque notice reçoit entre zéro et seize renvois. Je vais traiter ces renvois comme des liens entre notices.

Il y a, en tout, 750 liens. Dans le graphique suivant, chaque notice est représentée par un point, et s’il y a un renvoi entre deux notices, alors un arc est tracé entre les deux points. La couleur correspond au domaine de la notice (Sociologie, Sciences naturelles…). Le grand nombre de liens et de notices rend le graphique peu lisible.

Toutes les notices sont donc reliées, directement ou indirectement, à toutes les autres (parce que chaque notice comporte des renvois à d’autres : car il existe quelques notices à laquelle aucune autre ne renvoie). La grosse “pelote” de liens montre un travail pluridisciplinaire, une attention au croisement entre disciplines (au moins au niveau des références) : il y aurait facilement pu y avoir deux ou trois “pelotes” fortement connectées en internes mais faiblement connectées aux autres. Or ce n’est pas le cas.

Certains chemins de citation sont assez long : on ne passe pas des sciences naturelles à la littérature en un petit saut. Le plus long relie la Physique quantique aux Troubles de la mémoire : voilà ce qui arrive quand on oublie dans quelle boîte on a mis le chat de Shrödinger.

physique quantique –> lois de la nature –> changement –> developpement (biologie) –> developpement (psychologie) –> double –> copie –> genie –> troubles de la personnalite

Le nombre moyen de citations vers d’autres notices est très proche entre domaines. Si les philosophes avaient autant cité que les Psy, alors ils auraient proposé 18 renvois en plus.

domaine nombre_notices nombre_renvois moyenne
Philo 17 84 4.9
Sc. nat. 36 180 5.0
Socio 30 166 5.5
Littérature 24 134 5.6
Psy 31 185 6.0

La grosse différence c’est le renvoi vers d’autres domaines. Seulement 28% des renvois en provenance des notices en “Sociologie” sont en direction d’autres notices en “Sociologie”, alors que c’est le cas de 57% des notices de sciences naturelles. Qu’en conclure ? Que les sociologues se pensant comme discipline centrale, ils (et elles) pense que tout le reste leur est annexe (“bon à picorer”) ? Où qu’ils (et elles) sont faiblement disciplinaires et cherchent à légitimer leurs textes par des références à d’autres disciplines? On ne proposera pas de grande conclusion en se basant sur 30 notices.

La pelote n’était pas très lisible : on l’a compris : beaucoup de liens, et des liens qui vont d’une discipline à l’autre.

Mais on pourrait considérer que deux notices sont vraiment en lien quand elles font toutes deux références à l’autre, quand le lien entre elles est mutuel. Dans le graphique suivant, je n’ai donc gardé que les notices « fortement connectées » entre elles.


cliquez pour agrandir

On voit un peu mieux apparaître des branches disciplinaires.

Les notices s’organisent autour de trois cercles tangents. Un premier cercle philosophique Individu – genidentité – changement – principe d’identité – même/autre – ipséité – identité narrative … jusqu’à la personne. De l’autre côté un cercle plutôt sociologique, que l’on va faire commencer par individu – personne – papier d’identité – nom/prénom – nom propre – langue – identité nationale – race – classification et retour au point de départ. Et un dernier cercle « sciences naturelles ».

Au « centre » de ce réseau, les notices individu, personne et identité personnelle. Je mets ici « centre » entre guillemets car une représentation graphique de ce type peut être trompeuse. Il est peut-être préférable de faire appel aux indices de centralité que l’on utilise pour repérer, dans un réseau, les individus les plus centraux.

Imaginons une lectrice qui commencerait à lire le dictionnaire en prenant une notice au hasard et qui chercherait à atteindre le plus rapidement une autre notice, le point de passage le plus fréquemment traversé le long du plus court chemin entre deux autres nœuds est ici la notice “Développement (psychologie)”.

Un autre indice peut nous intéresser, plus simple : le nombre de liens envoyés et reçus, par chaque notice, c’est à dire la centralité « de degré ». Tout en haut, « Race », qui est dans les renvois de 15 notices et qui propose neuf renvois.

« Race » ? Voilà qui est intéressant dans un dictionnaire encyclopédique de l’identité. En tout cas je ne m’y attendais pas.On peut toutefois se dire que ce n’est pas la même chose de recevoir un lien de la notice “Trinité”, qu’aucune autre notice ne cite, ou de la notice “Nom propre”, qui est plus souvent proposée comme renvois, et prendre en compte le nombre de citation reçu par la notice citante pour déterminer la centralité de la notice citée.

Dans ce cas, c’est la notice « Race » qui reçoit encore le score le plus élevé : elle est souvent citée, mais elle est aussi souvent citée par des notices elles aussi souvent citées (par des notices souvent citées…). Voilà qui donne une actualité certaine à ce dictionnaire (et on pourra lire avec profit les réflexions sur la fin de l’analyse de classe ? d’Abdellali Hajjat) ).

Cependant ce premier score est faiblement assuré. Celui de la notice « Individu » est très très proche, et quelques liens en plus ou en moins l’aurait fait passer en première position. J’ai fait le calcul : si l’on enlève 7 citations au hasard, soit 1% du total, et qu’on répète l’opération un millier de fois, alors « individu » se retrouve plus souvent en première position que « race ». Certes : mais c’est cet ouvrage qui existe, pas les 1000 autres ouvrages virtuels qu’on aurait pu écrire.

Dans le graphique suivant, que je propose en conclusion, ne sont indiqués que les titres des notices les plus « centrales » au sens des trois indices précédents.


cliquez pour agrandir

 

L’Identité, dictionnaire encyclopédique est dans toutes les bonnes librairies : lien librestlien decitrelien leslibraires

Prénoms et mention, édition 2020

Les résultats nominatifs au bac 2020 ont été publiés hier. Ce millésime est particulier : l’épidémie de covid19 a empêché les épreuves habituelles, et ce sont les notes harmonisées du contrôle continu qui ont servi de notes au bac.
Cela ne semble pas avoir modifié la distribution des mentions par prénom (ci-dessous, pour les bacs généraux et technologiques). En gros, pour tout le monde (ou presque, ça reste à calculer), la fréquence d’accès à la mention très bien a été multipliée par 1,5. Mais les prénoms qui avaient peu accès à la mention « très bien » en 2019 ou 2018 n’ont — comparativement au reste — pas vu leur position dans le nuage se déplacer.

 

cliquez pour agrandir (sinon ce n’est pas très lisible)

Pour les années précédentes, voir l’édition 2019, ou l’édition 2018, 2017, ou en 2016 ou encore en 20152014,2013, 2012 ou 2011. Vous pouvez aussi lire Sociologie des prénoms (édition La Découverte) [sur amazon, dans une librairie indépendante].