Categories

Archives

La Grande Guerre fut une surprise…

… du moins au début. Si on récupère, grâce à Gallica, le texte de huit quotidiens nationaux français en 1914 et qu’on compte les occurrences du mot « guerre », on s’aperçoit que ce n’est que dans les éditions du 26 juillet — un mois après l’assassinat de l’Archiduc, quelques jours avant la mobilisation générale en France — que le mot « guerre » dépasse sa fréquence moyenne.


cliquez pour agrandir

Autour du 16 juillet 1914, les journaux parlent de « guerre », mais pas vraiment comme une menace immédiate : ils en parlent parce que le Congrès de la SFIO discute de l’impérialisme et de la guerre. Et autour du 23-24 juillet, les journaux n’utilisent presque pas le mot « guerre ».

On peut comprendre que, sans télé, sans radio, le risque de déclenchement des hostilités ne soit pas entré dans les esprits des Françaises et des Français. La guerre fut une surprise.

L’argent des normaliens

Cette année, l’École normale supérieure Paris-Saclay (du moins la formation de sociologie) est entrée dans le Collectif POF qui forme les étudiants à la recherche par la recherche. Cette année neuf universités et l’ENS Paris-Saclay ont donc préparé un questionnaire, au premier semestre, recueilli les réponses de plus de 12 000 étudiants, et, au deuxième semestre, procédé à l’analyse des réponses. Cette année, le thème de l’enquête portait sur le budget des étudiants : leurs ressources, les usages de l’argent, le suivi des dépenses, etc… Et comme les élèves des ENS sont fonctionnaires-stagiaires, et donc rémunérés, le thème était particulièrement intéressant.
Avec Marion Michel qui était responsable du cours du premier semestre, j’ai rédigé un « 4 pages » qui présente quelques résultats.

Vous pouvez télécharger l’article :
Coulmont Baptiste et Michel Marion, « L’argent n’est pas un problème… », Documents Études Recherches SHS, 2024, n°2, p.1-4

Deux articles : féminisme, immigration

Je signale rapidement deux articles publiés récemment :

  1. «Faire référence. L’économie de la citation dans dix revues féministes» est un chapitre, écrit avec Isabelle Clair et Elsa Dorlin, dans leur ouvrage Photo de famille. Penser des vies intellectuelles d’un point de vue féministe. Dans ce travail, nous avons compté les citations faisant référence à 31 autrices et auteurs, dans 2981 articles dans dix revues féministes, principalement françaises (Travail, genre et société, les Cahiers du genre, Clio, etc…). Nous avons suivi les références faites à 26 femmes (avant 2016) et 5 hommes. Notre corpus compte 2705 auteurs et autrices citant (ou pas) les 31 auteurs et autrices suivies. Une chose m’a frappé : les hommes (a priori féministes) écrivant dans des revues explicitement féministes citent plus souvent des auteurs hommes (et donc moins souvent les autrices) que les femmes…
  2. La diversité des origines et la mixité des unions progressent au fil des générations (dans Insee première, n°1910), écrit avec Jérôme Lê et Patrick Simon, s’intéresse à la proportion d’immigrés, de descendants d’immigrés de 2e génération, et de descendants d’immigrés de troisième génération. On suit donc l’immigration sur trois générations. Et on met en évidence les conséquences de la mixité des unions sur plusieurs générations : Parmi les descendants de 3e génération, neuf sur dix n’ont qu’un ou deux grands-parents immigrés, 92% ont au moins un grand-parent né français en France.

Les prénoms des élus

Il y a, en 2022, environ 502 000 élus dans les différents conseils municipaux en France. Le répertoire national des élus est téléchargeable sur data.gouv.fr. Les prénoms les plus fréquents sont Jean, Marie, Philippe, Michel…
Mais ces prénoms sont aussi fréquents dans la population française non élue. Quels sont donc les prénoms qui sont sur-représentés chez les élus ?

Voici le raisonnement que j’ai suivi : j’ai comparé les prénoms des élus avec les prénoms des personnes nées en France, à partir du Fichier des prénoms, de l’Insee. Je vais présenter les résultats sous la forme d’un graphique qui compare la distribution des prénoms dans le Répertoire national des élus avec la distribution du Fichier des prénoms. Voici un graphique explicatif :
 

Vous remarquerez que les échelles sont logarithmiques.

Première comparaison

Je commence par comparer la population des élus et élues avec la population née en France depuis 1900 à partir du Fichier des prénoms. S’il y a 1,2% des naissances qui sont des naissances de bébés prénommés Zygloub et qu’il y a 2,4% de Zygloub parmi les élus, alors Zygloub est 2 fois plus présent chez les élus que ce qui est attendu (2 = 2,4 / 1,2).

Apparemment, il y a “trop” de Didier et de Régis parmi les élus, et “pas assez” de Jeannine, de Mohamed et de Thérèse. Quatre fois moins de Louis qu’attendu, et trois fois plus d’Hervé.
Mais on a tout de suite un problème : la population des élus municipaux compte moins de femmes que la population française, ce qui va se refléter sur la position des prénoms sur ce graphique. Je vais donc faire une deuxième comparaison, en tenant compte de la part des femmes parmi les élu·e·s.

Deuxième comparaison

Cela ne change pas grand chose, mais on voit des prénoms comme Justine ou Marie se rapprocher d’un rapport d’égalité :
 

Et de l’autre côté du graphique, les prénoms masculins sur-représentés apparaissent moins sur-représentés (étant donné que les hommes constituent la majorité des élus).

Troisième comparaison

On peut aller plus loin : les élus municipaux sont principalement des élus de toutes petites communes. Et à Paris, par exemple, il y a peu d’élus municipaux par comparaison avec la population. Quand on compare les prénoms de la population à ceux des élus, on peut le faire sur une base départementale : s’il y a peu de Samira en Corrèze, il y aura sans doute peu d’élues nommées Samira (même si, dans le Nord, il va naitre plus de Samira).

Dans le graphique suivant, je contrôle donc par les naissances départementales :


 
Peu de changements, là aussi. Mais quand même : si les Mohamed étaient quatre fois moins fréquents qu’attendus quand on ne prenait pas en compte les départements, ils ne sont plus que 2,5 fois moins fréquents qu’attendus.

Quatrième comparaison

Il faut donc probablement contrôler par le sexe et le département, comme je le propose ci-dessous :


 
Bof, non ? Ça ne conduit pas à une modification radicale des sur- et sous-représentations. C’est probablement parce que j’ai oublié que les élus n’avaient pas 110 ans, et qu’ils n’avaient pas 10 ans non plus.

Cinquième comparaison

Il faut donc, bien entendu, contrôler par l’année de naissance. Et cela d’autant plus que les prénoms connaissent souvent une période – plutôt courte – pendant laquelle ils sont beaucoup donnés. Si les Jeannine sont peu présentes parmi les élus, c’est parce qu’elles sont en grande partie déjà décédées.

Dans le graphique suivant, je prend donc en compte la distribution par âge de la population des élus.


 
Ah, là il y a du changement. Une bonne partie des prénoms se retrouvent à proximité du rapport d’égalité entre le nombre d’élus et le nombre attendu d’élus. Mais ne peut-on pas aussi prendre en compte le sexe et le département ?

Sixième comparaison

Oh que si : dans le dernier graphique, je montre les résultats d’un calcul prenant en compte l’année de naissance, le sexe et le département d’élection des élu·e·s :

La “boule” centrale s’est encore rétrécie : on prévoie assez bien combien il y a aura de Céline élues si l’on connaît la distribution par âge, sexe et départements de la population des élues. Il reste quelques prénoms que ces variables expliquent mal : Bertrand, Armelle, Bénédicte, Etienne, Benoît, Hugues et Hubert se retrouvent trop souvent parmi les élus. Est-ce un signe que ces prénoms sont attachés à des personnes disposant de ressources sociales plus importantes ? De l’autre côté, on trouve des prénoms symétriques : Tony, Kevin, Sabrina, Nadia, Jonathan, Jessica… que l’on devrait retrouver plus souvent chez les élus.

Et Mohamed et Karim : même en tenant compte de l’âge des élus, de leur département d’élection, de leur sexe… il y a “trop peu” de Mohamed et de Karim parmi les élus municipaux. Pour quelles raisons ? Peut-être l’utilisation d’un autre prénom au quotidien et une candidature sous un autre prénom que le prénom de naissance (comme le firent ou le font Marie-Ségolène “Ségolène” Royal, Marion-Anne “Marine” Le Pen et tant d’autres). Peut-être qu’il faudrait prendre en compte une échelle plus fine que le département ? Ou peut-être qu’on trouverait d’autres raisons si on cherchait un peu.

Notes :

  1. J’ai transformé les prénoms composés : Anne-Marie est Anne, Jean-Philippe est Jean…
  2. J’ai asciifié les prénoms : ils n’ont plus aucun accent ni cédilles
  3. C’est un peu stupide de prendre en compte les naissances départementales pour estimer une proportion attendue, comme si les élus étaient nés là où ils sont élus
  4. Et en plus, avec la fin du département de la Seine en 1968, les codages bizarres de l’Outre-Mer, je ne suis pas certain de ne pas avoir été trop rapide parfois
  5. J’ai sans doute fait des erreurs, mais si vous voulez les corriger, le code est sur github

Un petit rapport sur les prénoms (2022)

L’Insee publie maintenant en accès libre, chaque année en juin ou juillet, un « Fichier des prénoms » donnant, depuis 1900, le nombre de bébés ayant reçu tel ou tel prénom. Voici donc un petit rapport sur les prénoms (2022, pdf) à télécharger…

…Ou alors à générer vous-même, à partir du code source publié sur github : le document pdf (texte et graphique) est créé avec le logiciel R.

Des animaux et des indigènes : « race » dans le Journal officiel

De 1896 à la décolonisation de Madagascar, le Journal officiel de Madagascar et dépendances rend compte de l’actualité légale d’un territoire qui est alors colonie française.
Dans ce Journal officiel il est assez régulièrement fait mention de « race ». Par exemple ici :

Source Gallica

ou encore ici

Source Gallica

Mais dans le premier extrait, il s’agit d’humains, dans le second de chevaux.
Mon nominalisme radical m’a poussé à en savoir plus. J’ai donc, grâce à l’API de Gallica, récupéré toutes les occurrences de « race(s) » dans le J.O de Madagascar. L’année 1931 manque, et c’est un petit malheur. Autour de ce mot, après avoir éliminé les mots de liaison (et, ou, mais, il…), j’ai pris une fenêtre de 50 mots avant et après. J’ai ensuite procédé à une classification thématique au moyen d’un “topic modelling“. J’ai retenu trois “topics”.

Le premier, que j’ai nommé “Production”, rassemble des extraits consacré aux races bovines, et à la production de viande. Le troisième s’intéresse à la “Reproduction” et au prix des animaux, à la fécondité. Les “métis” désignent souvent des croisements de races animales, pas les enfants de couples de colons et de Malgaches. Le deuxième “topic” concerne surtout des humains : ça parle de colonie, de province, de chef, de gouverneur, de population et d’indigènes.

Et ça évolue dans le temps : chaque extrait a une probabilité d’être affecté à un “topic” (un extrait peut être attaché à plusieurs topics), et je fais la moyenne par période de 5 ans.

Si je lis bien ce que j’ai fait, et j’ai probablement fait des erreurs ici et là, c’est le thème de la Reproduction qui émerge à partir des années 1920, en réduisant la part des extraits associés aux autres thèmes. Ce n’est pas que les « indigènes » perdent leur « race » à partir de la première guerre mondiale, mais plutôt que les réflexions agricoles prennent de l’ampleur.

La lecture plus qualitative des extraits du J.O. de Madagascar laisse percevoir la déconnexion des usages du mot «race(s)». On trouvera très peu de textes qui parlent simultanément de races d’humains et de races d’animaux. La gestion des populations humaines et celle des populations de bétail ne sont pas exactement les mêmes.

Mon père, ce héros ? (ou Son père, mon héros)

Le Journal of Interdisciplinary History vient de publier un article (co-écrit avec Nicolas Todd, du Centre Roland Mousnier, CNRS) sur la transmission des prénoms pendant la Première Guerre mondiale.
Ce que nous avons cherché à expliquer, c’est, essentiellement, ce graphique :

Entre 1905 et le 1er août 1914, mois après mois, semaine après semaine, 12% des garçons environ reçoivent en premier prénom le premier prénom de leur père. D’après les données fournies par geneanet, c’est très stable mais à la baisse, à mesure que les parents cessent de transmettre un prénom et préfèrent, pour leurs enfants, des prénoms nouveaux. Le graphique précédent se concentre sur le taux hebdomadaire entre janvier 1913 et mars 1915, pour les garçons (on observerait la même chose pour les filles).
Mais dès la semaine du 3 août 1914, après la déclaration de guerre et la mobilisation générale du 1er août 1914, le taux de transmission passe à 17 ou 18%. On observerait des choses similaires, mais avec des proportions plus élevées, si l’on s’était intéressé à « la transmission d’un des prénoms du père à son fils » (par exemple le 3e prénom du père transmis en première position).
Toute la question est de savoir à quoi est due cette augmentation rapide ? On pourrait croire à de l’imitation, mais c’est trop rapide, le basculement se fait en quelques heures à peine, et qui donc les mères imiteraient ? Ce n’est pas non plus — en tout cas pas au cours des trois premières semaines d’août — lié aux décès des pères. Enfin ce n’est pas — à elle seule — la situation de guerre et la perturbation générale de la « division sociale du travail » qui conduit à cette hausse. Car tout redevient normal (au niveau des prénoms) en mai 1915 alors que tout reste en guerre.

Pourquoi donc, neuf mois environ après le début du conflit, ce taux de transmission revient au niveau initial ? (Indice : neuf mois).

Dans l’article, nous avançons l’idée selon laquelle la sur-transmission est liée au niveau de risque encouru par le père : ce sont les pères susceptibles de décéder dont le prénom est transmis. Ainsi les pères qui décèderont après la naissance de leur enfant, pendant la guerre, voient leur prénom plus transmis que les autres pères. Et les pères qui décèdent *avant* la naissance de leur enfant (les pères dont le risque est avéré, donc) « voient » très souvent leur prénom transmis.

On s’intéresse aussi à l’héroïsation, mais en se penchant sur la transmission du prénom des oncles. En effet, le créneau de transmission, pour les pères, est limité : leurs enfants ne peuvent naître plus de neuf mois après son décès. Ce n’est pas le cas des oncles : cinq ou six ans après leur décès, leur prénom peut toujours être transmis. Et la surtransmission du prénom des oncles décédés pendant la guerre dure longtemps, jusqu’au milieu des années vingt.

Pour en savoir plus, vous pouvez lire l’article “Naming for Kin during World War I: Baby Names as Markers for War”, mais aussi regarder la capsule vidéo sur youtube, ou consulter le code de déduplication utilisé pour cette enquête (et posté sur github). Une page spécifique consacré à “Naming for Kin” contient d’autres informations.

La spirale de Du Bois

Dans un cours de visualisation des données (une introduction à {ggplot}), j’ai rapidement présenté quelques graphiques réalisés par le sociologue W.E.B Du Bois pour l’exposition universelle de Paris en 1900. Si vous ne connaissez pas ces graphiques et le contexte de leur création, regardez cette série d’articles : W. E. B. Du Bois’ staggering Data Visualizations are as powerful today as they were in 1900.
Une étudiante m’a demandé s’il était facile de reproduire ces graphiques avec R. On trouve des réplications de ces graphiques réalisées avec R :

Mais je n’ai pas trouvé de réplication de ce graphique :


Daniel Murray collection (Library of Congress).

Alors je me suis mis au travail, et voici le résultat :

(J’ai déposé le code sur github)

Une deuxième vague

En novembre 2020, la « Deuxième vague » de décès covid apparaît très visible dans les données publiées, presque en temps réel, par l’INSEE.

cliquez pour agrandir

La courbe rouge, les décès toutes causes confondues, dépasse largement le nombre de décès attendus, et est très proche de la courbe verte qui additionne le nombre moyen décennal de décès et le nombre de décès du covid.
L’INSEE fait un travail formidable de publication, semaine après semaine, des décès comptabilisés en France. Les chiffres les plus récents concernent les décès datant de 11 jours à peine.
Mais tous les décès ne sont pas parvenus à l’INSEE 11 jours après la date du décès. Parfois la remontée des informations met plus de temps.
Ce qui fait que, quand on représente sur un même graphique les différents fichiers publiés par l’INSEE depuis avril, on voit que les chiffres des décès les plus récents sont toujours révisés à la hausse.
Dans le graphique suivant, j’indique par une flèche rouge la différence entre le nombre initial de décès et le nombre final quand le fichier est publié environ onze jours après la date des décès. On le voit, la sous-estimation est toujours là.

Si on représente les choses autrement, en indiquant le ratio “nombre final de décès / nombre initial” en fonction de la distance temporelle entre la date de publication et la date du décès, on voit que, quand les décès sont très récents (environ 11 jours), le nombre final sera environ 10% plus élevé que le nombre initial. Cette sous-estimation est régulière et stable, et décroît rapidement.

On peut donc affecter les chiffres publiés d’un coefficient multiplicateur, pour avoir une idée plus précise du nombre réel de décès “à 11 jours”. C’est la courbe rouge, dans le graphique suivant :

Et c’est cette courbe redressée que j’utilise pour le graphique initial.

L’identité en réseau : sous la pelote, la race ?

L’identité, dictionnaire encyclopédique (Gallimard, 2020, dir. Jean Gayon) [lien amazon], qui vient d’être publié, propose environ 140 notices, de trinité à épigénétique, dont une dont je suis l’auteur. Chaque notice compte entre deux et neuf renvois vers d’autres notices, et chaque notice reçoit entre zéro et seize renvois. Je vais traiter ces renvois comme des liens entre notices.

Il y a, en tout, 750 liens. Dans le graphique suivant, chaque notice est représentée par un point, et s’il y a un renvoi entre deux notices, alors un arc est tracé entre les deux points. La couleur correspond au domaine de la notice (Sociologie, Sciences naturelles…). Le grand nombre de liens et de notices rend le graphique peu lisible.

Toutes les notices sont donc reliées, directement ou indirectement, à toutes les autres (parce que chaque notice comporte des renvois à d’autres : car il existe quelques notices à laquelle aucune autre ne renvoie). La grosse “pelote” de liens montre un travail pluridisciplinaire, une attention au croisement entre disciplines (au moins au niveau des références) : il y aurait facilement pu y avoir deux ou trois “pelotes” fortement connectées en internes mais faiblement connectées aux autres. Or ce n’est pas le cas.

Certains chemins de citation sont assez long : on ne passe pas des sciences naturelles à la littérature en un petit saut. Le plus long relie la Physique quantique aux Troubles de la mémoire : voilà ce qui arrive quand on oublie dans quelle boîte on a mis le chat de Shrödinger.

physique quantique –> lois de la nature –> changement –> developpement (biologie) –> developpement (psychologie) –> double –> copie –> genie –> troubles de la personnalite

Le nombre moyen de citations vers d’autres notices est très proche entre domaines. Si les philosophes avaient autant cité que les Psy, alors ils auraient proposé 18 renvois en plus.

domaine nombre_notices nombre_renvois moyenne
Philo 17 84 4.9
Sc. nat. 36 180 5.0
Socio 30 166 5.5
Littérature 24 134 5.6
Psy 31 185 6.0

La grosse différence c’est le renvoi vers d’autres domaines. Seulement 28% des renvois en provenance des notices en “Sociologie” sont en direction d’autres notices en “Sociologie”, alors que c’est le cas de 57% des notices de sciences naturelles. Qu’en conclure ? Que les sociologues se pensant comme discipline centrale, ils (et elles) pense que tout le reste leur est annexe (“bon à picorer”) ? Où qu’ils (et elles) sont faiblement disciplinaires et cherchent à légitimer leurs textes par des références à d’autres disciplines? On ne proposera pas de grande conclusion en se basant sur 30 notices.

La pelote n’était pas très lisible : on l’a compris : beaucoup de liens, et des liens qui vont d’une discipline à l’autre.

Mais on pourrait considérer que deux notices sont vraiment en lien quand elles font toutes deux références à l’autre, quand le lien entre elles est mutuel. Dans le graphique suivant, je n’ai donc gardé que les notices « fortement connectées » entre elles.


cliquez pour agrandir

On voit un peu mieux apparaître des branches disciplinaires.

Les notices s’organisent autour de trois cercles tangents. Un premier cercle philosophique Individu – genidentité – changement – principe d’identité – même/autre – ipséité – identité narrative … jusqu’à la personne. De l’autre côté un cercle plutôt sociologique, que l’on va faire commencer par individu – personne – papier d’identité – nom/prénom – nom propre – langue – identité nationale – race – classification et retour au point de départ. Et un dernier cercle « sciences naturelles ».

Au « centre » de ce réseau, les notices individu, personne et identité personnelle. Je mets ici « centre » entre guillemets car une représentation graphique de ce type peut être trompeuse. Il est peut-être préférable de faire appel aux indices de centralité que l’on utilise pour repérer, dans un réseau, les individus les plus centraux.

Imaginons une lectrice qui commencerait à lire le dictionnaire en prenant une notice au hasard et qui chercherait à atteindre le plus rapidement une autre notice, le point de passage le plus fréquemment traversé le long du plus court chemin entre deux autres nœuds est ici la notice “Développement (psychologie)”.

Un autre indice peut nous intéresser, plus simple : le nombre de liens envoyés et reçus, par chaque notice, c’est à dire la centralité « de degré ». Tout en haut, « Race », qui est dans les renvois de 15 notices et qui propose neuf renvois.

« Race » ? Voilà qui est intéressant dans un dictionnaire encyclopédique de l’identité. En tout cas je ne m’y attendais pas.On peut toutefois se dire que ce n’est pas la même chose de recevoir un lien de la notice “Trinité”, qu’aucune autre notice ne cite, ou de la notice “Nom propre”, qui est plus souvent proposée comme renvois, et prendre en compte le nombre de citation reçu par la notice citante pour déterminer la centralité de la notice citée.

Dans ce cas, c’est la notice « Race » qui reçoit encore le score le plus élevé : elle est souvent citée, mais elle est aussi souvent citée par des notices elles aussi souvent citées (par des notices souvent citées…). Voilà qui donne une actualité certaine à ce dictionnaire (et on pourra lire avec profit les réflexions sur la fin de l’analyse de classe ? d’Abdellali Hajjat) ).

Cependant ce premier score est faiblement assuré. Celui de la notice « Individu » est très très proche, et quelques liens en plus ou en moins l’aurait fait passer en première position. J’ai fait le calcul : si l’on enlève 7 citations au hasard, soit 1% du total, et qu’on répète l’opération un millier de fois, alors « individu » se retrouve plus souvent en première position que « race ». Certes : mais c’est cet ouvrage qui existe, pas les 1000 autres ouvrages virtuels qu’on aurait pu écrire.

Dans le graphique suivant, que je propose en conclusion, ne sont indiqués que les titres des notices les plus « centrales » au sens des trois indices précédents.


cliquez pour agrandir

 

L’Identité, dictionnaire encyclopédique est dans toutes les bonnes librairies : lien librestlien decitrelien leslibraires