Categories

Archives

L’honneur et le mérite

En France, si vous observez des groupes inégalement prestigieux, ou placés à des degrés différents dans une hiérarchie, vous observerez aussi que les membres de ces groupes n’ont pas la même probabilité d’avoir un nom à particule. Comme les noms à particule sont très rares en France (moins de 0,8% des personnes nées en France en sont dotés), il faut avoir des groupes de grande taille pour trouver des gens à particule. Ou alors il faut avoir des groupes que l’on peut rattacher aux classes dominantes, et l’on verra qu’au sein de ces groupes, les gens à particule constitue une sorte d’aristocratie, de paranoblesse.
Ici, je vais explorer la liste des personnes ayant reçu la Légion d’honneur ou l’Ordre national du mérite entre 1990 et aujourd’hui. Soit environ 222 340 individus (une partie cumule les titres, et on les retrouve dans les deux listes). L’Ordre national du mérite est un ordre bâtard, de création récente (1963). La Légion d’honneur, elle, est doté du prestige de l’ancienneté. La proportion de gens à particule varie : 2,5% des «méritants» ont une particule, et c’est le cas de 3,6% des «légionnaires». Un rapport de 1 à 1.44 entre ces deux ordres, et surtout, une surreprésentation importante quand on la compare avec la population de la France. Il y a au minimum 4,5 fois plus de gens à particule chez les légionnaires que dans la population.
Ces différences entre ordres ne sont pas dues au hasard. Elles se répêtent chaque année, de manière systématique, comme le montre ce graphique:


Année après année, il y a toujours plus de récipiendaires à particule dans les listes de légionnaires que dans les listes de méritants. Encore aujourd’hui, dans la France contemporaine. (Et ce n’est pas du aux militaires recevant la Légion d’honneur, j’ai vérifié.)

La proportion de personnes à particule varie, au sein de ces ordres, de deux façons. Tout d’abord, plus on grimpe dans la hiérarchie locale, plus la proportion de gens à particule augmente.


11% des Grand’croix de la Légion d’honneur ont un nom à particule, ce n’est le cas que de 3,5% des simples “Chevaliers” (qui, contrairement à leur titre, ne sont que que de la piétaille). L’augmentation de la proportion de gens à particule avec les titres se repère aussi dans le cas de l’Ordre du mérite.

Pour devenir Grand’Croix, il faut d’abord être Grand Officier, et pour être Grand Officier il faut être Commandeur, etc… et il faut attendre un moment avant de pouvoir monter l’échelle. Les plus titrés sont donc les plus âgés, et les plus âgés dans l’Ordre. Entrer jeune a des effets sur la fin de carrière. C’est pourquoi il est fascinant de voir que, encore aujourd’hui dans la France contemporaine, la proportion de récipiendaire à particule est beaucoup plus élevée quand ces récipiendaires ont un faible nombre d’«années de service» :

Ce graphique ne concerne que les “Chevaliers” : 6% de celles et ceux qui sont nommés après juste 20 ans de service ont un nom à particule. La prime à la jeunesse est aussi clairement visible dans le cadre des entrées dans l’Ordre national du mérite. Voilà pourquoi il est fort probable que, dans quelques décennies encore, les Grand’Croix et Grand.e.s Officier.e.s auront toujours plus de noms à tiroir que les Chevaliers.

 
Notes : les données proviennent de Légifrance, par l’intermédiaire de Nathann Cohen

Toujours pas de chrysanthèmes

Je suis heureux de voir la publication d’un article écrit avec Céline Braconnier et Jean-Yves Dormagen, dans la Revue française de sciences politiques : « Toujours pas de chrysanthèmes pour les variables lourdes de la participation électorale ».
Cet article s’appuie sur les données de l’Enquête Participation Électorale 2017 de l’INSEE. Avec les coordinatrices de cette enquête, à l’INSEE, Jean-Yves, Céline et moi avons constitué un petit groupe scientifique, qui s’est réuni en 2016 et 2017, et qui avait quelques buts. Améliorer la prise en compte du comportement électoral des électeurs qui ne sont pas inscrits là où ils habitent, car les enquêtes précédentes, en enlevant un peu trop de toutes petites communes à l’échantillon, avait éliminé un peu trop de personnes inscrites-ailleurs. Et repérer les votes par procuration (à partir des informations contenues dans les listes d’émargement).
L’article publié aujourd’hui s’intéresse plus précisément à l’accentuation des écarts de participation entre le bas et le haut de l’échelle sociale, entre les deux tours de la présidentielle et les élections législatives. L’abstention a augmenté, mais sans que les écarts de participation entre catégories sociales se réduisent.
Le résumé :

En prenant appui sur l’Enquête participation électorale 2017 de l’Insee, donc sur des données d’une particulière solidité qui échappent au biais de sélection, d’auto-sélection et de déclaration, les auteurs montrent que la hausse de l’abstention enregistrée au cours de la séquence électorale 2017 – réelle mais contenue à la présidentielle, spectaculaire pour les législatives – n’est pas porteuse d’un processus d’égalisation des citoyens devant le vote. Au contraire, les inégalités socio-démographiques de participation n’ont fait que s’accroître au cours de la dernière décennie. Elles sont en premier lieu la conséquence des inégalités de scolarisation. La pertinence du modèle sociologique d’explication de la participation s’en trouve largement confirmée.

Les politistes l’auront remarqué, le titre de notre article fait référence à un article classique de Nonna Mayer :
Nonna Mayer, « Pas de chrysanthème pour les variables sociologiques », in Élisabeth Dupoirier et Gérard Grunberg (dir.), Mars 1986 : la drôle de défaite de la gauche, Paris, PUF « Recherches politiques », 1986, p. 149-165

J’en profite pour signaler aussi un autre travail lié à l’étude de la présidentielle de 2017 : la comparaison de l’échantillon d’un sondage “sortie des urnes” avec les informations que donnent les listes d’émargement et les résultats des bureaux de vote dans lesquels les questionnaires ont été passés : Le cens trouvé : examen d’un questionnaire sortie des urnes sur le blog de l’ANR ALCOV.

Anamorphoses cartographiques

Les bureaux de vote parisiens regroupent un nombre presque identique d’électeurs sur une surface approximativement de même taille. Mais le nombre d’inscrits varie de 1 à 2 et la surface varie aussi beaucoup.
La carte suivante, qui illustre où le vote Fillon fut fréquent à Paris, est donc trompeuse (comme toutes les cartes).

Trompeuse, parce qu’une bonne partie des bureaux où Fillon fait un score élevé sont des bureaux de grande surface et où relativement peu d’électeurs sont inscrits.
Il est possible de transformer la surface de chaque bureau afin que cette surface soit proportionnelle au nombre d’électeurs inscrits. La carte suivante illustre cette transformation par anamorphose :

Le huitième arrondissement disparaît presque entièrement, et le dix-huitième voit sa surface augmenter.

Pour celles que cela intéresserait, j’ai mis le code sur github.

Les différences entre les deux formes de cartes sont bien plus apparentes si l’on s’intéresse aux communes d’Île de France, car certaines (comme le 15e arrondissement) sont très peuplées alors que d’autres (en Seine et Marne par exemple) sont presque vides.

Entrepreneur de soi-même

On peut penser que, quand on porte un prénom démodé, on le met moins en avant que quand on porte un prénom moins démodé. Mais c’est difficile d’en être certain, les usages quotidiens du prénom étant fluctuants et échappant au regard et à l’oreille du sociologue.
Mais on peut essayer de vérifier cela pour les enseignes commerciales. J’utilise ici la base Sirene, qui compte près de 4 millions d’entrepreneurs individuels (artisans, commerçants, professions libérales, etc…). Je dispose, pour ces personnes, de leur prénom et de l’enseigne commerciale de leur entreprise. Ainsi « Line Lefevbre » peut être la patronne de « Fleurs de Line ». Il est alors possible de vérifier que les personnes portant un prénom au succès récent utilisent plus souvent ce prénom dans leur enseigne commerciale que les personnes ayant un prénom dont le succès remonte au premier tiers du XXe siècle. « Huguette Garcia » ne sera pas la patronne de « Patisseries Huguette » mais de « Aux Délices des croissants ».


Cliquez pour agrandir

C’est en effet ce que l’on observe: Plus le prénom a un succès récent, plus les porteurs de ce prénom ont tendance à l’utiliser pour leur enseigne commerciale. Dans le détail, on repère que les «très vieux» prénoms (ceux dont le succès était important vers 1900) sont plus utilisés que les prénoms des années 1910-1940. Mais c’est que ces «très vieux» prénoms (Emile, Gabrielle, Paul, Victor…) ont aussi connu un second succès au début du XXIe siècle. A l’inverse les prénoms «trop jeunes», ceux dont le succès date d’après 2000, sont peut être trop peu sérieux, trop infantiles encore, pour être utilisés comme enseigne. Et enfin on remarque aussi que celles et ceux qui portent un prénom arabe (Mohamed, Said, Youssef…) utilisent beaucoup moins leur prénom que ce qui serait attendu en raison de leur caractère désuet ou non (ce sont les points oranges sur le graphique).

La demi-vie du « Top 20 »

Les prénoms les plus populaires à un moment donné ne le sont plus quelques années après. Mais combien de temps faut-il pour que la totalité du “top 10” ou du “top 50” soit renouvelée ? La question pose problème, car certains prénoms, comme Marie, Paul, Louis restent, pendant presque tout le XXe siècle et le début du XXIe siècle, parmi les prénoms les plus donnés. Oh, certes, leur fréquence diminue fortement, mais ils restent dans le Top 20 pendant très longtemps.
C’est pourquoi je m’intéresse ici à la “demi-vie” du top 20. La demi-vie est une notion très utilisée en physique. Prenez 100 atomes de plutonium (ou un peu plus). C’est radioactif. Au bout de combien de temps la moitié des noyaux se seront désintégrés ? On va considérer Huguette comme une sorte de noyau radioactif.

Désormais, il suffit d’à peine 10 ans pour que la moitié des prénoms du “top 20” soient sortis de ce “top 20”. Et les prénoms donnés aux garçons ont cessé d’être lents à se renouveler.

Lien vers le code R (calculs et graphique, sur github)

L’écart d’âge entre conjoints

En France, l’écart d’âge entre conjoints (de sexes différents) est de 2 ans et demi. En moyenne, dans un couple, l’homme est 2,5 ans plus âgé que la femme.
Mais il y a une géographie de cet écart d’âge. En France métropolitaine, voici ce que cela donne, à partir du “Fichier détail individu” du Recensement 2014. L’intérêt du Fichier détail du recensement, c’est de pouvoir travailler sur près de 4,5 millions de couples (effectif non pondéré). Les zones sous la moyenne sont en bleu, les zones au dessus de la moyenne sont en rouge.

Du bassin minier au nord à la Charente, l’écart d’âge est faible. Dans le centre et en Corse, il a tendance à être plus élevé. Même chose en région parisienne et particulièrement en Seine Saint-Denis. On pourrait certainement trouver une explication culturaliste ou matérialiste : France du partage égalitaire et des petites fortunes à l’Ouest, formes d’héritages autrement constituées au Centre. Clanisme corse ? Mais il y a, pour un sociologue, d’autres explications.
On sait, par exemple, que l’écart d’âge est plus important pour les couples âgés que pour les jeunes couples. Il se pourrait donc que les variations de l’écart d’âge soient dûes au fait qu’à certains endroits de France habitent surtout des couples jeunes, et qu’à d’autres endroits, des couples plus âgés résident.
Dans la carte suivante, je “contrôle” par l’âge moyen du couple (c’est à dire la moyenne de l’âge de chaque conjoint), au niveau individuel. Puis je trace la carte des écarts par rapport à cette moyenne. Par exemple, dans les couples dont l’âge moyen est 35 ans, l’écart d’âge moyen est de 2,5 ans. Si l’écart constaté pour le couple n° 2 542 447 est de 3 ans, alors je considère qu’il est 0,5 an plus âgé (c’est le “résidu”). La carte suivante représente donc la moyenne des résidus par zone.

Ce contrôle par l’âge n’a pas tendance à atténuer les différences entre zones. Il semble avoir peu d’effet.
On va alors contrôler par la catégorie socio-professionnelle : car les femmes cadres ont des goûts en matière d’hommes que n’ont pas les femmes ouvrières ou agricultrices. De fait, les couples “cadres-cadres” ont un écart d’âge plus faible que les couples “ouvriers-ouvrières”. Et il se pourrait donc que les écarts d’âge moyens par zone soient dûs à la composition socioprofessionnelle de ces zones.
La carte suivante montre, par l’éclaircissement des coloris, que, en effet, le contrôle par la CS réduit les écarts. Une bonne partie des zones “très rouges” ou “très bleues” étaient de cette couleur en raison de la composition sociale.

Mais on sait aussi que les personnes qui ont un diplôme du supérieur n’ont pas les mêmes choix que les personnes qui n’ont pas de diplôme. On contrôle alors par ce niveau de diplôme. Là encore, on voit un effet :

Enfin il semble y avoir toujours une zone rouge en Seine Saint-Denis. L’on sait que c’est le département où la proportion d’immigrés est la plus importante, en France. Or les immigrés (c’est à dire les personnes nées étrangères à l’étranger) ont pu se marier avant d’arriver en France. De fait l’écart d’âge dans les couples immigrés est plus élevé (peut-être en raison d’un effet de sélection lors de la migration, peut-être en raison de la composition socioprofessionnelle de ce groupe). On va donc contrôler par l’âge moyen du couple, la CS des conjoints, le diplôme des conjoints et le fait d’être immigré ou non-immigré.
La carte s’éclaircit et “jaunit”, car de nombreuses zones bleues deviennent jaunes clair : il n’y a presque plus de différences entre régions françaises si la structure de la population est prise en compte. Quelques mois d’écart tout au plus.

Reste le cas de la Corse. Il y a visiblement, là, un goût pour l’écart d’âge qui ne s’explique pas par les variables utilisées ici.

Une réforme efficace ?

En France, c’est le lundi que le nombre de suicides est le plus élevé, et le week-end qu’il est le plus bas. Entre 2004 et 2013, il y a près de 34 suicides chaque lundi et 26 le samedi et dimanche. Le nombre moyen diminue jour après jour au long de la semaine. Le nombre des suicides suit le rythme de la société. Ou plutôt les rythmes. Car des institutions diverses dictent des rythmes variés.
Ainsi il y a un creux dans la courbe des suicides le mercredi et une reprise le jeudi. Dans un article célèbre de 1984 de François Aveline, Christian Baudelot, Marc Beverraggi et Saadi Lahlou, les auteurs montrent que les rythmes scolaires sont en lien avec le nombre des suicides (des femmes). Avant 1972, le jour de congé des enfants était le jeudi (et le creux dans la courbe le jeudi), après 1972, le jour de congé passe au mercredi (et le creux passe au mercredi).
Et à la rentrée 2013, une nouvelle réforme est mise en place, une réforme des rythmes scolaires qui fait du mercredi matin un jour de classe.La charge des enfants disparaît ce jour-là. En 2014, le creux du mercredi disparaît.

J’ai contrôlé par la période de vacances : en juillet et août, avant 2013, il n’y a pas de creux du mercredi (qui n’existe qu’en période scolaire).
Une autre manière de représenter l’évolution consiste à considérer que le lundi représente la base 100 :

Mon homonyme : un autre est je

Un grand nombre d’entre nous a fait l’expérience de découvrir un homonyme. Avec mon prénom relativement rare et mon nom de famille peu fréquent, je sais qu’il existe quand même un autre Baptiste Coulmont (ici). Un autre est je.
Mais peut-on estimer la proportion de personnes qui, en France, ont un homonyme. Est-ce que cela concerne 10% de la population ou 99% ?
Si j’avais accès au Répertoire national d’identification des personnes physiques, de l’INSEE, ça nous donnerait des informations solides. D’ailleurs, si quelqu’un de l’INSEE me lit, peut-elle faire ce calcul ? Faute d’accès privilégié, peut-on estimer cette proportion d’une autre manière ?

Je vais le faire ici à partir des listes électorales de Paris et Marseille, qui, au total, comptent près de 1,8 million d’individus. En combinant ces deux listes, la proportion d’homonymes, à savoir de personnes qui ont le même nom et le même premier prénom, est de 18,93% (soyons précis, car on peut l’être, ici). Les listes électorales ne concernent que les citoyens français majeurs et inscrits, ce qui ne représente pas la population vivant en France. En se restreignant à Paris, la proportion est de 17%, à Marseille, de 11%.

Combinons ces deux listes électorales, et répartissons les individus au hasard dans cette liste (pour éviter la proximité des noms de famille). On sélectionne un groupe de 1000 individus, quelle est la proportion d’homonymes (elle est faible). Et dans un groupe de 2000, 3000… 50 000, 500 000 individus ? La progression est régulière, très très régulière : c’est l’intérêt de travailler avec des “big data”, elles génèrent de la régularité.

homonymes-paris-marseille

Une telle courbe ressemble à quelque chose. Et l’on sait que les noms et les prénoms suivent (grosso-modo) des lois de puissance (ou de Pareto, ou de Zipf). En passant à un graphique log-log (où les échelles des abscisses et des ordonnées sont des échelles logarithmiques), nous devrions voir apparaître une belle droite.

homonymes-paris-marseille-log

Ca ressemble à une droite… mais est-ce vraiment une droite ? Une régression linéaire nous donne une droite, qui, comme on peut le constater, montre que la courbe de fréquence n’est pas une droite. C’est un problème : si c’était une droite, j’aurai pu “prédire” la proportion d’homonymes dans un groupe de 30 millions d’individus, ou dans un groupe de 65 millions.

homonymes-paris-marseille-log-regr-lin

Peut-être que la mauvaise estimation est due aux (relativement) petits effectifs, quand les groupes comptent moins de 500 000 individus. Mais si on fait porter la régression sur la partie de la courbe la plus à droite, cette qui semble être la plus droite… on voit bien que cette courbe n’est pas linéaire. (Même si l’erreur standard résiduelle est très faible et le R^2 de 0,9999…).
Ci dessous, les “diagnostics plots” d’une telle régression :

homonymes-paris-marseille-diagnostic

Mais ça ne pouvait de toute façon pas être une droite : la proportion maximale est bornée à 100% !

Donc c’est plus complexe, et une estimation de la proportion d’homonymes dans un groupe de 30 millions d’individus basée sur une extrapolation à partir de la régression linéaire… se trompera.

Face à ça, que faire… Who you gonna call ?

Ghostbusters_logo.svg

J’ai contacté Arthur Charpentier, qui a rapidement vu que ce problème était un analogue — en plus complexe — du paradoxe des anniversaires, dont la modélisation est tout sauf évidente. On sait que si un groupe compte plus de 23 personnes, alors il y a plus de 50% de chance que deux personnes aient leur anniversaire le même jour. Quelle doit être la taille d’un groupe pour qu’il y ait au moins deux homonymes dans ce groupe? Si la population de départ ressemble à celle de Marseille et Paris, alors il faut un groupe d’environ 1750 personnes.
homonymes-paris-marseille-proba
Dans des groupes de 6000 individus tirés au hasard dans la population des électeurs parisiens, il y près de 100% de chance d’avoir au moins un couple d’homonymes.

La suite de la réflexion est chez Arthur Charpentier, sur freakonometrics.

Le mystère des garçons en avance

L’avance scolaire des garçons m’étonne, depuis quelques temps déjà (voir les épisodes précédents ici ou encore ). J’ai commencé à explorer les données du “Panel 2007” (qui suit des élèves sur plusieurs années), mais ce n’est pas encore assez abouti.
L’avance scolaire des garçons est bizarre car elle n’est pas entièrement liée à leurs performances scolaires : à notes égales, les garçons sautent plus souvent une classe que les filles. Et cela se vérifie quelque soit la série ou filière du bac et quelque soit l’origine sociale des élèves. Cela peut s’illustrer avec les résultats nominatifs au bac, en prenant les prénoms comme des indicateurs (flous) d’origine sociale.
En abscisse : le pourcentage de mention “Très bien”. En ordonnées : le pourcentage d’élèves en avance. Chaque point représente un groupe d’élèves portant un prénom donné plus de 200 fois. La ligne bleue montre la relation (issue d’une régression linéaire) entre la proportion de garçons obtenant la mention Très bien et la proportion de garçons “en avance”. La ligne rouge montre la même chose pour les filles. Quelque soit l’année (non représentée), quelque soit la série, quelque soit l’origine sociale, les garçons, en moyenne, ont plus souvent sauté une classe que les filles qui ont les mêmes performances scolaires.

cliquez pour agrandir

Quand on connaît les primes diverses accordées à la précocité, on ne peut s’empêcher de penser que, décidément, les avantages masculins commencent tôt dans la vie.

Une petite prime à la difficulté

Il y a peu de femmes députées, mais depuis la loi sur la parité, il y a presque autant de candidats que de candidates. Certes. Mais les femmes sont investies, en tendance, dans des circonscriptions plus difficiles à gagner.
On peut mettre cela en évidence en prenant les candidatures aux élections législatives de 2012.
On commence par s’intéresser à l’élection présidentielle et on calcule le score de chaque candidat au premier tour, dans chacune des circoncriptions. Hollande fait tant dans telle circonscription, etc… Puis on s’intéresse aux élections législatives, et on affecte les candidats-députés à chaque candidat-président en fonction de son “étiquette” : les candidats-députés socialistes sont affectées à Hollande, les candidats-députés “UMP” à Sarkozy, etc…
On peut alors regarder si les candidates-députées socialistes, par exemple, sont investies dans des circonscriptions où Hollande a fait un bon score ou un mauvais score, et faire la même chose pour les candidats-députés.
On sépare les candidats “sortants” (celles et ceux qui étaient déjà députés, et qui, très souvent, ont été élus dans des circonscriptions où leur “candidat-président” a fait un bon score) des candidats “nouveaux”.

cliquez pour agrandir

Ce que l’on peut voir, c’est que les candidates sont investies dans des circonscriptions où leur “candidat-président” a fait un mauvais score (un score plus bas que sa moyenne). Les candidats, eux, non. De ce fait, il est plus difficile d’être élue députée que d’être élu député.