Categories

Archives

Archives de la catégorie : 'prénoms'

Communautés de prénoms

Le monde social est complexe, mais pour le penser, il faut d’abord le simplifier. D’où la production de catégories, catégories savante ou du sens commun. C’est ainsi qu’on parlera de « prénoms arabes », de « prénoms juifs », de « prénoms turcs », de « prénoms aristocratiques »… en mélangeant aléatoirement et allègrement des ethnies, des positions sociales, des religions, ou des origines nationales et linguistiques. Faire cela, c’est ne pas rendre justice à la complexité du monde social ni à celle des classements quotidiens. Car ce qui est « arabe » pour certains est « méditerranéen » pour d’autres, par exemple, ce qui est « aristo » pour les uns est juste « moche et ringard » pour d’autres.
On peut cependant essayer de repérer des proximités et des distances entre prénoms, à partir des choix effectifs des parents. Notamment quand les parents ont plusieurs enfants. Si l’aîné est Augustin, la cadette sera-t-elle Clotilde ou Carla ? À partir des listes électorales parisiennes, j’ai constitué des « fratries » (à partir de l’année de naissance, du nom de naissance et de l’adresse d’inscription) : ce ne sont pas des fratries complètes (il n’y a que les personnes inscrites à Paris) et je capte sans doute de fausses fratries. Mais on fait avec ce qu’on a.
Le graphique suivant rapproche entre eux des prénoms qui sont assez souvent donnés au sein d’une même fratrie : à Paris, le frère d’Augustin c’est Timothée.


cliquez pour agrandir l’image

cliquez

Les couleurs ont été déterminées par un algorithme de recherche de communautés, mais elles sur-interprètent les différences : il n’y a pas des archipels de prénoms, mais un grand continuum le long duquel l’on passe, insensiblement, de Philippine à Abdoulaye.

Certains “clusters” font sens. Ainsi, en bas à droite, on trouve un groupe de prénoms qui ont été donnés “en retard”. Le corpus utilisé contient des individus qui sont au plus âgés de 28 ans et au plus tôt nés en 1986. Les Delphine, Thierry, Stéphanie… nées après 1986 ont reçu ces prénoms alors qu’ils étaient déjà sur le déclin. Qu’ils apparaissent ici ensemble est le signe que les parents aiment ces “prénoms démodés” ensemble. Dans les années 1990, si l’ainée est Célia, la cadette ne sera pas Virginie.

Tout en bas du graphique, deux “clusters” : l’un comportant une série de prénoms bourgeois (Augustin, Domitille), l’autre comportant des prénoms moins bourgeois (Quentin, Romain, Marion), des prénoms à la mode dans les années 1990… et ces prénoms sont reliés à des prénoms exotiques, néo-bretons ou pseudo-polynésiens (Nolwenn et Maéva). En combinant Thibaut et Thibault, Gautier et Gauthier, prénoms proches mais un peu différents, j’ai probablement contribué à la création de liens qui n’en sont pas.

Au centre du graphique, on trouve des prénoms à la mode entre 1990 et 2000 :

Cela explique leur caractère central : ce sont les prénoms du cœur de mon corpus de fratrie, et ils ont tendance à être fortement reliés entre eux. J’y verrai une petite différence, probablement : le groupe bleu/vert des Charlotte-Pauline-Paul né enter 1990 et 2000 est sans doute d’une origine sociale un peu plus élevée que le groupe des Alexandre-Nicolas-Audrey.

Au centre-gauche, un autre cluster de prénoms bourgeois (on est à Paris, il y en a beaucoup, mais il me faudrait un vocabulaire plus fin).

Oscar, Virgile et Hippolyte, Gabrielle et Héloïse. Mais Ophélie ? N’y a-t-il que moi qui aurait mis “Ophélie” ailleurs ?

Et en haut du graphique, trois clusters de prénoms.

Tout en haut, De Abdoulaye à Ibrahim, des prénoms d’Afrique sub-saharienne : le frère de Fatoumata est Moussa. En vert, des prénoms maghrébins, Mohamed formant un grand “hub”. Des prénoms plutôt en voie d’abandon (Walid, Ali, Ahmed), ou donnés en début de période (1986-1990). En rose le cluster le plus complexe, puisqu’on y trouve Isaure et Sofiane, Nathan et Aymeric. Comment est-ce possible ? Deux prénoms en sont responsables. Sarah, qui a comme frère Mohamed et David. Et Inès, qui a comme frère Yanis et comme sœur Alix. Deux prénoms assez fréquemment donnés dans les années 1990, et par des parents différents. Si Sarah avait été un garçon, certains parents aurait choisi Sofiane, d’autres parents Nathan. Si Inès avait été un garçon, c’aurait pu être Samy (ou Axel). Un même prénom, des mondes différents.

Si j’avais à poursuivre l’exploration, je pourrai projeter « l’arrondissement moyen » des prénoms de chaque cluster : 19e pour les uns, 6e pour les autres… Mais cela conduirait encore à différencier les prénoms, alors que, comme on peut le voir ici, c’est sans solution de continuité que l’on passe de l’un à l’autre.

Notes : Pour simplifier le graphique, je n’ai retenu que les liens les plus fréquents entre prénoms. Dans le monde réel, il y a des Augustins qui ont comme sœur Célia. Mais cela n’arrive pas souvent. Le but de cette simplification était de montrer l’enchaînement des choix, sans proposer une grosse boule de laine emmêlée où tout aurait été relié avec tout.

Le prénom et la mention, édition 2019

Parce que la réussite scolaire et le choix des prénoms dépendent, en tendance, de l’origine sociale… les Éléonore et les Ryan n’ont pas obtenu la mention “Très bien” dans les mêmes proportions. Alors certes, il y a des Ryan avec mention Très bien et des Éléonore qui doivent passer l’oral de rattrapage, mais il y a beaucoup plus d’Éléonore avec mention que de Ryan avec mention.
 


cliquez pour agrandir

cliquez pour agrandir

 

Le prénom en lui-même ne joue pas : les copies sont anonymes. Mais cette année, les résultats sont provisoires, car une partie des correcteurs étaient en grève. À ce que j’ai compris, certains jurys ont attribué des notes, parfois sur la base du contrôle continu. Alors là, oui, le prénom était connu. A-t-il pu jouer un rôle ? Il faudrait avoir une idée précise du nombre de notes qui ont du être attribuées “hors procédure habituelle”.
Globalement, ces résultats temporaires ressemblent très fortement à ceux des années précédentes. Je n’ai presque pas à changer ce que j’écrivais l’année dernière : « Entre l’année dernière et cette année, tous les candidats ou presque ont changé. Mais si les personnes ont changé, ce n’est pas le cas de leurs prénoms. Prenons les Juliette. Les Juliette qui ont passé le bac en 2019 ne sont pas celles qui ont passé le bac en 2018. Et même plus : les Juliette de 2018 n’ont pas les mêmes parents que les Juliette de 2019. Et pourtant leur nombre est presque le même (2100), et leur taux d’accès à la mention Très bien est identique (20%). En tant qu’individu, elles sont toutes différentes. En tant que groupe (du simple fait de partager un prénom) elles sont semblables. Les Juliette de 2019, comme celles de 2018, sont, en tant que groupe, et au regard du taux d’accès à la mention Très bien, identiques aux Juliette de 2017. »

Pour les années précédentes, voir l’édition 2018, 2017, ou en 2016 ou encore en 20152014,2013, 2012 ou 2011. Vous pouvez aussi lire Sociologie des prénoms (édition La Découverte) [sur amazon, dans une librairie indépendante].

Le deuxième prénom et la mention « très bien »

Entre 2012 et 2018, 9,64% des candidates et candidats au bac (général ou techno) ont obtenu la mention “Très bien”. Ce fut le cas de 8,92% des candidats et candidates qui n’avaient qu’un seul prénom, et 10,5% des candidat.e.s avec 2 prénoms ou plus. Un écart de 1,5 points. Ou 17% en plus. Ou un ratio de 1,17..

Bien entendu, ce n’est pas le prénom en lui-même qui joue : les copies sont anonymes. Et le second prénom est le plus souvent invisible : de qui connaissez-vous tous les prénoms ? Mais la probabilité d’avoir plusieurs prénoms n’est pas aléatoirement répartie sur l’espace social. Pour dire bref, les parents du haut de l’échelle sociale donnent plus fréquemment plusieurs prénoms à leurs enfants. 40% des Jessica ont plus d’un prénom, c’est le cas de 59% des Apolline. Et c’est une pratique à laquelle n’ont pas souvent recours les immigrés d’Afrique du nord (ou leurs descendants ?) : Seuls 10% des Yassine ont plus d’un prénom.

Cependant, l’effet associé aux prénoms multiples n’est pas restreint aux classes supérieures, bien au contraire.

Comme le montre le graphique suivant (restreint aux prénoms les plus fréquents), « l’effet » du prénom multiple est plus “fort” pour les prénoms des candidats qui ont peu de mention Très bien… mais c’est aussi parce que passer de 3% à 4% c’est un ratio de 1,33% en plus, alors que passer de 15% à 17%, c’est à peine un ratio de 1,15. [On pourrait regarder la différence : et là, on verrait que « l’effet » est de 0,5 points en plus quand les candidats ont 3% de mention TB et d’environ 1 points quand ils (et elles) ont 10% de mention… pour retomber à 0,5 points autour de 20% de mention TB.

prénoms multiples
cliquez pour agrandir

Ce graphique est construit en prenant en abscisse la proportion de mention TB pour les candidats n’ayant qu’un seul prénom, et en ordonnée j’ai représenté le rapport entre cette proportion et la proportion de mention pour les candidats ayant plus d’un prénom. Un exemple : Lina : 9,8% des “Lina tout court” ont une mention TB, mais c’est 15,4% quand elles ont plus d’un prénom. D’autres prénoms ressemblent à Lina : Adam, Yassine, Anissa, Sofiane, Myriam, Sonia… où la présence d’un second prénom multiplie le taux d’accès à la mention “Très bien”. Les « Anissa-avec-un-second-prenom » ne sont pas tout à fait comme les « Anissa-tout-court » (elles préparent un peu plus souvent un bac S, et leur second prénom, assez souvent, n’est pas Aïcha mais Claire ou Aurore) : elles n’ont pas les mêmes parents.

On sait que la proportion de candidat.e.s obtenant la mention “Très bien” diffère suivant les prénoms. Jennifer a moins de mention qu’Adèle. Et une Adèle qui aurait comme second prénom Jennifer ? Ou une Jennifer qui aurait comme second prénom Adèle ? Est-ce que le fait d’avoir un second prénom est toujours associé à un surplus de mention «Très bien»?

Dans le graphique suivant, pour les prénoms les plus fréquents, je différencie les seconds prénoms. Prenons Anissa. Trois cas se présentent : 1- son second prénom est un prénom qui (quand il est en première position) est associé à une proportion plus faible de mention « Très bien » qu’Anissa (1,2 fois moins), 2- son second prénom est un prénom qui est associé à une proportion presque égale, et 3- son second prénom est un prénom qui est associé à une proportion bien plus importante de mention très bien (1,2 fois plus). [Je laisse de côté les seconds prénoms qui ne sont jamais présents en première position.]

prénoms multiples, bac
cliquez pour agrandir

On ne voit pas de différence liée au type de second prénom quand la proportion de mentions TB est faible ou élevée. Mais on voit des différences entre 7 et 15% d’accès à la mention. Là, (pour dire bref, et en prenant un exemple fictif) «Camille Cindy», «Camille Chloé» et «Camille Adèle» vont avoir des proportions variées d’accès à la mention : si 10% des “Camille tout court” accèdent à la mention TB, c’est le cas de 9% des “Camille Cindy”, 11% des “Camille Chloé” et 12% des “Camille Adèle”.

Si l’on fait l’hypothèse que les parents, en choisissant un prénom pour leur enfant, cherchent à indiquer quelle place ils occupent dans l’espace social, alors ces mêmes parents se servent aussi du second prénom pour indiquer une position un peu plus précise. Ou alors on peut penser que le choix du prénom est avant tout le résultat d’une lutte entre parents pour imposer un choix individuel : le second prénom alors est le prénom “perdant” : « Il voulait Adèle, mais c’est moche, Adèle. Je préfére Lina. On a mis Adèle en deuxième. ». Mais sans information sur les deux parents, difficile d’aller plus loin.

Quels prénoms les immigrés (et leurs descendants) donnent-ils à leurs enfants ?

Vous arrivez peut-être ici après avoir lu le numéro de Population et Sociétés publié aujourd’hui, et vous souhaitez en savoir plus.
Le format de Population et Sociétés, 4 courtes pages, est parfait pour résumer des recherches, mais laisse parfois sur sa faim. Voici ce que je souhaite ajouter.
 
Le score de distance :
Tout d’abord, avec Patrick Simon, nous étudions les choix des prénoms de deux manières. Une première (centrale dans l’article) consiste à classer les prénoms en grandes zones nationales/culturelles/religieuses en fonction de leur structure syllabique. Une deuxième manière (moins utilisée dans l’article) consiste à calculer, pour chaque prénom, un score, variant entre zéro et 100, en fonction de la proportion relative des prénoms dans deux groupes : celui des enfants dont les deux parents sont nés en France, et celui des enfants dont un des parents au moins est né hors de France. Ce score, utilisé assez souvent depuis une quinzaine d’années, permet de repérer les prénoms que portent les enfants de natifs et les prénoms que portent les autres enfants. Un score de 75 indique que le prénom est trois fois plus fréquent dans le groupe des enfants de natifs que dans le deuxième groupe. Un score proche de zéro indique que ce prénom n’est presque jamais choisi par deux parents nés en France pour leur enfant.
Prenons les Sabrina. 0,2% des Sabrina sont enfant de couples nés en France, mais 1% des Sabrina sont enfant de couples dont un des membres est né à l’étranger. Le score du prénom Sabrina sera 100 * 0,2 / (1+0,2), soit 17.
Dans le cas des Océane, les chiffres sont 0,8% (couples nés en France), et 0,1% (couples dont un des membres est né à l’étranger). Son score est donc 100*0,8/(0,8+0,1), soit 89.

Voici le score moyen des prénoms portés par les immigrés, les descendants d’immigrés, les enfants de descendants d’immigrés et la “population majoritaire” (et ses descendants) :

Ce score est intéressant en lui-même, mais aussi en comparaison avec la classification “syllabique” des prénoms. Avec la classification des prénoms, on peut constater par exemple (c’est le graphique 1 dans le Population et Sociétés), que les Français sans origine migratoire directe (la “population majoritaire”) donne de moins en moins souvent des prénoms français à ses enfants : Erwan, Kilian, Clara, Enzo… ont remplacé les prénoms des Saints, ou les prénoms fréquents au XIXe siècle, ou les prénoms “qui sonnent français”. Quel que soit l’indice retenu, on constatera l’abandon, par les Français sans origine migratoire directe, du registre des prénoms français. Cela se fait au profit du registre “latin”, du registre “anglo”, “celtique”, etc…
Le score numérique nous apporte une autre information : comme vous pouvez le constater ci-dessous, il reste stable. Les Français sans origine migratoire directe piochent dans des registres non-français… sans que le score moyen des prénoms choisis ne se rapproche de celui des immigrés ou de leurs descendants ? Pour une raison simple : les Français (sans origine etc…) ne piochent pas dans le stock des prénoms porté par les immigrés. Ils continuent à maintenir une distance culturelle : Enzo devient possible quand les immigrés ne s’appellent plus Enzo.
 
La course à l’assimilation :
Imaginons l’assimilation (la disparition des différences saillantes entre deux populations) comme une course de 100 mètres, sur plusieurs générations. La vitesse de course peut se calculer, par exemple, à partir de l’abandon des prénoms du pays d’origine (le passage de 90% à 50% puis à 20%, par exemple). Ou se calculer à partir du score moyen des prénoms des immigrés, des descendants, et des enfants des descendants…
Ce que l’on verra, si l’on calcule la vitesse à laquelle courent les groupes d’immigrés et leurs descendants (par exemple les originaires d’Afrique du Nord par comparaison avec les originaires d’Europe du sud), c’est que, sur deux générations, des immigrés à leurs petits enfants, la vitesse est grosso-modo la même, la distance parcourue sur deux génération est comparable. L’assimilation est un processus social collectif auquel il est difficile d’échapper.
Mais si les immigrés courent tous au même rythme, ils ne participent pas à la même course. Les immigrés d’Europe du Sud (et leurs descendants) arrivent avec des prénoms plus proches des prénoms portés en France : il arrivent avec 10 à 20 mètres d’avance sur les immigrés d’Afrique du Nord. Et l’adoption, par les Français sans origine migratoire directe, de prénoms “latin” fait que, pour le dire vite, les immigrés d’Europe du Sud n’ont pas besoin de courir pour voir la distance se raccourcir.
J’ai essayé de montrer ceci avec un Gif Animé, mais je ne suis pas graphiste :

Et on accueille Didier et Nathalie… Les prénoms dans les jeux télévisés.

Dans «Le petit peuple des sociologues», j’ai montré comment les sociologues français avaient cherché à individualiser les personnes auprès desquelles ils enquêtent, en leur donnant des prénoms fictifs.
Les sociologues ne sont pas les seules à donner des prénoms. Les présentateurs et présentatrices de jeux télévisés aussi. Mais aujourd’hui plus qu’avant. Quand on regarde, sur le site de l’INA, les premiers jeux télévisés (comme Gros lot en 1957), on voit que les candidats sont appelés par leur nom de famille. Madame Nanin en 1958 dans Télé match. Mais aujourd’hui, on va nous annoncer “Sébastien, notre champion”. Un prénom, sans nom de famille.
De quand date ce changement ? J’ai, pour répondre à cette question cruciale, examiné la présentation des candidats dans une bonne soixantaine de jeux télévisés depuis 1968, principalement en me fiant à des extraits sur le site de l’INA ou sur Youtube. Voici le résultat :
Le graphique suivant représente chaque jeu télévisé par un point. Ce point est placé en bas (zéro) si le jeu télévisé n’utilise pas le prénom tout seul. Et en haut s’il utilise le prénom seul. La courbe rouge estime la probabilité d’utilisation du prénom seul à partir d’une regression logistique.
 

cliquez pour agrandir

Avant 1976, aucun jeu télévisé n’utilise le prénom seul. Les candidats sont “Monsieur Dupont” ou “Jean-Christophe Dupont”. En 1976 (pour la première fois dans mon corpus), Les Jeux de 20h font intervenir des candidats qui n’ont qu’un prénom : “C’est une jolie Florence”, nous dit-on.
Dans les années 1980, et notamment avec les multiples jeux télévisés diffusés sur La Cinq, les prénoms se diffusent: les nouveaux jeux télévisés créés à partir de 1990 ont une probabilité très élevée de présenter les candidates et les candidats uniquement à l’aide de leur prénom. Et Des chiffres et des lettres, créé en 1972, et qui utilisait le nom de famille, s’est enfin mis, très tardivement, à utiliser les prénoms, au cours des années 2000.

Cette étude a ses limites :

  1. Le corpus est limité, et il me manque des jeux entre 1978 et 1983. Justement une période qui semble être une période de basculement
  2. Il faudrait examiner plus en détail les usages des noms et prénoms au cours des jeux eux-mêmes : je me suis limité à l’introduction des candidats, et à ce qui est écrit sur leur badge
  3. Il faudrait examiner la permanence du vouvoiement associé au prénom
  4. Je n’ai pris en compte que des jeux d’adultes (parce que les enfants, on les tutoie et on les appelle par leur prénom), ou se présentent des individus, en excluant les jeux où se présentent des familles (qui, par nécessité, sont référencées par un nom de famille)
  5. Et plein d’autres limites

Les prénoms et la mention, édition 2018

Entre l’année dernière et cette année, tous les candidats ou presque ont changé. Mais si les personnes ont changé, ce n’est pas le cas de leurs prénoms. Prenons les Juliette. Les Juliette qui ont passé le bac en 2017 ne sont pas celles qui ont passé le bac en 2018. Et même plus : les Juliette de 2017 n’ont pas les mêmes parents que les Juliette de 2018. Et pourtant leur nombre est presque le même (2200), et leur taux d’accès à la mention Très bien est identique (20%). En tant qu’individu, elles sont toutes différentes. En tant que groupe (du simple fait de partager un prénom) elles sont semblables. Les Juliette de 2018 sont, en tant que groupe, et au regard du taux d’accès à la mention Très bien, identiques aux Juliette de 2017.
Cette année, 25% des Garance (qui ont eu plus que 8 au bac général et technologique et qui ont autorisé la diffusion de leurs résultats) ont obtenu la mention Très bien. C’est le cas de 5% des Océane ou des Anthony. Les prénoms les plus donnés vers 2000 (quand ces bachelier.e.s sont né.e.s), Léa, Thomas et Camille, ont des taux moyens de proportion Très bien. Vous remarquerez aussi assez vite la plus grande excellence scolaire féminine : à la droite du graphique, on ne trouve que des prénoms féminins bourgeois (Garance, Apolline, Diane…). A gauche, ce sont surtout des prénoms masculins et de classes populaires (Steven, Ryan, Christopher, Allan).


Cliquez pour agrandir

Pour les années précédentes, voir 2017, ou en 2016 ou encore en 20152014,2013, 2012 ou 2011. Vous pouvez aussi lire Sociologie des prénoms (édition La Découverte) [sur amazon, dans une librairie indépendante].

Taisez-vous, Vicomte arriéré !

La Troisième République, surtout après 1877, a définitivement permis à la France d’enterrer la monarchie et ses cortèges nobiliaires. Mais les titres de noblesse, eux, n’ont jamais disparu. Encore aujourd’hui, l’Etat délivre les titres d’investiture aux descendants aînés mâles légitimes issus d’un mariage catholique (pour la noblesse d’Ancien régime). Et ce n’est pas l’enracinement de la République qui a fait disparaître les titres de noblesse du Journal officiel.

Par exemple, en 1914, on trouve un député vicomte (de Villebois-Mareuil)

En 1921 un baron (des Lyons de Feuchin)

En 1940 un marquis (de La Ferronnays)

Donc 70 ans après l’instauration de la République, des députés apparaissaient encore sous leur titre de noblesse. Et cela ne cesse pas en 1945. On trouve encore des marquis au tout début de la Quatrième République :

Dans le Journal officiel (Assemblée nationale), la pratique va cesser autour de 1950. Le “Marquis de Moustier” devient “Roland de Moustier” et le prénom remplace le titre, à une période historique d’émergence du prénom comme “lieu où s’affirme la volonté” écrivait Jean Carbonnier. D’ailleurs “Marquis” semble dès lors devenir une insulte, du moins pour les élus communistes, comme le montre cet extrait du 16 février 1952 :

ou encore cet extrait du 18 juin 1953 :

Merci à @RemiMathis sur twitter, à Gallica et au site d’archive de l’Assemblée nationale

Entrepreneur de soi-même

On peut penser que, quand on porte un prénom démodé, on le met moins en avant que quand on porte un prénom moins démodé. Mais c’est difficile d’en être certain, les usages quotidiens du prénom étant fluctuants et échappant au regard et à l’oreille du sociologue.
Mais on peut essayer de vérifier cela pour les enseignes commerciales. J’utilise ici la base Sirene, qui compte près de 4 millions d’entrepreneurs individuels (artisans, commerçants, professions libérales, etc…). Je dispose, pour ces personnes, de leur prénom et de l’enseigne commerciale de leur entreprise. Ainsi « Line Lefevbre » peut être la patronne de « Fleurs de Line ». Il est alors possible de vérifier que les personnes portant un prénom au succès récent utilisent plus souvent ce prénom dans leur enseigne commerciale que les personnes ayant un prénom dont le succès remonte au premier tiers du XXe siècle. « Huguette Garcia » ne sera pas la patronne de « Patisseries Huguette » mais de « Aux Délices des croissants ».


Cliquez pour agrandir

C’est en effet ce que l’on observe: Plus le prénom a un succès récent, plus les porteurs de ce prénom ont tendance à l’utiliser pour leur enseigne commerciale. Dans le détail, on repère que les «très vieux» prénoms (ceux dont le succès était important vers 1900) sont plus utilisés que les prénoms des années 1910-1940. Mais c’est que ces «très vieux» prénoms (Emile, Gabrielle, Paul, Victor…) ont aussi connu un second succès au début du XXIe siècle. A l’inverse les prénoms «trop jeunes», ceux dont le succès date d’après 2000, sont peut être trop peu sérieux, trop infantiles encore, pour être utilisés comme enseigne. Et enfin on remarque aussi que celles et ceux qui portent un prénom arabe (Mohamed, Said, Youssef…) utilisent beaucoup moins leur prénom que ce qui serait attendu en raison de leur caractère désuet ou non (ce sont les points oranges sur le graphique).

La demi-vie du « Top 20 »

Les prénoms les plus populaires à un moment donné ne le sont plus quelques années après. Mais combien de temps faut-il pour que la totalité du “top 10” ou du “top 50” soit renouvelée ? La question pose problème, car certains prénoms, comme Marie, Paul, Louis restent, pendant presque tout le XXe siècle et le début du XXIe siècle, parmi les prénoms les plus donnés. Oh, certes, leur fréquence diminue fortement, mais ils restent dans le Top 20 pendant très longtemps.
C’est pourquoi je m’intéresse ici à la “demi-vie” du top 20. La demi-vie est une notion très utilisée en physique. Prenez 100 atomes de plutonium (ou un peu plus). C’est radioactif. Au bout de combien de temps la moitié des noyaux se seront désintégrés ? On va considérer Huguette comme une sorte de noyau radioactif.

Désormais, il suffit d’à peine 10 ans pour que la moitié des prénoms du “top 20” soient sortis de ce “top 20”. Et les prénoms donnés aux garçons ont cessé d’être lents à se renouveler.

Lien vers le code R (calculs et graphique, sur github)

Mon homonyme : un autre est je

Un grand nombre d’entre nous a fait l’expérience de découvrir un homonyme. Avec mon prénom relativement rare et mon nom de famille peu fréquent, je sais qu’il existe quand même un autre Baptiste Coulmont (ici). Un autre est je.
Mais peut-on estimer la proportion de personnes qui, en France, ont un homonyme. Est-ce que cela concerne 10% de la population ou 99% ?
Si j’avais accès au Répertoire national d’identification des personnes physiques, de l’INSEE, ça nous donnerait des informations solides. D’ailleurs, si quelqu’un de l’INSEE me lit, peut-elle faire ce calcul ? Faute d’accès privilégié, peut-on estimer cette proportion d’une autre manière ?

Je vais le faire ici à partir des listes électorales de Paris et Marseille, qui, au total, comptent près de 1,8 million d’individus. En combinant ces deux listes, la proportion d’homonymes, à savoir de personnes qui ont le même nom et le même premier prénom, est de 18,93% (soyons précis, car on peut l’être, ici). Les listes électorales ne concernent que les citoyens français majeurs et inscrits, ce qui ne représente pas la population vivant en France. En se restreignant à Paris, la proportion est de 17%, à Marseille, de 11%.

Combinons ces deux listes électorales, et répartissons les individus au hasard dans cette liste (pour éviter la proximité des noms de famille). On sélectionne un groupe de 1000 individus, quelle est la proportion d’homonymes (elle est faible). Et dans un groupe de 2000, 3000… 50 000, 500 000 individus ? La progression est régulière, très très régulière : c’est l’intérêt de travailler avec des “big data”, elles génèrent de la régularité.

homonymes-paris-marseille

Une telle courbe ressemble à quelque chose. Et l’on sait que les noms et les prénoms suivent (grosso-modo) des lois de puissance (ou de Pareto, ou de Zipf). En passant à un graphique log-log (où les échelles des abscisses et des ordonnées sont des échelles logarithmiques), nous devrions voir apparaître une belle droite.

homonymes-paris-marseille-log

Ca ressemble à une droite… mais est-ce vraiment une droite ? Une régression linéaire nous donne une droite, qui, comme on peut le constater, montre que la courbe de fréquence n’est pas une droite. C’est un problème : si c’était une droite, j’aurai pu “prédire” la proportion d’homonymes dans un groupe de 30 millions d’individus, ou dans un groupe de 65 millions.

homonymes-paris-marseille-log-regr-lin

Peut-être que la mauvaise estimation est due aux (relativement) petits effectifs, quand les groupes comptent moins de 500 000 individus. Mais si on fait porter la régression sur la partie de la courbe la plus à droite, cette qui semble être la plus droite… on voit bien que cette courbe n’est pas linéaire. (Même si l’erreur standard résiduelle est très faible et le R^2 de 0,9999…).
Ci dessous, les “diagnostics plots” d’une telle régression :

homonymes-paris-marseille-diagnostic

Mais ça ne pouvait de toute façon pas être une droite : la proportion maximale est bornée à 100% !

Donc c’est plus complexe, et une estimation de la proportion d’homonymes dans un groupe de 30 millions d’individus basée sur une extrapolation à partir de la régression linéaire… se trompera.

Face à ça, que faire… Who you gonna call ?

Ghostbusters_logo.svg

J’ai contacté Arthur Charpentier, qui a rapidement vu que ce problème était un analogue — en plus complexe — du paradoxe des anniversaires, dont la modélisation est tout sauf évidente. On sait que si un groupe compte plus de 23 personnes, alors il y a plus de 50% de chance que deux personnes aient leur anniversaire le même jour. Quelle doit être la taille d’un groupe pour qu’il y ait au moins deux homonymes dans ce groupe? Si la population de départ ressemble à celle de Marseille et Paris, alors il faut un groupe d’environ 1750 personnes.
homonymes-paris-marseille-proba
Dans des groupes de 6000 individus tirés au hasard dans la population des électeurs parisiens, il y près de 100% de chance d’avoir au moins un couple d’homonymes.

La suite de la réflexion est chez Arthur Charpentier, sur freakonometrics.