Une exploration des requêtes

Depuis un peu plus d’un an, les visiteurs de http://coulmont.com/bac/ ont fait 265000 requêtes. Le prénom Kevin a été entré 4600 fois, suivi par Marie (2500), Mathilde et Mohamed (2200). 15 000 prénoms différents ont été recherchés, dont Yseulys, Yssam, ou encore Yun (à une reprise).
Parce que seul le prénom et l’heure de la requête sont gardés en mémoire et que ni l’adresse IP, ni la configuration informatique, ni rien d’autre n’est enregistré, je ne peux savoir qui cherche 15 prénoms, qui n’en cherche qu’un seul.
Je me demandais si les prénoms recherchés étaient surtout les prénoms des bacheliers (les personnes cherchant à valider statistiquement leur classement) ou des prénoms d’enfants à naître (les futurs parents essayant de s’assurer statistiquement de leur choix).
Examinons d’abord les 50 prénoms les plus recherchés (ils ont été à l’origine de 65000 requêtes) : Kevin Marie Mathilde Mohamed Pierre Louis Charles Camille Antoine Adele Paul Nicolas Alexandre Thomas Louise Guillaume Claire Jean Francois Charlotte Baptiste Pauline Lea Julien Maxime Alice Juliette Sophie Chloe Arthur Julie Clement Mohammed Vincent Sarah Victor Manon Jeanne Agathe Anne Hugo Edouard Adrien Dylan Lucie Clemence Marion Romain Emma et enfin Olivier
Ce sont des prénoms qui, à eux tous, suffisent à nommer 35% des naissances de 1900. Et surtout, ils forment un groupe de prénoms qui nomme 26,5% des naissances de 1996. Les 50 prénoms les plus fréquemment recherchés sont les prénoms des bacheliers de 2012-2014.
bac-1-50
Les prénoms un peu moins recherchés (disons ceux qui sont entre le 51 et le 200e rang) sont surtout des prénoms des années 60-80 : on y trouve Axel, Damien, Delphine, Elsa, Loïc…
En dessous, entre le 201e rang et le 800e rang se trouvent les prénoms des parents des bacheliers : Claudine, Evelyne, Francis, Jean-Claude (recherché à 90 reprises)… Ce groupe de prénom nomme 55% des naissances de 1955
Et les prénoms très peu recherchés, ceux qui se trouvent sous le 800e rang ? On y trouve les prénoms des grands-parents mais aussi des prénoms en voie de croissance, des prénoms de plus en plus donnés depuis le début des années 2000. Ils ne peuvent couvrir que 10% des bacheliers de 2013, mais ils représentent 30% des naissances de 2012. Malheureusement pour les internautes, ces prénoms ne se trouvent pas dans la base : ils sont trop rares.
bac-1-15000
Il semble donc y avoir, grosso modo, une relation entre la popularité des requêtes et les générations.

Les notes du bac

Comment ont évolué, au cours des dernières années, les notes au bac ? Dans le cadre des discussions politiques autour des “bourses au mérite”, un examen de la dispersion de ces notes peut être révélateur.
La MENESR-DEPP dispose d’une série, “Distribution des candidats présents au baccalauréat professionnel, technologique ou général selon la moyenne finale obtenue”, entre 2006 et 2013, que l’on va étudier ici. Notons tout de suite que l’on ne prend en compte que les candidats présents, pas les candidats inscrits au bac mais ne le passant pas ou passant seulement une partie des épreuves, pour une raison ou une autre.

Commençons par les bacs professionnels : le graphique ci-dessous indique qu’environ 40% des élèves obtiennent le bac pro avec entre 10 et 12 de moyenne. Au cours des 9 dernières années, la proportion d’élèves obtenant entre 8 et 10 a eu tendance à baisser. Notons que, sur la même période, il y a eu une réforme du bac pro et une forte augmentation des effectifs.
bacpro20062013

Poursuivons par les bacs techno : les notes semblent un peu plus concentrées autour de la moyenne.
bactechno20062013

Terminons par les bacs généraux : les notes sont moins concentrées autour de la moyenne, et on remarque une tendance à la diminution de la proportion des notes inférieures à 10.
bacgeneral20062013

Si l’on anime ce dernier graphique, en faisant défiler les différentes années les unes après les autres, voici ce que cela donne :
bacgeneralanimation
On remarque mieux les mouvements d’une année sur l’autre.

L’intérêt de la série de la DEPP est sa finesse : les moyennes sont disponibles au dixième de point près.

On voit, sur ce graphique, l’attraction pour les notes rondes. Il est entièrement faux de dire que “on donne le bac à tout le monde”. Seul un tiers d’une cohorte d’élève obtient le bac dans les temps écrivent T. de Saint-Pol et J. Cayouette : “seul un tiers des élèves entrant en 6e parvient effectivement à ce diplôme dans le temps initialement prévu”. Et à quoi servirait de recaler un élève pour 0,1 0,2 ou 0,3 points ? La barrière est-elle plus importante que le niveau ? Les jurys évaluent donc, pour les notes rondes, l’ensemble des éléments dont ils disposent. Ainsi, environ 5% des candidats obtiennent une moyenne comprise entre 10 et 10,0999.
repartition-dixieme
Entre 5/20 et 9,9/20, la répartition des notes forme deux “vagues”, résultat, sans doute, de la barrière à 8/20 pour passer à l’oral, et de l’attirance pour le 10 qui crée la bachelière. Et ensuite, l’on repère l’attraction qu’exerce les 12, 14 et 16, barrières des mentions. Le 18, qui ne donne aucune mention (les “félicitations du jury” n’existant absolument pas, sauf dans l’esprit de quelques parents), ne donne pas lieu à un pic.

Mais un phénomène intéressant est repérable vers les très hautes notes. La proportion de candidats obtenant in fine une moyenne supérieure à 18/20 est passée, entre 2006 et 2013 de 0,4% à 1,8%. Les candidats ayant une note supérieure à 19 sont passés de 160 à près de 1600. Le 20/20 était obtenu par 6 candidats en 2006, et par un peu plus de 60 candidats en 2013.
bignotes-evolution
Les très hautes notes sont toujours un signal. La mention “TB” remplissait “de mon temps”, ce signal, quand les IEP quasiment d’office admettaient les candidats l’ayant reçue, ce qui a maintenant pris fin. Ce sont les “20/20″ qui, maintenant, sont interviewées par la presse régionale.

Ton prénom n’est pas unique

Chaque personne est unique, mais son prénom beaucoup moins. Coca-Cola l’a bien compris (faisons ici comme si Coca était une personne).
Depuis quelques années, Coca édite des canettes “personnalisées” : une centaine de prénoms d’abord, puis plus de 250 (été 2013), et enfin, cette année, 1000 prénoms.
Ainsi, une bonne partie de la population née en France est couverte par cette personnalisation. Avec 1000 prénoms, c’est presque 80% des personnes nées vers 2000 qui peuvent trouver bouteille à leur nom, et plus de 60% des jeunes enfants nés vers 2010.
coca-proportions
Mais 1000 prénoms ne couvrent pas toute la population. Plusieurs prénoms sont absents de la liste, dont la transcription francophone de celui du prophète de l’Islam. Mais aussi Georgette, Mauricette, Marcelle, Renée, Simone, qui ne se trouvent pas dans le cœur de cible de la marque (en revanche, les Mathis, Léna, Hugo, Maelys, nés vers 2010, peuvent se trouver sur des canettes).
Voici les 50 plus “gros” prénoms ne se trouvant pas dans la liste 2014 des prénoms-Coca.
coca-non-non
De fait, une bonne proportion des personnes nées avant 1930 sont décédées… Il reste peu de Simone en vie par comparaison aux Simone nées.
Une autre manière de représenter l’intérêt pour certaines générations est de se concentrer sur la proportion du “top 100″ ou du “top 1000″ couvert par la liste des 1000 prénoms Coca. Tous les prénoms du “Top 100″ après 1950 sont dans la liste. Coca s’intéresse bien aux prénoms les plus répandus. Mais Coca est plus sélectif quand on compare avec le “Top 1000″ des prénoms les plus répandus une année données. Ainsi, au maximum, seuls 80% des prénoms du “Top 1000″ de 1990 (les 1000 prénoms les plus donnés aux bébés cette année-là) se trouvent dans la liste Coca.
coca-top
Il y a donc une liste d’environ 200 prénoms qui se trouvent dans cette liste et qui ne devraient pas s’y trouver si Coca suivait uniquement la liste des fréquences.

Jeunes électeurs, vieux électeurs, à Paris

Toujours en partant des listes électorales, voici une estimation rapide de la densité de jeunes électeurs et électrices (de moins de 20 ans) et de la densité des séniors parmi les seniors, les électrices de plus de 91 ans (il y a moins d’électeurs, à cet âge). Des courbes de niveaux indiquent les zones de densité moyenne équivalente.
jeunes-vieux
Cliquer pour agrandir

L’image est parlante : la densité de jeunes électeurs est importante dans les quartiers populaires, et celle des super-seniors dans des quartiers plus bourgeois. Mais l’indicateur est imparfait. Les zones peu peuplées (8e arrondissement, par exemple) contiennent par définition peu d’électeurs, mais ne contiennent-elles pas plus de vieux électeurs que de jeunes électeurs ?
Ainsi une carte qui s’intéresserait à la proportion de jeunes électeurs (ou de vieux électeurs) parmi l’ensemble des électeurs donnerait une image un peu différente de Paris.

Paris, ville monde

Les listes électorales parisiennes (1,2 millions d’individus) renseignent sur le pays de naissance des électeurs parisiens. Une partie d’entre eux est née à l’étranger. Plus de 6000 au Viet Nam, un peu plus de 5000 au Liban, etc… On compte même un (ou une) électeur(e) né(e) au Vatican, ou plutôt ayant déclaré être né(e) au Vatican.
Ces électeurs sont peut-être “nés étrangers à l’étranger”, mais ils sont peut-être “nés français à l’étranger”. Mais l’étranger n’est pas toujours l’étranger : l’Algérie fut un moment des départements français, et les Algériens furent eux-aussi un moment des électeurs français. Et les pays changent de nom : où donc ont bien pu naître les électeurs français nés en “U R S S” ? Plus de 200 pays apparaissent dans ces listes : Paris est bien une ville-monde.
Mais il y a des mondes différents dans cette ville-monde.
Prenons donc les électeurs nés dans quelques pays choisis et examinons la dispersion spatiale de ces électeurs. J’ai superposé aux cartes des courbes de niveau qui donnent une idée imparfaite de la densité.
mondes-paris
L’on distingue bien des zones préférentielles : le Nord-Est parisien populaire, le Sud-Est du 14e arrondissement. Les électeurs et électrices nés au Liban ont ici une répartition bien spécifique : ils ont choisi le Paris du Sud-Ouest, 16e et 15e arrondissement. Reste à comprendre pourquoi…
Les électeurs nés aux États-Unis d’Amérique, eux, sont d’abord peu nombreux, mais aussi peu concentrés. Ils évitent visiblement le Paris populaire pour préférer le Paris touristique ou bourgeois.
La localisation a été réalisée grâce aux données du “projet BANO“, mais les coordonnées des points ont été légèrement modifiées. Note sur la lecture enfin : ce n’est pas parce qu’une zone est toute orange ou toute rose que les électeurs y résidant seraient majoritairement nés à l’étranger.

Androgynous names in the USA

Very often, boys have boys’ names and girls, girls’ names. But sometimes, the same name (Leslie, Dana, Sammie, Alva, Lou…) is given to boys and to girls. Those “androgynous” or epicene names are interesting : most of the time, they are unstable, they begin as male names and end as female names. [See Lieberson, Stanley, Susan Dumais, and Shyon Baumann, ‘The Instability of Androgynous Names: The Symbolic Maintenance of Gender Boundaries’, The American Journal of Sociology, 105 (2000), 1249–87 jstor]

Let’s take Leslie :
epicene-usa-1
At the end of the 19th century, it is given to baby boys more than 9 times out of 10. Around 1950, it is given at the same frequency among boys and girls. But now, male Leslies are much less frequent than female Leslies.
It is difficult to find the opposite evolution, where a female name is masculinized.

Let’s consider that a name is epicene if the babies born year N and receiving this name are girls more than 10% of the times and less than 90%. This definition is restrictive, I consider that some names — such as Leslie now — aren’t really epicene anymore even if they were epicene before (because in 2013, there were fewer than 1 boys for 10 Leslie). This definition focuses on the current use of epicene names.
10/90 are arbitrary boundaries, one could use 1/99 or 30/70 (and it is easy to do, see the R code below).

epicene-usa-2

In 1880, 2% of the babies had an epicene name (and there were very few such names). During most of the 20th century, around 3.5% of babies received an epicene. Since 1960 (or 1980) this proportion is increasing : 8% of the babies born in 2010 received an epicene. And today (dotted line) more than 1500 names are epicene. The consequence of these number : epicene names are “small” names, given to a small number of babies each year.

epicene-usa-3

The real proportion of epicene babies is higher : names given to less than 5 male or female babies are not included in the database, and we lack information about 10% of the babies. And very rare names are more likely to be epicene than common names.

Let’s focus now on the population of babies receiving an epicene. From 1900 until 1950 (black line), more than 50% of epicene babies are male (which means that parents are more often than not giving “male” names to their daughters when they give them an epicene). From 1950 until 1990, the epicene babies are mostly female.
As you can see (dotted red line) there are always more “male” names than “female” names in epicene names [a “male” name is a name given to a higher proportion of male babies than female babies].

epicene-usa-4

There seems to be an interesting evolution of the Gini coefficient. The Gini coefficient is a measure of inequality (most often used to describe inequality of income in a country). Here, it is used to describe the distribution of name frequency.

Notes : I relied on Social Security Administration’s applicants numbers and first name. They are closely related to birth for the current period, but not before the 1930s : I very crudely corrected the skewed sex ratio. I used the ‘babynames’ package for R.
You can download the R code (it is not pretty) : epicene-usa-web.R

La participation électorale (en Ohio)

Je suis tombé, un peu par hasard, sur ce site : Ohio Voter Files Download Page, qui donne accès aux listes électorales de l’Ohio, 7 716 460 d’électeurs (registered voters), avec leur nom, leurs prénoms, leur date de naissance, leur adresse… et surtout l’historique de leur participation depuis 2000 (45 élections). Il manque la race et le sexe, mais l’on dispose de leur affiliation partisane.
Il est alors possible de regarder si les “Républicains” votent plus ou moins que les “Démocrates” :
ohio2012
Parmi les “registered voters”, démocrates et républicains votent dans des proportions égales. Les personnes affiliées au “green party” ou aux “libertarians” votent un peu moins. Les non-affiliés (celles et ceux qui ne déclarent aucun parti) votent beaucoup moins.
Les taux de participation sont très élevés, plus de 80% des électeurs “partisans” inscrits ont voté aux présidentielles de 2012. Si l’on calculait le taux de participation non pas en relation aux inscrits, mais en relation à la “population en âge de voter”, alors on retrouverait des taux bien plus bas [l’abstention, aux Etats-Unis, est le plus souvent calculée sur la base de cette population en âge de voter].
En 2012, les inscrits les plus jeunes votent moins que leurs aînés : l’on remarque une petite différence chez les “indépendants” les plus jeunes.

L’âge et l’origine

inscrits
Cliquez pour agrandir

Ce graphique montre, pour l’année 2014, le nombre d’inscrits sur les listes électorales parisiennes [la taille des points], en fonction de l’année de naissance, de l’année d’inscription et de la proportion d’inscrits nées en France.
Toutes les inscriptions précédant 1981 ont été enregistrées comme ayant eu lieu en 1981.
Ceux qui s’inscrivent à 18 ans sont presque toujours nés en France (ils sont bien rouge sur le graphique). Mais ceux qui s’inscrivent tardivement (suite à un déménagement…) sont plus souvent nés à l’étranger : je lis cela en relation avec les naturalisations (les naturalisés, adultes et déjà relativement âgés, deviennent tardivement de nouveaux électeurs).
Mais il y a peut-être d’autres explications.

Je n’ai pas réussi à bien le faire apparaître, mais un peu avant 1995, 2002, 2007 et 2012, on voit plus d’inscriptions. La présidentielle actualise des électeurs virtuels.

Sauter une classe, une affaire de classe (mais pas que)

5% des candidats au bac (général ou technologique) arrivent “en avance” : ils (et elles) passent le bac en 2014, mais au lieu d’être nés en 1996, ils (et elles) sont nés entre 1997 et 2000…
Ces candidats et ces candidates ont “sauté une classe” : parents et enseignants ont repéré une maîtrise des compétences scolaires suffisante pour passer de la “grande section” de maternelle au CE1, par exemple. Mais il est fort probable que tous les milieux sociaux ne valorisent pas autant l’avance et la précocité. En classe de sixième : 8 à 9 % des enfants de professions libérales ou de professeurs sont “en avance”, ce n’est le cas que de 1% environ des enfants d’ouvriers, m’écrit Wilfried Lignier.
Un graphique qui représente en abscisses la proportion de porteurs de prénoms “en avance” et en ordonnées le nombre de candidats portant ces prénoms montre de manière synthétique l’origine de classe du saut de classe.
Cliquez pour agrandir
avance
Cliquez pour agrandir

Si l’on compare le graphique de l’avance au graphique des mentions “Très bien”, on repèrera de grandes similarités. Les Augustin et les Jordan sont toujours situés aux extrèmes.
On peut aussi repérer des différences, par exemple si l’on compare directement proportion de mentions “TB” et proportion d’individus en avance, et que l’on colore les prénoms en fonction de leur genre.
avance-mention
5,4% des garçons sont “en avance”, et ce n’est le cas que de 4,5% des filles. À résultat final équivalent, 10% des Augustin et 3% des Lise auront été jugés suffisamment “intelligents/mûrs/compétents…” pour sauter une ou deux classes. “Petit génie”, “enfant prodige”, est un diagnostic qui se porte plus souvent sur les garçons (brillants) que sur les filles (scolaires). Sauter une classe : une affaire de genre.

Prénoms et mentions au bac, édition 2014

bac-2014
Cliquez pour une image plus lisible

[Avec Rue89]
La réussite scolaire varie en fonction de l’origine sociale, du niveau de diplôme des parents et du sexe des lycéens. Le choix des prénoms varie aussi avec ces mêmes critères (origine, diplôme, sexe de l’enfant). C’est pourquoi en 2014 environ 20% des Agathe, Jeanne et Gabrielle (qui ont eu plus de 8/20 au bac) ont obtenu la mention « Très bien », c’est à dire dix fois plus que les Dylan, Jordan ou Steven. L’année dernière, ces prénoms étaient déjà à la même place.
Les prénoms les plus donnés vers 1996, Manon, Thomas, Camille et Marie, se répartissent autour de la moyenne. 9% des bacheliers ont obtenu la plus haute mention, c’est le cas de 8,5% des Thomas et 10% des Camille. Les Manon passent plus souvent au rattrapage (ou sans mention) que les Marie (qui réussissent un peu mieux). Le sociologue pensera rapidement que les Marie nées vers 1996 sont plus souvent filles de cadres que les Manon.
Ce graphique donne ainsi à voir, en touchant les individus au plus profond d’eux-même (à travers le prénom), un espace social inégalitaire. Les parents des Cassandra et Cindy, en 1996, trouvaient sans doute affreux des prénoms tels que Diane ou Zoé (des prénoms de chiens ou d’arrière-grand-mère). Ceux des Félix et des Augustin, parions-le, soupiraient en entendant Killian ou Dylan : « quel mauvais goût ! ».
En filigrane, le même graphique donne à voir, à travers certains prénoms — Mohamed, Anissa, Inès — ceux qui sont probablement les (petits-)enfants de migrants du Maghreb, dont la place est ici équivalente à celle des enfants d’ouvriers et d’employés : Mickael ou Mohamed, Mehdi ou Dorian, sont ici à la même position.
Note : le graphique a été réalisé à partir des résultats nominatifs d’un peu plus de 310 000 individus ayant eu plus de 8/20 au bac 2014. Les données manquaient pour quelques départements, mais il y a fort à parier que ces données en plus ne bouleverseront pas l’analyse.
Pour en savoir plus, vous pouvez lire Sociologie des prénoms (édition La Découverte) [sur amazon, dans une librairie indépendante], et regarder les graphiques des années précédentes : 2013, 2012 ou 2011
Un mini-site interactif est disponible ici : http://coulmont.com/bac/