Quelques relations

J’ai participé, pour voir, au Open-Data-Camp Elections organisé lundi dernier. De nombreux projets émergeaient en relation avec la libération des données des élections.
Mais comme un représentant de l’INA (Gautier Poupeau, @lespetitescases) proposait de travailler sur des données “semi-ouvertes”, sur les méta-données politiques des journaux télévisés, j’ai regardé s’il était possible de repérer des proximités entre individus à partir des co-participations aux reportages, interviews, etc…
J’ai retenu comme lien significatif les liens qui apparaissent au moins trois fois plus fréquemment que ce qui serait attendu si les individus étaient répartis au hasard dans l’espace médiatique :
reseau-ina-1
cliquez pour agrandir

Les couleurs sont liées à des “communautés” repérées à l’aide de l’algorithme WalktrapCommunity.
Rien de surprenant, mais c’est assez illustratif, et assez simple à faire.

Le Suicide en 1890

Le Compte général de l’administration de la justice criminelle donne, pour le XIXe siècle, le nombre annuel de suicides par département. En combinant ces chiffres avec ceux des recensements, il est possible de cartographier les zones suicidogènes et les zones protégées.
Ainsi, en 1890, le taux des suicides variait, dans les départements de France métropolitaine, entre 46 suicide par millions d’habitant et 556 suicides par million.
suicide-1890
Les recensements sont disponibles sur le site de l’INSEE à partir de 1851 et jusqu’en 1921.
Il me semble que le Compte général de la justice n’a malheureusement pas été transformé en fichier utilisable directement. On les trouve sur gallica.bnf.fr mais sous la forme de copies numériques. Il faut donc faire un petit travail de copie.
Le “Compte général de la justice” a de nombreuses informations sur les suicides : nombre annuel par département, différencié selon les hommes et les femmes, par tranche d’âge, par état civil (marié, veuf, avec ou sans enfants…) On a aussi des informations sur le lieu du suicide, sur le mode de suicide :
suicide-1890-mode
Nous disposons aussi de la répartition mensuelle et des professions des suicidés, croisées avec le “motif présumé” (la “grossesse hors mariage” est le motif principal des suicides des “domestiques”).
La transposition de ces informations en base de données utilisables sera probablement un des exercices que je donnerai dans le cadre du cours que je vais donner sur Le Suicide de Durkheim… si, véritablement, on ne trouve pas de fichier déjà disponible.

Le Grand Remplacement

Au cours du XXe siècle, les parents des bébés nés en France ont remplacé Simone par Léa, Robert par Théo. Ce grand remplacement orthographique est bien visible :
total
Cliquez pour élargir le graphique

En 1900, le E était la lettre la plus utilisée dans les prénoms des bébés nés en France (21% des lettres des prénoms étaient des E). En 2011, les A représentent 17% de l’ensemble des lettres utilisées dans les prénoms, et les E dans 13%.
Les Y ont cru jusqu’à constituer 2,5% des lettres utilisées. Les R passent de 10% à environ 3%.

Méthode : Si 3 bébés qui naissent en France en 1910, que 2 d’appellent BOB et que l’autre s’appelle BILL, alors le total des lettres est de 10 (BOB, BOB,BILL), soit, classé par fréquence d’apparition B,B,B,B,B,O,O,L,L,I. Les B représentent alors 50% des lettres utilisées dans les prénoms, les I 10%.

Géographie des prénoms en Turquie, suite

Suite de l’étude des prénoms en Turquie commencée hier.
On dispose, pour chaque province, des 3 prénoms les plus donnés aux garçons et des trois prénoms les plus donnés aux filles. On peut considérer que plus deux provinces partagent des prénoms, plus elles sont similaires : si elles en partagent six, elles sont “semblables”.
Nous sommes limités dans l’analyse par le nombre réduit de prénoms et par l’absence d’informations sur la fréquence. Etre “numéro 1″ quand on est donné à 20% des garçons et “numéro 1″ quand on est donné qu’à 5% des garçons… ce n’est pas vraiment pareil.
J’ai réalisé une analyse en composantes principales (ACP) à partir des informations recueillies. Le premier axe n’est pas représenté : il est du à la seule province de Tunceli, petite et avec moins de 1000 naissances en 2013. Je ne représente ici que les axes 2 et 3.
pca-resume
L’axe 2 oppose des prénoms comme Hiranur, Nisanur, Muhammed et Yusuf à des prénoms comme Emir, Cinar, Kerem et Elif. L’axe 3 Mehmet et Mustafa à Irmak, Arda ou Emir.
Les individus, ici, sont les provinces : TR213 est Kiklareli province à la frontière de la Bulgarie (et que les Bulgares appellent Lozengrad).TRB24, c’ets Hakkari, à l’extrême Est de la Turquie (à la frontière avec l’Iran et l’Irak). D’un côté, à l’Ouest, les parents choisissent plutôt Emir et Elif, et à l’Est plutôt Nisanur et Muhammed.
Dans la carte suivante, les provinces sont coloriées en fonction de leur coordonnée sur l’axe 2 de l’ACP. Les rouges/orangées ont des coordonnées positives (les provinces à la droite du graphique, à l’Ouest géographiquement), les bleues foncées ont des coordonnées négatives (les provinces à l’Est, à gauche du graphique).

acp2

A partir d’une analyse des six prénoms les plus donnés aux enfants par province, en 2013, on voit apparaître des différences entre l’Est et l’Ouest de la Turquie.

Une exploration des requêtes

Depuis un peu plus d’un an, les visiteurs de http://coulmont.com/bac/ ont fait 265000 requêtes. Le prénom Kevin a été entré 4600 fois, suivi par Marie (2500), Mathilde et Mohamed (2200). 15 000 prénoms différents ont été recherchés, dont Yseulys, Yssam, ou encore Yun (à une reprise).
Parce que seul le prénom et l’heure de la requête sont gardés en mémoire et que ni l’adresse IP, ni la configuration informatique, ni rien d’autre n’est enregistré, je ne peux savoir qui cherche 15 prénoms, qui n’en cherche qu’un seul.
Je me demandais si les prénoms recherchés étaient surtout les prénoms des bacheliers (les personnes cherchant à valider statistiquement leur classement) ou des prénoms d’enfants à naître (les futurs parents essayant de s’assurer statistiquement de leur choix).
Examinons d’abord les 50 prénoms les plus recherchés (ils ont été à l’origine de 65000 requêtes) : Kevin Marie Mathilde Mohamed Pierre Louis Charles Camille Antoine Adele Paul Nicolas Alexandre Thomas Louise Guillaume Claire Jean Francois Charlotte Baptiste Pauline Lea Julien Maxime Alice Juliette Sophie Chloe Arthur Julie Clement Mohammed Vincent Sarah Victor Manon Jeanne Agathe Anne Hugo Edouard Adrien Dylan Lucie Clemence Marion Romain Emma et enfin Olivier
Ce sont des prénoms qui, à eux tous, suffisent à nommer 35% des naissances de 1900. Et surtout, ils forment un groupe de prénoms qui nomme 26,5% des naissances de 1996. Les 50 prénoms les plus fréquemment recherchés sont les prénoms des bacheliers de 2012-2014.
bac-1-50
Les prénoms un peu moins recherchés (disons ceux qui sont entre le 51 et le 200e rang) sont surtout des prénoms des années 60-80 : on y trouve Axel, Damien, Delphine, Elsa, Loïc…
En dessous, entre le 201e rang et le 800e rang se trouvent les prénoms des parents des bacheliers : Claudine, Evelyne, Francis, Jean-Claude (recherché à 90 reprises)… Ce groupe de prénom nomme 55% des naissances de 1955
Et les prénoms très peu recherchés, ceux qui se trouvent sous le 800e rang ? On y trouve les prénoms des grands-parents mais aussi des prénoms en voie de croissance, des prénoms de plus en plus donnés depuis le début des années 2000. Ils ne peuvent couvrir que 10% des bacheliers de 2013, mais ils représentent 30% des naissances de 2012. Malheureusement pour les internautes, ces prénoms ne se trouvent pas dans la base : ils sont trop rares.
bac-1-15000
Il semble donc y avoir, grosso modo, une relation entre la popularité des requêtes et les générations.

Les notes du bac

Comment ont évolué, au cours des dernières années, les notes au bac ? Dans le cadre des discussions politiques autour des “bourses au mérite”, un examen de la dispersion de ces notes peut être révélateur.
La MENESR-DEPP dispose d’une série, “Distribution des candidats présents au baccalauréat professionnel, technologique ou général selon la moyenne finale obtenue”, entre 2006 et 2013, que l’on va étudier ici. Notons tout de suite que l’on ne prend en compte que les candidats présents, pas les candidats inscrits au bac mais ne le passant pas ou passant seulement une partie des épreuves, pour une raison ou une autre.

Commençons par les bacs professionnels : le graphique ci-dessous indique qu’environ 40% des élèves obtiennent le bac pro avec entre 10 et 12 de moyenne. Au cours des 9 dernières années, la proportion d’élèves obtenant entre 8 et 10 a eu tendance à baisser. Notons que, sur la même période, il y a eu une réforme du bac pro et une forte augmentation des effectifs.
bacpro20062013

Poursuivons par les bacs techno : les notes semblent un peu plus concentrées autour de la moyenne.
bactechno20062013

Terminons par les bacs généraux : les notes sont moins concentrées autour de la moyenne, et on remarque une tendance à la diminution de la proportion des notes inférieures à 10.
bacgeneral20062013

Si l’on anime ce dernier graphique, en faisant défiler les différentes années les unes après les autres, voici ce que cela donne :
bacgeneralanimation
On remarque mieux les mouvements d’une année sur l’autre.

L’intérêt de la série de la DEPP est sa finesse : les moyennes sont disponibles au dixième de point près.

On voit, sur ce graphique, l’attraction pour les notes rondes. Il est entièrement faux de dire que “on donne le bac à tout le monde”. Seul un tiers d’une cohorte d’élève obtient le bac dans les temps écrivent T. de Saint-Pol et J. Cayouette : “seul un tiers des élèves entrant en 6e parvient effectivement à ce diplôme dans le temps initialement prévu”. Et à quoi servirait de recaler un élève pour 0,1 0,2 ou 0,3 points ? La barrière est-elle plus importante que le niveau ? Les jurys évaluent donc, pour les notes rondes, l’ensemble des éléments dont ils disposent. Ainsi, environ 5% des candidats obtiennent une moyenne comprise entre 10 et 10,0999.
repartition-dixieme
Entre 5/20 et 9,9/20, la répartition des notes forme deux “vagues”, résultat, sans doute, de la barrière à 8/20 pour passer à l’oral, et de l’attirance pour le 10 qui crée la bachelière. Et ensuite, l’on repère l’attraction qu’exerce les 12, 14 et 16, barrières des mentions. Le 18, qui ne donne aucune mention (les “félicitations du jury” n’existant absolument pas, sauf dans l’esprit de quelques parents), ne donne pas lieu à un pic.

Mais un phénomène intéressant est repérable vers les très hautes notes. La proportion de candidats obtenant in fine une moyenne supérieure à 18/20 est passée, entre 2006 et 2013 de 0,4% à 1,8%. Les candidats ayant une note supérieure à 19 sont passés de 160 à près de 1600. Le 20/20 était obtenu par 6 candidats en 2006, et par un peu plus de 60 candidats en 2013.
bignotes-evolution
Les très hautes notes sont toujours un signal. La mention “TB” remplissait “de mon temps”, ce signal, quand les IEP quasiment d’office admettaient les candidats l’ayant reçue, ce qui a maintenant pris fin. Ce sont les “20/20″ qui, maintenant, sont interviewées par la presse régionale.

Ton prénom n’est pas unique

Chaque personne est unique, mais son prénom beaucoup moins. Coca-Cola l’a bien compris (faisons ici comme si Coca était une personne).
Depuis quelques années, Coca édite des canettes “personnalisées” : une centaine de prénoms d’abord, puis plus de 250 (été 2013), et enfin, cette année, 1000 prénoms.
Ainsi, une bonne partie de la population née en France est couverte par cette personnalisation. Avec 1000 prénoms, c’est presque 80% des personnes nées vers 2000 qui peuvent trouver bouteille à leur nom, et plus de 60% des jeunes enfants nés vers 2010.
coca-proportions
Mais 1000 prénoms ne couvrent pas toute la population. Plusieurs prénoms sont absents de la liste, dont la transcription francophone de celui du prophète de l’Islam. Mais aussi Georgette, Mauricette, Marcelle, Renée, Simone, qui ne se trouvent pas dans le cœur de cible de la marque (en revanche, les Mathis, Léna, Hugo, Maelys, nés vers 2010, peuvent se trouver sur des canettes).
Voici les 50 plus “gros” prénoms ne se trouvant pas dans la liste 2014 des prénoms-Coca.
coca-non-non
De fait, une bonne proportion des personnes nées avant 1930 sont décédées… Il reste peu de Simone en vie par comparaison aux Simone nées.
Une autre manière de représenter l’intérêt pour certaines générations est de se concentrer sur la proportion du “top 100″ ou du “top 1000″ couvert par la liste des 1000 prénoms Coca. Tous les prénoms du “Top 100″ après 1950 sont dans la liste. Coca s’intéresse bien aux prénoms les plus répandus. Mais Coca est plus sélectif quand on compare avec le “Top 1000″ des prénoms les plus répandus une année données. Ainsi, au maximum, seuls 80% des prénoms du “Top 1000″ de 1990 (les 1000 prénoms les plus donnés aux bébés cette année-là) se trouvent dans la liste Coca.
coca-top
Il y a donc une liste d’environ 200 prénoms qui se trouvent dans cette liste et qui ne devraient pas s’y trouver si Coca suivait uniquement la liste des fréquences.

Jeunes électeurs, vieux électeurs, à Paris

Toujours en partant des listes électorales, voici une estimation rapide de la densité de jeunes électeurs et électrices (de moins de 20 ans) et de la densité des séniors parmi les seniors, les électrices de plus de 91 ans (il y a moins d’électeurs, à cet âge). Des courbes de niveaux indiquent les zones de densité moyenne équivalente.
jeunes-vieux
Cliquer pour agrandir

L’image est parlante : la densité de jeunes électeurs est importante dans les quartiers populaires, et celle des super-seniors dans des quartiers plus bourgeois. Mais l’indicateur est imparfait. Les zones peu peuplées (8e arrondissement, par exemple) contiennent par définition peu d’électeurs, mais ne contiennent-elles pas plus de vieux électeurs que de jeunes électeurs ?
Ainsi une carte qui s’intéresserait à la proportion de jeunes électeurs (ou de vieux électeurs) parmi l’ensemble des électeurs donnerait une image un peu différente de Paris.

Paris, ville monde

Les listes électorales parisiennes (1,2 millions d’individus) renseignent sur le pays de naissance des électeurs parisiens. Une partie d’entre eux est née à l’étranger. Plus de 6000 au Viet Nam, un peu plus de 5000 au Liban, etc… On compte même un (ou une) électeur(e) né(e) au Vatican, ou plutôt ayant déclaré être né(e) au Vatican.
Ces électeurs sont peut-être “nés étrangers à l’étranger”, mais ils sont peut-être “nés français à l’étranger”. Mais l’étranger n’est pas toujours l’étranger : l’Algérie fut un moment des départements français, et les Algériens furent eux-aussi un moment des électeurs français. Et les pays changent de nom : où donc ont bien pu naître les électeurs français nés en “U R S S” ? Plus de 200 pays apparaissent dans ces listes : Paris est bien une ville-monde.
Mais il y a des mondes différents dans cette ville-monde.
Prenons donc les électeurs nés dans quelques pays choisis et examinons la dispersion spatiale de ces électeurs. J’ai superposé aux cartes des courbes de niveau qui donnent une idée imparfaite de la densité.
mondes-paris
L’on distingue bien des zones préférentielles : le Nord-Est parisien populaire, le Sud-Est du 14e arrondissement. Les électeurs et électrices nés au Liban ont ici une répartition bien spécifique : ils ont choisi le Paris du Sud-Ouest, 16e et 15e arrondissement. Reste à comprendre pourquoi…
Les électeurs nés aux États-Unis d’Amérique, eux, sont d’abord peu nombreux, mais aussi peu concentrés. Ils évitent visiblement le Paris populaire pour préférer le Paris touristique ou bourgeois.
La localisation a été réalisée grâce aux données du “projet BANO“, mais les coordonnées des points ont été légèrement modifiées. Note sur la lecture enfin : ce n’est pas parce qu’une zone est toute orange ou toute rose que les électeurs y résidant seraient majoritairement nés à l’étranger.

Androgynous names in the USA

Very often, boys have boys’ names and girls, girls’ names. But sometimes, the same name (Leslie, Dana, Sammie, Alva, Lou…) is given to boys and to girls. Those “androgynous” or epicene names are interesting : most of the time, they are unstable, they begin as male names and end as female names. [See Lieberson, Stanley, Susan Dumais, and Shyon Baumann, ‘The Instability of Androgynous Names: The Symbolic Maintenance of Gender Boundaries’, The American Journal of Sociology, 105 (2000), 1249–87 jstor]

Let’s take Leslie :
epicene-usa-1
At the end of the 19th century, it is given to baby boys more than 9 times out of 10. Around 1950, it is given at the same frequency among boys and girls. But now, male Leslies are much less frequent than female Leslies.
It is difficult to find the opposite evolution, where a female name is masculinized.

Let’s consider that a name is epicene if the babies born year N and receiving this name are girls more than 10% of the times and less than 90%. This definition is restrictive, I consider that some names — such as Leslie now — aren’t really epicene anymore even if they were epicene before (because in 2013, there were fewer than 1 boys for 10 Leslie). This definition focuses on the current use of epicene names.
10/90 are arbitrary boundaries, one could use 1/99 or 30/70 (and it is easy to do, see the R code below).

epicene-usa-2

In 1880, 2% of the babies had an epicene name (and there were very few such names). During most of the 20th century, around 3.5% of babies received an epicene. Since 1960 (or 1980) this proportion is increasing : 8% of the babies born in 2010 received an epicene. And today (dotted line) more than 1500 names are epicene. The consequence of these number : epicene names are “small” names, given to a small number of babies each year.

epicene-usa-3

The real proportion of epicene babies is higher : names given to less than 5 male or female babies are not included in the database, and we lack information about 10% of the babies. And very rare names are more likely to be epicene than common names.

Let’s focus now on the population of babies receiving an epicene. From 1900 until 1950 (black line), more than 50% of epicene babies are male (which means that parents are more often than not giving “male” names to their daughters when they give them an epicene). From 1950 until 1990, the epicene babies are mostly female.
As you can see (dotted red line) there are always more “male” names than “female” names in epicene names [a “male” name is a name given to a higher proportion of male babies than female babies].

epicene-usa-4

There seems to be an interesting evolution of the Gini coefficient. The Gini coefficient is a measure of inequality (most often used to describe inequality of income in a country). Here, it is used to describe the distribution of name frequency.

Notes : I relied on Social Security Administration’s applicants numbers and first name. They are closely related to birth for the current period, but not before the 1930s : I very crudely corrected the skewed sex ratio. I used the ‘babynames’ package for R.
You can download the R code (it is not pretty) : epicene-usa-web.R