Categories

Archives

L’unité nationale

A l’échelle nationale, certains prénoms apparaissent comme des prénoms “mixtes” ou “épicènes”, portés à la fois par des filles et par des garçons. Mais c’est le résultat d’un effet de composition, d’une moyenne qui cache la dispersion. Le passage à l’échelle départementale vient modifier, parfois, les conclusions dressées à l’échelle nationale.
Ainsi “Dominique” apparaît aujourd’hui comme un prénom masculin au Nord (dans un croissant reliant Bordeaux à Strasbourg en passant par Paris) et féminin au Sud, de Toulouse à Monaco). “Claude”, tout en restant un prénom presque toujours masculin, est plus féminisé, disons, autour de Lyon et de la Bourgogne (les pointes du triangle seraient Clermont, Grenoble et Dijon).
Sur ces deux cartes, Paris a des Claude et des Dominique un peu plus féminines que les départements alentours.

D’autres exemples viennent soutenir l’idée que les Parisiennes et Parisiens donnent à leurs filles des prénoms qui sont donnés à des garçons au delà du périphérique. Deux exemples : Morgan et Noa. Morgan est toujours très masculin, mais moins à Paris. Noa est une fille à Paris (et plutôt un garçon en dehors).

Mon exemple préféré, j’en ai déjà parlé, concerne le prénom “Yael”.
L’on constate sur cette carte que les Yael sont des filles à Paris, dans sa banlieue, ainsi qu’à Strasbourg, Lyon et Marseille. Mais ailleurs, ce sont plutôt des garçons, les Yael. Le prénom est peu répandu, d’où un grand nombre de départements “blancs” (sans information statistique disponible). Mon hypothèse, spécifique à ce prénom : les unes naissent dans des familles juives, ou des familles ayant choisi de donner à leur enfant le nom d’une héroïne biblique n’ayant pas froid aux yeux ; les autres dans des familles inspirées par les modes celtiques, mais préférant Yael à Gael ou Mael (disposant d’une forme féminine, Yaelle, comme Gaelle et Maelle).

La mention du prénom

Le graphique suivant (cliquez dessus pour l’avoir en grande taille lisible) place les prénoms sur un plan en fonction de la fréquence des mentions “Très bien” au Bac général en 2011 (en abscisses) et en fonction du nombre de candidats admis (en ordonnées).


Cliquez sur le graphique pour pouvoir le lire.

Vous trouvez donc en bas, les prénoms peu fréquents, en haut les prénoms fréquents. A gauche les prénoms ayant reçu peu de mentions au bac, à droite les prénoms ayant reçu beaucoup de mentions TB. A dessein, les graduations ont été enlevées.
Il n’y a bien entendu aucune relation directe entre un prénom et la réussite au bac. Si les enfants de professeurs, d’instituteurs et de médecins s’appelaient Potiron et Potironne, alors Potiron et Potironne recevraient beaucoup de mention. Et si vous appelez votre fille “Emma” aujourd’hui, elle n’obtiendra pas, dans 18 ans, une mention TB avec des chances égales aux Emma qui avaient 18 ans en 2011.
La relation est indirecte : c’est parce que les prénoms sont donnés en proportion différentes suivant le milieu social des parents. Les ouvriers et employés, depuis une bonne trentaine d’année, ont tendance à préférer des prénoms “anglo-saxons”. Alison, Jennifer, Dorian, Cindy, Jordan, Kevin… se retrouvent donc à gauche du graphique, ayant reçus, en 2011, très peu de mentions TB. On trouve aussi, à gauche, des prénoms qui sont, lors de la naissance de ces enfants, sur le déclin : Loïc, Rémy, Mélodie, Elodie, Amandine, Matthieu… qui ont alors déjà été abandonnés par les cadres et professions intermédiaires.
Les prénoms très courants au moment de la naissance de ces bacheliers de 2011 (Thomas, Pauline, Camille, Marie, Marion, Nicolas…) reçoivent une proportion de mentions TB très proche de la moyenne : Il est très probable que leur répartition dans la société française, à l’époque de leur naissance, soit bien dispersée. Ce sont des prénoms en “milieu de carrière”.

Notes : Pour réaliser ceci, j’ai “aspiré” les résultats individuels publiés cette année sur internet. J’ai quelques 250 000 personnes dans la base. Pour ce faire, j’ai suivi les tutoriels rédigés par François Guillem. Ce travail a été fait rapidement, je ne garantis pas l’exactitude du placement de chaque prénom sur le graphique. Mais globablement, je suis certain que ce n’est pas faux.
Considérez cette petite étude comme une continuation de celle-ci sur les résultats au brevet.

Suis-je normal ?

La simple présentation de statistiques dans un billet sur les prénoms français suscite ce genre de questions :

J’ai plusieurs amis de moins de 30 ans qui portent des prénoms retirés de la liste (Perrine, Mariette, Gwenaelle, Coline, Hermine, Valentine, Elie, Manuel, Stanislas, Laetitia). J’en déduis quoi sur mon milieu social ? J’en déduis quoi sur le regard que porteraient les fonctionnaires en question sur mon milieu social ?

Dans The Averaged American Sarah E. Igo étudie cette conséquence sociale des statistiques, leur réception par les individus, qui cherchent à s’y lire. L’effet performatif des statistiques (« Tu es ceci, à 75% ») est assez régulièrement souligné par les sociologues (disons ceux de la galaxie Desrosières). Mais pas traité comme central. Il fallait sans doute une historienne pour le faire. (Ou il fallait Emmanuel Didier, mais je n’ai pas lu son livre.)
Comment comprendre cette idée ? C’est sans doute évident au travers des conséquences des enquêtes de Kinsey sur la sexualité des Américain°e°s. Ces enquêtes — aux fondements statistiques peu solides, mais recourant à la “magie des grands N” — ont été publiées en 1948 (concernant les hommes) et dans les années cinquante (concernant les femmes).
Il y eu de nombreuses réactions, critiquant ces graphiques comme une forme de pornographie démoralisatrice. Il y eu aussi des lectures collectives : les premières associations “homophiles” utilisèrent comme justification les “10%” d’hommes ayant déclaré des relations sexuelles avec des personnes du même sexe. Il y eu aussi des lectures individualistes paradoxales, qui cherchaient l’individuel dans la statistique collective. « There is much evidence to suggest that individuals were using Kinsey’s data as a new, more forgiving, standard by which to clasify their own behavior » (Igo, 264). Kinsey recevait des milliers de lettres, sous la forme à la fois de confessions et de demandes de statistiques spécifiques. Et certaines personnes firent des compte-rendus de leur lecture statistique :

I learned quickly that as a social science researcher with a college degree, I had a sex life not unlike upper class women of any color. According to Dr. Kinsey, I and these women got more mental satisfaction and less physical gratification from sexual intercourse than persons with lower class standards
Trad : j’ai rapidement appris qu’en tant que chercheuse en sciences sociales diplômée du supérieur, j’avais une vie sexuelle peu différente de celle des femmes des classes supérieures, quelle que soit leur couleur de peau. D’après le Docteur Kinsey, ces femmes et moi tirons des satisfactions plus mentales que physiques des rapports sexuels, par comparaison avec les femmes des classes populaires.
[citation dans Igo, 266, reprenant un texte d’une femme Africaine-Américaine faisant dans le magazine Ebony le compte-rendu de sa rencontre avec Kinsey]

C’est la comparaison de sa pratique avec la moyenne d’un groupe qui fait sens ici.

*

Aujourd’hui encore, ces lectures existent. Et se trouvent parfois sollicitées par la présentation des données. Prenons une enquête récente, réalisée aux Etats-Unis et portant sur quelques 5000 personnes. Voici comment un tableau concernant des pratiques est présenté. On y lit, pour chaque catégorie de personnes (Homme / Femmes ; Célibataire / en couple / marié ; 18-24, 25-29 … 70+) et pour trois type de pratiques (masturbation, “vaginal intercourse” et “anal intercourse”) une moyenne des réponses. Ainsi 23% des hommes, célibataires, âgés de 40 à 49 ans ont déclaré se masturber plus de 4 fois par semaine (en vert sur le tableau suivant) :

Lien vers la totalité du tableau masculin (PDF)
La réception des statistiques n’est donc pas toujours une réception bêtement critique (« Ca vaut rien, ces chiffres ») ni purement individualiste (« J’ai pas appelé mon fils Léo, je ne suis donc pas dans la masse, je l’ai appelé Nicolas. Mon individualité est irréductible à vos tendances. »). Les statistiques sont utilisées comme “jauge”, comme standard pour donner un sens à une situation : il y en a d’autres comme moi.
*

Sources :
Michael Reece, Debby Herbenick, Vanessa Schick, Stephanie A. Sanders, Brian Dodge, and J. Dennis Fortenberry “Sexual Behaviors, Relationships, and Perceived Health Among Adult Men in the United States: Results from a National Probability Sample” J Sex Med 2010;7(suppl 5):291–304, DOI: 10.1111/j.1743-6109.2010.02009.x
Igo, Sarah E., The Averaged American, Harvard University Press, 2008 (ISBN : 978-0674027428)

Eurovision 2011

Qui a voté pour qui hier soir, lors du dernier concours de l’Eurovision ?
En prenant les votes comme des déclarations d’amitié, on peut dire que deux pays sont reliés si l’un d’eux a voté pour l’autre. Et l’on peut dire que des “communautés de pays” existent quand il y a plus de liens entre certains pays qu’entre d’autres.
Le traitement, avec R, et l’algorithme “walktrap.community” du paquet “igraph” donne ceci :

Rien de bien nouveau : toujours le groupe balkanique (Serbie / Bosnie / Croatie / Macédoine…), mais il n’a pas attiré d’autres pays ; un groupe “nordique” (de l’Islande aux Pays-Bas), et, par différence avec ce groupe, deux autres. L’un plus “Europe nordique”, avec l’Islande, la Norvège… l’autre plus “Europe orientale”, autour du gagnant, l’Azerbaïdjan.

Des cartes, et des réseaux, et un mystère

J’ai trouvé un sondage eurobarometre amusant (Eurobarometer 73.3, New Europeans) à l’adresse suivante http://ec.europa.eu/public_opinion/archives/ebs/ebs_346_en.pdf. Cette question m’a particulièrement intéressé : «QB10T : quels sont les pays autres que (NOTRE PAYS) auxquels vous vous sentez le plus attaché ?»
Si l’on ne garde que le pays le plus cité, l’on peut obtenir le graphe suivant :

Les Belges, les Luxembourgeois, les Portugais, les Italiens, les Néerlandais, les Espagnols se sentent plus attachés à la France qu’à un autre pays (en dehors du leur). Les Français se tournent vers l’Espagne (comme les Royaumunistes et les Italiens).
On peut essayer de représenter le graphe précédent en le greffant sur une carte de l’Europe.

C’est une manière de mettre en lumière le fait que, souvent, les pays auxquels les citoyens européens se sentent attachés sont des pays qui leur sont géographiquement proches. Les exceptions : la russophilie des Bulgares, l’italomania des Roumains… n’en ressortent que plus.
Le mystère auquel ces données nous confrontent, c’est bien d’expliquer, maintenant, pour quelle raison étrange la France n’a plus gagné l’Eurovision depuis 1977.

  Pratiquons l’open-data : eurobarom2011QB10T (format XLS). Ces deux images ont été faites avec R et divers “packages”, igraph et maptools.

L’indicateur d’un milieu

Les prénoms sont des indicateurs de la position sociale des parents. Ils ne font pas qu’assurer l’identification des individus, ils sont associés à des caractéristiques collectives.
Je vais analyser ici des données recueillies par Henry Ciesielski. La plupart des académies publient, sur internet, les résultats individuels au brevet des collèges, sous la forme suivante : Coulmont, Baptiste, Mention, (collège).
Il est possible de retrouver, pour chaque collège, sa composition sociale, sous une forme très agrégée, donnant la proportion d’enfant de 4 catégories (fav a = enfants de chefs d’entreprise, cadres et enseignants, fav b = enfants de professions intermédiaires, moy = enfants d’artisans, commerçants et employés, défav = enfants d’ouvriers, de retraités employés et ouvriers et d’inactifs). L’on sait aussi si le collège est un collège privé ou public.
Ces données se prêtent à une “analyse en composante principale”, qui va proposer, sur un plan, une représentation synthétique des proximités sociales.

[L’image ci-dessus n’est qu’un extrait. Cliquez pour le PDF]

J’ai restreint l’analyse aux prénoms les plus fréquents, ceux qui avaient été donnés à plus de 1000 enfants en 1994, 1995 ou 1996. Sur l’image précédente, la place de chaque prénom dans le plan dépend de la composition sociale du collège et de deux scores. Le premier est la proportion de personne portant tel prénom se trouvant dans un collège privé. Le deuxième est un score de succès liées aux mentions reçues par les porteurs de tel prénom.
Le graphique oppose clairement les porteurs de prénoms “anglo-saxons” ou “arabes” aux porteurs de prénoms “anciens” : Sabrina se retrouve à côté de Brandon et Myriam et fort loin d’Agathe, Victor et Juliette. Ces deux types de prénom se trouvent dans des collèges fort différents socialement (les uns dans des collèges où sont surreprésentés les enfants d’ouvriers, les autres dans des collèges où sont surreprésentés des enfants de cadres). Et ils s’opposent aux prénoms des classes qualifiées ici de moyennes : Romain, Romane, Rémy, Sylvain et Bastien…
Cette cartographie sociale ne va pas vraiment surprendre : le sens commun arrive très bien à classer les prénoms des uns et des autres. Mais elle pourrait surprendre, pourtant. Je n’ai pas ici utilisé uniquement des données portant directement sur les porteurs de prénoms (par exemple la catégorie sociale des parents), mais des données portant sur le collège dans lequel les personnes se trouvent, des données portant donc sur un milieu social, des données “écologiques”. Les Brandon, ici, ne sont pas nécessairement des enfants d’ouvriers ou d’inactifs, mais des enfants se trouvant scolarisés dans des collèges comprenant une surreprésentation d’enfants d’ouvriers ou d’inactifs. C’est, d’une certaine manière, la ségrégation scolaire qui apparaît, violemment.
 
Et Ines me direz-vous ? que fait-elle, seule, à une place étrange sur ce graphique. C’est, vers 1995, un des rares prénoms donnés aussi bien aux filles d’ouvriers maghrébins qu’aux filles des bourgeois de la région parisienne (et apparemment peu donné en dehors de ces deux milieux). Sur le graphique, c’est donc un prénom en “tension” entre deux positions.
 
Voici la “roue des variables”.

Je remercie encore Henry de m’avoir transmis ces données (ses données) ainsi que l’idée du traitement statistique.

Mise à jour
Arthur C. me signale que le traitement suivant est plus juste. Voici donc une analyse des correspondances :

Lien vers le fichier PDF

Et là, avec la prise en compte de la mention, on voit apparaître le genre, sur le 2e axe (les filles en bas, avec des résultats meilleurs, et les garçons en haut).

Un réseau d’écrivains vers 1890

Comment devient-on un grand écrivain ? Probablement en étant apprécié par ses collègues écrivains.
On peut essayer de préciser cette intuition en regardant « qui cite qui » dans “L’Enquête sur l’évolution littéraire” de Jules Huret (1891). Dans cet ouvrage, l’auteur raconte ses entrevues avec de nombreux écrivains francophones. Et, parce qu’il s’intéressait au monde des écrivains, il cherchait à savoir ce que les écrivains pensaient de leurs collègues. La source est donc partielle/partiale : Huret a un programme et ne fait pas qu’enregistrer. Il cherche probablement à mettre en valeur certains écrivains. Gardons cela en tête. Et redevenons, immédiatement, positiviste.
Commençons par compter le nombre de citations.
Qui cite le plus ? Les 5 plus grands citants parmi les interviewés sont : “goncourt” “herediajosemaria” “kahngustave” “saint-pol-roux-le-magnifique” et “descaveslucien“.
Qui sont les écrivains plus cités : “zola” “goncourt” “flaubert” “bourgetpaul” “huysmans” “barresmaurice” “verlainepaul” “moreasjean” “mallarmestephane” “regnierhenry” et “hugo”.

Oh ? miracle ? : les Goncourt (OK, ils sont 2) sont de grands citants grands cités. Quand je fait ce travail de réduction du discours aux citations, je trahis peut-être les interviewés, mais par l’auteur. Jules Huret lui-même demande à ce que son ouvrage soit lu ainsi :

il y a un écart sensible entre l’importance réelle de certains auteurs et celle qu’ils ont prise dans mon enquête, importance dont on pourra se rendre compte en additionnant les “mentions” notées à l’Inde alphabétique de ce volume
Huret, Enquête…, p.XV

Mais qu’est-ce que “l’importance réelle” ? Certains des écrivains les plus cités, en effet, bien que marginaux pour le monde cultivé de la fin du XIXe siècle, étaient, pour le monde des écrivains, bien plus centraux.

C’est ainsi que M. Mallarmé, dont la haute personnalité littéraire ne se révèle que les mardis soirs à quelques personnes choisies, a pourtant groupé plus de nominations que Victor Hugo, la plus populaire des gloires de la France moderne.

Il semble étrange à Huret de voir apparaître Mallarmé à cette place. Mais ce poète-poète (ce poète pour poète) illisible était déjà tenu, par ses collègues, en haute estime.

Huret propose ensuite une description par chapelle littéraire (“les symbolistes”, les “parnassiens”, les “philosophes”, les “naturalistes”…). Il lui était difficile de faire autrement. Mais si l’on s’intéresse au réseau des citations, peut-être qu’autre chose apparaît.

Quelques indices nous donnent accès à la dimension “réticulaire” du métier d’écrivain. Aujourd’hui, on pourrait la mettre en évidence à partir de la participation aux jury des prix littéraires par exemple, ou à partir des collaborations scénariste/dessinateur dans la bande dessinée francophone ou des featurings dans le rap français des années 1990. Pour la fin du 19e siècle, l’Evolution littéraire de Huret est un matériau facilement accessible.

A partir de l’ensemble des citations, il est possible d’identifier des “communautés” de personnes plus reliées que d’autres. [Dans R, avec le package “igraph”, grâce à l’instruction “walktrap.community”]

lien vers le graphe en PDF

Il me semble voir, mais je ne suis pas un spécialiste, un groupe plutôt “romancier / réaliste” et un groupe plutôt “poète / symboliste” (Maurice Barrès, dans les années 1880, était proche des symbolistes, Huret le classe parmi les “psychologues”.)

Une étudiante, qui voudrait, par exemple dans le cadre d’un master de sociologie, aller plus loin, devrait bien entendu s’intéresser au contexte des mentions/nominations : est-ce comme exemple, ou comme exemple à ne pas suivre que les uns mentionnent les autres ? Elle pourrait, cette étudiante, ajouter aux personnes des qualités (âge, origine géographique et sociale…) pour voir si les caractéristiques sociales ont quelque chose à voir avec la structure des citations. Cette étudiante trouverait au CRESPPA et au département de sociologie de Paris 8 un encadrement de valeur.

Et en France ?

L’on trouve sur un site de l’université de Strasbourg une liste de tous les tremblements de terre à proximité de la France métropolitaine, depuis 1980 : ici.
Ce qui donne, une fois gardés les tremblements de magnitude supérieure à 3, ceci :

La taille et la couleur des points sont proportionnels à la magnitude.
(fait avec R, package maptools, en suivant mon “tutoriel pour la cartographie avec R“)

Twitter et le réseau

Je voulais réussir à savoir qui “followe” qui, parmi les personnes que je “followe” sur twitter, notamment afin de savoir s’il existe des personnes qui, suivies par nombre des personnes dont je lis la prose, pourraient m’intéresser.
A la fin de ma réflexion, pour l’instant parcellaire, voici ce que j’arrive à produire :

Pour produire cela, le code est assez simple (mais pas vraiment, en fait). Je le reproduis ci-dessous. Le principal problème est lié au fait que les comptes “privés” causent une erreur (« Erreur dans twFromJSON(out) : Error: Not authorized »). Et R ne gère pas encore le protocole utilisé par twitter pour se connecter, OAuth…

Dans le code suivant :
1- je charge les “bibliothèques” nécessaires (twitteR, plyr, igraph)
2- je télécharge la liste de mes “amis” (les personnes que je suis, sur twitter)
3- pour chaque “amis” je télécharge la liste de 20 “amis”, et j’installe tout cela dans un tableau de la forme “NomDeLAmi | NomDeSonAmi”. Pourquoi seulement 20 amis : pour que ça aille plus vite, je n’ai pas besoin, à l’heure actuelle, de la totalité des amis d’amis.
4- je transforme cela en graphe, et je dessine le graphe

library(twitteR)
library(plyr)
library(igraph)
f<-userFriends('coulmont', n=100)
friends<-ldply(f,screenName)
fff<-table(NA,NA)
for (i in 1:nrow(friends))
{
f<-userFriends(friends[i,], n=20)
ff<-ldply(f,screenName)
fff<-rbind(fff,cbind(rep(friends[i,],nrow(ff)),ff))
}
ats.g <- graph.data.frame(fff, directed=T)
coords <- layout.fruchterman.reingold(ats.g, dim=3)
V(ats.g)$label <- V(ats.g)$name
plot(ats.g, layout=coords,vertex.size=.5*degree(ats.g),vertex.label.cex=.3*log((degree(ats.g)+.1)),edge.arrow.size=0.1)

Created by Pretty R at inside-R.org

Pour produire cela, je me suis appuyé sur divers billets de blog : Cornelius Puschmann : générer des graphes de retweet, une question sur stackoverflow, R-chart, analyser des données de twitter avec R

 
L’image ci-dessous a été réalisée en prenant les 200 “amis” que suivent une trentaine de mes “amis”, puis en ne gardant du graphe que ceux qui étaient suivis plus de 4 fois dans le graphe.

Droite-gauche… haut-bas ?

L’axe “gauche-droite” structure une vision commune des opinions politiques. De l’extrême droite (Front national) à la droite classique (UMP), au centre (MoDem), au PS, et, à sa gauche, les Verts, le PC… et enfin, à l’extrême gauche, les corpuscules trotskistes.
Oui, mais voilà.
Si l’on produit, à partir des données “open data” publiées sur paris.fr, une analyse des correspondances [basées sur le pourcentage des votes reçus par chaque candidate dans chaque bureau de vote], on obtient ceci :
1- pour les élections régionales de 2010 :

2- pour les présidentielles de 2007 :

[Ce n’est pas très lisible : cliquez sur l’image pour obtenir les PDF]

Sur cette représentation, l’on trouve bien un axe “droite-gauche”. En 2010 comme en 2007, le premier axe (celui des abscisses) semble ordonner les candidats de l’extrême-gauche à la droite (de Besancenot à Sarkozy ou Pécresse). Mais cet axe ne résume pas toute l’information. Le deuxième axe (celui des ordonnées) nous donne d’autres informations, et c’est une sorte d’axe qui résume et oppose deux sortes d’émergences politiques. L’émergence “verte” (Duflot/Voynet) opposée à l’émergence d’extrême-gauche ou d’extrême-droite. Les “options perturbatrices” (pour les partis établis) s’écartent de la droite “y=0”.

Ce constat est assez classique [voir par exemple Pascal Perrineau , Jean Chiche , Brigitte Le Roux , Henry Rouanet L’espace politique des électeurs français à la fin des années 1990. Nouveaux et anciens clivages, hétérogénéité des électorats. Revue française de science politique Année 2000 Volume 50 Numéro 3 pp. 463-488]. Mais il m’a beaucoup amusé de voir les électeurs parisiens si “néo-paradigmatiques”.

Note : les données “open data” de paris.fr sont assez propres. Mais il me semble qu’une coquille s’était glissée dans les résultats d’un bureau de vote (une inversion du nombre de voix entre Royal, Bayrou et des petits candidats). Ce qui donnait cette première analyse des correspondances, ma foi très étrange.


J’ai donc corrigé les résultats du bureau n°548.