Categories

Archives

Eurovision 2011

Qui a voté pour qui hier soir, lors du dernier concours de l’Eurovision ?
En prenant les votes comme des déclarations d’amitié, on peut dire que deux pays sont reliés si l’un d’eux a voté pour l’autre. Et l’on peut dire que des “communautés de pays” existent quand il y a plus de liens entre certains pays qu’entre d’autres.
Le traitement, avec R, et l’algorithme “walktrap.community” du paquet “igraph” donne ceci :

Rien de bien nouveau : toujours le groupe balkanique (Serbie / Bosnie / Croatie / Macédoine…), mais il n’a pas attiré d’autres pays ; un groupe “nordique” (de l’Islande aux Pays-Bas), et, par différence avec ce groupe, deux autres. L’un plus “Europe nordique”, avec l’Islande, la Norvège… l’autre plus “Europe orientale”, autour du gagnant, l’Azerbaïdjan.

Des cartes, et des réseaux, et un mystère

J’ai trouvé un sondage eurobarometre amusant (Eurobarometer 73.3, New Europeans) à l’adresse suivante http://ec.europa.eu/public_opinion/archives/ebs/ebs_346_en.pdf. Cette question m’a particulièrement intéressé : «QB10T : quels sont les pays autres que (NOTRE PAYS) auxquels vous vous sentez le plus attaché ?»
Si l’on ne garde que le pays le plus cité, l’on peut obtenir le graphe suivant :

Les Belges, les Luxembourgeois, les Portugais, les Italiens, les Néerlandais, les Espagnols se sentent plus attachés à la France qu’à un autre pays (en dehors du leur). Les Français se tournent vers l’Espagne (comme les Royaumunistes et les Italiens).
On peut essayer de représenter le graphe précédent en le greffant sur une carte de l’Europe.

C’est une manière de mettre en lumière le fait que, souvent, les pays auxquels les citoyens européens se sentent attachés sont des pays qui leur sont géographiquement proches. Les exceptions : la russophilie des Bulgares, l’italomania des Roumains… n’en ressortent que plus.
Le mystère auquel ces données nous confrontent, c’est bien d’expliquer, maintenant, pour quelle raison étrange la France n’a plus gagné l’Eurovision depuis 1977.

  Pratiquons l’open-data : eurobarom2011QB10T (format XLS). Ces deux images ont été faites avec R et divers “packages”, igraph et maptools.

L’indicateur d’un milieu

Les prénoms sont des indicateurs de la position sociale des parents. Ils ne font pas qu’assurer l’identification des individus, ils sont associés à des caractéristiques collectives.
Je vais analyser ici des données recueillies par Henry Ciesielski. La plupart des académies publient, sur internet, les résultats individuels au brevet des collèges, sous la forme suivante : Coulmont, Baptiste, Mention, (collège).
Il est possible de retrouver, pour chaque collège, sa composition sociale, sous une forme très agrégée, donnant la proportion d’enfant de 4 catégories (fav a = enfants de chefs d’entreprise, cadres et enseignants, fav b = enfants de professions intermédiaires, moy = enfants d’artisans, commerçants et employés, défav = enfants d’ouvriers, de retraités employés et ouvriers et d’inactifs). L’on sait aussi si le collège est un collège privé ou public.
Ces données se prêtent à une “analyse en composante principale”, qui va proposer, sur un plan, une représentation synthétique des proximités sociales.

[L’image ci-dessus n’est qu’un extrait. Cliquez pour le PDF]

J’ai restreint l’analyse aux prénoms les plus fréquents, ceux qui avaient été donnés à plus de 1000 enfants en 1994, 1995 ou 1996. Sur l’image précédente, la place de chaque prénom dans le plan dépend de la composition sociale du collège et de deux scores. Le premier est la proportion de personne portant tel prénom se trouvant dans un collège privé. Le deuxième est un score de succès liées aux mentions reçues par les porteurs de tel prénom.
Le graphique oppose clairement les porteurs de prénoms “anglo-saxons” ou “arabes” aux porteurs de prénoms “anciens” : Sabrina se retrouve à côté de Brandon et Myriam et fort loin d’Agathe, Victor et Juliette. Ces deux types de prénom se trouvent dans des collèges fort différents socialement (les uns dans des collèges où sont surreprésentés les enfants d’ouvriers, les autres dans des collèges où sont surreprésentés des enfants de cadres). Et ils s’opposent aux prénoms des classes qualifiées ici de moyennes : Romain, Romane, Rémy, Sylvain et Bastien…
Cette cartographie sociale ne va pas vraiment surprendre : le sens commun arrive très bien à classer les prénoms des uns et des autres. Mais elle pourrait surprendre, pourtant. Je n’ai pas ici utilisé uniquement des données portant directement sur les porteurs de prénoms (par exemple la catégorie sociale des parents), mais des données portant sur le collège dans lequel les personnes se trouvent, des données portant donc sur un milieu social, des données “écologiques”. Les Brandon, ici, ne sont pas nécessairement des enfants d’ouvriers ou d’inactifs, mais des enfants se trouvant scolarisés dans des collèges comprenant une surreprésentation d’enfants d’ouvriers ou d’inactifs. C’est, d’une certaine manière, la ségrégation scolaire qui apparaît, violemment.
 
Et Ines me direz-vous ? que fait-elle, seule, à une place étrange sur ce graphique. C’est, vers 1995, un des rares prénoms donnés aussi bien aux filles d’ouvriers maghrébins qu’aux filles des bourgeois de la région parisienne (et apparemment peu donné en dehors de ces deux milieux). Sur le graphique, c’est donc un prénom en “tension” entre deux positions.
 
Voici la “roue des variables”.

Je remercie encore Henry de m’avoir transmis ces données (ses données) ainsi que l’idée du traitement statistique.

Mise à jour
Arthur C. me signale que le traitement suivant est plus juste. Voici donc une analyse des correspondances :

Lien vers le fichier PDF

Et là, avec la prise en compte de la mention, on voit apparaître le genre, sur le 2e axe (les filles en bas, avec des résultats meilleurs, et les garçons en haut).

Un réseau d’écrivains vers 1890

Comment devient-on un grand écrivain ? Probablement en étant apprécié par ses collègues écrivains.
On peut essayer de préciser cette intuition en regardant « qui cite qui » dans “L’Enquête sur l’évolution littéraire” de Jules Huret (1891). Dans cet ouvrage, l’auteur raconte ses entrevues avec de nombreux écrivains francophones. Et, parce qu’il s’intéressait au monde des écrivains, il cherchait à savoir ce que les écrivains pensaient de leurs collègues. La source est donc partielle/partiale : Huret a un programme et ne fait pas qu’enregistrer. Il cherche probablement à mettre en valeur certains écrivains. Gardons cela en tête. Et redevenons, immédiatement, positiviste.
Commençons par compter le nombre de citations.
Qui cite le plus ? Les 5 plus grands citants parmi les interviewés sont : “goncourt” “herediajosemaria” “kahngustave” “saint-pol-roux-le-magnifique” et “descaveslucien“.
Qui sont les écrivains plus cités : “zola” “goncourt” “flaubert” “bourgetpaul” “huysmans” “barresmaurice” “verlainepaul” “moreasjean” “mallarmestephane” “regnierhenry” et “hugo”.

Oh ? miracle ? : les Goncourt (OK, ils sont 2) sont de grands citants grands cités. Quand je fait ce travail de réduction du discours aux citations, je trahis peut-être les interviewés, mais par l’auteur. Jules Huret lui-même demande à ce que son ouvrage soit lu ainsi :

il y a un écart sensible entre l’importance réelle de certains auteurs et celle qu’ils ont prise dans mon enquête, importance dont on pourra se rendre compte en additionnant les “mentions” notées à l’Inde alphabétique de ce volume
Huret, Enquête…, p.XV

Mais qu’est-ce que “l’importance réelle” ? Certains des écrivains les plus cités, en effet, bien que marginaux pour le monde cultivé de la fin du XIXe siècle, étaient, pour le monde des écrivains, bien plus centraux.

C’est ainsi que M. Mallarmé, dont la haute personnalité littéraire ne se révèle que les mardis soirs à quelques personnes choisies, a pourtant groupé plus de nominations que Victor Hugo, la plus populaire des gloires de la France moderne.

Il semble étrange à Huret de voir apparaître Mallarmé à cette place. Mais ce poète-poète (ce poète pour poète) illisible était déjà tenu, par ses collègues, en haute estime.

Huret propose ensuite une description par chapelle littéraire (“les symbolistes”, les “parnassiens”, les “philosophes”, les “naturalistes”…). Il lui était difficile de faire autrement. Mais si l’on s’intéresse au réseau des citations, peut-être qu’autre chose apparaît.

Quelques indices nous donnent accès à la dimension “réticulaire” du métier d’écrivain. Aujourd’hui, on pourrait la mettre en évidence à partir de la participation aux jury des prix littéraires par exemple, ou à partir des collaborations scénariste/dessinateur dans la bande dessinée francophone ou des featurings dans le rap français des années 1990. Pour la fin du 19e siècle, l’Evolution littéraire de Huret est un matériau facilement accessible.

A partir de l’ensemble des citations, il est possible d’identifier des “communautés” de personnes plus reliées que d’autres. [Dans R, avec le package “igraph”, grâce à l’instruction “walktrap.community”]

lien vers le graphe en PDF

Il me semble voir, mais je ne suis pas un spécialiste, un groupe plutôt “romancier / réaliste” et un groupe plutôt “poète / symboliste” (Maurice Barrès, dans les années 1880, était proche des symbolistes, Huret le classe parmi les “psychologues”.)

Une étudiante, qui voudrait, par exemple dans le cadre d’un master de sociologie, aller plus loin, devrait bien entendu s’intéresser au contexte des mentions/nominations : est-ce comme exemple, ou comme exemple à ne pas suivre que les uns mentionnent les autres ? Elle pourrait, cette étudiante, ajouter aux personnes des qualités (âge, origine géographique et sociale…) pour voir si les caractéristiques sociales ont quelque chose à voir avec la structure des citations. Cette étudiante trouverait au CRESPPA et au département de sociologie de Paris 8 un encadrement de valeur.

Et en France ?

L’on trouve sur un site de l’université de Strasbourg une liste de tous les tremblements de terre à proximité de la France métropolitaine, depuis 1980 : ici.
Ce qui donne, une fois gardés les tremblements de magnitude supérieure à 3, ceci :

La taille et la couleur des points sont proportionnels à la magnitude.
(fait avec R, package maptools, en suivant mon “tutoriel pour la cartographie avec R“)

Sur la fiabilité du “fichier des prénoms”

Le “Fichier des prénoms” de l’Insee est un matériau formidable. Il a quelques limitations explicites : les prénoms très rares n’y sont pas présents (pour des raisons de respect de la vie privée).
Et la description du fichier précise ceci :

Le fichier des prénoms est établi à partir des seuls bulletins de naissance des personnes nées en France y compris les départements d’Outre-mer (DOM). En conséquence, l’exhaustivité n’est pas garantie sur toute la période, notamment pour les années antérieures à 1946. Les utilisateurs pourront donc constater des écarts avec le nombre annuel des naissances évalué par l’INSEE. Ces écarts, importants en début de période, vont en s’amenuisant. Après 1946, ils sont peu significatifs.

On peut se faire une idée du décalage entre la réalité des naissances et les données du fichier en calculant le ratio suivant (le nombre de naissances masculines pour 100 naissances féminines). On sait, en effet, que ce nombre tourne autour de 105 naissances masculines pour 100 naissances féminines (pour plus de précisions, pour beaucoup plus de précisions concernant l’établissement de ce ratio, lire l’ouvrage de Jaisson et Brian, Le sexisme de la première heure).
Le fichier des prénoms “décroche” de ce ratio avant 1946. Il en est très proche après.

Qu’est-ce qu’un prénom “français” ? suite

Pour faciliter les francisations des prénoms au moment des naturalisations, le ministère de l’intérieur met à disposition une “liste indicative des prénoms français”.
Cette liste est régulièrement mise à jour, et je dispose de deux listes distantes d’une dizaine d’années, probablement. [Pour plus de précisions, je vous renvoie à Qu’est-ce qu’un prénom “français” ? (première partie)]
Il y a des prénoms abandonnés entre l’ancienne version et la nouvelle. 153 prénoms si mes comptes sont justes. Par exemple :

Abel, Achille, Adolphe (sic), Alberte… Yvette, Yvonne

Et des prénoms (57 d’après mes comptes) qui ne sont présents que dans la dernière version :

Alizée, Ambre, Anaïs, Oriane, Erwan… Flavie, Mégane

Il y a donc bien une mise à jour de cette liste. L’ancien état (en rouge ci dessous) reflète mieux les naissances du début du siècle, et moins bien que la nouvelle liste les naissances les plus récentes.

Si l’on se concentre sur les prénoms abandonnés entre les deux listes, on remarque que ce sont surtout les prénoms les plus anciens qui l’ont été (comme Mariette ou Léandre).

Mais le cycle de la mode fait, malheureusement, qu’ils ont tendance à revenir à la mode, dans certains secteurs de la société française. On le remarque un peu dans le graphique précédent : la courbe frémit à la hausse depuis 1970.
L’évolution est plus étrange concernant les prénoms entrés récemment dans la liste des prénoms français. Ce sont certes des prénoms plus récents que les anciens (au sens où ils représentent mieux les naissances récentes), mais la mise à jour n’arrive pas à enrayer la perte rapide de pertinence de la liste au regard des naissances en France. Les nouveaux prénoms n’entrent pas assez vite.

Qu’est-ce qu’un prénom « français »

Il est possible de changer de prénom en prenant la nationalité française : c’est ce qui s’appelle la francisation. J’en ai déjà parlé.
Au cours de la procédure, il est proposé au candidat à la naturalisation de prendre un nom ou un prénom “français”. Pour aider les personnes remplissant le formulaire CERFA 65-0054, il est précisé ceci :

Afin de faciliter votre choix, une liste indicative de prénoms français ou couramment usités en France est tenue à votre disposition. Tout prénom choisi dans cette liste sera donc accordé. Cependant, ce document n’est pas limitatif et les demandes particulières seront examiné au cas par cas.
source : formulaire CERFA 65-0054

Cette liste n’est pas évidente à trouver. Récemment, Abdellali Hajjat m’envoie une liste qui était en usage dans diverses préfectures il y a quelques années, en me signalant qu’à l’époque, cette liste ne restait pas seulement “indicative”, mais surtout “confidentielle”.

Les choses ont changé depuis. Certaines préfectures, dont la Préfecture de police, donnent accès à cette liste, qui n’a plus pour titre “liste indicative”, mais “LISTE ALPHABÉTIQUE DES PRÉNOMS“.
A l’étranger, certains consulats précisent la procédure :

Ne sont admis que les noms et prénoms dont le caractère français est avéré. Afin de faciliter votre choix, une liste indicative de prénoms français ou couramment usités en France est tenue à votre disposition à l’institut français de Taipei
source : document du consulat français à Taipei

Et d’autres sites diplomatiques précisent que cette liste peut se trouver sur l’intranet du ministère des affaires étrangères. Si l’on compare les différentes versions, il semble que cette liste soit mise à jour régulièrement. On trouve ainsi trace d’une mise à jour régulière dans une circulaire de 2000 :

Le but poursuivi par la francisation est de faciliter la vie quotidienne des nouveaux Francais et leur integration dans la communaute nationale. Ainsi, ne sont admis que des noms et des prenoms dont le caractere francais est avere. A cet effet, la liste indicative des prenoms francais acceptes, adressee par la sous-direction des naturalisations aux tribunaux d’instance et consulats et mise а jour periodiquement, devra pouvoir etre consultée par le declarant.
source : Circulaire DPM 2000-414 du 20 juillet 2000, je souligne.
[le texte est identique dans la circulaire de 2005 qui remplace la circulaire de 2000.

Parmi les révisions remarquables, « Baptistine », pourtant un très joli prénom, disparaît au cours de la deuxième moitié des années 2000. Ce prénom, soit a perdu sa dignité de “français”, soit, et c’est plus probable, n’est plus “couramment usité”. Je n’ai pas fait de comparaison plus précise, elle viendra en son temps.
Mais à la lecture des différentes listes, il m’apparaissait que les prénoms semblaient un peu “vieillots” malgré le rafraîchissement régulier. Je passe sur le fait que certains prénoms sont proposés avec des variantes orthographiques étranges (Garence, ou Edgard, qui semblent moins “français” et moins “usités” que Garance ou Edgar). Dans la série des « S » on trouve ainsi Solange, Ségolène, Sylvain ou Sylviane… qui sont un peu datés.
Ce sentiment est conforté par un petit traitement statistique. On peut affirmer, à partir du “fichier des prénoms” de l’INSEE, qu’il y a plus de 80% de chances qu’un français pris au hasard, s’il (ou elle) est né avant 1970, porte l’un des prénoms de la “liste des prénoms français”. Mais s’il est né en 2008, il n’y a plus que 30%.

La liste des prénoms “français” est donc surtout la liste des prénoms portés par les vieux français : « Kévin », le prénom masculin à succès des années 1990, est absent de la liste, ainsi que de nombreux autres prénoms à la mode depuis une vingtaine d’années.
Comment expliquer ceci ?
Une première explication porterait sur l’âge des candidates à la francisation : elles ont souvent plus de 30 ans, donc autant leur proposer des prénoms adaptés à leur âge.
Une deuxième explication a ma préférence. A mon avis, c’est un bel exemple d’inertie des choses écrites. J’imagine qu’une liste a été établie, il y a de cela quelques dizaines d’années, un peu de bric et de broc, par quelques fonctionnaires de la sous-direction des naturalisations, qui avaient peut-être accès au “top 50” des prénoms les plus donnés dans les années soixante. Cette liste a probablement circulé, de manière plus ou moins confidentielle pendant un moment, s’est stabilisée et a accédé à une certaine forme de publicité à la fin des années 1990, pour être ensuite périodiquement révisée. Mais les choses écrites ont une certaine “force” diraient les promoteurs de la performativité. Comment ôter, de quel droit ôter à un prénom “français” sa place, qui lui revient de droit, dans cette liste. Peut-on y insérer Yasmine ou Sabrina, prénom au succès non négligeable en France, ou même Inès, Emma, Jade ou Lola ? Et l’évolution des prénoms, le rythme de l’engouement et du dégoût, s’accélère aussi au même moment. Les enthousiasmes pour “Kévin” passent vite, au profit d’un enthousiasme aussi grand pour “Téo”.
 
Note : le graphique précédent, lu par un fou, “prouverait” la démographie galopante des populations allogènes (qui donnent, nécessairement, à leurs enfants, des prénoms non-français). Il montre plutôt le décalage croissant entre une liste plus ou moins figée et les goûts des parents en matière de prénomination.
 
Note 2 : de Abdellali Hajjat, vous pouvez lire l’article intéressant, autour d’une thématique proche, sur le défaut d’assimilation dans la procédure de naturalisation / acquisition de la nationalité française.

twitter et le réseau, suite

Mon exploration des “amis de mes amis”, sur twitter [rappel], ne m’a pas fait découvrir grand chose, sinon qu’ils ont tendance à me “follower”. Les spécialistes des réseaux sociaux diraient que c’est parce que “tu fais du structural à partir d’égocentré”, et ils doivent avoir raison.
Mais j’ai découvert deux ou trois choses avec R. Et notamment le package igraph.

Le twittplot au format PDF

Dans l’image précédente, la couleur dépend du score “k-core” de chaque personne (ou compte twitter), et la taille des points des “liens entrants” (plus un compte est suivi par mes “amis”, plus le point est gros). La disposition des points a été générée par l’algorithme Kamada-Kawai.

Il est quand même possible d’être surpris par certains résultat. La centralité d’intermédiarité permet de repérer des acteurs “intermédiaires”, qui me lient, indirectement, avec d’autres mondes-twitter. C’est particulièrement vrai pour certains compte twitter. Voici un PDF qui montre, je pense, que certains “petits” acteurs (que je “followe” mais qui sont peu “followés” par mes amis), sont des intermédiaires.

Twitter et le réseau

Je voulais réussir à savoir qui “followe” qui, parmi les personnes que je “followe” sur twitter, notamment afin de savoir s’il existe des personnes qui, suivies par nombre des personnes dont je lis la prose, pourraient m’intéresser.
A la fin de ma réflexion, pour l’instant parcellaire, voici ce que j’arrive à produire :

Pour produire cela, le code est assez simple (mais pas vraiment, en fait). Je le reproduis ci-dessous. Le principal problème est lié au fait que les comptes “privés” causent une erreur (« Erreur dans twFromJSON(out) : Error: Not authorized »). Et R ne gère pas encore le protocole utilisé par twitter pour se connecter, OAuth…

Dans le code suivant :
1- je charge les “bibliothèques” nécessaires (twitteR, plyr, igraph)
2- je télécharge la liste de mes “amis” (les personnes que je suis, sur twitter)
3- pour chaque “amis” je télécharge la liste de 20 “amis”, et j’installe tout cela dans un tableau de la forme “NomDeLAmi | NomDeSonAmi”. Pourquoi seulement 20 amis : pour que ça aille plus vite, je n’ai pas besoin, à l’heure actuelle, de la totalité des amis d’amis.
4- je transforme cela en graphe, et je dessine le graphe

library(twitteR)
library(plyr)
library(igraph)
f<-userFriends('coulmont', n=100)
friends<-ldply(f,screenName)
fff<-table(NA,NA)
for (i in 1:nrow(friends))
{
f<-userFriends(friends[i,], n=20)
ff<-ldply(f,screenName)
fff<-rbind(fff,cbind(rep(friends[i,],nrow(ff)),ff))
}
ats.g <- graph.data.frame(fff, directed=T)
coords <- layout.fruchterman.reingold(ats.g, dim=3)
V(ats.g)$label <- V(ats.g)$name
plot(ats.g, layout=coords,vertex.size=.5*degree(ats.g),vertex.label.cex=.3*log((degree(ats.g)+.1)),edge.arrow.size=0.1)

Created by Pretty R at inside-R.org

Pour produire cela, je me suis appuyé sur divers billets de blog : Cornelius Puschmann : générer des graphes de retweet, une question sur stackoverflow, R-chart, analyser des données de twitter avec R

 
L’image ci-dessous a été réalisée en prenant les 200 “amis” que suivent une trentaine de mes “amis”, puis en ne gardant du graphe que ceux qui étaient suivis plus de 4 fois dans le graphe.