Categories

Archives

Cartographie avec R (suite)

Je cherche à donner à voir, par des points sur une carte, la localisation d’églises (ou de boulangeries, ou de sex-shops, ou de lobbyistes…) en région parisienne. Il est possible de créer un “mashup” avec google maps, ou une carte dans google earth, mais cela ne donne pas de jolis fichiers PDF utilisables dans une publication scientifique qui se respecte. Imaginons que je dispose des données “Longitude / Latitude” des églises.

Il me faut un fond de carte. On trouve une carte de la France (avec les frontières administratives) sur “cloudmade” : http://downloads.cloudmade.com/europe/france. Il faut télécharger le fichier : “france.shapefiles.zip”
On trouve aussi, ailleurs, une carte des principales rues, routes, autoroutes… d’Île de France : http://download.geofabrik.de/osm/europe/france/ : il faut télécharger la carte de l’Île de France : ile-de-france.shp.zip

Ces cartes “open source” proviennent du projet OpenStreetMap : il y a des erreurs, des morceaux non complets, des manques. Mais à notre échelle, cela suffira. Les fichiers téléchargés sont des “shapefiles”. Ils consistent en 4 fichiers différents : un fichier .prj qui contient des informations concernant la projection, puis trois autres fichiers contenant les données elles-mêmes (un fichier dbf, un fichier shp et un fichier shx).

Ouvrons maintenant R.

library(maptools) #charge le package "maptools"
france<-readShapeLines(
"Desktop/france/france_administrative.shp",
proj4string=CRS("+proj=longlat")
)

l’instruction précédente demande à R de charger les informations de la carte de France dans “france”.

summary(france) # donne la structure de "france" 

On constate que dans cette “Data frame” il est indiqué, par “ADMIN_LEVE” le type de frontière administrative: 8 pour les communes, 6 pour les départements.

routesidf<-readShapeLines(
"Desktop/ile-de-france/roads.shp",
proj4string=CRS("+proj=longlat")
)
summary(routesidf)

permet de constater que le type de route est indiqué par “type” : “primary”, “secondary”, “residential”…

les fichiers peuvent être longs à se charger : ce sont des objets très lourds et il serait préférable de demander à ne charger qu’une petite partie des fichiers (par exemple les routes principales et pas tous les chemins communaux). Mais je ne sais pas le faire… pas encore du moins.

plot(france,xlim=c(2.35,2.45),ylim=c(48.87,48.97),lty=3)

donne l’image suivante. Seul un regard averti y discernera le nord de Paris et une partie de la Seine-Saint-Denis :
Paris-Nord
Rendons cette carte un peu plus lisible :

plot(france[france$ADMIN_LEVE==6,],add=TRUE,lwd=2)
plot(routeidf[routeidf$type=="primary",],add=TRUE,lwd=2,col="lightgray")
plot(routeidf[routeidf$type=="secondary",],add=TRUE,lwd=2,col="lightgray")

Paris-Nord2
J’ai ajouté les routes principales (de type “primary” et “secondary”), j’ai indiqué certaines des frontières départementales par un trait noir. Je vais maintenant ajouter mes églises, qui sont dans l’objet “coordeglises” : X indiquant la longitude et Y la latitude. :

points(coordeglises$X,coordeglises$Y,pch=20,cex=2,col="red")

Paris-Nord3

Il me semble pouvoir remarquer que mes églises s’installent assez souvent à proximité de ces grandes routes, voire même à proximité du croisement de deux de ces grandes routes.

Note : Mis à part le bel iMac sur lequel j’ai réalisé ces cartes, tout le reste fut “gratuit”. Open Source ou non. Seashore, R, OpenStreetMaps… et l’indispensable géocodage offert par google….

Jeux d’échelles : circulations évangéliques

Parlons un peu de circulation régionale, de circulation internationale et de religion.
Il y a quelques jours, je proposais cette carte de la répartition des églises évangéliques “noires”, ou “d’expression africaine” en région parisienne, en me basant sur une collection d’affiches :
eglisesnoires1
Cette carte incite implicitement à une lecture “locale” : les lieux de culte sont situés dans les communes les plus pauvres de la région parisienne [pour être plus précis dans les communes où sont sur-représentés les ménages pauvres]. Et comme le soulignait en commentaire F. Dejean une autre lecture “locale” est possible, en associant cette carte à celle de la répartition des immigrés d’Afrique sub-saharienne.
L’on pourrait ainsi comprendre ces églises comme ancrées sur un espace communal. Mais le processus même de recueil des données incite à une autre interprétation. Toutes les affiches dont je dispose (presque 80) ont été photographiées à Château Rouge, un quartier commerçant de Paris proche de Barbès fréquenté par les diasporas africaines, qui sert ici de “plaque tournante” ou de “redistributeur” : c’est en allant faire ses courses à Château Rouge que l’on peut rencontrer l’église dans laquelle on ira le vendredi soir ou le dimanche suivants.
oursinlocalL’on pourrait donc représenter les adresses des lieux de culte comme des directions plutôt que comme des points. Si l’on considère que Château-Rouge est l’origine, alors il est possible de dresser cette carte étoilée, “en oursin” [au centre, Château Rouge, et à chaque extrémité, un lieu de culte]. Inversement, cette carte montre l’attraction régionale (ou le rayonnement) de ce quartier parisien.
Quel est l’intérêt d’une telle carte ? Elle donne peut-être un peu mieux l’idée du mouvement ou des déplacements que les fidèles peuvent faire.
exempleaffiche
Elle entre aussi en résonnance avec la carte des invitations de pasteurs. La carte suivante est une ébauche de représentation spatiale des voyages des pasteurs mentionnés sur les affiches d’églises africaines.
Car l’on trouve souvent, sur ces affiches, mention d’un “pasteur invité” accompagné de son pays de résidence (parfois aussi de la ville). Au centre de l’étoile l’on trouve la région parisienne (les lieux de culte mentionnés sur les affiches), et au bout des rayons, les villes de résidence de ces pasteurs.
pasteurs invitations

Avec ces cartes, je souhaite rendre visible la multiplicité des échelles utilisables pour décrire ces églises. J’ai précédemment cartographié la répartition des églises en Île de France : c’est principalement en Seine-Saint-Denis qu’elles sont localisées.
Ici l’on voit qu’à cet espace s’est “accroché” une dimension transnationale, qu’au “local” s’est accroché le “global” mais que ces deux dimensions sont “lues” simultanément sur ces affiches. Je multiplie ici à dessein les guillemets : je n’ai pas encore de vocabulaire précis à ma disposition qui me plaise suffisamment. Le passage obligé par l’objectivation statistique m’aide donc à asseoir l’usage de termes comme “global” sur les possibilités offertes par la cartographie.
Continuons.
L’espace dessiné par les invitations de pasteurs étrangers révèle plusieurs choses :
1- Un espace africain : l’afrique sub-saharienne uniquement. Peut-être parce que certaines églises sont des boutures européennes de créations congolaises (par exemple). Peut-être parce que d’autres, inscrites dans des liens préalables à l’immigration, continuent à entretenir la référence à l’Afrique.
2- Un espace européen : Londres, Berlin, Bruxelles sont les pointes d’un polygone qui inclut la Seine-Saint-Denis en tant qu'”espace européen” ou “espace TGV”. Est-il alors suffisant de décrire ces églises comme “noires” ou “africaines” ou même “d’expression africaine” ? Même en acceptant, et l’hypothèse est très restrictive, que les fidèles sont des locaux, à l’échelle régionale, il semble que les pasteurs (sous cette dénomination ou une autre, apôtre, prophète…) dessine un espace clérical à une autre échelle : ils circulent entre pays.
3- Un espace américain : Canada, Bahamas, Etats-Unis et même au Sud. L’Amérique, c’est à la fois des sessions de formation, des stages bibliques, auxquels ont pu participer certains pasteurs, mais c’est aussi le lieu mythique de la réussite, réussite évangélique et réussite sociale.

Note sur la méthode : J’ai utilisé R pour tracer les cartes, puis un logiciel de dessin vectoriel. Pour dessiner des cartes en oursin, il m’a semblé “simple” de faire ainsi :
Mes données ont cette structure. Les données, ici, s’appellent “oursinlocal”

Adresse		lon		lat
briand 		2.448342	48.868919
ChatRouge 	2.351933	48.887745
arago 		2.325025	48.904659
ChatRouge	2.351933	48.887745

Je répète, une fois sur deux, la longitude latitude de Château-Rouge ce qui permet de tracer des lignes.
J’ai téléchargé un fichier shapeline (.shp) de la France sur le site de l’IGN (qui s’appelle GEOFLA ou un truc de ce genre). Il faut aussi les packages “maptools” et “sp” pour R
franceshp<-read.shape("geofla/LIMITE_DEPARTEMENT.shp", dbf.data = TRUE, verbose=TRUE, repair=FALSE)
plot(franceshp,xlim=c(2,2.6),ylim=c(48.6,49))
lines(oursinlocal$lon,oursinlocal$lat,col="red")

J’en profite pour signaler que je n’ai pas compris comment passer d’une projection à une autre… Ce qui donne, au départ, des cartes un peu “écrasées” par rapports aux projections habituelles de la France. Mais si j’utilise le fichier GEOFLA en projection “lambert”, je n’arrive plus à placer mes églises…
Pour la carte “mondiale”, il existe, dans le package “maps”, des données sur les principales villes du monde, world.cities. La partie complexe consiste à lier ces données, world.cities, à la liste des villes relevées sur les affiches.

Mise à jour
franceshp< -readShapeSpatial("Desktop/geofla/LIMITE_DEPARTEMENT.shp",proj4string=CRS("+proj=longlat")) fonctionne parfaitement (avec R 2.11.1)

Un graphique

Je ne sais comment nommer ce type de graphiques : en abscisses, des années, et en ordonnées, des personnes, le graphique lui-même consistant à indiquer (en noir) que la personne est vivante (ou présente)… Une frise ?
N’ayant pas de nom, il est somme toute normal d’avoir du mal à le créer avec R, le logiciel d’analyse statistique “open source”. L’année dernière, j’avais bricolé un code affreux pour aboutir à quelque chose de potable. Je voulais un peu plus simple.

Démarrons avec ceci :

  date Pass Cixo Cast
1 1969    1    1   NA
2 1970    1    1    1
3 1971    1    1    1
4 1972   NA    1    1
5 1973   NA   NA    1

Dans l’institution étudiée, Jean-Claude “Pass” et Hélène “Cixo” sont présents dès 1969 (mais seront tous deux absents en 1973), tandis que Robert “Cast” arrive en 1970. Il est toujours là en 1973.

Appelons “soci” cette chose.
Dans R, le package “reshape” permet de transformer ces données en quelque chose de plus aisé à travailler :
soci<-melt(soci,id=c("date"))
Ce qui donne :

   date variable value
1  1969     Pass     1
2  1970     Pass     1
3  1971     Pass     1
4  1972     Pass    NA
5  1973     Pass    NA
6  1969     Cixo     1
7  1970     Cixo     1
8  1971     Cixo     1
9  1972     Cixo     1
10 1973     Cixo    NA
11 1969     Cast    NA
12 1970     Cast     1
13 1971     Cast     1
14 1972     Cast     1
15 1973     Cast     1

Pour obtenir la frise ci-dessous, j’ai chargé le package “ggplot2”
Les instructions utilisées sont les suivantes. Les répétitions de theme_blank() peuvent sans doute être éliminées.
qplot(date,value,data=soci,geom="line",group=variable)
+ facet_grid(variable~.,scales="free",space="free")
+ opts(
panel.grid.minor=theme_blank(),
panel.grid.major=theme_blank(),
panel.background=theme_blank(),
axis.line=theme_blank(),
panel.border=theme_blank(),
axis.title.y=theme_blank(),
axis.text.y=theme_blank(),
strip.text.y=theme_text())

Tout ça pour ceci :
soci

J’ai conscience de la futilité d’un tel exemple, mais cette représentation graphique, appliquée à une institution plus nombreuse, sur un plus grand nombre d’année, devrait permettre de visualiser de manière synthétique les arrivées et les départs, la permanence d’une partie du personnel et la bougeotte d’une autre partie.

On peut aussi ajouter à cette représentation d’autres informations. Par exemple, “0” indiquerait un statut d’assistant, “1” un statut de maître de conférences et “2” un statut de professeur.

  date Pass Cixo Cast
1 1969    0    1   NA
2 1970    1    2    0
3 1971    1    2    1
4 1972   NA    2    1
5 1973   NA   NA    2

On pourrait ainsi repérer des changements de statut dans la carrière :

soci2
Les instructions (un peu tordues, car je demande le dessin d’une ligne d’épaisseur zéro)…
qplot(date,value,data=soci,geom="line",group=variable,lwd=0)
+ geom_rect(aes(xmin = date-0.5, xmax = date + 0.5, ymin = 0, ymax = 2.5, fill=factor(value)))
+ facet_grid (variable ~ .,scales="free",space="free")
+ opts(
panel.grid.minor=theme_blank(),
panel.grid.major=theme_blank(),
panel.background=theme_blank(),
axis.line=theme_blank(),
panel.border=theme_blank(),
axis.title.y=theme_blank(),
axis.text.y=theme_blank(),
strip.text.y=theme_text(),
legend.position = "none")
+ scale_fill_manual(values = c("NA"="white","0"="lightgrey","1" = "darkgrey","2"="black"))
+ scale_y_continuous(breaks=NA)

Note : Pour aller plus loin, le blog http://learnr.wordpress.com/ (attentif à l’élégance graphique) contient nombre d’exemplesqui m’ont énormément servi.

Les réseaux du CAC 40

Comment s’organise le capitalisme français ? Si l’on prend la composition des conseils d’administration des entreprises du CAC 40, trouverait-on… trouverait-on quoi ?
Comme je n’ai pas trouvé facilement de belle image sur internet, j’ai cherché la composition de ces conseils, je suis tombé sur des données datant de 2005 [Mise à jour : les données proviennent de l’Opesc, j’aurais du l’écrire tout de suite. Voir aussi la mise à jour en bas], et après nettoyage, mon vaillant R (et son mignon, le “package sna”) ont fait le reste. Voici ce que cela donne.
Chaque rond rouge est une personne (Bébéar, Fourtou…) et chaque losange bleu une compagnie du CAC 40 (Axa, Accor…). Un trait noir qui relie un point rouge à un losange bleu signifie que le point rouge est membre du CA (ou du CS) de cette compagnie.
C’est un petit monde…
cac40
téléchargez le graphe au format PDF

Un petit zoom :
cac40zoom
Si quelqu’un me trouve des données plus récentes, 2008 ou 2009, ça m’intéresse [j’ai bien peur d’avoir attrapé la grippe réticulaire et de vouloir tout transformer en réseau].
Note : Je n’ai pas eu le temps de faire les recherches bibliographiques, mais je sais que l’étude des liens croisés qui unissent les boards sont assez nombreuses. N’hésitez pas à les indiquer en commentaire…

Mise à jour : En visitant le site de l’Opesc je découvre aujourd’hui qu’un grand nombre de graphiques sont disponibles, dont le réseau des patrons en 2007. [Lors de ma précédente visite, je n’avais consulté que les annuaires.]

Mon premier réseau

Il y a un peu plus d’un an, j’ai commencé à prendre en photo et à collectionner les affiches que les églises “africaines” utilisent pour leurs “Grandes Croisades d’Evangélisation”. J’en avais parlé rapidement ici : “Grandes Croisades à Paris” (billet de septembre 2008).
J’ai maintenant presque 70 affiches en provenance d’une cinquantaine d’églises, qui donnent des informations sur environ 150 individus. Petit à petit, j’ai cru remarquer que certaines personnes “revenaient”, et que sous la collection d’affiches se cachait peut-être un réseau. Grâce à R (le logiciel “open-source” d’analyse statistique et au “package sna”, on peut faire une analyse de réseau rapide (et sans doute aussi une analyse fouillée, mais je ne l’ai pas encore faite).
reseau eglises
Dans le schéma ci-dessus on voit apparaître, en effet, quelques petits réseaux, mais surtout des pasteurs dispersés. Je n’en dirai pas plus ici, en tout cas pas maintenant.

Structure sociale et prénoms à la mode

Dans “Les enfants de Michel et Martine Dupont s’appellent Nicolas et Céline”, de Guy Desplanques, (Economie et statistique, 1986, n°184, pp. 63-83) on trouve un fort beau graphique.
En s’appuyant sur l’Enquête Emploi de l’INSEE, Desplanques essaie de comprendre comment les prénoms à la mode circulent dans l’espace social.
Le graphique est reproduit ci-dessous (car une partie de mon travail, c’est aussi de la science froide, la reproduction de résultats déjà solides).

Prenons les 10 prénoms féminins les plus donnés entre 1965 et 1969 et regardons comment les différentes catégories socio-professionnelles les ont utilisés. Ce qui frappe tout d’abord, c’est que toutes les catégories semblent surfer sur la même vague. Mais une lecture en détail montre que les comportement sont légèrement différenciés dans le temps.
Vers 1950, 10% des bébés filles de cadres (la CSP n°3 dans la nomenclature à 6 postes) reçoivent un prénom qui sera à la mode (c’est à dire dans les 10 prénoms les plus fréquents) 15 ans plus tard. Les filles des artisans et professions intermédiaires (CSP n°2 et 4) sont environ 3% à recevoir de tels prénoms. Et ce n’est qu’en 1960 que les filles d’agriculteurs recevront à une telle fréquence (environ 10%) ces prénoms.

Rplot-enqueteemploi

Il arrive un moment, vers 1960, où ces “prénoms presque à la mode” qui étaient auparavant des “prénoms de cadres” deviennent plus fréquents parmi les filles de “professions intermédiaires” et celles des “indépendants” : l’engouement des cadres décélère… Peut-être parce que ces prénoms sont jugés trop peu distinctifs, les cadres commencent à abandonner ces prénoms quelques années avant les autres catégories socio-professionnelles.

Le graphique précédent offre une image instantanée… et peut-être que le comportement des cadres et des professions intermédiaires fut différent à d’autres moments. Peut-être que les prénoms à la mode entre 1965 et 1969 avaient ceci de spécifique qu’ils furent lancés par les cadres à la consommation de l’ensemble du corps social.

Nous sommes rassurés (enfin, je le suis) en regardant le graphique suivant. Nous avons pris ici les 10 prénoms féminins les plus fréquemment donnés entre 1960 et 1964 : les courbes évoluent de la même manière. Les cadres commencent à donner ces prénoms avant les autres catégories socio-professionnelles… et les abandonnent quand les “professions intermédiaires” les utilisent plus fréquemment qu’eux. Les agriculteurs, eux, continuent à donner ces prénoms après que les autres CSP ont commencé à ne plus les utiliser pour leurs filles.

Rplot-enqueteemploi60-64

On peut comparer plus systématiquement, par exemple entre 1900 et 1975. L’animation suivante est construite ainsi : pour chaque année entre 1900 et 1975, j’ai retenu les 20 prénoms les plus donnés aux filles et j’ai construit la courbe de la fréquence d’usage, par catégorie socio-professionnelle. Pour diverses raisons (codage des prénoms composés, effectifs faibles, problèmes liés à l’utilisation des CSP pour le début du XXe siècle…) je n’accorde pas trop de crédit aux courbes d’avant 1945. Mais pour l’après 45… : le phénomène repéré pour les années soixante fonctionne. Les cadres semblent “lancer” la mode.

[flashvideo file=”https://coulmont.com/blog/fichiers/2009/cspprenoms.flv” width=320 height=240 /]

[Note : j’ai réalisé cette animation trop rapidement : l’échelle des abscisses devrait commencer à 1900 et se terminer vers 1975, et une date “mouvante” devrait être présentée.]

Une question au moins se pose après ces graphiques : Entre 1945 et 1975, les décalages entre catégories sociales ne sont que de quelques années. Si l’on prend le seuil de 10% [i.e. la date à laquelle 10% des bébés filles d’une catégorie sociale reçoivent les prénoms à la mode considérés], on s’aperçoit que 10 ans environ séparent les cadres des agriculteurs… mais à peine deux ou trois ans séparent les cadres des professions intermédiaires. Sans information supplémentaire, deux explications sont possibles : 1- les cadres “lancent” une mode qui est ensuite reprise par d’autres catégories sociales… ou 2- la source des prénoms est ailleurs, elle est la même pour toutes les CSP, qui assimilent les prénoms plus ou moins rapidement, mais sans “imitation”. [L’explication n°2 est soutenue par l’américain Stanley Lieberson.]

Références : Guy Desplanques, “Les enfants de Michel et Martine Dupont s’appellent Nicolas et Céline”, (Economie et statistique, 1986, n°184, pp. 63-83)

Epicène

Epicène, quel joli mot. Voici une occasion de l’utiliser.
Parce que, dans la grande majorité des cas, le prénom indique assez bien le sexe, les prénoms ont été utilisés pour trouver le sexe des pacsés [PDF]. Dans son article pour Infostat Justice, Valérie Carrasco décrit la méthode qu’elle a suivie : elle a notamment considéré qu’un prénom donné à plus de 98% à un sexe était un prénom indiquant ce sexe.
Mais si je vous dit : Camille, Dominique, ou Claude… vous allez me demander “un ou une ?”. Ce sont, en français, des cas classiques de prénom ayant indiqué, à un moment plutôt un sexe, à un autre moment plutôt un autre. Des prénoms épicènes.
Prenons “Camille” : l’évolution au cours du XXe siècle est frappante. Jusque vers 1940, le prénom se masculinise : et plus de deux Camille-hommes naissent pour une Camille-femme. Mais à partir de 1940-1945, Camille se féminise : aujourd’hui plus de 15 Camille-filles naissent pour un Camille-homme (“Camille” est même l’un des dix ou vingt premiers prénoms donnés aux filles au début des années 2000). Les graphiques ci-dessous représentent la même chose (d’une image à l’autre, le rapport est inversé) : du point de vue “masculin” et du point de vue “féminin” pourrait-on dire.
camille-prenom
Il n’y a pas que Camille, Dominique ou Claude. Si je vous dit : Alix, Andrea, Loan, Noa ou Lou, Louison, Sacha (ou Sasha)… Dany ou Yannick… Sandy et Jessy… Morgan ou Lois… Vous y verrez peut-être une fille, peut-être un garçon.
4prenomsepicenes

Prenons deux prénoms assez récents en France, Jessy et Dany, dont l’évolution est retracée juste au dessus : au début de leur carrière, quand moins de 10 Jessy ou 10 Dany naissent chaque année, le rapport (nombre de Dany-filles) / (nombre de Dany-garçons) varie autour de l’unité. Mais il arrive un moment où le genre de Dany et Jessy se fixe. “PAF” ! En quelques années, ces deux prénoms deviennent des prénoms “de garçon”.
On n’observe pas de stabilisation durable autour du rapport 1 pour 1. C’est peut-être cela que repérait Stanley Lieberson dans The Instability of Androgynous Names (que je dois relire plus précisément). Un contre-exemple : “Alix”, au cours du XXe siècle, alterne assez rapidement entre “périodes masculines” et “périodes féminines” [il faudrait pouvoir suivre conjointement les évolutions d’Alice, Alex[andre] et Alix…], mais reste plutôt féminin (il n’y a jamais plus d’1,6 fois plus de garçons) et longtemps proche du rapport unitaire.

Yael prenom epiceneLe prénom “Yael” illustre peut-être mieux l’instabilité de l’épicénité : ce “prénom de fille” se masculinise régulièrement entre 1970 et 2000. Mais il ne reste pas androgyne plus de deux ou trois ans : en un clin d’oeil, il devient un prénom deux fois plus donné à des garçons qu’à des filles. Pour ce prénom l’on trouverait des explications ad hoc : l’usage féminin ferait plutôt référence à une héroïne biblique, l’usage masculin s’inscrirait plutôt dans les inventions de prénoms celtiques. Une telle explication incite à ne pas seulement utiliser les rapports mais aussi à utiliser les valeurs absolues : est-ce que l’usage féminin diminue (ou n’est-ce pas plutôt une explosion des usages masculins de Yael sans que ne diminue le nombre de bébé-filles Yaël naissant chaque année?)…

Après tous ces exemples, ne peut-on pas être un chouïa synthétique ?
naissances-epicenesLe graphique représente ici le nombre annuel de naissances “presque épicènes” : je n’ai retenu que les prénoms donnés aux deux sexes, et donnés moins de 4 fois plus à un sexe qu’à un autre [c’est à dire les prénoms où les garçons représentent entre 20 et 80% du total].
L’ «Effet Dominique» domine le graphique : autour des années soixante, Dominique est à la fois un prénom épicène et l’un des grands succès. Il faudrait le refaire en enlevant ce prénom…
Mais la fin du graphique est intéressante : L’augmentation du nombre d’enfants recevant un prénom épicène depuis 1995 n’est pas attachée à un seul prénom, mais bien à la multiplication de prénoms rares utilisés à la fois pour des garçons et pour des filles.

Total sur 5 ans : 2000-2004
Nom Nbr filles Nbr garçons Proportion
CAMERONE 33 22 0,40
SADIO 104 70 0,40
LILO 42 30 0,42
NOUHA 35 25 0,42
WISSAME 15 12 0,44
TAYLOR 89 74 0,45
NEHEMIE 53 45 0,46
JANYS 14 12 0,46
AELIG 30 26 0,46
LENAICK 40 35 0,47
MORGANN 108 96 0,47
SASHA 648 582 0,47
ANAEL 277 250 0,47
ISA 38 35 0,48
ANH 16 15 0,48
KERANE 16 15 0,48
JOANY 18 17 0,49
EOLE 24 23 0,49
ELISEE 52 51 0,50
JAEL 34 35 0,51
LYSSANDRE 25 26 0,51
KELIANE 46 49 0,52
MANOE 26 28 0,52
KRISTEN 63 69 0,52
ILYANE 16 18 0,53
ALAA 23 26 0,53
NOLANE 57 66 0,54
ANGY 49 58 0,54
OUISSAM 10 12 0,55
LOUISON 609 761 0,56
NIMA 20 25 0,56
LEAN 11 14 0,56
KINSLEY 17 22 0,56
MAHE 230 298 0,56
TAYSSIR 10 14 0,58
JANIS 86 123 0,59
LOAN 1031 1511 0,59
GAYA 17 25 0,60
MADY 59 87 0,60
NATHY 10 15 0,60

Au cours des dix à quinze dernières années l’on assiste à l’augmentation du nombre de prénoms identiques utilisés pour des filles ou des garçons : il y a un plus grand nombre de prénoms “mixtes” qu’avant. Des prénoms auparavant “masculins” mais se terminant en “-a” sont donnés à des filles (la terminaison en -a devenant l’un des marqueurs du genre, comme -ette ou -ine il y a quelques années).

Mais, comme on peut le constater sur le tableau ci-contre, ce sont surtout des prénoms assez rares qui sont donnés à la fois à des garçons et à des filles, dans des quantités similaires. La libéralisation du choix du prénom — depuis 1993 les Françaises sont libres de donner ce qu’elles souhaitent à leurs enfants — a poussé à la dispersion. Avec la conséquence suivante : Est-ce que Kérane, Eole, Lyssandre, Manoë ou Aelig sont plus “fille” ou plus “garçon”… personne ne sait (à part les parents, qui choisissent une fois sur deux pour l’un des camps). Les références culturelles habituelles ne peuvent ici servir de guide. Mais dans dix ans, il est bien possible que, si tel prénom est encore donné, le choix sera fait, le prénom sera genré, en faveur de l’un des sexes.

Notes : Les statistiques utilisées ici proviennent du “fichier des prénoms” de l’INSEE, version de 2005, obtenu à des fins de recherches par le Centre Quêtelet (Centre Maurice Halbwachs). Ces données ont été travaillées avec le logiciel R (GNU-R). Pour que certaines évolutions temporelles soient plus claires, j’ai lissé les courbes (elles sont en rouge ici).

De l’utilisation des prénoms par la réclame

Les prénoms sont un indicateur synthétique du sens commun : ils indiquent, immédiatement, un sexe, un âge (plus ou moins “vieux”), une classe sociale (“prénom de bourge”), une “ethnicité” (“celtique”, “basque”, “africain”…). Les romanciers s’en servent pour camper, d’un mot, un personnage. Mais ils ont, ensuite, 500 pages pour préciser la position sociale.
Les publicitaires, eux, ne disposent que du regard distrait des lecteurs, des utilisateurs du métro ou de celles qui dînent en écoutant RTL. Leurs personnages sont parfois réduits à des prénoms.
pub-prenoms

Les prénoms choisis par la publicité pour Carrouf’ (Pierrette, Patrick et Pauline) ont pour but d’indiquer des âges différents : “Pierrette” semble avoir presque 60 ans, “Patrick” 35 et “Pauline” en gros 23. Mais collent-ils à la réalité ? La comparaison avec les statistiques du “Fichier des prénoms” de l’INSEE nous indique qu’une “Pierrette” a toutes les chances d’être plus âgée qu’un “Patrick”, lui même plus âgé qu’une “Pauline”. Le graphique suivant représente le nombre annuel de bébés nommés Pierrette, Patrick ou Pauline entre 1900 et 2005 (avec une échelle logarithmique).

carrouf-prenoms
C’est au début des années 30 que le prénom “Pierrette” connaît son plus grand succès. Vers 1955 pour “Patrick” et vers 1990 pour “Pauline”.
Les auteurs de l’affiche ont bien ordonné les prénoms. Pierrette pour la vieille, Patrick pour le jeune plus trop jeune, Pauline pour “l’adulescente”. Mais l’âge donné aux personnages est moins en accord avec les statistiques. Un “Patrick” d’une trentaine d’années est beaucoup plus rare, aujourd’hui, qu’un “Patrick” âgé de 55 ans.
Mais leur but est-il de produire, dans des cas d’espèce, un concentré statistiquement possible, ou simplement de produire du crédible ? Ils étaient de plus contraints ici par le “P”.

Les publicitaires, quand ils tiennent des discours sur leur pratique, présentent les usages des prénoms comme une manière de “rendre proche des gens” les personnages des publicités : parce qu’on appelle nos proches par leur prénom, le prénom aurait par miracle la capacité de rendre proche. Ceci expliquerait pourquoi les publicités utilisant les prénoms se multiplient.
Des sociologues sont parfois critiques et remarquent au contraire que ces prénoms “ne reflètent pas la France” : en gros, que les personnages ne sont pas proches, mais très éloignés (d’une réalité dont les sociologues sont l’interprête). Dans l’exemple précédent, l’universitaire fait état des prénoms dont il a connaissance pour invalider la série des prénoms proposés par une publicité.

Dans les deux cas, c’est — pour parler grossièrement — la place du prénom dans la société française contemporaine que ces personnes pointent. Elles affirment et réaffirment que le prénom peut être lu comme le support de l’identité personnelle (voire même que le prénom suffise, a priori, comme résumé identitaire) et d’une identité collective plus large (la “France”).
Mais cet indicateur, malheureusement, est complexe : un même prénom n’indiquera pas la même chose à deux personnes différentes par l’âge ou le milieu social. (On le voit avec le texte du collègue.) L’image que le prénom a pour une personne est un indicateur de la position sociale de cette dernière. Certains trouveront le prénom “Gaspard” prétentieux, d’autres agréable : il serait même possible d’estimer, à partir d’un questionnaire portant sur un groupe de prénom, la position sociale des répondants (exemple de traitement statistique et pédagogique de cette question). Pour représenter un garçon de moins de dix ans, les publicitaires travaillant pour Carrouf’ ont choisi “Pablo” : un prénom peu répandu, mais en forte croissance, le seul de la série à ne pas être sur le déclin, choix qui indique peut-être que, pour ces publicitaires, “Pablo” peut encore être donné à un garçon… ou a pu l’être il y a dix ans.

Tout discours sur les prénoms expose donc la personne qui parle à en dire un peu sur elle, probablement inconsciemment.

Géographie des prénoms

Où les lecteurs apprendront comment repérer des ressemblances.

Je continue mon exploration des données du “Fichier des prénoms” de l’INSEE, et je me plonge dans des outils statistiques que je ne maîtrise plus. Aujourd’hui, il s’agissait de combiner la “cluster analysis” et la cartographie.
L’analyse de clusters consiste, en gros, à demander à un ordinateur de trouver, tout seul, des groupes de ressemblances dans un tas de données. Prenons un prénom. Au hasard, « Faustine ». Quels sont les prénoms qui, récemment, évoluent comme Faustine ? Apparemment, Maylis, et Oriane connaissent des variations proches celles de Faustine… plus proche, en tout cas, que les prénoms Constance et Fiona, qui connaissent des évolutions proches de celles de Gabrielle ou Florine.
La chose est intéressante : il existe plusieurs dizaines de milliers de prénoms en usage, et il est impossible de repérer à l’oeil nu des proximités entre prénoms — sauf à se restreindre aux dix ou vingt premiers.
La chose est intéressante, mais que fait-on une fois qu’on a trouvé ces groupes de ressemblance. Rarement, l’interprétation vient d’elle-même : des prénoms démodés de l’immigration maghrébine apparaissent parfois ensemble… Il faut le plus souvent essayer de construire des typologies…

*

Disposant de données départementales, et cherchant à trouver des spécificités régionales, j’ai essayé de combiner analyse de clusters et géographie. Les résultats sont fascinants, mais difficiles à interpréter. On voit bien apparaître des départements, ou des groupes de départements “collés” ensemble, mais qu’en tire-t-on ? C’est là qu’un-e géographe versé en statistiques me serait utile…

Pour réaliser l’image précédente, j’ai sélectionné les prénoms masculins qui, en 1970, sont donnés dans tous les départements français au moins 3 fois, et j’ai demandé à Monsieur l’Ordinateur (à l’aide du logiciel “R“) de grouper en 4 ensembles les régions. Mon problème est le suivant : la répartition des ensembles n’est visiblement pas aléatoire, mais qu’en tirer ? Sont-ce des homogénéités culturelles basées sur des différences (le “pool” de prénoms donnés au moins 3 fois dans l’ensemble des départements n’est pas très grand)… Ce n’est pas vraiment “les zones les moins intégrées” versus “les zones les plus intégrées”. Bref, ça demande du travail !
D’autant plus que la même commande, mais pour les prénoms féminins, donne un “truc” différent, mais où les quatre “coins” de l’Hexagone (Nord, Bretagne, Landes-basques, Corse et Alsace) apparaissent avec une espèce de distinction.

Les deux images précédentes en PDF :
cluster-region-1970-prenoms-feminins
cluster-region-1970-prenoms-masculins

Prénoms typiques

Si l’on dispose de données départementales sur les prénoms, il est possible de chercher à savoir quels sont les prénoms “typiques” d’un département.
Avec, tout de suite, le caveat suivant : la typicité est historique. Prenons, par exemple, le prénom “Loïc” : en 1946, c’est un prénom fréquent en Bretagne, inconnu ailleurs. En 2004, c’est un prénom de l’Est. L’animation suivante montre le passage de la “perturbation Loïc” entre 1946 et 2004. Sur ces cartes, plus le gris est foncé, plus le rang du prénom est proche de 1.
[flashvideo filename=”../blog/fichiers/2008/loic-animation.flv” width=”480″ height=”500″ /]
(Les données sont celles du Fichier des prénoms, INSEE, via le Centre Quêtelet / CMH, elles ont été traitées avec le logiciel R. L’animation a été réalisée en gros avec ImageMagick puis ffmpeg).
J’avoue sans peine aucune que l’exemple “Loïc” est particulier : je n’ai pas trouvé, pour l’instant, d’autres prénoms voyageant aussi bien sur le territoire au cours de la deuxième moitié du XXe siècle.

Trêve de diachronie. Un peu de synchronie.

L’on pourrait — pour faire apparaître des prénoms “typiques” — commencer par repérer les prénoms les plus donnés, ceux qui ont la fréquence la plus élevée. C’est ce que représente la carte ci-dessous (pour l’année 2004). Mais comme on peut le constater, ces prénoms sont peu variés : Enzo, Théo, Lucas et Mathis suffisent à recouvrir la quasi-totalité du territoire. Se distinguent Paris (avec “Alexandre”) et la Seine-Saint-Denis (avec “Mohamed”).

les prénoms les plus fréquents

C’est que cette manière de faire (repérer les prénoms les plus fréquents) ne permet pas de distinguer entre eux les départements. Il faudrait pouvoir représenter les prénoms qui sont surtout donnés dans un département et peu ailleurs pour faire ressortir une typicité derrière l’apparente uniformité. La France n’est pas une masse uniforme : et pour chaque département l’on trouve quelques prénoms dont la fréquence est beaucoup plus élevée que la fréquence nationale. Souvent, ce sont des prénoms qui ne sont donnés, cette année là, que dans ce département et à un tout petit nombre d’enfants.
Il convient donc de ne considérer que les prénoms suffisamment donnés. Pour la carte qui est ci-dessous, le seuil a été placé à 10 (il faut que 10 nouveaux-nés reçoivent ce prénom) et le rapport entre fréquence départementale et fréquence nationale doit être supérieur à 2. (J’ai retenu, pour les prénoms donnés au moins 10 fois en 2004 dans tel département, celui qui maximise le rapport entre la fréquence départementale et la fréquence nationale).

prénoms typiques ?

Avec cette méthode, on arrive à faire surnager certains départements, voire certaines régions. La Bretagne se distingue en donnant “Gurvan” et “Klervi” ou “Youna”, inconnus ou presque ailleurs. L’Alsace avec Eren et Elif (des prénoms aussi répandus en Turquie), le sud-ouest avec quelques prénoms basquisants et la région parisienne, avec Bintou, Assa, Djibril, Liora, Constantin et Ibtissem… [une version pdf de la carte est disponible pour une lecture plus simple]
Mais cette méthode est un peu trop sensible : le seuil (10 enfants recevant ce prénom) est trop bas. Par tâtonnement, il m’apparaît qu’un seuil de 30 pour les garçons et 20 pour les filles donne des résultats géographiquement plus “jolis”, avec des prénoms différents…

Les départements où aucun prénom ne surnage sont peu nombreux, mais ils existent. Dans ces départements, la répartition des prénoms ressemble à la répartition française.

Ceci me permet de revenir sur les “prénoms bretons” déjà abordés précédemment. Pour établir le graphique de ce billet, je m’étais basé sur diverses listes de prénoms “bretons” proposés par des régionalistes ou des sites internets du type meilleursprenoms.com. Or les prénoms choisis comme “bretons” par les parents ne correspondent peut-être pas aux propositions normatives des promoteurs institutionnels d’identités locales. Un exemple : les variations sur le -wenn (Lilwenn, Louwenn, etc…).
L’on pourrait donc proposer une autre méthode, en examinant de près la liste des prénoms réellement donnés en “Bretagne” (sans référence à une liste préétablie). Peut-être qu’elle diffère plus de la moyenne nationale que les listes de prénoms donnés dans d’autres régions. Et il faudrait examiner l’évolution, sur les soixante dernières années, de cette différence. Comme on le voit avec l’exemple “Loïc”, un prénom peut ne pas rester indéfiniment “breton”.

Ailleurs sur internet :