Géographie des prénoms
Où les lecteurs apprendront comment repérer des ressemblances.
Je continue mon exploration des données du “Fichier des prénoms” de l’INSEE, et je me plonge dans des outils statistiques que je ne maîtrise plus. Aujourd’hui, il s’agissait de combiner la “cluster analysis” et la cartographie.
L’analyse de clusters consiste, en gros, à demander à un ordinateur de trouver, tout seul, des groupes de ressemblances dans un tas de données. Prenons un prénom. Au hasard, « Faustine ». Quels sont les prénoms qui, récemment, évoluent comme Faustine ? Apparemment, Maylis, et Oriane connaissent des variations proches celles de Faustine… plus proche, en tout cas, que les prénoms Constance et Fiona, qui connaissent des évolutions proches de celles de Gabrielle ou Florine.
La chose est intéressante : il existe plusieurs dizaines de milliers de prénoms en usage, et il est impossible de repérer à l’oeil nu des proximités entre prénoms — sauf à se restreindre aux dix ou vingt premiers.
La chose est intéressante, mais que fait-on une fois qu’on a trouvé ces groupes de ressemblance. Rarement, l’interprétation vient d’elle-même : des prénoms démodés de l’immigration maghrébine apparaissent parfois ensemble… Il faut le plus souvent essayer de construire des typologies…
Disposant de données départementales, et cherchant à trouver des spécificités régionales, j’ai essayé de combiner analyse de clusters et géographie. Les résultats sont fascinants, mais difficiles à interpréter. On voit bien apparaître des départements, ou des groupes de départements “collés” ensemble, mais qu’en tire-t-on ? C’est là qu’un-e géographe versé en statistiques me serait utile…
Pour réaliser l’image précédente, j’ai sélectionné les prénoms masculins qui, en 1970, sont donnés dans tous les départements français au moins 3 fois, et j’ai demandé à Monsieur l’Ordinateur (à l’aide du logiciel “R“) de grouper en 4 ensembles les régions. Mon problème est le suivant : la répartition des ensembles n’est visiblement pas aléatoire, mais qu’en tirer ? Sont-ce des homogénéités culturelles basées sur des différences (le “pool” de prénoms donnés au moins 3 fois dans l’ensemble des départements n’est pas très grand)… Ce n’est pas vraiment “les zones les moins intégrées” versus “les zones les plus intégrées”. Bref, ça demande du travail !
D’autant plus que la même commande, mais pour les prénoms féminins, donne un “truc” différent, mais où les quatre “coins” de l’Hexagone (Nord, Bretagne, Landes-basques, Corse et Alsace) apparaissent avec une espèce de distinction.
Les deux images précédentes en PDF :
cluster-region-1970-prenoms-feminins
cluster-region-1970-prenoms-masculins
5 commentaires
Un commentaire par Pierre M (28/08/2008 à 9:54)
Euh… j’ai pas tout compris à la construction des cartes ci-dessus. C’est les mêmes prénoms dans chaque département ? Ou bien ce sont le nombre de prénoms donnés au moins trois fois ? Je pige pas tout, il nous faudrait une légende pour comprendre les dégradés de couleurs.
Un commentaire par Timothée (28/08/2008 à 23:48)
Je fais pas mal de clustering analysis, j’ai quelques questions :
Par quelle méthodes as tu obtenu les arbres présentés?
De quel type de données es tu parti à la base? Est-ce que des analyses écologiques ne seraient pas plus adaptées (RDA, par exemple, qu’on utilise pour les abondances d’espèces en fonction de site, mais ici c’est le même problème)? Tu as tenté une ACP pour voir les prénoms qui se ‘ressemblent’ ?
Ca se fait facilement en R, si tu veux des infos sur comment n’hésite pas.
Un commentaire par Baptiste Coulmont (29/08/2008 à 14:52)
> Pierre M : C’est normal, la construction des cartes est “cachée”, et surtout les couleurs n’ont ici qu’un but de “visualisation” des différentes régions. Il n’y a pas d’autre information dans les couleurs.
Si je trouve le temps, j’essaierai de présenter plus en détail l’analyse de “clusters”, à l’aide d’exemples simples.
*
> Timothée : Merci de l’offre d’aide (tu as d’ailleurs reçu un mail). Il faut que j’essaie une ACP…
Un commentaire par Joël (23/09/2008 à 16:34)
De quelles autres données disposes-tu dans ton fichier ? On utilise souvent ces autres données pour caractériser (et, le cas échéant, interpréter) les catégories utilisées.
Autre chose : en cluster analysis, on a en général un cluster “fourre-tout”. Visiblement, sur tes deux cartes, la couleur rouge correspond à ce cluster fourre-tout, non ?
L’ACP me semble aussi à essayer. Après tout, la cluster analysis n’est jamais qu’un dérivé de l’ACP.
Un commentaire par Baptiste Coulmont (23/09/2008 à 16:41)
> Joël : les ACP ne donnent pas grand chose.
Le fichier est réduit : on a, pour chaque département et pour chaque année (depuis 1946), pour chaque prénom, le nombre de naissances. Rien d’autre. Il faudrait que j’associe à ce fichier des données comme le revenu moyen, la proportion de cadres, le nombre de villes de plus de 50 000 habitants… pour avoir de quoi interpréter.