Où les lecteurs apprendront comment repérer des ressemblances.
Je continue mon exploration des données du “Fichier des prénoms” de l’INSEE, et je me plonge dans des outils statistiques que je ne maîtrise plus. Aujourd’hui, il s’agissait de combiner la “cluster analysis” et la cartographie.
L’analyse de clusters consiste, en gros, à demander à un ordinateur de trouver, tout seul, des groupes de ressemblances dans un tas de données. Prenons un prénom. Au hasard, « Faustine ». Quels sont les prénoms qui, récemment, évoluent comme Faustine ? Apparemment, Maylis, et Oriane connaissent des variations proches celles de Faustine… plus proche, en tout cas, que les prénoms Constance et Fiona, qui connaissent des évolutions proches de celles de Gabrielle ou Florine.
La chose est intéressante : il existe plusieurs dizaines de milliers de prénoms en usage, et il est impossible de repérer à l’oeil nu des proximités entre prénoms — sauf à se restreindre aux dix ou vingt premiers.
La chose est intéressante, mais que fait-on une fois qu’on a trouvé ces groupes de ressemblance. Rarement, l’interprétation vient d’elle-même : des prénoms démodés de l’immigration maghrébine apparaissent parfois ensemble… Il faut le plus souvent essayer de construire des typologies…
*
Disposant de données départementales, et cherchant à trouver des spécificités régionales, j’ai essayé de combiner analyse de
clusters et géographie. Les résultats sont fascinants, mais difficiles à interpréter. On voit bien apparaître des départements, ou des groupes de départements “collés” ensemble, mais qu’en tire-t-on ? C’est là qu’un-e géographe versé en statistiques me serait utile…

Pour réaliser l’image précédente, j’ai sélectionné les prénoms masculins qui, en 1970, sont donnés dans tous les départements français au moins 3 fois, et j’ai demandé à Monsieur l’Ordinateur (à l’aide du logiciel “R“) de grouper en 4 ensembles les régions. Mon problème est le suivant : la répartition des ensembles n’est visiblement pas aléatoire, mais qu’en tirer ? Sont-ce des homogénéités culturelles basées sur des différences (le “pool” de prénoms donnés au moins 3 fois dans l’ensemble des départements n’est pas très grand)… Ce n’est pas vraiment “les zones les moins intégrées” versus “les zones les plus intégrées”. Bref, ça demande du travail !
D’autant plus que la même commande, mais pour les prénoms féminins, donne un “truc” différent, mais où les quatre “coins” de l’Hexagone (Nord, Bretagne, Landes-basques, Corse et Alsace) apparaissent avec une espèce de distinction.

Les deux images précédentes en PDF :
cluster-region-1970-prenoms-feminins
cluster-region-1970-prenoms-masculins