R et ses petites joies
Je profite de l’absence de cours, et d’une atmosphère plus douce pour me pencher, des heures durant, sur le “fichier des prénoms” de l’INSEE (obtenu par l’intermédiaire du Centre Quételet). Je l’exploite avec R, le logiciel libre, que j’avais commencé à comprendre il y a quelques années puis oublié. Olivier Godechot m’y a replongé, avec son “Introduction à R”.
Le “fichier des prénoms” se présente sous la forme suivante (j’ai gardé la structure et modifié les noms) :
SEXE PREUSUEL ANNAIS NOMBRE 1 1 PAUL 1954 3 2 1 PAUL 1980 3 3 1 PAUL 1986 3 4 1 PAUL 1998 4 5 1 PIERRE 1976 5 6 1 PIERRE 1978 3
Mais j’ai du mal à traiter les données ainsi structurées (par exemple pour trouver le rang qu’occupe un prénom une année donnée..). Il me faudrait quelque chose du genre :
SEXE PREUSUEL 1900 1901 1902 ... 1 PAUL 1 1 NA ... 1 PIERRE 2 NA 5 ...
Après de longues heures de recherches, j’ai compris l’intérêt du package reshape. En modifiant les noms des colonnes ainsi :
SEXE subject variable value 1 1 PAUL 1954 3 2 1 PAUL 1980 3
et à l’aide d’une simple ligne de code :
prenoms<-cast(prenoms2005,SEXE+subject~variable)
…j’ai obtenu ce que je souhaitais ! [L’obligation de modifier le nom des colonnes reste étrange… mais ça ne marchait pas sinon…]
De formidables graphiques ont suivi.