Categories

Archives

Billet

R et ses petites joies

Billet publié le 10/07/2008

Je profite de l’absence de cours, et d’une atmosphère plus douce pour me pencher, des heures durant, sur le “fichier des prénoms” de l’INSEE (obtenu par l’intermédiaire du Centre Quételet). Je l’exploite avec R, le logiciel libre, que j’avais commencé à comprendre il y a quelques années puis oublié. Olivier Godechot m’y a replongé, avec son “Introduction à R”.

Le “fichier des prénoms” se présente sous la forme suivante (j’ai gardé la structure et modifié les noms) :

  SEXE PREUSUEL ANNAIS NOMBRE
1    1   PAUL     1954     3
2    1   PAUL     1980     3
3    1   PAUL     1986     3
4    1   PAUL     1998     4
5    1   PIERRE   1976     5
6    1   PIERRE   1978     3

Mais j’ai du mal à traiter les données ainsi structurées (par exemple pour trouver le rang qu’occupe un prénom une année donnée..). Il me faudrait quelque chose du genre :

SEXE PREUSUEL 1900 1901 1902 ...
1    PAUL     1    1    NA   ...
1    PIERRE   2    NA   5    ...

Après de longues heures de recherches, j’ai compris l’intérêt du package reshape. En modifiant les noms des colonnes ainsi :

  SEXE subject variable value
1    1   PAUL     1954     3
2    1   PAUL     1980     3

et à l’aide d’une simple ligne de code :
prenoms<-cast(prenoms2005,SEXE+subject~variable)
…j’ai obtenu ce que je souhaitais ! [L’obligation de modifier le nom des colonnes reste étrange… mais ça ne marchait pas sinon…]
De formidables graphiques ont suivi.

[yarpp]