La boîte à moustaches
On n’utilise pas assez les boîtes à moustaches. Je ne suis pas le seul à faire le constat. Howard Becker, qui n’est pas connu pour être un “quantitatif”, regrette l’absence de telles boîtes moustachues dans les principales revues de sociologie américaines.
Rappelons ce que sont ces boîtes. Pour citer Becker, elles fournissent “une grande quantité de données sur un ensemble de chiffres, dans un format pratique, facile à lire et aisément comparable. La boîte à moustache montre de manière graphique (…) les données le splus importantes d’une distrtibution numérique — la médiane, les charnières (les points marquant les quartiles approximatifs), l’aire complète de distribution –, elle permet d’identifier facilement les cas qui sortent de la moyenne, pour s’y intéresser plus particulièrement.” [Becker, Howard S. Comment parler de la société, Paris, La Découverte, 2009 (édition originale, 2007), p.91]
C’est un graphique synthétique, qui permet de connaître, pour une distribution, sa dispersion, la tendance centrale, l’aire… mais aussi les extrêmes.
Ainsi la répartition des notes dans deux classes :
La note médiane de classe “t1” est 10, celle de la classe t2 est 9. Mais la distribution des notes des deux classes diffère : la classe “t1” est plus homogène.
La zone en grisé représente ce qui se trouve entre le premier quartile et le troisième quartile. Les “charnières” se trouvent situées au point maximal situé en dessous de 1,5 fois l’écart inter-quartile en partant du 3e quartile (même chose, mais de manière inverse, pour le 1er quartile). Tous les points situés au dessus de cette “charnière” se trouvera représenté par un point, ce qui permet d’attirer l’attention sur certaines valeurs extrêmes. En l’occurrence, ici, les deux élèves ayant eu 20 de moyenne.
La boîte à moustache a été inventée par John Tukey dans les années 1970 : le caractère relativement récent de cette création explique probablement qu’il n’y a pas qu’une seule convention de représentation. La moyenne est parfois représentée dans la boîte. Certains quantiles sont parfois aussi représentés… bref, il y a de la variation, et on n’est jamais certain (sauf à regarder la note de bas de page) de la convention utilisée pour dessiner la boîte à moustaches que l’on a sous les yeux.
Ceci explique probablement pourquoi Becker n’a trouvé aucune boîte dans les 77 articles de l’American Sociological Review et de l’American Journal of Sociology de l’année 2001, alors que 68 articles, écrit-il, contenaient des données qui auraient pu être synthétisées à l’aide de telles boîtes.
Note : avec R, l’instruction boxplot() dessine les boîtes à moustaches.
[yarpp]
8 commentaires
Un commentaire par Fr. (24/02/2013 à 15:13)
Coïncidence, je citais cet article d’Hadley Wickham dans mes cours de la semaine dernière, et m’apprête à en remettre une couche ce lundi.
Techniquement, un boxplot a moins de dimensions qu’un histogramme (moins d’éléments de construction). C’est donc une technique de réduction, mais il faut faire comprendre de quoi : je l’enseigne pour cette raison en même temps que les fonctions de répartition empirique (ECDF).
J’aime bien utiliser les boxplots sur des séries temporelles, mais je ne trouve plus l’excellent article qui décrivait comments s’en servir des résidus de régression.
Un commentaire par Pourquoi aimer les boxplots | Polit’bistro : des politiques, du café (24/02/2013 à 16:16)
[…] Coulmont rappelle qu’on n’utilise pas assez les boxplots, et cite au passage Howard Becker, qui vante leurs qualités d’identification des […]
Un commentaire par Arthur (25/02/2013 à 5:45)
je suis quand meme un peu sceptique sur les bouts des moustaches, cf
http://freakonometrics.hypotheses.org/4138
meme si je partage l’importance de l’outils. Plus généralement, des quantiles d’ailleurs…
Un commentaire par Baptiste Coulmont (25/02/2013 à 18:53)
ah, je ne me souvenais pas de ce billet. Il faudrait une convention stable pour les pointes de moustaches, afin de rendre l’outil plus simple d’utilisation.
Un commentaire par Joël (28/02/2013 à 9:44)
Je pense qu’une raison supplémentaire pour laquelle H. Becker ne trouve pas de boîtes à moustache est qu’on trouve globalement dans les grandes revues anglo-saxonnes de sciences sociales peu de statistiques descriptives, et encore moins de visualisation de données (cf. ce qu’en dit Gelman, par exemple dans ce papier : http://www.stat.columbia.edu/~gelman/research/published/dodhia.pdf). Après, je suis d’accord avec Arthur et François sur leurs réserves techniques sur l’outil, mais je pense que Becker pense surtout à un usage assez “pédagogique”, par des étudiants ou des chercheurs non quantitativistes, et je pense que c’est déjà pas mal d’avoir un outil assez lisible permettant de mettre en valeur la dispersion d’une distribution. J’en ai marre de ne lire que des moyennes.
Un commentaire par Arthur (28/02/2013 à 9:55)
Je profite que la réunion du Comité national de libération des boîtes à moustache est ouverte pour revenir sur le point de François: sur l’histogramme, tu as le choix de ta partition de comptage: tu peux découper un peu comme tu veux, ce qui peut laisser un porte ouverte à de la non objectivité. Les quantiles eux sont beaucoup plus robustes ! (sauf la réserve que j’ai sur les pointes, j’aurais préféré des quantiles à ce truc sur la distance interquartiles).
Cela dit, je prépare un billet sur les tests sur les quantiles: on a apprend dans tous les cours de stats a comparer des moyennes (et des proportions) mais jamais des quantiles… C’est dommage….
Un commentaire par Fr. (28/02/2013 à 14:15)
Arthur : agreed. Vive les quantiles :)
Un commentaire par MVT (12/03/2013 à 16:49)
Bonjour,
merci pour vos articles intéressants.
Je vais tester la cartographie sous R.
Une remarque : vos fichiers de test ne sont pas disponibles ! ? ;)
Par rapport aux moustaches, un add-on d’excel que j’ai utilisé et que je trouve fort intéressant :
http://sparklines-excel.blogspot.fr/