Categories

Archives

La spirale de Du Bois

Dans un cours de visualisation des données (une introduction à {ggplot}), j’ai rapidement présenté quelques graphiques réalisés par le sociologue W.E.B Du Bois pour l’exposition universelle de Paris en 1900. Si vous ne connaissez pas ces graphiques et le contexte de leur création, regardez cette série d’articles : W. E. B. Du Bois’ staggering Data Visualizations are as powerful today as they were in 1900.
Une étudiante m’a demandé s’il était facile de reproduire ces graphiques avec R. On trouve des réplications de ces graphiques réalisées avec R :

Mais je n’ai pas trouvé de réplication de ce graphique :


Daniel Murray collection (Library of Congress).

Alors je me suis mis au travail, et voici le résultat :

(J’ai déposé le code sur github)

Une deuxième vague

En novembre 2020, la « Deuxième vague » de décès covid apparaît très visible dans les données publiées, presque en temps réel, par l’INSEE.

cliquez pour agrandir

La courbe rouge, les décès toutes causes confondues, dépasse largement le nombre de décès attendus, et est très proche de la courbe verte qui additionne le nombre moyen décennal de décès et le nombre de décès du covid.
L’INSEE fait un travail formidable de publication, semaine après semaine, des décès comptabilisés en France. Les chiffres les plus récents concernent les décès datant de 11 jours à peine.
Mais tous les décès ne sont pas parvenus à l’INSEE 11 jours après la date du décès. Parfois la remontée des informations met plus de temps.
Ce qui fait que, quand on représente sur un même graphique les différents fichiers publiés par l’INSEE depuis avril, on voit que les chiffres des décès les plus récents sont toujours révisés à la hausse.
Dans le graphique suivant, j’indique par une flèche rouge la différence entre le nombre initial de décès et le nombre final quand le fichier est publié environ onze jours après la date des décès. On le voit, la sous-estimation est toujours là.

Si on représente les choses autrement, en indiquant le ratio “nombre final de décès / nombre initial” en fonction de la distance temporelle entre la date de publication et la date du décès, on voit que, quand les décès sont très récents (environ 11 jours), le nombre final sera environ 10% plus élevé que le nombre initial. Cette sous-estimation est régulière et stable, et décroît rapidement.

On peut donc affecter les chiffres publiés d’un coefficient multiplicateur, pour avoir une idée plus précise du nombre réel de décès “à 11 jours”. C’est la courbe rouge, dans le graphique suivant :

Et c’est cette courbe redressée que j’utilise pour le graphique initial.

L’identité en réseau : sous la pelote, la race ?

L’identité, dictionnaire encyclopédique (Gallimard, 2020, dir. Jean Gayon) [lien amazon], qui vient d’être publié, propose environ 140 notices, de trinité à épigénétique, dont une dont je suis l’auteur. Chaque notice compte entre deux et neuf renvois vers d’autres notices, et chaque notice reçoit entre zéro et seize renvois. Je vais traiter ces renvois comme des liens entre notices.

Il y a, en tout, 750 liens. Dans le graphique suivant, chaque notice est représentée par un point, et s’il y a un renvoi entre deux notices, alors un arc est tracé entre les deux points. La couleur correspond au domaine de la notice (Sociologie, Sciences naturelles…). Le grand nombre de liens et de notices rend le graphique peu lisible.

Toutes les notices sont donc reliées, directement ou indirectement, à toutes les autres (parce que chaque notice comporte des renvois à d’autres : car il existe quelques notices à laquelle aucune autre ne renvoie). La grosse “pelote” de liens montre un travail pluridisciplinaire, une attention au croisement entre disciplines (au moins au niveau des références) : il y aurait facilement pu y avoir deux ou trois “pelotes” fortement connectées en internes mais faiblement connectées aux autres. Or ce n’est pas le cas.

Certains chemins de citation sont assez long : on ne passe pas des sciences naturelles à la littérature en un petit saut. Le plus long relie la Physique quantique aux Troubles de la mémoire : voilà ce qui arrive quand on oublie dans quelle boîte on a mis le chat de Shrödinger.

physique quantique –> lois de la nature –> changement –> developpement (biologie) –> developpement (psychologie) –> double –> copie –> genie –> troubles de la personnalite

Le nombre moyen de citations vers d’autres notices est très proche entre domaines. Si les philosophes avaient autant cité que les Psy, alors ils auraient proposé 18 renvois en plus.

domaine nombre_notices nombre_renvois moyenne
Philo 17 84 4.9
Sc. nat. 36 180 5.0
Socio 30 166 5.5
Littérature 24 134 5.6
Psy 31 185 6.0

La grosse différence c’est le renvoi vers d’autres domaines. Seulement 28% des renvois en provenance des notices en “Sociologie” sont en direction d’autres notices en “Sociologie”, alors que c’est le cas de 57% des notices de sciences naturelles. Qu’en conclure ? Que les sociologues se pensant comme discipline centrale, ils (et elles) pense que tout le reste leur est annexe (“bon à picorer”) ? Où qu’ils (et elles) sont faiblement disciplinaires et cherchent à légitimer leurs textes par des références à d’autres disciplines? On ne proposera pas de grande conclusion en se basant sur 30 notices.

La pelote n’était pas très lisible : on l’a compris : beaucoup de liens, et des liens qui vont d’une discipline à l’autre.

Mais on pourrait considérer que deux notices sont vraiment en lien quand elles font toutes deux références à l’autre, quand le lien entre elles est mutuel. Dans le graphique suivant, je n’ai donc gardé que les notices « fortement connectées » entre elles.


cliquez pour agrandir

On voit un peu mieux apparaître des branches disciplinaires.

Les notices s’organisent autour de trois cercles tangents. Un premier cercle philosophique Individu – genidentité – changement – principe d’identité – même/autre – ipséité – identité narrative … jusqu’à la personne. De l’autre côté un cercle plutôt sociologique, que l’on va faire commencer par individu – personne – papier d’identité – nom/prénom – nom propre – langue – identité nationale – race – classification et retour au point de départ. Et un dernier cercle « sciences naturelles ».

Au « centre » de ce réseau, les notices individu, personne et identité personnelle. Je mets ici « centre » entre guillemets car une représentation graphique de ce type peut être trompeuse. Il est peut-être préférable de faire appel aux indices de centralité que l’on utilise pour repérer, dans un réseau, les individus les plus centraux.

Imaginons une lectrice qui commencerait à lire le dictionnaire en prenant une notice au hasard et qui chercherait à atteindre le plus rapidement une autre notice, le point de passage le plus fréquemment traversé le long du plus court chemin entre deux autres nœuds est ici la notice “Développement (psychologie)”.

Un autre indice peut nous intéresser, plus simple : le nombre de liens envoyés et reçus, par chaque notice, c’est à dire la centralité « de degré ». Tout en haut, « Race », qui est dans les renvois de 15 notices et qui propose neuf renvois.

« Race » ? Voilà qui est intéressant dans un dictionnaire encyclopédique de l’identité. En tout cas je ne m’y attendais pas.On peut toutefois se dire que ce n’est pas la même chose de recevoir un lien de la notice “Trinité”, qu’aucune autre notice ne cite, ou de la notice “Nom propre”, qui est plus souvent proposée comme renvois, et prendre en compte le nombre de citation reçu par la notice citante pour déterminer la centralité de la notice citée.

Dans ce cas, c’est la notice « Race » qui reçoit encore le score le plus élevé : elle est souvent citée, mais elle est aussi souvent citée par des notices elles aussi souvent citées (par des notices souvent citées…). Voilà qui donne une actualité certaine à ce dictionnaire (et on pourra lire avec profit les réflexions sur la fin de l’analyse de classe ? d’Abdellali Hajjat) ).

Cependant ce premier score est faiblement assuré. Celui de la notice « Individu » est très très proche, et quelques liens en plus ou en moins l’aurait fait passer en première position. J’ai fait le calcul : si l’on enlève 7 citations au hasard, soit 1% du total, et qu’on répète l’opération un millier de fois, alors « individu » se retrouve plus souvent en première position que « race ». Certes : mais c’est cet ouvrage qui existe, pas les 1000 autres ouvrages virtuels qu’on aurait pu écrire.

Dans le graphique suivant, que je propose en conclusion, ne sont indiqués que les titres des notices les plus « centrales » au sens des trois indices précédents.


cliquez pour agrandir

 

L’Identité, dictionnaire encyclopédique est dans toutes les bonnes librairies : lien librestlien decitrelien leslibraires

Prénoms et mention, édition 2020

Les résultats nominatifs au bac 2020 ont été publiés hier. Ce millésime est particulier : l’épidémie de covid19 a empêché les épreuves habituelles, et ce sont les notes harmonisées du contrôle continu qui ont servi de notes au bac.
Cela ne semble pas avoir modifié la distribution des mentions par prénom (ci-dessous, pour les bacs généraux et technologiques). En gros, pour tout le monde (ou presque, ça reste à calculer), la fréquence d’accès à la mention très bien a été multipliée par 1,5. Mais les prénoms qui avaient peu accès à la mention « très bien » en 2019 ou 2018 n’ont — comparativement au reste — pas vu leur position dans le nuage se déplacer.

 

cliquez pour agrandir (sinon ce n’est pas très lisible)

Pour les années précédentes, voir l’édition 2019, ou l’édition 2018, 2017, ou en 2016 ou encore en 20152014,2013, 2012 ou 2011. Vous pouvez aussi lire Sociologie des prénoms (édition La Découverte) [sur amazon, dans une librairie indépendante].

Économies d’échelles : couples et professions

Vivre à deux est économique : il est possible d’économiser sur le logement par exemple (une chambre pour deux), ou sur la voiture (une pour deux). Il est aussi possible d’accumuler des ressources : ce n’est pas la même chose d’être en couple avec un.e conjointe « inactif.ve » (c’est à dire quelqu’un qui n’est ni en emploi, ni au chômage) ou en emploi.
Or tout le monde n’est pas en couple, ni en couple avec un.e conjoint.e en emploi. On peut le constater en explorant le Fichier détail du recensement 2016.

Le graphique suivant se concentre sur les hommes et les professions ayant les plus gros effectifs masculins.

Tout en haut, les hommes ayant déclaré être serveurs. Environ 60% d’entre eux ont déclaré ne pas être en couple cohabitant (voir la définition). Par comparaison, ce n’est le cas que de 25% environ des professeurs du secondaire. 15% environ des ouvriers non qualifiés du gros oeuvre du bâtiment, des maçons qualifiés (ouvriers), des artisans maçons ou des nettoyeurs ont des conjointes « inactives » (moins de 5% pour les professeurs du secondaire, les agents de police, ou éducateurs sportifs). Plus de 15% des cadres commerciaux des PME, des cadres des services administratifs des PME, des artisans maçons et des artisans peintres en bâtiment ont des conjointes qui exercent à temps partiel.
 

cliquez pour agrandir

Penchons-nous maintenant sur des professions aux effectifs masculins un peu moins nombreux. Ce que l’on voyait déjà sur le graphique précédent (des employés et des ouvriers plus souvent célibataires ou avec des conjointes inactives, au chômage ou à temps partiel) se répète sur celui-ci. Les professeurs des écoles, comparés aux ouvriers non qualifiés de type artisanal, sont moins souvent célibataires, et très peu d’entre eux ont une conjointe inactive.


cliquez pour agrandir

Et au milieu… les médecins libéraux généralistes. Plus de 15% d’entre eux ont une conjointe « inactive », 20% une conjointe qui exerce un emploi à temps partiel. Peu d’entre eux déclarent ne pas être en couple.

Si l’on place en abcisses la proportion d’hommes “célibataires” (c’est à dire pas en couple selon la définition de l’insee) et en ordonnées la proportion de conjointes inactives, au chômage ou à temps partiel (uniquement pour les hommes en couple), voici le graphique qui apparaît :


cliquez pour agrandir

En rose, et dans le quadrant nord-est, les ouvriers. Les employés sont plutôt au sud-est : une fréquence importante de célibataires, mais leurs conjointes sont moins souvent “inactives, à temps partiel ou au chômage”. Les artisans sont dans le quadrant ouest/nord-ouest : peu de célibataires, mais une proportion assez élevé de conjointes sans emploi ou à temps partiel. En vert, les cadres : souvent en couple, et en couple avec une conjointe qui n’est pas inactive, au chômage ou à temps partiel. Les médecins généralistes ressemblent, sur ce point, à des “artisans, commerçants, chefs d’entreprise”.

Au final, donc, des situations très différentes suivant les professions individuelles, ce qui inciterait à concevoir — encore plus qu’on ne le fait habituellement — la position sociale à l’échelle du ménage (voir par exemple cet article récent). Ou alors à garder en tête que derrière un médecin, il y a souvent une conjointe, et une conjointe avec du temps, que derrière un ouvrier non qualifié, il n’y a souvent pas de conjointe (du moins, plutôt, pas de conjointe avec qui l’ouvrier cohabite, ce qui est différent), et que derrière un professeur (des écoles ou du secondaire), il y a souvent une conjointe en emploi. Et donc des possibilités d’économie, ou d’épargne, bien différentes.
Une partie de ces différences est due à la distribution par âge de ces professions : les serveurs sont plutôt jeunes. Une autre au poids des immigrés : s’ils habitent en France au moment du recensement mais que leur conjointe est au Portugal ou en Pologne, sont-ils considérés comme vivant en couple ?

[Note : j’ai considéré que les “étudiantes” n’étaient pas “inactives”, ni au chômage, ni à temps partiel. Les positions changeraient un peu si j’avais inclus les étudiantes dans la catégorie inactive, au chômage ou à temps partiel.]

Une lente décroissance

Le graphique suivant est une manière de représenter la première vague de décès de la covid19.

Certains pays ont atteint et dépassé un pic de décès. Mais il semble bien que la décroissance soit plus lente que l’augmentation. On peut le voir pout l’Italie, l’Espagne, la France… La courbe n’est pas symétrique.

Cela se voit moins quand on trace tous les pays sur le même graphique.

Je me suis donc amusé à centrer et réduire les vagues. C’est à dire à les aligner sur un maximum de 1 (la courbe atteint la valeur 1 le jour du maximum de décès) :

Et à caler toutes les courbes sur le jour du maximum, pour les synchroniser :

Si on trace ensuite la courbe moyenne, on peut remarquer qu’en effet (quand on considère que chaque pays a le même poids), la décroissance est plus lente que la croissance :

Et en vidéo, ça donne ceci :

Dataconfinement (1) : la chute

Confinement ou pas, les différents compteurs, de voitures, de vélos, d’avion, de gigaoctets, et les différents capteurs (de pollution), continuent de compter et de capter (quand ils ne tombent pas en panne). Parfois des groupes organisent la mise en ligne des comptages (comme le font les animateurs de l’OpenSky Network. À partir de ces comptages, on peut repérer la diminution importante du nombre d’avions décollant ou atterrissant dans les aéroports de la métropole :
 

cliquez pour agrandir

 
Si on s’intéresse à son bilan carbon et aux vélos, moins polluants, on trouvera sur OpenData Paris les résultats des sites de comptage de vélo, mis à jour quotidiennement, apparemment de manière automatique :
 

cliquez pour agrandir

On voit que le trafic vélo était important en janvier, moment de grève à la RATP et à la SNCF contre la réforme des retraites. On peut constater la sévérité du confinement, qui réduit à presque rien la circulation à deux roues. Une légère tendance à la hausse s’observe entre fin mars et fin avril.

 

Les voitures (et les camions, les bus…) sont comptées elles aussi. Mais le fichier n’est mis à jour que mensuellement. Le graphique ci-dessous (que je mettrai peut-être à jour plus tard) s’arrête donc début avril [Il est maintenant mis à jour]. Là aussi l’ordre de confinement a fait chuter la circulation motorisée, à Paris : le maximum du trafic routier de jour n’atteint pas le minimum du trafic de nuit.
 

cliquez pour agrandir

 

Il en va de même pour le volume des données échangées sur le réseau wifi public de Paris. Sans pouvoir se rendre en bibliothèque ou dans un lieu public municipal, ce réseau est inaccessible (sauf aux personnes qui habitent juste à côté de la bibliothèque et qui peuvent se connecter). Là aussi, le fichier est mis à jour mensuellement. On ne repère donc ici que les débuts du confinement. [Mis à jour : on a maintenant les données jusqu’à début mai 2020]
 


cliquez pour agrandir

 
Tout ça a-t-il fait chuter la pollution ? Moins que ce que je pensais. Les capteurs d’AirParif (le réseau de surveillance de la pollution en Ile de France) continuent de sniffer du NOX :
 

cliquez pour agrandir

2020 : une mortalité spécifique

Dans le cadre de l’épidémie de covid19, l’INSEE a décidé de publier, chaque semaine, le nombre de décès quotidien des semaines précédentes, avec une partie des informations que l’on trouve dans le Fichier des personnes décédées, récemment déposé sur data.gouv.
Ces informations, publiées quasiment en « temps réel », permettent de visualiser la hausse de la mortalité en mars-avril 2020 par rapport aux années précédentes.
Le graphique suivant représente le nombre de décès quotidiens de 2001 à 2019 (en grisé) et le nombre de décès en 2020 (en rouge). En règle générale, le nombre de décès est élevé l’hiver, diminue régulièrement jusque vers juillet-août, pour ré-augmenter à l’automne. Les décès causés par la vague de chaleur de 2003 sont particulièrement visibles : pendant trois semaines, les décès avaient été bien plus nombreux que la moyenne, et pendant une dizaine de jours supérieurs au maximum des années 2001-2019.
Comme on peut le constater aussi, l’année 2020 avait commencé comme une année on ne peut plus normale : les décès quotidiens se trouvaient très proches de la moyenne.


cliquez pour agrandir

Ce graphique permet déjà de se faire une idée de l’importance de la pandémie : à partir de début mars 2020 et pendant un mois, la courbe de l’année (en rouge) s’écarte de la moyenne. À partir de début avril, un peu plus de deux semaines après le début du Confinement, le nombre de décès commence à diminuer. On constate la rapidité et la brutalité de l’augmentation au regard des autres épisodes épidémiques. Car on peut aussi mettre en lumière des épisodes de grippe particulièrement meurtriers au cours des années récentes, comme en 2015, 2017 et 2018, quand la courbe des décès quotidiens s’écarte, pendant plusieurs semaines, de la courbe moyenne. [Même s’il faudrait tenir compte de l’augmentation de la population française : il y a bien plus de résidents en 2018 (65 millions) qu’en 2001 (60 millions).] Tous ces décès “en plus” n’ont pas pour origine des grippes, mais, comme l’illustre Arthur Charpentier, ces données permettent d’estimer la surmortalité.


cliquez pour agrandir

On peut aller un peu plus loin, au risque de rendre le graphique moins clair. Tout d’abord on peut prendre en considération la sous-estimation du nombre de décès, dans les chiffres publiés par l’INSEE en « temps réel » : les chiffre publiés en “semaine 1” sont révisés à la hausse en “semaine 2”, et encore en “semaine 3”. Dans le graphique, il est donc très probable que le nombre de décès entre les 7 et 14 avril 2020, publié aujourd’hui, soit revu à la hausse la semaine prochaine : je vais m’appuyer sur les révisions passées pour estimer un nombre définitif. Dans le graphique suivant donc, le nombre de décès estimé — toutes causes de décès confondues — est en rouge pointillé.
On dispose aussi des décès suite à la covid19 recensés par les hôpitaux et les établissements d’hébergement pour personnes âgées dépendantes (Ehpad) : le nombre de ces décès est publié chaque jour, et on peut les récupérer sur le site de l’European Centre for Disease Prevention and Control, ce qui peut nous indiquer la tendance entre le 15 et le 24 avril 2020. Ces données (lissées par une moyenne mobile hebdomadaire) sont représentées en vert sur le graphique suivant. On constate un décalage : les chiffres hospitaliers sont publiés rapidement, ceux des Ehpad plus lentement, avec plusieurs jours de décalage.


cliquez pour agrandir

Au final, il y a eu, en mars et jusqu’au 24 avril 2020, plus de 29 300 décès en plus de la moyenne (mais comme c’est une moyenne bi-décennale, elle prend en compte des populations moins nombreuses).

L’évolution de l’abstention à Paris, 2014-2020

Le premier tour des élections municipales s’est déroulé dans un contexte de pandémie, qui n’a pas incité à la participation électorale. Le taux d’abstention en 2020 est donc beaucoup plus élevé que le taux d’abstention observé en 2014, comme les deux cartes suivantes permettent de le voir :



cliquez pour agrandir

En prenant la même discrétisation (le même découpage de couleurs) on remarque que l’abstention augmente de manière globale : tout se décale vers le rouge et les zones participationnistes, bleu-foncées, disparaissent. La géographie générale n’est pas bouleversée : ce sont bien dans les quartiers d’habitat populaire, à Paris, que l’abstention reste la plus élevée, en 2014 comme en 2020. Mais la hausse de l’abstention n’est quand même pas semblable partout.

La carte suivante montre le différentiel entre 2014 et 2020 : plus la couleur est sombre, plus la hause de l’abstention a été forte. J’ai été confronté à un petit problème : les frontières des bureaux de vote ont changé entre 2014 et 2020. Certains bureaux ont été scindés en plusieurs bureaux (une trentaine), d’autres ont vu leurs bordure se décaler d’une rue ici, d’un pâté de maison là. J’ai préféré donc passer à un carroyage. J’ai découpé Paris en 2800 petites zones et j’ai affecté à ces zones une moyenne interpolée de l’abstention en 2014, de l’abstention en 2020 puis j’ai calculé la différence.

C’est surtout dans le sud de Paris (bas du 16e, 15e, 14e, 13e, 5e et 12e) que la hausse de l’abstention a été élevée.

Mais est-il possible de savoir un peu plus précisément qui s’est abstenu ? Peut-être les plus âgés, particulièrement soumis à un risque de développer les formes graves de Covid19. Je vais m’appuyer sur la composition par âge des bureaux de vote pour explorer la relation entre classes d’âge et abstention.

Les graphiques suivants comparent les bureaux de vote de 2014 et ceux de 2020 (sans essayer de s’assurer de la correspondance des frontières, avec tous les problèmes que cela pose donc). On peut voir que dans les bureaux de votes où la proportion de plus de 53 ans est élevée (les deux derniers panels), alors la hausse de l’abstention est, en tendance, plus élevée que dans les bureaux où ces plus de 53 ans sont en proportion plus faible. Mais il s’agit de corrélation écologique : on ne peut pas savoir si ce sont les personnes âgées des bureaux où il y a relativement plus de personnes âgées qui se sont abstenues, ou si ce sont les plus jeunes des bureaux “âgés” qui se sont abstenus… et les différences sont faibles.

Immigrés et professions, 2006-2016

Dans certaines professions, la proportion d’immigrés est très faible. C’est le cas, par exemple, de ce qui concerne la fonction publique. Dans d’autres, la proportion est bien plus élevée : les traducteurs et interprètes sont souvent «nés étrangers à l’étranger». Entre 2006 et aujourd’hui, la proportion d’immigrés dans la population active employée a eu tendance à augmenter, mais pas partout de la même manière.


Il faut vraiment cliquer pour agrandir et lire le graphique

La proportion d’immigrés est passée de 29% à 37% pour les nettoyeurs (PCS 684A). Elle a aussi augmenté de manière significative pour les employés de l’hôtellerie, le clergé séculier, les chercheurs de la recherche publique, certains ingénieurs. Au contraire, elle a diminué pour certains artisans (chaudronnier, “des services”), pour les “auteurs littéraires et scénaristes”, … Les professions qui comptaient une proportion importante d’immigrés (et d’immigrées) en 2006 ont vu la part des immigrés augmenter plus que la moyenne : cet écart se repère par la couleur du point : plus la couleur est bleu-foncé plus l’écart à la tendance moyenne est important (à la baisse), et le contraire quand le rouge est intense.
Dans le graphique je n’ai pas tracé les points des toutes petites professions (quand moins de 250 personnes ont été recensées).