Categories

Archives

Les billets de October, 2017 (ordre chronologique)

Mon homonyme : un autre est je

Un grand nombre d’entre nous a fait l’expérience de découvrir un homonyme. Avec mon prénom relativement rare et mon nom de famille peu fréquent, je sais qu’il existe quand même un autre Baptiste Coulmont (ici). Un autre est je.
Mais peut-on estimer la proportion de personnes qui, en France, ont un homonyme. Est-ce que cela concerne 10% de la population ou 99% ?
Si j’avais accès au Répertoire national d’identification des personnes physiques, de l’INSEE, ça nous donnerait des informations solides. D’ailleurs, si quelqu’un de l’INSEE me lit, peut-elle faire ce calcul ? Faute d’accès privilégié, peut-on estimer cette proportion d’une autre manière ?

Je vais le faire ici à partir des listes électorales de Paris et Marseille, qui, au total, comptent près de 1,8 million d’individus. En combinant ces deux listes, la proportion d’homonymes, à savoir de personnes qui ont le même nom et le même premier prénom, est de 18,93% (soyons précis, car on peut l’être, ici). Les listes électorales ne concernent que les citoyens français majeurs et inscrits, ce qui ne représente pas la population vivant en France. En se restreignant à Paris, la proportion est de 17%, à Marseille, de 11%.

Combinons ces deux listes électorales, et répartissons les individus au hasard dans cette liste (pour éviter la proximité des noms de famille). On sélectionne un groupe de 1000 individus, quelle est la proportion d’homonymes (elle est faible). Et dans un groupe de 2000, 3000… 50 000, 500 000 individus ? La progression est régulière, très très régulière : c’est l’intérêt de travailler avec des “big data”, elles génèrent de la régularité.

homonymes-paris-marseille

Une telle courbe ressemble à quelque chose. Et l’on sait que les noms et les prénoms suivent (grosso-modo) des lois de puissance (ou de Pareto, ou de Zipf). En passant à un graphique log-log (où les échelles des abscisses et des ordonnées sont des échelles logarithmiques), nous devrions voir apparaître une belle droite.

homonymes-paris-marseille-log

Ca ressemble à une droite… mais est-ce vraiment une droite ? Une régression linéaire nous donne une droite, qui, comme on peut le constater, montre que la courbe de fréquence n’est pas une droite. C’est un problème : si c’était une droite, j’aurai pu “prédire” la proportion d’homonymes dans un groupe de 30 millions d’individus, ou dans un groupe de 65 millions.

homonymes-paris-marseille-log-regr-lin

Peut-être que la mauvaise estimation est due aux (relativement) petits effectifs, quand les groupes comptent moins de 500 000 individus. Mais si on fait porter la régression sur la partie de la courbe la plus à droite, cette qui semble être la plus droite… on voit bien que cette courbe n’est pas linéaire. (Même si l’erreur standard résiduelle est très faible et le R^2 de 0,9999…).
Ci dessous, les “diagnostics plots” d’une telle régression :

homonymes-paris-marseille-diagnostic

Mais ça ne pouvait de toute façon pas être une droite : la proportion maximale est bornée à 100% !

Donc c’est plus complexe, et une estimation de la proportion d’homonymes dans un groupe de 30 millions d’individus basée sur une extrapolation à partir de la régression linéaire… se trompera.

Face à ça, que faire… Who you gonna call ?

Ghostbusters_logo.svg

J’ai contacté Arthur Charpentier, qui a rapidement vu que ce problème était un analogue — en plus complexe — du paradoxe des anniversaires, dont la modélisation est tout sauf évidente. On sait que si un groupe compte plus de 23 personnes, alors il y a plus de 50% de chance que deux personnes aient leur anniversaire le même jour. Quelle doit être la taille d’un groupe pour qu’il y ait au moins deux homonymes dans ce groupe? Si la population de départ ressemble à celle de Marseille et Paris, alors il faut un groupe d’environ 1750 personnes.
homonymes-paris-marseille-proba
Dans des groupes de 6000 individus tirés au hasard dans la population des électeurs parisiens, il y près de 100% de chance d’avoir au moins un couple d’homonymes.

La suite de la réflexion est chez Arthur Charpentier, sur freakonometrics.

Une réforme efficace ?

En France, c’est le lundi que le nombre de suicides est le plus élevé, et le week-end qu’il est le plus bas. Entre 2004 et 2013, il y a près de 34 suicides chaque lundi et 26 le samedi et dimanche. Le nombre moyen diminue jour après jour au long de la semaine. Le nombre des suicides suit le rythme de la société. Ou plutôt les rythmes. Car des institutions diverses dictent des rythmes variés.
Ainsi il y a un creux dans la courbe des suicides le mercredi et une reprise le jeudi. Dans un article célèbre de 1984 de François Aveline, Christian Baudelot, Marc Beverraggi et Saadi Lahlou, les auteurs montrent que les rythmes scolaires sont en lien avec le nombre des suicides (des femmes). Avant 1972, le jour de congé des enfants était le jeudi (et le creux dans la courbe le jeudi), après 1972, le jour de congé passe au mercredi (et le creux passe au mercredi).
Et à la rentrée 2013, une nouvelle réforme est mise en place, une réforme des rythmes scolaires qui fait du mercredi matin un jour de classe.La charge des enfants disparaît ce jour-là. En 2014, le creux du mercredi disparaît.

J’ai contrôlé par la période de vacances : en juillet et août, avant 2013, il n’y a pas de creux du mercredi (qui n’existe qu’en période scolaire).
Une autre manière de représenter l’évolution consiste à considérer que le lundi représente la base 100 :