Mon homonyme : un autre est je
Un grand nombre d’entre nous a fait l’expérience de découvrir un homonyme. Avec mon prénom relativement rare et mon nom de famille peu fréquent, je sais qu’il existe quand même un autre Baptiste Coulmont (ici). Un autre est je.
Mais peut-on estimer la proportion de personnes qui, en France, ont un homonyme. Est-ce que cela concerne 10% de la population ou 99% ?
Si j’avais accès au Répertoire national d’identification des personnes physiques, de l’INSEE, ça nous donnerait des informations solides. D’ailleurs, si quelqu’un de l’INSEE me lit, peut-elle faire ce calcul ? Faute d’accès privilégié, peut-on estimer cette proportion d’une autre manière ?
Je vais le faire ici à partir des listes électorales de Paris et Marseille, qui, au total, comptent près de 1,8 million d’individus. En combinant ces deux listes, la proportion d’homonymes, à savoir de personnes qui ont le même nom et le même premier prénom, est de 18,93% (soyons précis, car on peut l’être, ici). Les listes électorales ne concernent que les citoyens français majeurs et inscrits, ce qui ne représente pas la population vivant en France. En se restreignant à Paris, la proportion est de 17%, à Marseille, de 11%.
Combinons ces deux listes électorales, et répartissons les individus au hasard dans cette liste (pour éviter la proximité des noms de famille). On sélectionne un groupe de 1000 individus, quelle est la proportion d’homonymes (elle est faible). Et dans un groupe de 2000, 3000… 50 000, 500 000 individus ? La progression est régulière, très très régulière : c’est l’intérêt de travailler avec des “big data”, elles génèrent de la régularité.
Une telle courbe ressemble à quelque chose. Et l’on sait que les noms et les prénoms suivent (grosso-modo) des lois de puissance (ou de Pareto, ou de Zipf). En passant à un graphique log-log (où les échelles des abscisses et des ordonnées sont des échelles logarithmiques), nous devrions voir apparaître une belle droite.
Ca ressemble à une droite… mais est-ce vraiment une droite ? Une régression linéaire nous donne une droite, qui, comme on peut le constater, montre que la courbe de fréquence n’est pas une droite. C’est un problème : si c’était une droite, j’aurai pu “prédire” la proportion d’homonymes dans un groupe de 30 millions d’individus, ou dans un groupe de 65 millions.
Peut-être que la mauvaise estimation est due aux (relativement) petits effectifs, quand les groupes comptent moins de 500 000 individus. Mais si on fait porter la régression sur la partie de la courbe la plus à droite, cette qui semble être la plus droite… on voit bien que cette courbe n’est pas linéaire. (Même si l’erreur standard résiduelle est très faible et le R^2 de 0,9999…).
Ci dessous, les “diagnostics plots” d’une telle régression :
Mais ça ne pouvait de toute façon pas être une droite : la proportion maximale est bornée à 100% !
Donc c’est plus complexe, et une estimation de la proportion d’homonymes dans un groupe de 30 millions d’individus basée sur une extrapolation à partir de la régression linéaire… se trompera.
Face à ça, que faire… Who you gonna call ?
J’ai contacté Arthur Charpentier, qui a rapidement vu que ce problème était un analogue — en plus complexe — du paradoxe des anniversaires, dont la modélisation est tout sauf évidente. On sait que si un groupe compte plus de 23 personnes, alors il y a plus de 50% de chance que deux personnes aient leur anniversaire le même jour. Quelle doit être la taille d’un groupe pour qu’il y ait au moins deux homonymes dans ce groupe? Si la population de départ ressemble à celle de Marseille et Paris, alors il faut un groupe d’environ 1750 personnes.
Dans des groupes de 6000 individus tirés au hasard dans la population des électeurs parisiens, il y près de 100% de chance d’avoir au moins un couple d’homonymes.
La suite de la réflexion est chez Arthur Charpentier, sur freakonometrics.