Categories

Archives

Des réseaux de prénoms

Les prénoms indiquent indirectement et grossièrement l’âge (un Téo est probablement plus jeune qu’un Maurice), le sexe (un Léa est très probablement une Léa), mais aussi l’origine nationale ou régionale d’une partie des ancêtres du porteur (une Samira n’a pas les mêmes parents qu’une Nolwenn).
Parce qu’il existe des entrepreneurs identitaires, intéressés par la stabilisation de formes culturelles, l’on trouve des dictionnaires de prénoms, arabes, occitans, turcs ou bretons. Mais toutes les formes culturelles n’ont pas leurs entrepreneurs. Comment “mettre ensemble” des prénoms qui ont toutes chances d’aller ensemble ?
Un article récent de Pablo Mateos et alii, publié dans PLoS One (Ethnicity and Population Structure in Personal Naming Networks), expose une méthode, qui s’appuie sur le fait qu’aux prénoms sont associés des noms de famille : Nolwenn est plus probablement une Le Kergourvehnec’h qu’une Aattabah. Et les Aattabah ont peut-être pour prénom Samira, Yanis et Inès.
En disposant d’une très grande liste d’individus, il est possible de recomposer des relations de proximité qu’entretiennent les prénoms (et les noms de famille). On peut résumer graphiquement cela ainsi (graphique issu de l’article cité plus haut) :

Le premier graphique représente un réseau “bimodal”, les deux suivants (B et C) les deux réseaux unimodaux que l’on peut déduire du premier, si l’on se concentre sur les noms de famille (B) ou les prénoms (C). Les auteurs de l’article exposent l’intérêt de cette méthode (et certaines des opérations nécessaires pour repérer les relations significatives entre prénoms).
Disposant d’une liste nominative de plus de 400000 bacheliers, j’ai appliqué une partie des recettes, et cela donne des choses plus ou moins intéressantes.
 
Graphe (illisible)

 
Extrait 1 : au coeur de la composante principale

 
Extrait 2 : une composante “ethnique”

 
Extrait 3 : une autre composante “ethnique”

 
Cette méthode peut se comprendre comme une méthode de classification automatique : l’on part d’une liste de “Jean Dupont” et l’on aboutit à mettre en évidence des groupes de prénoms qui sont indirectement liés entre eux (par le nom de famille).
Et cette classification combine ici deux choses : d’un côté le choix des parents pour un prénom (choix qui exprime tout une série d’éléments, principalement le goût pour telle ou telle sonorité, mais aussi des attachements identitaires); de l’autre une forme héritée (on ne choisit pas son nom de famille, très souvent encore le nom de famille de son père).

Travail de députés

Avec qui travaillent nos députés ? Restent-ils entre membres du même parti ou vont-ils voir ailleurs ? Parce que le congrès de l’AFSP se termine, voici une deuxième petite excursion dans le monde politique. Pour répondre à la question précédente, on peut prendre comme indicateur d’un travail en commun la liste des “sponsors” des propositions de loi. On dira ici que travaillent ensemble des députés dont les noms apparaissent sur un même projet de loi.

Ainsi la proposition de loi 3698 visant à pénaliser les insultes à la nation a-t-elle été signée de ces noms-là :

Lionnel LUCA, Élie ABOUD, Philippe MEUNIER, Damien MESLOT, Claude BODIN, Claude GATIGNOL, Jean-Philippe MAURER, Christian MÉNARD, Jean-Pierre DECOOL, Bérengère POLETTI, Muriel MARLAND-MILITELLO, Jean-Marc ROUBAUD, Yves NICOLIN, Isabelle VASSEUR, Gérard HAMEL, Bernard DEPIERRE, Dominique DORD, Guy MALHERBE, Alain MOYNE-BRESSAND, Michel ZUMKELLER, Jean-Claude GUIBAL, Jean-Marie SERMIER, Bernard REYNÈS, Michel LEJEUNE, Jean-Claude BOUCHET, Guy LEFRAND, Michel VOISIN, Éric DIARD, Michel TERROT, André WOJCIECHOWSKI, Jacques MYARD, Édouard COURTIAL, Daniel MACH, Marc FRANCINA, Josette PONS, François-Michel GONNOT, Jean-Michel FERRAND, Jean-Pierre GORGES, Jean-Pierre SCHOSTECK, Daniel SPAGNOU, Patrice VERCHÈRE, Philippe VITEL, Jacques REMILLER, Sauveur GANDOLFI-SCHEIT, Franck GILARD, Hervé NOVELLI et Patrick LABAUNE,

On peut penser que ces gens-là partagent certaines idées.

J’ai examiné les 250 dernières propositions de loi. Dans le graphique suivant, chaque député est représenté par un petit rond, et quand 2 députés apparaissent signataires d’une même proposition, un lien gris les relie.

La répartition des points (plus les députés sont fréquemment ensemble sur des propositions de loi, plus ils sont proches) fait apparaître trois groupes. Que l’on peut faire ressortir automatiquement (avec la fonction walktrap.community du package igraph, dans R)

Dans le graphique précédent, les Oranges sont un groupe comprenant les noms suivants : Brard, Buffet, Dolez, Billard, Braouezec, Amiable, Gosnat… Les spécialistes auront reconnus.
Les Bleus ce sont les proches de Montebourg, Mamère, Emmanuelli, Le Guen, Blisko, Filipetti, Queyranne, Cambadelis.
Les Prunes, ce sont les Poniatowski, Santini, Antier, de Courson, Jégo et autres Woerth.

Le travail de signature de proposition de loi, assez souvent, relie ensemble des personnes du même parti. Je ne comprends pas trop pourquoi les Communistes ne se retrouvent pas plus proches des Socialistes/Verts. C’est peut-être du à un effet de sélection (les 250 dernières propositions de loi).

Il y a quelques individus étranges, situés “in between” plusieurs groupes. On peut calculer cette “betweeness”, cette “centralité d’intermédiarité” : dans le graphique suivant, les individus les plus “intermédiaires” sont en bleu (et j’ai mis le nom de certains à côté de leurs points) :

Et là, j’avoue ma perplexité : je ne connais pas ces députés. J’ai entendu parler de Gremetz (qui s’est fait exclure ou s’est auto-exclu, je ne sais plus trop). Braouezec est probablement un communiste réformateur (encore plus réformateur que les autres). Martine Billard est peut-être en voie de “socialistisation”. Il faudrait un/une spécialiste de la politique parlementaire pour m’en dire plus… ou alors, il faudrait vraiment travailler sur ces données réticulaires, et plus précisément sur l’ensemble des propositions de loi d’une mandature plutôt que sur les 250 dernières.

Notes : cette petite étude graphique a été réalisée avec R, packages XML et igraph.

Mise à jour : on me demande en commentaire si l’on repère des proximités entre groupes politiques plus précises. Dans le graphe ci-dessous, chaque point est colorié en fonction du groupe d’appartenance du (de la) député(e). Rose et rouge : socialistes et “gauche républicaine”, les bleus : UMP et apparentés, orange et jaune : “nouveau centre” et apparentés…, les blancs sont “sans groupe politique”…

Deuxième mise à jour : voici ce qu’une étude sur les 1000 dernières propositions de vote donne.

Il est toujours trompeur de se baser sur une représentation graphique pour interpréter… mais je pense pouvoir déceler, ici, des “sous-groupes” au sein des gros groupes politiques. Et notamment au sein des groupes “UMP” et socialistes. Le “centre” n’existe pas dans l’assemblée actuelle, mais il y a de la part de certains à droite et de certains à gauche un plus grand détachement du bloc que leur parti constitue. Ce n’est probablement pas un “centre” que ces deux sous-groupes, mais plutôt des députés proposant de nombreuses lois, ou signant de nombreuses propositions. A droite, on y trouve Yvan Lachaud, JM Morisset, A. Grosskost, C. Gatignol, mais aussi Lionnel Luca (voir tout en haut du billet), JP Decool, Morel-à-l’huissier, Roatta, JM Lefranc, etc… et à gauche, on y trouve Guigou, M. Rogemont, J. Giraud, Martine Carillon-Couvreur, François Loncle, Monique ibora, michel vergnier, JP Dulau, Philippe Plisson, françois Imbert…
Je pense que seuls des spécialistes du parlement pourront donner une autre explication à l’existence de ces sous-groupes.

Encore une mise à jour : J’ai restreint les liens, ici, aux liens entre le dépositaire de la proposition de loi (le premier nom qui apparaît sur les listes) et les personnes qu’il a réussi à mobiliser. On peut en effet penser qu’une proposition de loi a une origine individuelle. Le graphe ci-dessous ne s’intéresse qu’à celles et ceux qui 1- ont déposé plusieurs projets de loi ET 2- dont le nom est apparu sur plusieurs projets de loi. J’ai fait s’afficher les noms des député-e-s qui sont recherchés et recherchent des signatures du camp opposé.
[Dans ce graphe, ce sont des députés de gauche qui apparaissent, car les députés de droite, par l’algorithme de placement des points, déposent tellement de propositions de loi qu’ils n’échappent pas à la gravité du groupe].

Il s’établit, au fur et à mesure de la mandature, des liens réciproques : tu signes, je signe… Ainsi, Gremetz appelle 9 fois Candelier à signer, et Candelier appelle 17 fois Gremetz.

maxime gremetz    jean-jacques candelier  9      17
jean-pierre decool pierre morel-a-l-huissier  8      14
jean-jacques candelier            maxime gremetz 17       9
yannick favennec pierre morel-a-l-huissier  9       9
jean-pierre decool       andre wojciechowski  7       8
...

Certains, qui proposent beaucoup de lois, demandent beaucoup plus de signatures qu’ils ne sont appelés à signer.

Encore une mise à jour : J’ai maintenant limité les données aux liens réciproques. N’ont été gardés que les députés formant couple (c’est à dire ayant signé une proposition de loi d’un collègue qu’ils avaient sollicité pour une signature).


Sur ce dessin, les noms qui apparaissent sont ceux des “cutpoints” (ou points d’articulation), qui, s’ils étaient absents, découperaient le réseaux en composantes non reliées. Ce graphe renforce encore l’effet de groupe (de groupe politique) qui semble être le canevas sur lequel se tissent les relations de travail.

Eurovision 2011

Qui a voté pour qui hier soir, lors du dernier concours de l’Eurovision ?
En prenant les votes comme des déclarations d’amitié, on peut dire que deux pays sont reliés si l’un d’eux a voté pour l’autre. Et l’on peut dire que des “communautés de pays” existent quand il y a plus de liens entre certains pays qu’entre d’autres.
Le traitement, avec R, et l’algorithme “walktrap.community” du paquet “igraph” donne ceci :

Rien de bien nouveau : toujours le groupe balkanique (Serbie / Bosnie / Croatie / Macédoine…), mais il n’a pas attiré d’autres pays ; un groupe “nordique” (de l’Islande aux Pays-Bas), et, par différence avec ce groupe, deux autres. L’un plus “Europe nordique”, avec l’Islande, la Norvège… l’autre plus “Europe orientale”, autour du gagnant, l’Azerbaïdjan.

Des cartes, et des réseaux, et un mystère

J’ai trouvé un sondage eurobarometre amusant (Eurobarometer 73.3, New Europeans) à l’adresse suivante http://ec.europa.eu/public_opinion/archives/ebs/ebs_346_en.pdf. Cette question m’a particulièrement intéressé : «QB10T : quels sont les pays autres que (NOTRE PAYS) auxquels vous vous sentez le plus attaché ?»
Si l’on ne garde que le pays le plus cité, l’on peut obtenir le graphe suivant :

Les Belges, les Luxembourgeois, les Portugais, les Italiens, les Néerlandais, les Espagnols se sentent plus attachés à la France qu’à un autre pays (en dehors du leur). Les Français se tournent vers l’Espagne (comme les Royaumunistes et les Italiens).
On peut essayer de représenter le graphe précédent en le greffant sur une carte de l’Europe.

C’est une manière de mettre en lumière le fait que, souvent, les pays auxquels les citoyens européens se sentent attachés sont des pays qui leur sont géographiquement proches. Les exceptions : la russophilie des Bulgares, l’italomania des Roumains… n’en ressortent que plus.
Le mystère auquel ces données nous confrontent, c’est bien d’expliquer, maintenant, pour quelle raison étrange la France n’a plus gagné l’Eurovision depuis 1977.

  Pratiquons l’open-data : eurobarom2011QB10T (format XLS). Ces deux images ont été faites avec R et divers “packages”, igraph et maptools.

Un réseau d’écrivains vers 1890

Comment devient-on un grand écrivain ? Probablement en étant apprécié par ses collègues écrivains.
On peut essayer de préciser cette intuition en regardant « qui cite qui » dans “L’Enquête sur l’évolution littéraire” de Jules Huret (1891). Dans cet ouvrage, l’auteur raconte ses entrevues avec de nombreux écrivains francophones. Et, parce qu’il s’intéressait au monde des écrivains, il cherchait à savoir ce que les écrivains pensaient de leurs collègues. La source est donc partielle/partiale : Huret a un programme et ne fait pas qu’enregistrer. Il cherche probablement à mettre en valeur certains écrivains. Gardons cela en tête. Et redevenons, immédiatement, positiviste.
Commençons par compter le nombre de citations.
Qui cite le plus ? Les 5 plus grands citants parmi les interviewés sont : “goncourt” “herediajosemaria” “kahngustave” “saint-pol-roux-le-magnifique” et “descaveslucien“.
Qui sont les écrivains plus cités : “zola” “goncourt” “flaubert” “bourgetpaul” “huysmans” “barresmaurice” “verlainepaul” “moreasjean” “mallarmestephane” “regnierhenry” et “hugo”.

Oh ? miracle ? : les Goncourt (OK, ils sont 2) sont de grands citants grands cités. Quand je fait ce travail de réduction du discours aux citations, je trahis peut-être les interviewés, mais par l’auteur. Jules Huret lui-même demande à ce que son ouvrage soit lu ainsi :

il y a un écart sensible entre l’importance réelle de certains auteurs et celle qu’ils ont prise dans mon enquête, importance dont on pourra se rendre compte en additionnant les “mentions” notées à l’Inde alphabétique de ce volume
Huret, Enquête…, p.XV

Mais qu’est-ce que “l’importance réelle” ? Certains des écrivains les plus cités, en effet, bien que marginaux pour le monde cultivé de la fin du XIXe siècle, étaient, pour le monde des écrivains, bien plus centraux.

C’est ainsi que M. Mallarmé, dont la haute personnalité littéraire ne se révèle que les mardis soirs à quelques personnes choisies, a pourtant groupé plus de nominations que Victor Hugo, la plus populaire des gloires de la France moderne.

Il semble étrange à Huret de voir apparaître Mallarmé à cette place. Mais ce poète-poète (ce poète pour poète) illisible était déjà tenu, par ses collègues, en haute estime.

Huret propose ensuite une description par chapelle littéraire (“les symbolistes”, les “parnassiens”, les “philosophes”, les “naturalistes”…). Il lui était difficile de faire autrement. Mais si l’on s’intéresse au réseau des citations, peut-être qu’autre chose apparaît.

Quelques indices nous donnent accès à la dimension “réticulaire” du métier d’écrivain. Aujourd’hui, on pourrait la mettre en évidence à partir de la participation aux jury des prix littéraires par exemple, ou à partir des collaborations scénariste/dessinateur dans la bande dessinée francophone ou des featurings dans le rap français des années 1990. Pour la fin du 19e siècle, l’Evolution littéraire de Huret est un matériau facilement accessible.

A partir de l’ensemble des citations, il est possible d’identifier des “communautés” de personnes plus reliées que d’autres. [Dans R, avec le package “igraph”, grâce à l’instruction “walktrap.community”]

lien vers le graphe en PDF

Il me semble voir, mais je ne suis pas un spécialiste, un groupe plutôt “romancier / réaliste” et un groupe plutôt “poète / symboliste” (Maurice Barrès, dans les années 1880, était proche des symbolistes, Huret le classe parmi les “psychologues”.)

Une étudiante, qui voudrait, par exemple dans le cadre d’un master de sociologie, aller plus loin, devrait bien entendu s’intéresser au contexte des mentions/nominations : est-ce comme exemple, ou comme exemple à ne pas suivre que les uns mentionnent les autres ? Elle pourrait, cette étudiante, ajouter aux personnes des qualités (âge, origine géographique et sociale…) pour voir si les caractéristiques sociales ont quelque chose à voir avec la structure des citations. Cette étudiante trouverait au CRESPPA et au département de sociologie de Paris 8 un encadrement de valeur.

twitter et le réseau, suite

Mon exploration des “amis de mes amis”, sur twitter [rappel], ne m’a pas fait découvrir grand chose, sinon qu’ils ont tendance à me “follower”. Les spécialistes des réseaux sociaux diraient que c’est parce que “tu fais du structural à partir d’égocentré”, et ils doivent avoir raison.
Mais j’ai découvert deux ou trois choses avec R. Et notamment le package igraph.

Le twittplot au format PDF

Dans l’image précédente, la couleur dépend du score “k-core” de chaque personne (ou compte twitter), et la taille des points des “liens entrants” (plus un compte est suivi par mes “amis”, plus le point est gros). La disposition des points a été générée par l’algorithme Kamada-Kawai.

Il est quand même possible d’être surpris par certains résultat. La centralité d’intermédiarité permet de repérer des acteurs “intermédiaires”, qui me lient, indirectement, avec d’autres mondes-twitter. C’est particulièrement vrai pour certains compte twitter. Voici un PDF qui montre, je pense, que certains “petits” acteurs (que je “followe” mais qui sont peu “followés” par mes amis), sont des intermédiaires.

Twitter et le réseau

Je voulais réussir à savoir qui “followe” qui, parmi les personnes que je “followe” sur twitter, notamment afin de savoir s’il existe des personnes qui, suivies par nombre des personnes dont je lis la prose, pourraient m’intéresser.
A la fin de ma réflexion, pour l’instant parcellaire, voici ce que j’arrive à produire :

Pour produire cela, le code est assez simple (mais pas vraiment, en fait). Je le reproduis ci-dessous. Le principal problème est lié au fait que les comptes “privés” causent une erreur (« Erreur dans twFromJSON(out) : Error: Not authorized »). Et R ne gère pas encore le protocole utilisé par twitter pour se connecter, OAuth…

Dans le code suivant :
1- je charge les “bibliothèques” nécessaires (twitteR, plyr, igraph)
2- je télécharge la liste de mes “amis” (les personnes que je suis, sur twitter)
3- pour chaque “amis” je télécharge la liste de 20 “amis”, et j’installe tout cela dans un tableau de la forme “NomDeLAmi | NomDeSonAmi”. Pourquoi seulement 20 amis : pour que ça aille plus vite, je n’ai pas besoin, à l’heure actuelle, de la totalité des amis d’amis.
4- je transforme cela en graphe, et je dessine le graphe

library(twitteR)
library(plyr)
library(igraph)
f<-userFriends('coulmont', n=100)
friends<-ldply(f,screenName)
fff<-table(NA,NA)
for (i in 1:nrow(friends))
{
f<-userFriends(friends[i,], n=20)
ff<-ldply(f,screenName)
fff<-rbind(fff,cbind(rep(friends[i,],nrow(ff)),ff))
}
ats.g <- graph.data.frame(fff, directed=T)
coords <- layout.fruchterman.reingold(ats.g, dim=3)
V(ats.g)$label <- V(ats.g)$name
plot(ats.g, layout=coords,vertex.size=.5*degree(ats.g),vertex.label.cex=.3*log((degree(ats.g)+.1)),edge.arrow.size=0.1)

Created by Pretty R at inside-R.org

Pour produire cela, je me suis appuyé sur divers billets de blog : Cornelius Puschmann : générer des graphes de retweet, une question sur stackoverflow, R-chart, analyser des données de twitter avec R

 
L’image ci-dessous a été réalisée en prenant les 200 “amis” que suivent une trentaine de mes “amis”, puis en ne gardant du graphe que ceux qui étaient suivis plus de 4 fois dans le graphe.

Identifier des acteurs importants

Continuons l’exploration des réseaux d’invitation que l’on peut objectiver à partir des affiches d’églises “noires”, collées un peu partout en région parisienne (en réalité pas partout, mais bon…).
On peut supposer que les personnes qui, par leur présence, assurent des liens entre composantes qui seraient autrement disjointes sont “importants”. On peut identifier ces personnes comme des “cutpoints“. Je les ai coloriées dans le graphe ci-contre en vert.
Dans l’état présent de mes données, il y a 28 “cutpoints“. Et, chose amusante, sur ces 28 personnes, 7 ne sont pas des pasteurs, ni des prophètes, ni des évêques… Ce sont du “petit personnel” religieux, des détenteurs de “tous petits titres” : typiquement, “frère”, “soeur”, “servante” ou “chantre”. [Celles et ceux qui apparaissent vers la gauche de l’analyse en composante principale de ce billet]
Mais on pourrait supposer, d’une autre manière, que les acteurs les plus “importants” sont ceux qui sont connectés, directement ou indirectement, à de nombreux autres acteurs. On appelle cela la “centralité d’intermédiarité” et on peut donner un score à cette notion, à partir de l’algorithme betweenness (dans le package “sna” de R). Sûrement, là, on trouverait des pasteurs et des prophètes, les “big mens” de ce monde.
Mais mes données indiquent que, parmi les 11 personnes les plus “centrales”, 6 sont du “petit personnel” religieux. Il y a même mieux : la personne la plus centrale est un chanteur, René L***. Et cela peut se constater sur l’ensemble du graphe : si l’on calcule la “centralité par titre” (en ne gardant que 2 grosses catégories, “pasteurs” et “autres”, alors la catégorie “autres” a un score moyen de centralité plus important).
Le monde pentecôtiste est souvent décrit comme un monde d’entrepreneurs religieux indépendants (certains devenant “grands” en accumulant des fidèles). Au minimum, on voit ici à partir d’une approche de “sociologie structurale” que ces entrepreneurs s’adossent à des acteurs marginaux pour monter leur entreprise. J’appelle ces acteurs “marginaux” car ce ne sont ni des fidèles au sens strict, ni des outsiders radicaux, ni des porteurs de titres prestigieux (comme “bishop”) ni des “sans-titres”. Et je les appelle “marginaux” car, dans la quarantaine d’articles, de thèses, de livres… de sociologie et d’anthropologie portant sur ces églises, les “frères” et “soeurs” chanteurs et chanteuses n’apparaissent pas vraiment. Est-ce parce qu’ils sont vraiment anecdotiques ? Ou est-ce parce que le regard (et la problématique) de mes collègues les a invisibilisés ? [Il est facile de les invisibiliser, à partir d’une vision d’emblée “cléricale” du monde religieux, où les “grands” sont les porteurs d’un charisme personnel.]

Réseaux “aléatoires”, suite

J’ai essayé de comprendre un peu plus précisément les résultats du billet précédent.
Partons d’un réseau bimodal représenté, ci-dessous, sous la forme d’une matrice puis d’un graphe :

La Matrice

x1 x2 x3 x4 x5 x6 x7 x8
a 1 1 0 0 0 0 0 0
b 1 1 0 0 0 0 0 0
c 0 1 1 1 0 0 0 0
d 1 1 0 0 0 0 0 0
e 0 0 0 0 1 0 0 0
f 0 0 0 0 1 1 0 0
g 0 0 0 0 1 0 0 0
h 0 0 0 0 0 0 1 1
i 0 0 0 0 0 0 1 1

Le Graphe


On peut comprendre ce réseau comme une description d’événements (X1 à X8) auxquels participent (ou non), les personnes “a”… “i”.
Ce réseau est un peu spécifique : Le premier et le deuxième “événement” (X1 et X2) réunissent les mêmes personnes (a, b et d), la personne “c” participant au 2e événement seulement. J’observe, dans les invitations de pasteurs repérées sur les affiches pentecôtistes, le même genre de “réinvitations”.
Ce qui m’intéressait était de comparer ce réseau avec des réseaux qui auraient une structure similaire. Par “structure similaire”, j’entends “les marges des matrices sont les mêmes” : l’événement X a n participants dans le réseau de départ et dans le réseau auquel on le compare.
Un problème similaire s’est posé en “écologie quantitative” (ou écologie des communautés) : on peut imaginer que la matrice, plutôt que de représenter un réseau, représente une “communauté” (en colonne, les espèces — présentes ou non –, et en ligne, des lieux échantillonés). On en trouve, par exemple, un usage dans cet article
Partitioning of functional diversity reveals the scale and extent of trait convergence and divergence ou dans cet autre article Using biodiversity deconstruction to disentangle assembly… :

We generated 1000 random matrices by a quasi swap algorithm (Miklós & Podani, 2004) using the function ‘commsimulator’ in vegan for R (Oksanen et al., 2007). The null matrices were subsequently uploaded into a custom-coded (…)

Ce problème, sous des formes plus proches des miennes, s’est aussi posé à des sociologues travaillant sur des réseaux sociaux. Jean Finez, travaillant sur la co-participation aux comités d’administration (les liens interlocks), a tenté d’en comprendre la logique en les comparant à des réseaux aléatoires de même structure Solidarités patronales et formation des interlocks [halshs] :

nous comparons le réseau des interlocks à des réseaux générés aléatoirement de manière à mettre en évidence ses spécificités et à ne pas mésinterpréter des propriétés qui relèvent en fait des contraintes juridiques et organisationnelles. Nous avons généré 50 réseaux aléatoires bimodaux, construits de manière à posséder de nombreuses caractéristiques identiques à celles du réseau interlock. […]
Dans chaque réseau aléatoire bimodal, les conseils d’administration sont choisis par les individus par un tirage dans une loi uniforme. En outre, les réseaux ont été construits de manière à partager de nombreuses caractéristiques avec le réseau interlock de l’élite de premier ordre. Premièrement, comme dans le réseau réel, chaque réseau aléatoire est composé de 27 sommets « dirigeants » et de 40 sommets « entreprises » reliés par 91 liens dirigeants-entreprises. Deuxièmement, chaque dirigeant est présent dans 3 à 5 conseils d’administration et chacune des 40 entreprises ne peut accueillir plus de 18 dirigeants.

J’ai donc utilisé, dans le package “vegan”, l’instruction commsimulator (méthode “quasi swap”), qui génère une matrice aléatoire respectant les marges de la matrice de départ.

Souvent, l’instruction va donner quelque chose de ce genre : Il n’y a plus que 2 composantes (par rapport au réseau de départ, il y a moins de “ré-invitations”.)
Si l’on génère 10 000 réseaux, l’histogramme du nombre de composantes est celui-ci :

A quelques 500 reprises, des réseaux à 3 composantes apparaissent. Et, surprise, à 3 reprises, des réseaux à 4 composantes (très rares, donc, dans cette configuration).
Voici ce réseau à 4 composantes respectant les contraintes de départ :

Dans cet exemple, les “ré-invitations” sont maximales.

Des réseaux religieux d’invitations

Les données recueillies à partir d’une collection de 150 affiches d’églises africaines sont très riches. J’ai déjà montré ici qu’on pouvait y déceler des indications d’implantation géographique, ou une “politique du titre” qui manifeste l’existence d’une hiérarchisation poussée.
Ces affiches donnent aussi des informations “réticulaires” : les pasteurs pentecôtistes passant une partie de leur temps à s’inviter les uns les autres, à pratiquer le “partage de la chaire”, un réseau apparaît. Voici une représentation graphique de ce réseau d’invitations. Vous remarquerez, en plissant les yeux, une grosse composante et de nombreuses petits groupes. Le nombre de composantes est de 60.
La question que je me pose est : mais comment donc un tel réseau est généré ? Est-ce qu’il peut être simplement déduit de certaines contraintes ?
Pour commencer à apporter une réponse, j’ai demandé à R de générer des réseaux aléatoires qui respectent 2 contraintes.

  • 1/ si dans le réseau observé l’individu (i) participe à (n) événements, il en va de même dans le réseau généré
  • 2/ si dans le réseau observé l’événement (j) a réuni (m) personnes, il en va de même dans le réseau généré

Les réseaux générés “aléatoirement et sous contraintes” ont une particularité : leur nombre moyen de composantes n’est pas proche de 60, il est proche de 41. Les réseaux “aléatoires” relient beaucoup plus les individus (alors que chaque individu participe au même nombre d’événements et que chaque événement réuni le même nombre de personnes, par comparaison avec le réseau observé).
Mes pasteurs pentecôtistes noirs, donc, semblent ne pas “inviter au hasard”, mais choisir une “distance” moindre que les “pasteurs aléatoires”. De ce fait, ils créent un monde un peu plus “troué” que celui du modèle.
Note : Je ne sais pas si je dois vraiment mettre cela en ligne. En effet, je ne maîtrise pas totalement ce dont je parle et j’ai peut-être fait n’importe quoi… J’expose donc maintenant la méthode utilisée. Je démarre d’une matrice d’adjacence, nommée “mat”, qui indique “qui participe à quoi” :
E1 E2 E3 E4
P1 1 0 1 0
P2 1 1 0 0
P3 0 1 0 1
P4 0 0 0 1
P5 0 0 0 1
P6 1 1 1 0

Dans laquelle E1 est l’événement n°1, P1 la personne n°1 (qui ici, participe à E1 et E3).
Dans le logiciel R, le package “vegan” dispose d’une commande :
b< -commsimulator(mat, method="quasiswap")

Methods quasiswap and backtracking are not sequential, but each call produces a matrix that is independent of previous matrices, and has the same marginal totals as the original data.

Cette commande permet de générer des matrices qui ont les mêmes marges que les matrices de départ (ce qui fait que chaque événement aura le même nombre de participants et chaque personne participera au même nombre d'événements).

Suites : Voici un synthèse du nombre de composantes après avoir généré 1000 réseaux aléatoires :

La probabilité de tomber sur un réseau à 60 composantes (avec les contraintes de départ) est donc bien faible.