Billet

Les amis de mes amis sont directeurs de thèse

Billet publié le 29/11/2013

Voici plusieurs graphes établis à partir des codirections de thèse en France.

math-reseau
Les couleurs indiquent les disciplines des directeurs.

Et l’on constate que les disciplines “proches” (socio / histoire) ont tendance à se retrouver à proximité sur le graphique.
socio-reseau

On peut s’intéresser de plus près aux thèses codirigées inscrites dans une discipline particulière, par exemple, au hasard, la sociologie. [cliquez pour voir en grand]
socio-reseau
Dans ce dernier graphique, les couleurs placent ensemble des individus que l’algorithme walktrap.community a placé dans la même “communauté”. Globalement “ça fait sens”. Et l’on ne remerciera jamais assez Nicky Le Feuvre de servir de “bridge” entre des mondes distincts.

Le même graphique pour l’histoire, pour la philosophie et directement en images pour l’économie
economie-reseau

&npsb;

Comment ont été construits ces graphes :

Grâce à @cynorrhodon (qui avait étudié la longueur des titres de thèse), j’ai récupéré des informations sur plus de 315 000 thèses françaises (oui, 315 000). Parmi ces thèses, un peu plus de 38 000 thèses sont effectuées ou ont été effectuées en codirection. En général, cela implique deux directeurs ou directrices de thèse, mais parfois trois ou quatre. Très très rarement plus.
Chaque thèse est associée à une discipline au moins, parfois deux ou trois.
La base ainsi constituée est relativement sale, et il a fallu la nettoyer un peu, en normalisant les noms et prénoms. Ceci fut fait de manière automatisée et rapide, sans chercher à dissocier “Jean Dupont” professeur de Mathématiques à Rennes 2 et “Jean Dupont” professeur de sociologie à Montpellier 3. J’espère qu’ils ne sont pas très nombreux à être ainsi homonymes. De même je n’ai pas cherché à indiquer que J. Dupont, professeur de mathématiques à Montpellier 3 est la même personne que Jean Dupont professeur de mathématiques à Montpellier 3.
Se posait ensuite un problème d’association, entre une personne et une discipline. Un seul exemple, Stéphane Beaud, sociologue, apparaissait 7 fois comme “sociologues”, et à une reprise comme “Sciences de la société”. Julia Kristeva apparaissait 15 fois comme “littérature française” et sinon sous de multiples autres disciplines. J’ai donc considéré que la discipline à retenir était celle qui était le plus souvent associée avec une personne.
Le réseau comprenait un grand nombre de liens et de personnes. J’ai donc réduit ce réseau aux individus qui avaient au moins N liens, et je n’ai gardé que la plus grosse composante (pour produire les graphes représentés).
Il y a un grand nombre de disciplines différentes, plus de 4 400. Parfois un intitulé généraliste est proposé : “Sociologie” ou “Chimie”, parfois, c’est un indicateur très précis, comme “Anthropologie psychanalytique et pratiques cliniques du corps” ou “Chimie organique, minerale, analytique, industrielle” ou encore (sans correction) “Ingenierie de la cognition, de linteraction, de lapprentissage et de la creation Sciences du langage”. Pour associer des couleurs aux points, je cherche donc la présence d’une chaine de caractère dans la discipline. “Socio” pour tout ce qui est sociologie, socioanthropologie… “politi” pour tout ce qui est science politique, sciences politiques.

Le graphique spécifique à la sociologie illustre certaines des difficultés : l’on repèrera que des individus identiques apparaissent sous deux formes nominales… et sont donc considérés comme deux individus différents. Je n’ai gardé que les individus ayant participé à deux codirections ou plus (les individus qui n’ont participé qu’à une seule codirection ont disparu).

4 commentaires

Un commentaire par Sylvain Machefert (03/12/2013 à 13:16)

Bonjour,
exercice intéressant (et confirmation pour les institutions de la nécessité d’ouvrir leurs données !).

Une question que je me pose est : pourquoi ne pas avoir utilisé les identifiants uniques mis en place par les catalogueurs pour les personnes physiques ( 070996164 par exemple pour cette thèse : http://www.theses.fr/1989MON13501.xml ) ? Manque dans les données, problème de complétude ?

Merci par avance pour l’éclaircissement.

Un commentaire par Laurent W (06/12/2013 à 9:54)

Bonjour Baptiste.

Je me demande dans quelle mesure ce que met en valeur le graphe, ce n’est pas d’abord (même si ce n’est pas que ça) des liens géographiques : pour ce qui est par exemple du côté droit et bas, on voit bien un pôle Poitiers et, plus au-dessus encore et plus fort, Nantes.
Cela dit, je suis d’accord avec toi, il y a en effet des collègues “compatibles” qui permettent de faire de la sociologie une sorte de “communauté”, et ils-elles sont très important-e-s.

Un commentaire par DM (06/12/2013 à 13:47)

@Sylvain Machefert: Je crains d’exister dans cette base à la fois comme “David Monniaux qui a soutenu une thèse en 2001″ et comme un autre David Monniaux directeur de thèse.

Un commentaire par Baptiste Coulmont (07/12/2013 à 17:13)

> Sylvain : les identifiants uniques ne sont pas assez répandus
> Laurent W : des liens géographiques oui, et des différences de statut (MCF encadrant qui choisit PR en codirection)… (parfois, quand on connait bien certains collègues, on peut même savoir que les codirecteurs ont du mal à se supporter physiquement, mais que des raisons les poussent à s’unir en dépit de leur inimitié)