Billet

Des proximités commerciales entre sociologues

Billet publié le 25/10/2012

Le site amazon propose des choses intéressantes. Non seulement mes livres, mais aussi les livres des collègues, et, souvent, une liste d’auteurs “similaires”. Ainsi, si vous allez sur la page du Coulmont, vous verrez que “les clients ont aussi acheté les livres de ces personnes” :

Aujourd’hui — car cette liste est mouvante — “je” me retrouve associé à d’illustres sociologues. Mais ce n’est pas réciproque. Sur la page du Bourdieu, “je” n’apparais pas comme lui étant associé.
Mais bon… amazon nous propose une sorte de trou de serrure par lequel apercevoir un réseau de relations commerciales entre auteurs.
On peut essayer de recomposer une partie de ce réseau (en agrandissant le trou de la serrure).

Cliquez pour télécharger un fichier PDF zoomable

Dans ce réseau, tel qu’il est ici reconstitué (en partant de la page “Coulmont” et en récupérant tous les liens d’ordre 2 — les voisins des voisins du Coulmont), fait sens : par exemple, les économistes ont tendance à se retrouver associés aux économistes (même si, ici, c’est une branche particulière, plutôt régulationniste, qui apparaît) :

Le point de départ importe : partir de “Coulmont” ne donnera pas tout à fait le même réseau de relations que partir de Louis Pinto ou du Lord Voldemort de la sociologie française… Mais quel que soit le point de départ, les “communautés” que l’on peut repérer semblent faire sens, de manière disciplinaire (sociologie, histoire, économie, philosophie) ou même entre sous-disciplines (sociologie de la culture, sociologie économique…).
Le tout a été réalisé avec R. Je peux mettre le code en ligne, mais je n’en suis pas très fier, c’est du code bidouillé et redondant.
Pour aller plus loin, je vous conseille le blog Data Sciences Sociales de Ollion et Hobeika.
mise à jour (31/10/12) : une visualisation plus interactive est proposée ici

15 commentaires

Un commentaire par Totoro (25/10/2012 à 13:21)

Très joli, mais créer du lien symétrique à partir de données asymétriques, n’est-ce pas méthodologiquement problématique ?

Un commentaire par Baptiste Coulmont (25/10/2012 à 13:25)

Oh que si… et en plus je ne connais pas du tout l’algo utilisé par amazon pour mettre ensemble des auteurs…

Un commentaire par Joël (25/10/2012 à 14:00)

En fait, en y réfléchissant, je pense que les données sur les auteurs chez Amazon ne sont pas structurées comme un réseau ; elles constituent un espace – qui est mis en relation avec l’espace des clients. Évidemment, asymptotiquement, la construction du réseau des auteurs recommandés permet de bâtir une métrique approchant celle de l’espace initial. Mais ce sont deux approches différentes.

Un commentaire par Baptiste Coulmont (25/10/2012 à 14:05)

>Joel : oui, c’est bien dit. C’est ça qui m’intéressait. Reconstituer des proximités entre auteurs à partir de similitudes d’achat… Homologie structurale ?

Un commentaire par Joël (25/10/2012 à 14:44)

En quelque sorte, oui… À une époque, j’avais eu l’idée de créer un générateur bourdieusien de conseils musicaux. Mais le site pour lequel je devais le faire n’a jamais vu le jour !

Un commentaire par MB (26/10/2012 à 18:31)

A quoi correspondent les couleurs ?

Un commentaire par Baptiste Coulmont (26/10/2012 à 18:59)

Bonne question, MB. Chaque couleur correspond à une “communauté”, repérée à l’aide de “walktrap.community”. En gros, les individus de ces communautés partagent plus de liens entre eux qu’avec les membres d’autres communautés. Les communautés choisies minimisent la “modularité”. [J’aime bien l’algorithme “walktrap.community” parce que les communautés repérées semblent peu sensibles aux paramètres de départ.]

Un commentaire par Marc G. (31/10/2012 à 12:56)

je suppose que leurs algos mélangent du content-based filtering (puisque les livres ont le bon goût de disposer de méta-données plutôt bonnes) et du collaborative filtering, et dans ces derniers, mélangent des approches k-plus-proches-voisins avec des approches à variables latentes (je n’en sais rien, sinon que c’est ce qui a gagné le célèbre concours netflix).

Ca m’amène à deux questions :

– le jeu de données a t-il été récupéré à la main et au crayon en regardant les pages web, ou via l’API amazon ? on peut taper demande directement en R ? (Si oui youpi je m’y mets !)

– quelle est importance/la pertinence du problème suivant : “Amazon possède et contrôle/restreint l’accès à une connaissance très importante sur les pratiques culturelles “. Strictement, je ne devrais pas dire privatise, puisque Amazon a constitué ce jeu de données de manière autonome. Mais on cogite en ce moment pour faire un système à recommandation avec une grosse mediatheque municipale, et on est bien embêté que amazon dipose de supers infos… En tout cas, la constitution de jeux de données “open data” alternatifs me paraît une jolie question.

Un commentaire par Elise Penalva Icher (31/10/2012 à 12:59)

Bonjour

Voici un outil qui pourrait aider :

http://www.yasiv.com/#/Search?q=division%20of%20labor&category=Books&lang=US

j’ai essayé de le faire pour le Coulmont, mais malheureusement l’édition en français ne permet pas de trouver des liens avec le reste du corpus anglo-saxon du logiciel, alors je suis revenu à mes classiques ;-)

Un commentaire par Baptiste Coulmont (31/10/2012 à 13:10)

> Elise : merci, je ne connaissais pas et ça ressemble fort à ce que j’ai fait
> Marc G : le jeu de données a été récupéré avec R (package Rcurl), pas à la main… il est assez rapide de récupérer les quelques 16 “voisins” d’environ 16^3 auteurs, ce qui fait déjà pas mal pour couvrir un champ disciplinaire et les champs alentours

Un commentaire par Marc G. (31/10/2012 à 14:30)

Merci ! Ah, oui, je viens de trouver un joli exemple de code source sur stackoverflow… super !

Un commentaire par Elise Penalva Icher (31/10/2012 à 16:55)

mea culpa, ça marche en français, à partir de sociologie des prénoms (il y a un onglet en bas pour présélectionner les frontières du réseau selon le pays)
voici donc un autre essai
http://www.yasiv.com/#/Search?q=coulmont&category=Books&lang=FR

J’ai l’impression qu’il y a des différences entre le réseau obtenu grâce à R et celui-là ? (Mais il faudrait vérifier le seuil de présence/absence des liens dans cette version, ce qui doit un peu changer la structure du réseau, de la même manière le point d’entrée différent de la chaîne relationnelle joue aussi un rôle)
Néanmoins il me semble que les communauté détectées dans R sont plus académiques et disciplinaires qu’ici…

Un commentaire par Baptiste Coulmont (31/10/2012 à 17:01)

Merci ! “yasiv” prend comme point de départ les ouvrages recommandés, parce que souvent achetés ensembles, alors que je prends comme point de départ les auteurs “similaires”. et son site est plus interactif que le mien !

Un commentaire par Analyse de réseau⎜recommandations sociologiques sur Amazon | Pegasus Data Project (10/11/2012 à 17:31)

[…] Baptiste Coulmont (Twitter), sociologue, auteur du récent Sociologie des prénoms, propose sur son blog une sorte de mise en abîme de ce processus : « Des proximités commerciales entre sociologues ». […]