Categories

Archives

Billet

Les mots de la sociologie

Billet publié le 07/12/2013

Un peu, un tout petit peu, d’analyse de texte aujourd’hui, à partir des résumés de thèse en sociologie, que l’on trouve sur theses.fr
Après avoir récupéré des informations sur environ 316 000 thèses, j’ai extrait les résumés de 6700 thèses de sociologie. Parce qu’il s’agit d’une étude exploratoire, je n’ai pas aspiré les résumés des thèses en “Sciences de la société”, qui me semblent pourtant aussi être des thèses de sociologie.
Que peut-on faire avec ces résumés ? Un traitement simple consiste à repérer quels mots sont associés de manière très fréquente à certains mots. La technique suivie a été la suivante :
1- je choisis un mot : “politique” par exemple, ou “famille”, ou “urbain”, et je sélectionne tous les résumés qui contiennent politiq* ou politic* (politique, politiques, politicien, politicienne…), ou famill* familia* (famille, familles, familial… mais pas familier).
2- je forme deux groupes : le groupe des thèses qui ont un résumé qui contient le mot clé et ses dérivations, le groupe des thèses qui ne contiennent pas ce mot clé.
3- je compare le rapport de fréquence : ainsi le mot “publique” est 3 fois plus fréquent dans les résumés de thèse qui contiennent “politique” que dans les résumés de thèses qui ne contiennent pas “politique”. Le “corps” et le “quotidien” sont, eux, deux à trois fois moins fréquents dans ces thèses.

mots-sociologies

Que faire ensuite avec cela :
1- “lemmatiser” ! c’est à dire ne travailler qu’avec les racines des mots. Mais c’est complexe (ou du moins, je n’ai pas réussi simplement à faire fonctionner TreeTagger et koRpus sur mon corpus)
2- En synchronie : générer des sujets types dans chaque groupe et ainsi des individus qui cumulent les notions les plus communes, bref « ceux qui expriment le mieux le “sens commun” du groupe… Et qui sans doute, se pensent très originaux. » ajoute un collègue facétieux. « La ville populaire comme espace local, comme territoire ouvrier, à l’écart des grands centres », « La prise en charge par les services de santé des traitements à la personnes, risques et recours », « la participation des habitants à l’action de lutte pour l’accès au droit, une politique publique », etc…
3- Repérer, de manière diachronique… à quel seuil apparaissent des mots communs et donc à quel moment, dans quel lieu, ces spécialistes peuvent échanger sur la base de mots communs.
4- Enfin, il serait possible de s’intéresser aux stratégies d’hétérodoxie : qui combine des mots de registres distincts? Qui propose une sociologie urbaine de la socialisation professionnelle, la sexualité et l’action politique, voire les organisation de la gestion de la famille ou encore le corps et la mémoire dans les crises économiques.

[yarpp]

4 commentaires

Un commentaire par Fr. (07/12/2013 à 17:41)

Tu as aussi l’excellente libraire topicmodels, très recommandable vu ton corpus, je pense. Liens et exemples : https://pinboard.in/u:phnk/t:stats:text-analysis/

Un commentaire par Kalus (07/12/2013 à 18:03)

Bonjour,
Si je comprends bien il s’agit de déterminer de façon statistique l’espace des thèses en sociologie. Ce serait intéressant de coupler cette démarche avec une analyse par rapport aux lieux de provenance de ses thèses, ça pourrait révéler les enjeux sous-jacent de certains labos ou encore cas d’absence de ceux-ci de directeur de thèses cherchant à enrichir leur carrière avec de la main d’oeuvre non ou même de questionner l’attribution de bourses de thèses (et alors envisager pourquoi pas en amont les mémoires produit en M2) ? De même qu’une pareille analyse établirait la prédominance de telle ou telle courant sociologique dans telle ou telle structure (ethnométhodo/bourdieusien/phénoméno/interactionniste/orga etc) à un telle époque ..

Un commentaire par DM (11/12/2013 à 22:21)

Mon dieu… mais tu en es à faire du “bag of words”! À quand les analyses SVD, PCA, etc.? À ce point, je me demande s’il ne serait pas raisonnable que tu contactes des gens de machine learning et de traitement automatique de la langue naturelle (qui sont habituellement en section 27, informatique)! (Si tu veux je dois pouvoir te trouver des contacts.)

Un commentaire par Des réseaux et des mots | Polit’bistro : des politiques, du café (17/12/2013 à 14:29)

[…] La version dynamique, que je ne peux pas montrer sans l’héberger ailleurs que sur ce blog, devra attendre un peu. Les données sont tirées d’un petit exemple de modélisation textuelle dans un corpus faiblement structuré, conçu pour Baptiste Coulmont. […]