Les mots de la sociologie
Un peu, un tout petit peu, d’analyse de texte aujourd’hui, à partir des résumés de thèse en sociologie, que l’on trouve sur theses.fr
Après avoir récupéré des informations sur environ 316 000 thèses, j’ai extrait les résumés de 6700 thèses de sociologie. Parce qu’il s’agit d’une étude exploratoire, je n’ai pas aspiré les résumés des thèses en “Sciences de la société”, qui me semblent pourtant aussi être des thèses de sociologie.
Que peut-on faire avec ces résumés ? Un traitement simple consiste à repérer quels mots sont associés de manière très fréquente à certains mots. La technique suivie a été la suivante :
1- je choisis un mot : “politique” par exemple, ou “famille”, ou “urbain”, et je sélectionne tous les résumés qui contiennent politiq* ou politic* (politique, politiques, politicien, politicienne…), ou famill* familia* (famille, familles, familial… mais pas familier).
2- je forme deux groupes : le groupe des thèses qui ont un résumé qui contient le mot clé et ses dérivations, le groupe des thèses qui ne contiennent pas ce mot clé.
3- je compare le rapport de fréquence : ainsi le mot “publique” est 3 fois plus fréquent dans les résumés de thèse qui contiennent “politique” que dans les résumés de thèses qui ne contiennent pas “politique”. Le “corps” et le “quotidien” sont, eux, deux à trois fois moins fréquents dans ces thèses.
Que faire ensuite avec cela :
1- “lemmatiser” ! c’est à dire ne travailler qu’avec les racines des mots. Mais c’est complexe (ou du moins, je n’ai pas réussi simplement à faire fonctionner TreeTagger et koRpus sur mon corpus)
2- En synchronie : générer des sujets types dans chaque groupe et ainsi des individus qui cumulent les notions les plus communes, bref « ceux qui expriment le mieux le “sens commun” du groupe… Et qui sans doute, se pensent très originaux. » ajoute un collègue facétieux. « La ville populaire comme espace local, comme territoire ouvrier, à l’écart des grands centres », « La prise en charge par les services de santé des traitements à la personnes, risques et recours », « la participation des habitants à l’action de lutte pour l’accès au droit, une politique publique », etc…
3- Repérer, de manière diachronique… à quel seuil apparaissent des mots communs et donc à quel moment, dans quel lieu, ces spécialistes peuvent échanger sur la base de mots communs.
4- Enfin, il serait possible de s’intéresser aux stratégies d’hétérodoxie : qui combine des mots de registres distincts? Qui propose une sociologie urbaine de la socialisation professionnelle, la sexualité et l’action politique, voire les organisation de la gestion de la famille ou encore le corps et la mémoire dans les crises économiques.