Indexation MeSH : une distribution 80/20

Attention : cette affirmation n’est vérifiée que pour la catégorie « maladies » (diseases) !

Résumé des épisodes précédents
L’été dernier (2010), j’ai pris ma tenue de bénédictin pour établir la fréquence d’utilisation des descripteurs MeSH de la catégorie « maladies ».
J’ai mesuré cette fréquence sur 5 ans (de 2005 à 2009) avec tous les descripteurs de cette catégorie.
L’équation de recherche était du type : descripteur [mh:noexp] AND 2005:2009 [mhda]
Le descripteur  n’était pas explosé pour être certain que c’était bien lui qui était indexé. Le champ « date d’indexation » avait été préféré au champ « date de publication ».

Résultat des courses
Dans la période 2005-2009, les descripteurs de la catégorie « maladies » ont été indexés 5 850 842 fois.
Pendant cette période : 20% d’entre eux ont été indexés 4 568 413 fois, ce qui représente  78,08% des  indexations ;

Conclusion
La distribution de Pareto (80/20) est retrouvée dans la catégorie « maladies » du thesaurus MeSH.
Dans chacune des 23 branches de la catégorie, la plus grande partie des indexations est faite avec un petit nombre de descripteurs.

En pratique, on en fait quoi ?
On hiérarchise ! ça peut paraître réducteur, mais c’est réaliste.
Vous n’avez plus 7 500 descripteurs « maladies » (1/3 du thésaurus), mais 1 500. Et si vous êtes concerné plus particulièrement par une spécialité, vous n’avez plus 288 descripteurs « maladies digestives » mais 58…et vous pouvez hiérarchiser leur fréquence avec un nuage de tags comme celui-là.

Les 58 maladies digestives (20% des Digestive System Diseases). Nuage de tags créé avec Wordle

En fin de compte
L’objectif est de dédramatiser le langage MeSH en le réduisant à sa dimension « indexation la plus fréquente ».
Il s’agit de vous amener à formuler vos requêtes en langage MeSH. Le MeSH « initiatique » qui vous est proposé, même s’il ne représente que 80% des descripteurs « maladies », est le premier pas à faire pour rencontrer le langage MeSH.
A mon avis, c’est toujours mieux que le langage courant interprété par l’automatic term mapping qui est une super daube (même si la NLM en semble très fière).

This entry was posted in Uncategorized and tagged , , . Bookmark the permalink. Follow any comments here with the RSS feed for this post. Post a comment or leave a trackback: Trackback URL.

One Response to Indexation MeSH : une distribution 80/20

  1. […] du chapitre précédent Dans le thesaurus MeSH (catégorie « maladies »), 20% des descripteurs représentent 80% des indexations. Ce type de distribution (20/80) est connu sous le nom de distribution de Pareto. Le diagramme de […]

Leave a Reply

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>