La veille dans PubMed : le casse-tête des opérateurs

Dans l’équation de veille, la gestion des opérateurs (OR et NOT) fournit l’occasion de revisiter quelques-uns des fondamentaux de l’interrogation de la banque de données.

En théorie : trois données essentielles
La première donnée ind
Formuler une équation de veille dans PubMed consiste à interroger d’une part la partie indexée de la banque de données et d’autre part sa partie non indexée.

Pourquoi 2 parties ?
Ces 2 parties sont une particularité de PubMed.
Elle est liée au délai nécessaire à l’indexation des articles.
Ce délai est :
– court pour les « dinosaures » de la presse médicale internationale (NEJM, Jama, Annals of Internal Medicine…) ;
– plus long pour les autres périodiques, notamment ceux qui ne sont pas anglophones.
C’est ce qui conduit à l’existence :
–  d’un PubMed indexé (dénommé MEDLINE),
– et d’un PubMed non indexé (en attente ou en cours d’indexation, ce qui représente entre 2 et 6% du contenu de la banque de données).

Pourquoi interroger les 2 parties ?
L’interrogation de la partie non indexée est capitale car cette partie contient la majeure partie des articles les plus récents. En effet, en tant que récents, leur principal risque est de ne pas être indexés.
L’interrogation de la partie indexée est tout aussi capitale car il n’est pas possible d’écarter les articles récents en provenance du cœur (Core Clinical Journals) des périodiques médicaux (et, a priori déjà indexés).

Pourquoi interroger les 2 parties différemment ?
La seule raison est la présence d’un index dans un cas et son absence dans l’autre.
La partie indexée est interrogée « dans les règles » par une équation de recherche conforme au langage (MeSH) et à la grammaire (affiliations, champs, opérateurs) de PubMed. C’est possible en s’appuyant sur le contenu de l’index.
En l’absence d’index, la partie non indexée est interrogée « en mode dégradé ». L’index est remplacé par les titres et résumés, mis à la disposition de PubMed par les éditeurs et dans lesquels sont recherchés les termes de la requête. Comme ceux-ci sont rarement des descripteurs, l’outil de recherche est interrogé avec les synonymes en langage courant de ces descripteurs.

La deuxième donnée
En faisant appel aux opérateurs booléens*, la requête partie indexée ET (AND) partie non indexée est formulée partie indexée OU (OR) partie non indexée.

Pourquoi traduire AND par OR ?
AND croise
En se référant à Google, l’équation asthme AND bronchite affiche toutes les pages du Web contenant à la fois les mots asthme et bronchite.
OR unit
Toujours dans Google, l’équation asthme OR bronchite affiche toutes les pages du Web contenant le mot asthme, toutes celles contenant le mot bronchite (et toutes celles contenant les 2 mots).
A l’évidence, c’est l’opérateur OR qui convient le mieux à ce que vous attendez de votre équation de veille : l’affichage des références de la partie indexée et celui des références de la partie non indexée.

La troisième donnée
Dans l’équation de veille, la partie non indexée est interrogée indépendamment de la partie indexée. L’équation exclut cette partie indexée de l’interrogation de la partie non indexée.
Schématiquement, l’équation de veille est formulée : partie indexée OR (partie non indexée NOT partie indexée)**.

Quelle est la justification de cette exclusion ?
La principale est la cohérence dans la formulation de l’équation. En l’absence d’exclusion, l’interrogation « en mode dégradé » (synonymes et champ [tiab]) est faite aussi bien dans la partie non indexée que dans la partie indexée. Comme cette dernière a déjà été interrogée « dans les règles », rien ne justifie qu’elle le soit aussi « en mode dégradé ». D’où l’exclusion.

Quelles sont les conséquences pratiques de cette exclusion ?
Cette exclusion nécessite la mise en place de parenthèses aux bons endroits (voir plus loin : « en(tre) parenthèses »).


En live : une équation de veille
Vous envisagez une veille bibliographique sur le thème « les SMS dans le sevrage tabagique ».
Vous formulez votre équation de veille selon le modèle : partie indexée OR (partie non indexée NOT partie indexée)

La partie indexée est formulée « dans les règles » selon le langage et la grammaire de la banque de données.
Smoking Cessation/MT AND Text Messaging [mh]

La partie non indexée est formulée « en mode dégradé ».
Vous croisez (opérateur AND) :
– d’une part smoking cessation et ses synonymes (eux-mêmes croisés avec methods et ses synonymes),
– d’autre part text messaging et ses synonymes.
Smoking cessation et ses synonymes sont unis par l’opérateur OR. Il en est de même de methods et ses synonymes et de text messaging et ses synonymes.
Tous ces termes sont recherchés dans les titres et les résumés (champ [tiab]).

Les deux parties sont unies par OR et la partie indexée est exclue de l’interrogation de la partie non indexée (opérateur NOT).

Au total, l’équation de veille sur « SMS dans le sevrage tabagique » se formule ainsi :
Smoking Cessation/MT AND Text Messaging [mh] OR ((smoking cessation [tiab] OR smoking cessations [tiab]) AND (text messaging [tiab] OR texting*[tiab] OR text message* [tiab] OR short message service [tiab]) AND (methods [tiab] OR techniques [tiab] OR procedures [tiab] OR methodology [tiab]) NOT MEDLINE [sb])

En clair : le live commenté
Il y a peu à dire sur la formulation de la partie indexée.
Le qualificatif methods est affilié à bon escient au descripteur Smoking Cessation. L’affiliation correspond au thème de la requête. Elle n’a nul besoin de champ, étant reconnue comme telle par PubMed.
Le champ MeSH terms ([mh]) est attribué à Text Messaging pour éviter que le descripteur soit « mouliné » par l’Automatic term mapping.
L’équation est « dans les règles ».

Il y a un peu plus à dire sur la formulation « en mode dégradé » de la partie non indexée.
Comme il a été dit précédemment, dans ce type de formulation, les titres et les résumés font office d’index et les termes MeSH sont unis (opérateur OR) à leurs synonymes en langage courant.
La liste des synonymes (en langage courant) de chaque descripteur (terme MeSH) figure dans la banque de données du MeSH (MeSH Database). Vous pouvez vous abstenir de retenir comme synonymes
– les pluriels car la troncature droite (voir note) permet de les prendre en compte ;
– les « synonymes à virgule » car les chances qu’ils figurent dans un titre ou un résumé sont faibles pour ne pas dire inexistantes.
L’exclusion de la partie indexée se traduit en langage de requête par NOT MEDLINE [sb], MEDLINE étant pris en compte pour son statut vis-à-vis de l’indexation (citation status) d’où son champ « subset »([sb]).

Note
Dans PubMed, la troncature droite est signalée par un astérisque (*). Elle signifie, entre autres, que sont pris en compte le singulier et le pluriel.
testing* = testing OR testings

En(tre) parenthèses
Les difficultés rencontrées dans la mise en place des parenthèses sont bien réelles. Elles concernent les opérateurs OR et NOT.

Pour OR, la règle est simple : les termes encadrant l’opérateur OR sont mis entre parenthèses.
Une exception : quand OR est le premier opérateur de l’équation, les parenthèses sont inutiles.
Exemple
smoking cessation [ti] AND (methods [tiab] OR procedures [tiab])
methods [tiab] OR procedures [tiab] AND smoking cessation [ti]

Pour NOT, la règle dépend du contexte.
Si vous formulez une équation sur la contraception de l’adolescente, c’est simple : vous excluez les adultes de l’équation. Les parenthèses sont inutiles.
Contraception/MT AND Adolescent [mh] NOT Adult [mh]
En revanche, cela devient plus compliqué si vous prenez l’exemple de l’équation de veille sur « les SMS dans le sevrage tabagique ». Une seule raison à cela : vous devez écarter la première équation de la deuxième.
partie indexée OR partie non indexée NOT partie indexée
Si vous ne faites rien (pas de parenthèses), les deux « parties indexées » s’annulent et vous affichez dans la page de résultat les références de la partie non indexée.
Les parenthèses permettent de remédier à cela en isolant la partie de l’équation concernée par NOT : une parenthèse avant, une parenthèse après.

Exemple avec la veille sur les SMS dans le sevrage tabagique.
Smoking Cessation/MT AND Text Messaging [mh] OR ((smoking cessation [tiab] OR smoking cessations [tiab]) AND (text messaging [tiab] OR texting*[tiab] OR text message* [tiab] OR short message service [tiab]) AND (methods [tiab] OR techniques [tiab] OR procedures [tiab] OR methodology [tiab]) NOT MEDLINE [sb])

La première parenthèse « ouvre » la partie concernée par l’exclusion (qui va de smoking cessation [tiab] à methodology [tiab]). La dernière parenthèse « ferme » la partie exclue (MEDLINE [sb]).

Note
Pas de panique !
Quand le résultat obtenu avec votre équation de veille ne vous semble pas très cohérent (notamment dans le rapport non indexés/indexés), décomposez votre équation en plusieurs parties et testez l’interrogation de chacune d’elles dans PubMed. Vous trouverez facilement le défaut.


Ce billet de blog est long
Si vous avez été jusqu’au bout : bravo ! Vous avez du mérite et vous savez, maintenant, formuler une équation de veille. Si vous avez abandonné en cours de route, ne vous formalisez pas. Formulez vos équations de veille « comme vous le sentez », mais sans solliciter le module de veille de MyNCBI (create alert) qui n’est qu’un gadget pour geek borné.

Ce billet de blog est long, trop long, mais c’est un concentré (un peu lourd à digérer) de ce que vous devez savoir et que vous ne trouverez nulle part ailleurs. Faites-en ce que vous voulez : stockez-le, imprimez-le, distribuez-le… Vous pouvez en disposer librement : il est publié sous licence Creative Commons Attribution (CC BY 2.0) comme tous les billets de ce blog. Votre seule contrainte est de mentionner le nom de son auteur quand vous le diffusez.

C’est un avant-goût de la nouvelle version de l’Anti-manuel de PubMed à paraitre chez Amazon au début du mois de mai 2017.

*Les opérateurs booléens (du nom de George Boole, un mathématicien anglais du XIXè Siècle) sont :
– AND (ET) qui croise les termes de la requête ;
– OR (OU) qui les unit ;
– NOT (SANS) qui exclut l’un des termes.

**Le principe de l’équation de veille dans PubMed est exposé dans l’article :
Damarell RA, Tieman JJ, Sladek RM.
OvidSP Medline-to-PubMed search filter translation: a methodology for extending search filter range to include PubMed’s unique content.
BMC Med Res Methodol. 2013 Jul 2;13:86. doi:10.1186/1471-2288-13-86.
PubMed PMID: 23819658; PubMed Central PMCID: PMC3700762.

 

 

 

 

 

 

This entry was posted in Uncategorized. Bookmark the permalink. Follow any comments here with the RSS feed for this post. Post a comment or leave a trackback: Trackback URL.

8 Responses to La veille dans PubMed : le casse-tête des opérateurs

  1. Pierre dit :

    Bonjour,
    Merci pour cet article très intéressant et très bien détaillé.
    Que pensez-vous d’une équation de recherche qui interrogerait indifféremment partie indexée et non indexée ?
    A ce titre, en reprenant votre exemple, quel serait votre avis sur cette équation ?

    (Smoking Cessation/MT OR ((smoking cessation [tiab] OR smoking cessations [tiab]) AND (methods [tiab] OR techniques [tiab] OR procedures [tiab] OR methodology [tiab]))) AND (Text Messaging [mh] OR (text messaging [tiab] OR texting*[tiab] OR text message* [tiab] OR short message service [tiab]))

    On peut observer une différence dans le nombre de résultats entre votre équation (95 refs) et celle-ci (149 refs), d’où ma question (qui n’est pas une critique bien entendu).

    Ce « mélange » permettrait éventuellement de trouver quelques références intéressantes en plus (ex : PMID 26031929). Qu’en pensez-vous ?

    Merci pour votre avis et pour les articles de votre blog.

  2. philippe eveillard dit :

    Bravo!
    Je pense que vous avez raison.
    J’ai un début d’explication, mais je vais la vérifier sur d’autres thèmes de veille.
    Je vous tiens au courant dans les 48 heures.

  3. philippe eveillard dit :

    Votre suggestion consiste à formuler une équation de veille de telle façon que chaque membre de l’équation interroge la partie indexée et la partie non indexée.
    Schématiquement, pour une équation du type membre 1 AND membre 2, l’équation de veille se formule :
    (membre 1 [partie indexée] OR membre 1 [partie non indexée]) AND (membre 2 [partie indexée] OR membre 2 [partie non indexée])
    Rappel
    L’équation de veille « NOT Medline » est formulée de telle façon que l’équation interroge d’une part la partie indexée et d’autre part la partie non indexée (en excluant la partie indexée, c’est-à-dire Medline).
    Schématiquement, pour le même type d’équation que précédemment, l’équation de veille se formule :
    membre 1 AND membre 2 [partie indexée] OR (membre 1 [partie non indexée] AND membre 2 [partie non indexée] NOT Medline)

    L’existence de ces 2 formulations conduit à se poser 2 questions.
    Pourquoi la référence à laquelle vous faites allusion manque-t-elle dans l’équation de veille « NOT Medline » ?
    La partie indexée est interrogée par l’équation Smoking Cessation/MT AND Text Messaging [mh]. L’affiliation est bien dans l’index mais le descripteur ne l’est pas. Une bonne raison pour que la référence ne soit pas dans le résultat (de la partie indexée).
    La partie non indexée est interrogée avec des mots recherchés dans les titres et les résumés. Dans ceux-ci sont mentionnés smoking cessation, text messaging (dans l’expression automated text messaging), mais ni methods, ni aucun de ses synonymes. La référence n’a pas lieu d’être dans le résultat (de cette partie non indexée).
    D’où son absence dans le résultat de l’équation « NOT Medline ».
    A l’inverse, dans votre équation, en écartant la partie non indexée de Smoking Cessation/MT et certains synonymes de text messaging, il reste une équation : Smoking Cessation/MT AND text messaging [tiab] qui affiche la référence (PMID 26031929).
    (Smoking Cessation/MT OR ((smoking cessation [tiab] OR smoking cessations [tiab]) AND (methods [tiab] OR techniques [tiab] OR procedures [tiab] OR methodology [tiab]))) AND (Text Messaging [mh] OR (text messaging [tiab] OR texting*[tiab] OR text message* [tiab] OR short message service [tiab]))

    Quels changements apporte votre suggestion ?
    A première vue, une amélioration de la sensibilité.
    Vous avez noté une augmentation du nombre de références qui passe de 95 à 149 dans l’équation de veille « SMS et sevrage tabagique » quand elle est formulée selon votre modèle.
    J’ai voulu vérifier ce changement avec 2 équations de veille que j’avais proposé comme exemples dans la version 2016 de l’Anti-manuel de PubMed.
    La première concerne le déficit en vitamine D dans la post-ménopause.
    Formulation « NOT Medline »
    Vitamin D deficiency [mh] AND Postmenopause [mh] OR ((vitamin D deficiency [tiab] OR vitamin D deficiencies [tiab]) AND (postmenopause [tiab] OR post-menopausal period [tiab] OR post-menopause* [tiab]) NOT Medline [sb]
    Formulation suggérée
    (Vitamin D deficiency [mh] OR (vitamin D deficiency [tiab] OR vitamin D deficiencies [tiab])) AND (Postmenopause [mh] OR postmenopause [tiab] OR post-menopausal period [tiab] OR postmenopause* [tiab])
    Résultat : augmentation de la sensibilité avec la formulation suggérée (de 169 à 189 le 30 avril 2017).
    La deuxième a pour thème « les thromboses veineuses, complications des cancers ».
    Formulation « NOT MEDLINE »
    Venous Thrombosis/ET AND Neoplasms/CO OR ((Venous thrombosis [tiab] OR deep vein thrombosis [tiab]) AND (etiology [tiab] OR causes [tiab] OR causality [tiab]) AND (neoplasms [tiab] OR cancer [tiab] OR cancers [tiab]) AND complications [tiab] NOT MEDLINE [sb])
    Formulation suggérée
    (Venous thrombosis/ET OR ((venous thrombosis [tiab] OR deep vein thrombosis [tiab]) AND (etiology [tiab] OR causes [tiab] OR causality [tiab]))) AND (Neoplasms/CO OR ((Neoplasms [tiab] OR cancer [tiab] OR cancers [tiab]) AND complications [tiab]))
    Résultat : augmentation de la sensibilité avec la formulation suggérée (de 2308 à 2542 le 1er mai 2017)
    Au total
    La suggestion est la bienvenue.
    Elle se justifie surtout quand l’équation de veille n’affiche qu’un petit nombre de références supplémentaires par rapport à l’équation de recherche.

  4. Pierre dit :

    Merci pour votre réponse détaillée et pour vos recherches.

  5. Philippe AMELINE dit :

    Pour « faire simple », on pourrait distinguer trois types de requêtes :
    – La « pure Mesh » : M1 AND M2
    – La Mesh + libre : (M1 OR L1) AND (M2 OR L2)
    – La veille : M1 AND M2 OR (L1 AND L2 NOT MEDLINE[sb])

    La différence entre « Mesh + libre » et veille vient du fait que, dans la première, la recherche qui utilise du texte libre se fait également dans les articles indexés, donc « bruite » plus que l’équation de veille qui sépare bien « recherche Mesh dans l’indexé, recherche en texte libre dans le non indexé ».

    Il est vrai que, dans les cas où les équations ramènent peu de références, le bruit est compensé par le surcroît de sensibilité.

    Au passage, la recherche « Mesh + libre » est celle qui est utilisée par défaut au sein du CRBM de Cismef… ce qui permet, en remaniant leur équation, de construire une équation de veille avec des synonymes auxquels on n’aurait pas pensé. Je me demande d’ailleurs pourquoi ils ne proposent pas une option « équation de veille ».

  6. Gaétan dit :

    Philippe AMELINE m’interpelle sur Twitter concernant ce billet. Tout à fait d’accord sur la nécessité de combiner termes MeSH et non MeSH pour avoir des résultats suffisamment complets pour une veille.

    Quelques commentaires :

    – Le code [TW] [text word] remplace avantageusement [tiab] car il inclut les mots clés fournis par les auteurs
    – On ne distingue plus dans nos requêtes via CRBM la partie indexée et non indexée (i.e NOT medline[sb]) pour pallier les problèmes de qualité de l’indexation MeSH dans PubMed qui est variable et qui se repose de plus en plus sur des outils automatiques

  7. Philippe AMELINE dit :

    Merci de la réponse, Gaétan… d’un autre côté, il serait possible, au sein du CRBM d’ajouter un bouton « équation de veille ». L’utilisateur testerait les deux approches (« Mesh + libre » vs veille) et déciderait de celle qui convient à son contexte.

    Il suffirait de demander à Philippe Eveillard d’écrire l’aide en ligne 😉

  8. Gaétan dit :

    1) Je pense que notre équation, enrichie automatiquement, n’est pas trop mauvaise pour une veille.
    2) Un utilisateur capable de comprendre ce genre d’option est sûrement capable d’écrire son équation à la main (ce qui reste la meilleure solution si on veut vraiment maîtriser le rapport bruit/silence)

Leave a Reply

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>