Interprétation combinée des analyses ajustées et non ajustées

Pourquoi ce billet de blog

Tout vient de l’interprétation, avec des collègues cliniciens de l’article suivant BMJ 2021;372:m4948. Dans le modèle de base (seulement ajusté sur le sexe, l’âge et l’effet centre), l’effet (hazard ratio) d’une forte consommation de céréales raffinées (>= 350 g/jour) par rapport à une faible consommation (< 50 g/jour) sur le critère composite de mortalité et événement cardiovasculaire majeur était estimé à 1.12 (IC95% : 1.03 à 1.21, p=0.05). Après des ajustements successifs sur des facteurs socio-économiques et de comportements à risque ou protecteurs (tabac, alcool, obésité, consommation de fruits/légumes, etc.), l’effet n’a cessé de croitre pour atteindre 1.29 (IC95% : 1.16 à 1.43, p<0.0001) dans le modèle complètement ajusté. De mon point de vue, cette amplification de l’effet lors des ajustements était un argument pour penser à l’existence d’une relation causale, puisqu’en cas de sous-ajustement (très probable ici), cela montrait que l’effet réel était plus grand encore que l’effet ajusté observé. J’aurais été beaucoup plus réservé dans mes conclusions si l’effet non ajusté avait été estimé à 3.00 et qu’il était descendu à 1.29 (IC95% : 1.16 à 1.43) après ajustement ; en fait, connaissant la grande difficulté à mesurer les facteurs comportementaux et socio-économiques, j’aurais probablement considéré que cette étude ne fournissait aucun argument pour penser à une augmentation causale du risque de morbi-mortalité. J’ai alors constaté que mes collègues ne faisaient pas du tout cette interprétation combinée des analyases brutes et ajustée. Je me suis alors dit que l’analyse que je faisais intuitivement devait être formalisée pour pouvoir être communiquée ; c’est l’objet de ce billet de blog.

Définition

Il est fréquent que l’on s’intéresse à l’effet d’une exposition contrôlable sur un état de santé futur. L’exposition peut être une intervention (p.e. administration d’un médicament) ou peut-être une exposition subie (p.e. pollution atmosphérique). Dans les deux cas, il y a, dans une certaine mesure, une possibilité de contrôler directement ou indirectement l’exposition. Se pose alors la question : en imposant ou réduisant l’exposition, peut-on améliorer l’état de santé moyen de la population ? C’est ce que nous appelerons une causalité contrafactuelle probabiliste. Il existe d’autres définitions de la causalité, mais nous ne nous y intéresserons pas.

Notion de facteur de confusion

Afin de rechercher cette causalité, il est habituellement cherché une corrélation entre l’exposition et l’état de santé futur (outcome). Mais des corrélations non causales sont possibles, notamment en raison de facteurs de confusion. Un facteur de confusion est une cause commune de l’exposition et de l’outcome, ne permettant plus de considérer que la corrélation entre l’exposition et l’outcome est entièrement causale. Un ou plusieurs facteurs de confusion peuvent faire complètement apparaître une corrélation entre l’exposition et l’outcome alors qu’aucune relation causale n’existe. Ils peuvent aussi aléter une relation causale existante, en amplifiant, réduisant, annulant ou inversant une corrélation causale existante. En cas d’inversion de la relation, on parle de paradoxe de Simpson.

Exemple caricatural

Un exemple très caricatural, qui fera transparaître ce paradoxe de manière évidente, c’est la ventilation mécanique et la COVID-19. Les patients mécaniquement ventilés ont une mortalité bien plus élevée que les autres ; on ne peut pas en déduire qu’il faudrait arrêter de les ventiler. Le facteur de confusion est la sévérité de la détresse respiratoire, qui est à la fois la cause de leur mortalité élevée et de l’instauration d’une ventilation mécanique. Si on sélectionnait un sous-groupe de patients avec une détresse respiratoire pour lesquels il y avait une indication à la ventilation mécanique, et qu’on leur attribuait aléatoirement une ventilation mécanique, on constaterait très certainement une meilleure survie dans le groupe bénéficiant de la ventilation mécanique.

Il est à noter que, selon le point de vue, thérapeutique ou pronostic, l’interprétation diffère nettement. Si on apprend qu’un de nos proches est hospitalisé en réanimation avec une ventilation mécanique, on a toutes les raisons de craindre le pire plutôt que de se rassurer faussement en se disant qu’il est entre de bonnes mais, avec la meilleure thérapeutique qu’on puisse lui donner. En effet, les traitements mais aussi du contexte ayant conduit à la prescription de ces traitements, doivent être pris en compte dans l’évaluation d’un pronostic absolu, sous la forme d’un simple pourcentage, tel que : ses chances de survie sont de 50%.

Notion d’ajustement statistique

Une manière classique d’éliminer un facteur de confusion dans l’évaluation d’une corrélation causale, est l’ajustement statistique. Il existe de très nombreuses manières d’ajuster, mais les différentes méthodes sont plus ou moins équivalentes et reviennent toujours approximativement à faire quelque chose d’assez intuitif : une moyenne d’analyses en sous-groupes.

Sur l’exemple de la ventilation mécanique, on pourra s’intéresser aux patients admis aux urgences pour COVID-19. En supposant que la SpO2 (oxymétrie de pouls) soit évaluée chez tous les patients à l’admission, on pourra définir deux groupes : les patients avec désaturation en air ambiant au repos (SpO2 < 92%) et les patients sans désaturation (SpO2 >= 92%). On pourra alors observer l’effet de la ventilation mécanique chez les patients avec désaturation, c’est-à-dire, la différence de pronostic (p.e. mortalité) entre les patients avec désaturation et ventilation mécanique et les patients avec désaturation mais sans ventilation mécanique. De même, on pourra observer l’effet de la ventilation mécanique chez les patients sans désaturation, à condition de trouver des patients sans désaturation mais ayant quand même eu une ventilation mécanique. En bref, on évaluera l’effet de la ventilation mécanique dans des sous-groupes « homogènes » en termes d’oxymétrie. On pourra ensuite faire la moyenne pondérée de ces effets de la ventilation mécanique en sous-groupes. Il existe plusieurs pondération possibles de ces effets en sous-groupes, mais la plupart des méthodes d’ajustement seront équivalentes à une pondération proportionnelle à la quantité d’information (inverse de la variance ou différence de log-vraisemblance) dans chacun des sous-groupes. Cette méthode de pondération par l’inverse de la variance est l’estimateur le plus efficace (moindre variance) sous l’hypothèse que les effets de la ventilation mécanique sont identiques dans tous les sous-groupes d’oxymétrie, de telle sorte que la seule différence que l’on observe dans les effets en sous-groupes est due aux fluctuations d’échantillonnage. Le détail technique de la méthode de pondération doit être connu lorsqu’on craint une interaction statistique, c’est-à-dire, que les effets du traitement diffèrent selon le sous-groupes.

Pourquoi un ajustement permet-il de s’abstraire d’un facteur de confusion ? Parce que dans chacun des sous-groupes, le facteur de confusion est « constant », il ne peut plus être à l’origine d’une corrélation entre l’exposition et l’outcome. On retrouve alors la corrélation causale entre l’exposition et l’outcome, ou la corrélation explicable par les autres facteurs de confusion.

Notion de sous-ajustement

Un ajustement permet-il vraiment de s’abstraire d’un facteur de confusion ? C’est la théorie, la pratique est assez différente… En reprenant l’exemple de l’oxymétrie et la ventilation mécanique, de nombreux problèmes persistent, même après ajustement.

  1. Le découpage de l’oxymétrie en deux catégories (< 92% vs >= 92%) ne garantit pas son homogénéité dans chacune des deux catégories.
  2. La mesure de l’oxymétrie est ponctuelle et unique ; première mesure à l’admission aux urgences, elle ne prend pas en compte l’évolution dans les heures et jours qui suivent.
  3. La SpO2 (oxymétrie colorimétrique) est une mesure imparfaite de la SaO2 (saturation mesurée précisément sur un prélèvement de sang artériel), avec une erreur de mesure non négligeable.
  4. L’oxymétrie ne reflète que partiellement la détresse respiratoire ; elle ne prend pas en compte la capnie, ni le tirage, ni la réponse aux autres thérapeutiques telles que l’oxygénothérapie non invasive.
  5. La détresse respiratoire ne résume pas complètement l’indication de la ventilation mécanique ; une décompensation aigüe d’une insuffisance cardiaque chronique ou une anémie pourraient aggraver le tableau clinique et conduire plus facilement à l’indication.

Le problème N°1, peut être résolu par un affinement de l’ajustement, en découpant la SpO2 en un plus grand nombre de catégories, ou par appariement sur la SpO2, ou par une modélisation de l’effet de la SpO2 sur le pronostic par une spline décrivant la relation de manière non-linéaire mais continue dans un modèle additif généralisé. Cela arrive néanmoins que les auteurs d’un article fassent un ajustement très grossier, sans qu’on ait accès aux données pour refaire l’analyse de manière plus fine.

Néanmoins, les problèmes N°1 à N°4 peuvent se résumer en une erreur de mesure par rapport à la notion de « détresse respiratoire conduisant à une indication de la ventilation mécanique ». Le problème N°5, c’est l’existence d’autres facteurs de confusion. La conséquence pratique de tous ces problèmes est la persistance d’un biais de confusion résiduel ; l’ajustement est insuffisant ; on sous-ajuste.

En effet, à l’intérieur d’une catégorie soi-disant homogène de détresse respiratoire (SpO2 < 92%), les patients avec ventilation mécanique seront plus souvent ceux qui ont une SpO2 particulièrement basse (p.e. 85% plutôt que 91%), ou auront mal répondu à l’oxygénothérapie non invasive, ou auront eu une hypercapnie. Il y aura donc un biais de confusion dans chacun des sous-groupes, et dans l’analyse ajustée globale.

Notion de proportion d’ajustement

Le sous-ajustement est la règle plutôt que l’exception. Les variables mesurées manquent toujours de finesse, sont souvent mal mesurées, et il existe alors toujours un biais de confusion résiduel. Néanmoins, on peut évaluer de manière informelle et approximative les conséquences de ce biais de confusion résiduel, si on dispose à la fois de l’effet ajusté et non ajusté de l’intervention. C’est pourquoi beaucoup d’articles présentent les deux à la fois !

On peut formaliser la notion de sous-ajustement de manière quantitative. Sur un échantillon, on observera toujours un effet imparfaitement ajusté, en raison des erreurs de mesures et approximations des concepts (p.e. détresse respiratoire au moment de l’introduction de la ventilation mécanique approximé à la SpO2 à l’admission). On imagine alors qu’il existe un effet parfaitement ajusté, que l’on obtiendrait si on mesurait le concept sous-jacent de manière parfaite et qu’on ajustait de manière infiniment fine dessus. On va considérer trois effets : effet brut non ajusté (Ebrut), effet imparfaitement ajusté (EIA) et effet parfaitement ajusté (EPA). Plaçons nous dans un contexte où les échantillons sont suffisamment grands pour qu’on n’aie plus à distinguer les effets observés des effets réels.

Alors, dans un modèle additif, nous allons définir la proportion d’ajustement, comme le rapport (EIA-Ebrut)/(EPA-Ebrut). Par exemple, si l’effet brut s’exprime comme une surmortalité de +20%, que l’effet imparfaitement ajusté est une surmortalité de 10% et que l’effet parfaitement ajusté est une sous-mortalité de 10%, alors Ebrut=+20%, EIA=+10% et EPA=−10% et la proportion d’ajustement (PA) est d’un tiers. On peut alors dire qu’on a ajusté 33% du biais de confusion attribuable au concept sous-jacent à la variable d’ajustement d’intérêt. Connaissant PA, Ebrut et EIA, on peut calculer EPA comme Ebrut+(EIA-Ebrut)/PA.

Évidemment, en pratique, on peut seulement estimer Ebrut et EIA, la valeur de EPA restant inconnue ; pourtant c’est bien EPA qui nous intéresse. Cependant, on peut faire des spéculations sur la proportion d’ajustement PA afin de se faire une idée du domaine dans lequel EPA se situe. Cette proportion est, a priori, comprise entre 0 et 1, si on considère qu’on aura tendance à sous-ajuster, comme mentionné précédemment. L’inverse de la proportion d’ajustement sera alors comprise entre 1 et l’infini. Il est très difficile de connaître précisément la proportion d’ajustement, mais on peut imaginer qu’avec une mesure à peu près correcte du facteur de confusion, on aura rarement un PA < 0,10 et donc, un inverse de PA supérieur à 10. De mon expérience subjective sur des analyses statistiques avec des variables mal mesurées par rapport à des analyses sur des variables très finement mesurées ou par rapport aux résultats des essais cliniques randomisés, le PA sera le plus souvent supérieur à 0,50 et pourra assez souvent atteindre voire dépasser 0,80. Néanmoins, il n’y a strictement aucun seuil consensuel. En fait, en 2021, je ne pense pas que le concept de PA ait été formalisé et décrit aussi bien que je ne l’ai fait ici.

Exemples d’interprétation

Supposons encore que l’on néglige les incertitudes statististiques dus à des tailles d’échantillon limitées et que l’on s’intéresse à évaluer l’effet d’un traitement sur le risque de mortalité. Un effet négatif (p.e. -10%) correspondrait à un traitement efficace, car protecteur, alors qu’un effet positif correspondrait à un effet nocif. Considérons une étude observationnelle sur ce traitement, avec un potentiel biais d’indication. Considérons que la proportion d’ajustement est raisonnablement comprise entre 1/3 et 100% ; c’est-à-dire que l’ajustement est peut-être de mauvaise qualité (1/3), ou de bonne qualité, voire parfait.

Effet brut
Ebrut
Effet imparfaitement ajusté
EIA
Pari sur la proportion d’ajustement (PA)Pari sur l’effet parfaitement ajusté EPAConclusion
+20%+10%1/3 à 1+10% à -10%Efficacité inconnue
+10%+10%1/3 à 1Environ +10%Traitement efficace
+0%+10%1/3 à 1+10% à +30%Traitement efficace
-10%+10%1/3 à 1+10% à +50%Traitement efficace
+10%0%1/3 à 10% à -20%Traitement inefficace, voire nocif
-10%0%1/3 à 10% à +20%Traitement possiblement efficace

L’intervalle de pari de l’effet parfaitement ajusté est calculé à partir de la formule EPA=Ebrut+(EIA-Ebrut)/PA. On constate que bien qu’il y ait une grande incertitude, il existe plusieurs scenarii dans lesquels la conclusion reste quand même univoque. Par exemple, si l’effet brut du traitement passe de 0% à +10%, on peut se dire que le traitement était désavantagé par un biais d’indication tendant à fournir le traitement aux patients les plus fragiles et que malgré cela, l’efficacité réelle du traitement arrivait à compenser complètement se désavantage. En ajustant imparfaitement, on sous-estime encore le bénéfice du traitement. À l’opposé, si l’effet du traitement passe de +20% à +10% lors d’un ajustement de piètre qualité, on peut se dire que ce traitement était avantagé par le biais d’indication et qu’une partie de l’avantage persiste peut-être encore : on est en droit de douter du bénéfice du traitement.

Tout ceci montre qu’il faut à la fois avoir les effets bruts et les effets ajustés pour interpréter l’effet causal d’une exposition. Les analyses de sensibilité sur le possible biais de confusion résiduel devraient se faire sous la forme d’une proportion d’ajustement.

Sur certaines variables, telle que la catégorie socio-économique ou des facteurs de style de vie (p.e. alimentation) les erreurs de mesure sont très fortes et il est possible qu’on sous-ajuste avec une proportion d’ajustement inférieure à 30% (https://www.bmj.com/content/373/bmj.n604).

Variante du concept

Sur des odds ratio, risques relatifs ou hazard ratio, on peut conceptualiser la proportion d’ajustement sur une échelle logarithmique ou pas. Supposant, par exemple, que l’odds ratio brut soit à 4,0, l’odds ratio imparfaitement ajusté soit à 2,0 et l’odds ratio parfaitement ajusté soit à 1,0, alors on peut considérer que la proportion d’ajustement est à 50% sur l’échelle logarithmique plutôt que 3/4 sur une échelle non modifiée. Comme la proportion d’ajustement est très incertaine, la nuance n’a pas d’importance la plupart du temps.

Limites du raisonnement

La première limite d’interprétation, c’est la grande inconnue et la grande subjectivité concernant les proportions d’ajustement que l’on peut considérer comme plausible. Cela n’empêche pas forcément de conclure, comme mentionné auparavant. Il est très fréquent, malheureusement, de considérer que la proprotion d’ajustement est égale à 1, sans aucune incertitude.

La deuxième limite à cette stratégie d’interprétation, c’est le problème N°5 listé dans la section « tendance à sous-ajuster » : la présence d’autres facteurs de confusion que ceux sur lesquels on a ajusté. Si les vrais facteurs de confusion ne sont pas mesurés du tout, on peut avoir l’illusion d’un bon ajustement alors qu’il est mauvais. Par exemple, si on s’intéresse à l’effet d’un programme d’éducation thérapeutique sur l’observance à un traitement et qu’on ajuste sur la sévérité de la maladie, il est très probable qu’on observe un effet ajusté et un effet brut presque identiques et qu’on en déduise qu’on a des résultats robustes à un sous-ajustement. Pourtant on a oublié d’ajuster sur des facteurs psycho-sociaux, généralement absents du dossier médical. Il est probable qu’on ne propose le programme d’éducation thérapeutique qu’à des patients qui sont déjà assez impliqués dans les soins, mais qu’en plus, seuls les plus observants accepte le programme. Ces facteurs psycho-sociaux sont des facteurs de confusion majeurs non mesurés.

La troisième limite, qui se résout néanmoins si on est méthodique, apparait dans la situation où il y a plusieurs variables d’ajustement conduisant à des biais de confusion opposés. Par exemple, on peut constater qu’un effet passe de +20% à +10% après l’ajustement sur une première variable, puisse repasse à +20% lors d’un second ajustement. Si on considère les deux ajustements de manière synthétique, on aura l’impression que le résultat est robuste, (effet brut = +20% et effet ajusté = +20%) alors qu’en réalité, tout dépend des deux proportions d’ajustement associées aux deux variables. Si le premier ajustement est de mauvaise qualité (proportion d’ajustement = 1/4) alors que le second ajustement est parfait (proportion d’ajustement = 1), alors l’effet parfaitement ajusté pourrait être négatif (-10% dans l’exemple). Ce raisonnement ne peut être fait qu’en détaillant les effets dans des modèles successivement ajustés sur un nombre croissant de variables. Il est alors possible de considérer une faible proportion d’ajustement pour toutes les variables biaisant les résultats dans une direction et une forte proportion d’ajustement pour les variables biaisant dans l’autre direction.

Un point qui n’a pas été discuté, c’est l’interprétation combinée de l’incertitude attribuable aux ajustements imparfaits avec l’incertitude, plus classique, attribuable aux fluctuations d’échantillonnage et généralement représentée par des intervalles de confiance. Les deux sources d’incertitude sont indépendantes, puisque les fluctuations d’échantillonnage (fréquentistes et liées à l’expérience) sont sans aucun rapport avec l’incertitude qu’on puisse avoir sur la qualité des ajustements (bayésienne et subjective), du moins lorsqu’on choisit l’intervalle de crédibilité de la proportion d’ajustement en aveugle des résultats. On pourrait donc, en théorie, additionner formellement les deux sources de variance ; cela nécessiterait d’avoir la covariance de l’effet de l’exposition dans l’analyse ajustée avec l’effet de l’exposition dans l’analyse brute ; cette covariance n’est pratiquement jamais donnée mais elle est généralement très forte. On doit pouvoir la calculer de manière indirecte par l’élargissement de l’intervalle de confiance entre l’analyse brute et l’analyse ajustée ; du moins dans les modèles linéaires. Néanmoins, l’incertitude sur la proportion d’ajustement étant énorme, cette considération sera futile la plupart du temps ; par ailleurs, ces calculs seront rarement faits de manière formelle, mais plutôt faits de tête, de manière très approximative.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *