Les modèles de régression logistique multivariés se retrouvent dans beaucoup de publications, sans que la raison de leur réalisation soit clairement annoncée. Cela est dommage parce que la manière de les construire dépend beaucoup de cette raison.
Nous listons ici, un nombre de raisons de réaliser un modèle multivarié :
- Analyses de causalité en épidémiologie analytique, que ce soit la recherche d’un effet nocif d’une exposition, ou bénéfique d’un traitement
- Optimisation de la puissance dans un essai clinique randomisé
- Construction d’un score diagnostique ou de dépistage
- Recherche d’un modèle pronostique ou prédictif
- Recherche de « facteurs de risque »
- Redressement d’un échantillon soumis à des biais de sélection
- Standardisation directe pour « comparer » des populations entre elles
- Imputation simple ou multiple
- Interprétation conditionnelle à des variables qu’on ne peut ignorer
1. Analyse de causalité
Dans ces analyses, on cherche à identifier un lien causal entre une exposition et un outcome, et à rechercher éventuellement l’intensité de ce lien. Le concept, c’est qu’en imposant ou supprimant volontairement l’exposition, on espère influencer l’outcome. La recherche de causalité n’a généralement pas d’intérêt sur des facteurs non modifiables. Si on prend la définition contra-factuelle de la causalité, le concept même n’est pas applicable à des facteurs non modifiables. Pour d’autres définitions, il reste applicable.
Il faut ajuster sur les facteurs de confusion, qui sont chronologiquement antérieurs à l’exposition et à l’outcome et sont à la fois des causes de l’exposition et de l’outcome. D’une manière générale, il ne faut pas ajuster sur les variables chronologiquement postérieures à l’exposition et/ou l’outcome. Il ne faut surtout pas ajuster sur les symptômes et/ou conséquences de l’outcome. Il ne faut pas non plus ajuster sur les facteurs de médiation, sauf lorsque cette analyse est complètement assumée (analyse de médiation).
Dans ces modèles, on ne s’intéressera qu’à l’effet de l’exposition sur l’outcome, ajusté sur les covariables. On voudra aussi avoir une estimation non biaisée de cet effet, un intervalle de confiance non biaisé et un petit p interprétable. On voudra avoir une estimation interprétable et quantifiée, telle qu’une différence absolue de risque plutôt qu’un risque relatif dont l’importance dépend beaucoup du risque de base. La modélisation des effets des covariables, par contre, pourra être fine et complexe puisque leurs effets ne seront pas directement interprétés. On fournira des effets marginaux plutôt que conditionnels.
Les approches guidées par les données (data driven), sont, d’une manière générale, biaisées dans ce contexte. Par exemple, l’inclusion de variables corrélées à l’outcome avec p<0.20 en analyse « univariée », va engendrer des fluctuations d’échantillonnages chaotiques rendant invalide les petits p et intervalles de confiance, en plus d’ajuster insuffisamment l’effet d’intérêt. Les techniques automatiques stepwise/backward/forward sont tout aussi biaisées, de même toute technique « manuelle » de recherche du « meilleur modèle ». Par ailleurs, ces méthodes sont susceptibles d’induire en erreur le statisticien en lui faisant ajuster l’effet d’intérêt sur des variables de médiation.
2. Optimisation de la puissance dans un essai clinique randomisé
Pour commencer, il n’existe pas de facteur de confusion dans un essai clinique randomisé bien mené. Le déséquilibre aléatoire des facteurs pronostiques entre les groupes est à l’origine d’une erreur aléatoire d’espérance nulle et pas d’un biais. Évitez de parler de « biais de confusion résiduel », c’est un vocabulaire inadapté. En même temps que de choisir les variables d’ajustement lors de la rédaction d’un protocole d’essai clinique randomisé, il faut commencer par se demander si l’ajustement est pertinent, tout court. Pour cela, se poser les questions :
- Qu’est-ce que je gagne ?
- Qu’est-ce que je perds ?
Qu’est-ce que je gagne : S’il existe des variables pronostiques majeures, on peut réduire jusqu’à environ 10% le nombre de sujets nécessaires. S’il n’existe que des variables pronostiques « mineures » (p.e. stade TNM IIIa vs IIIb vs IIIc dans un essai clinique incluant des patients avec cancer du colon au stade IIIa), on ne réduira le NSN de 5%, voire moins. Le risque principal, c’est le P-hacking si on a pas été extrêmement explicite sur les procédures d’ajustement dans le protocole et qu’on ne s’est pas assuré que le protocole complet a été publié avant de démarrer l’étude. Il existe d’autres risques, comme le fait de s’orienter vers le modèle logistique sans retransformer l’effet final en différence absolue marginale de risque ou en interprétant un effet conditionnel comme s’il était marginal, ou s’orienter vers un modèle identité-binomial qui est asymptotiquement correct mais sur des échantillons de taille petite ou moyenne est fortement biaisé, d’autant plus qu’on ajuste sur des facteurs fortement pronostiques (cf article de ce blog intitulé « modèle identité-binomial vs identité-gaussien »).
Si on sait ce qu’on fait, alors l’ajustement doit se faire sur des variables suffisamment fortement pronostiques pour que l’erreur d’estimation de l’effet de la variable soit inférieur à l’effet réel de la variable. En bref, le rapport signal/bruit est favorable dans l’estimation de cette variable. Si vous avez une grosse étude, vous pourrez mettre des facteurs faiblement pronostiques. Sur une petite étude, il faut juste mettre les facteurs fortement pronostiques. C’est un pari. Si on ajuste sur des variables peu pertinentes, on augmente un peu l’erreur statistique et baisse un peu la puissance. Si on oublie d’ajuster sur une variable fortement pronostique, on perd aussi un peu en puissance. Les gains et pertes sont minimes (± 1 ou 2% de puissance), sauf pour les variables pronostiques majeures.
Bien sûr, toutes les variables d’ajustement doivent être choisies a priori et les détails méthodologiques hyper-précis doivent être mis dans le protocole, tel que l’estimateur exact utilisé, la méthode d’imputation de chacune des covariables. À la limite, il faut écrire le script d’analyse à l’avance.
Toutes les variables d’ajustement doivent être collectées AVANT la randomisation. Sinon, on risque d’ajuster sur des facteurs de médiation ou de créer des biais d’immortalité et autres variantes.
3. Construction d’un score diagnostique ou de dépistage
La question de la chronologie persiste. Je suppose qu’il existe un Gold Standard, coûteux ou invasif qu’on veut remplacer par des outils diagnostiques plus simples, moins performant ou aussi performant. Dans ce contexte, la question de causalité ne se pose plus. Il n’existe plus de facteur de confusion ou de médiation. Les notions apparaissant sont celles de l’information, de redondance, de « coût » (en temps, en unités monétaires, en effets secondaires, en acceptabilité pour le soignant et patient) de collecte de la variable, mais aussi de parcimonie et de sur-entraînement.
L’usage de méthodes automatiques d’estimation des coefficients, telles que la régression LASSO, ElasticNet ou le stepwise/backward/forward elimination, est autorisée mais n’est pas toujours capable de prendre en compte le coût d’une variable. Il faudra un échantillon de validation distinct de l’échantillon d’entraînement, ou une cross-validation ou autre technique de rectification du sur-entraînement. On a le droit d’utiliser des modèles de machine learning très complexes (p.e. réseaux de neurones), même si je suis convaincu qu’on gagne rarement beaucoup en performance diagnostique avec ces techniques lorsque l’information en entrée est pauvre et qu’on perd beaucoup en transparence et en simplicité d’usage.
La notion de petit p et d’intervalle de confiance disparaît. On doit évaluer les performances diagnostiques du modèle dans son ensemble, par des statistiques telles que l’aire sous la courbe ROC. On doit aussi évaluer la calibration du modèle. On fournira une formule incluant l’ordonnée à l’origine (intercept) du modèle.
La chronologie garde toujours de l’importance. On ne peut pas inclure dans un modèle diagnostique, une variable collectée après le passage du Gold Standard. Par exemple, on ne va pas utiliser la réponse à la radiothérapie contre un cancer du colon comme élément du diagnostic du cancer du colon.
4. Recherche d’un modèle pronostique ou prédictif
Le pronostic, c’est la prédiction de l’évolution favorable (amélioration, guérison) ou défavorable (aggravation, complication, décès) d’une maladie déjà établie.
Le scenario est statistiquement assez similaire à celui d’une étude diagnostique, à ceci près que les variables précèdent chronologiquement l’outcome. Les grands principes restent les mêmes. Il ne faut pas non plus parler de facteur de confusion puisqu’il n’est pas question de causalité, sauf dans de rares cas où on s’intéresse à un facteur pronostique modifiable que l’on pense être causal… Auquel cas, on quitte le champ du pronostic pour rentrer dans le champ de la causalité et les principes énoncés plus haut s’appliquent.
Vous aurez compris que quand on s’intéresse aux biomarqueurs, souvent utilisés dans l’évaluation pronostique ou dans la prédiction de réponse au traitement, on supposent nullement qu’ils sont la cause de l’évolution. Autrement, on rechercherait des traitements qui les ciblent directement. Ils ne sont généralement qu’un symptôme d’un état interne.
Je déconseille l’usage des modèles de Cox avec variable dépendante du temps car ceux-ci ne permettent que la prédiction du présent : dernière mesure de la variable dépendante corrélée avec l’outcome.
Bien sûr, vous l’aurez compris, la chronologie est fondamentale. Rien ne sert de prédire le présent ou le passé. Il faut se placer à un moment chronologiquement bien défini (p.e. diagnostic d’une maladie) et utiliser des variables que l’on peut collecter à ce moment là pour prédire l’événement à un horizon temporel bien défini.
Le moment de l’évaluation doit être explicitement pensé. Par exemple, dans le cas d’un infarctus du myocarde, on peut faire une évaluation pronostique au moment du diagnostic de l’IDM par un gold standard (p.e. coronarographie), on peut faire une seconde évaluation au moment de la sortie d’hospitalisation. Les sujets décédés à l’hôpital ne sont pas concernés du tout par la seconde évaluation pronostique alors qu’au contraire ils peuvent être l’objet de la première ! L’information disponible à la sortie d’hospitalisation est riche et moins volatile (p.e. résultat d’une échographie trans-thoracique à la sortie, degré d’insuffisance cardiaque) que l’information au diagnostic, permettant une évaluation pronostique à moyen et long terme bien plus fine qu’il n’aurait été imaginable de faire au moment du diagnostic.
Attention au modèle de Cox, il conduit au « relativisme ». Tendance à oublier que le risque « de base » est très important à connaître. On peut rechercher les facteurs pronostiques de la sclérose latérale amyotrophique (https://doi.org/10.1007/BF00839964) dont le pronostic global est effroyable (médiane de survie de 2,5 ans) mais considérer que les patients de moins de 65 ans ont un « bon pronostic » parce que leur médiane de survie est de presque 3,5 ans, en oubliant que ce dernier chiffre reste bien petit. Le modèle de Cox fait totalement disparaître de l’équation la courbe de survie de base, trompant donc facilement son monde.
En bref, avant d’expliquer la variance d’un facteur, il faut commencer par estimer son espérance.
Comme pour un modèle diagnostique, un modèle pronostique ou prédictif est basé sur la construction d’une formule permettant de calculer un risque. On peut par exemple, fournir une formule calculant l’espérance de vie restante d’un patient ayant une sclérose latérale amyotrophique.
Ça, c’est la théorie, en pratique, j’ai développé mon propre point de vue, issu de mon expérience qualitative des interactions avec les cliniciens. Il vaut ce qu’il vaut, mais que je vais le partager (c’est l’objet de ce blog).
Les formules, pour la majorité d’entre elles ne seront pas utilisées, et les quelques unes qui le seront (p.e. score Apache) serviront plus à la recherche qu’à la pratique clinique de routine, même si ça dépend des cliniciens, certains étant plus friands que d’autres d’outils qui les guident.
Ces formules ont souvent une très faible validité externe, notamment sur le risque de base, parce qu’elles sont faites sur des échantillons non représentatifs de la population cible, avec en plus de nombreux biais de mesures.
Ensuite, les formules issues de modèles multivariés donnent des poids différents à chaque facteur. On s’aperçoit souvent que cette nuance n’a pas grande importance et qu’en comptant simplement le nombre de facteurs présents, on a des performances pronostiques ou prédictives presque identiques. Au mieux, on peut avoir à distinguer les facteurs majeurs (poids 2) des facteurs mineurs (poids 1).
Ensuite, les cliniciens ont une mémoire énorme, mais limitée. Les consultations sont de courte durée et ils doivent rapidement calculer de tête tous les risques. Cela veut dire qu’ils ne vont pas utiliser la calculatrice que vous leur fournirez, mais ce contenteront de compter consciemment ou inconsciemment le nombre de facteurs de bon ou mauvais pronostic du patient. C’est un peu différent pour la prédiction de réponse au traitement dont la gestion est beaucoup plus codifiée, et nécessite d’être validée par des essais cliniques randomisés.
En bref, de votre article, les cliniciens mémoriseront et utiliseront seulement : les facteurs de risque sont A, B et C. On comprend alors, qu’il est fondamental d’inclure toutes les variables qu’ils utilisent déjà dans la pratique dans votre modèle afin de fournir des nouveaux facteurs pronostiques « indépendants » de ceux qui sont déjà connus. Par exemple, l’âge est un facteur de moralité évident. Si vous analysez le pronostic de la démence à corps de Lewy, vous êtes obligés d’ajuster sur l’âge car l’analyse du clinicien sera toujours conditionnelle à l’âge.
Il ne faut pas non plus inclure de variables qui ne seront pas collectées dans la pratique dans vos formules. Une variable un peu difficile à collecter, si elle apporte beaucoup, sera intéressante à mettre dans le modèle, dans l’idée que même si elle n’est pas encore utilisée en routine, elle le deviendra tellement elle est pertinente. Par contre, n’intégrez pas des variables dans votre modèle si vous savez qu’elles ont été collectées pour la recherche mais ne seront pas utilisées dans la routine clinique. En effet, ces variables risquent d’atténuer, voire de faire disparaître les effets d’autres variables, qui elles seront utilisées dans la routine. Autre formulation : les effets des variables dans le modèle, étant tous conditionnels aux autres, ils ne peuvent être interprétés que lorsque toutes les variables sont mesurées.
In fine, les cliniciens ont besoin d’une simple liste de variables qu’ils sauront employer ensuite. Fournissez leur, autant que possible.
5. Recherche de « facteurs de risque »
Beaucoup d’articles parlent de « rechercher des facteurs de risque » sans préciser ce qu’ils entendent par là. Il y a une ambiguïté. Le terme facteur de risque peut avoir une connotation causale ou pas. Si on souhaite potentiellement modifier ces facteurs de risque pour réduire l’apparition de la maladie, alors les principes de l’analyse causale précédemment décrits s’appliquent, sinon on rentre plutôt dans le champ de la prédiction, avec les principes sus-cités qui s’appliquent.
Plaçons nous maintenant dans un contexte de recherche de facteurs de risque sans que la causalité nous intéresse mais seulement la prédiction.
À quoi cela sert-il ?
À un niveau collectif, cela permet d’identifier des groupes à « haut risque » et à « bas risque » afin de n’appliquer des actions de prévention secondaire (dépistage) qu’à certains sous-groupes. C’est pour cela que le dépistage de certains cancers ne se fait pas en-dessous d’un certain âge. Le risque est trop faible en-dessous de cet âge, pour que les contraintes, risques et coûts associés au dépistage soient rentables. Il faut aussi faire attention à ne pas tomber dans le relativisme. On peut souvent s’apercevoir qu’une action de santé publique n’est pertinente pour personne, ou au contraire est pertinente pour tout le monde. C’est le risque absolu du sous-groupe qu’il faut regarder plutôt que le risque relatif du sous-groupe.
On peut aussi renforcer certaines actions dans des sous-groupes. Il me paraîtrait envisageable d’essayer d’augmenter la couverture vaccinale contre l’hépatite B virale des usagers de drogues intraveineuses, en s’aidant éventuellement du réseau des pharmaciens distribuant les seringues à usage unique (ce n’est qu’une idée). Il est à noter que même si c’est un facteur de risque causal, il n’est modifiable que dans une mesure limitée, et donc, il serait interprété dans cette stratégie comme facteur non modifiable, sans que la causalité ne revête d’intérêt.
À un niveau individuel, pour un clinicien, cela sert parfois à orienter le diagnostic. Une toux, une dyspnée et un amaigrissement progressif chez un patient fumeur orienteront plus rapidement le diagnostic vers le cancer du poumon que chez un non fumeur. Il est à noter que le facteur de risque sera plutôt utilisé comme facteur diagnostic et sa mesure sera synchrone, ou presque, du diagnostic. Le facteur de risque, au sens strict, est utilisé ici comme facteur diagnostic.
6. Redressement d’un échantillon soumis à des biais de sélection
On calcule des pourcentages ou moyennes dans un certain nombre de cases (p.e. combinaison d’une tranche d’âge, un sexe, une catégorie socio-professionnelle), puis on en calcule la moyenne pondérée par le taux de sujets dans ces cases selon une population de référence. Cela correspond au processus de standardisation directe, même si je préfère le terme de redressement lorsqu’il s’agit d’effacer un biais de sélection. Si on veut redresser sur beaucoup de variables, on s’aperçoit rapidement qu’on a zéro ou un sujet pour beaucoup de cases. Cela pose des problèmes d’estimation. Une solution consiste à lisser les estimations en faisant des hypothèses d’additivité de linéarité ou de continuité. On utilisera les « prédictions » du modèle dans chaque case plutôt que le pourcentage ou la moyenne empirique de la case. Il paraît plausible de considérer que le risque de décéder du COVID-19 d’un sujet symptomatique de 71 ans et compris entre celui d’un sujet de 70 ans et celui de 72 ans. Avec un effet polynomial ou une spline, on pourra être même assez fin et estimer avec 4 ou 5 paramètres le risque dans une centaine de cases. Si on ajoute au modèle la présence de maladie respiratoire chronique, en faisant l’hypothèse d’absence d’interaction ou en modélisant de manière simplifiée l’interaction, on pourra seulement ajouter une ou deux paramètres pour doubler le nombre de cases modélisées.
Ces modèles sont alors réalisés avec les idées suivantes :
- Le modèle sous-jacent peut-être complexe car il n’est pas communiqué in fine. On s’autorise l’usage de splines, polynômes, interactions, fonctions de lien complexes.
- Le choix des variables de modélisation s’impose naturellement : il s’agit de l’ensemble des variables connues dans la population de référence sur lesquelles on craint qu’il existe des biais de sélection
- Chaque coefficient supplémentaire intégré dans le modèle réduit le biais d’estimation mais augmente l’erreur. Plus l’échantillon est grand plus les erreurs sont petites alors que les biais sont inchangés. On mettra dans le modèle un nombre de coefficients d’autant plus grand qu’on a un grand échantillon.
- Toutes les hypothèses de modélisation sont fausses. Rien ne sert de les tester. Les hypothèses sont extrêmement nombreuses et les tests d’écart aux hypothèses peu puissants, conduisant à un problème de multiplicité des tests en situation de sous-puissance, associé à des fluctuations d’échantillonnages chaotiques associées aux changements de modélisation induits. Si vous êtes tentés de tester une interaction, mettez plutôt le terme correspondant. Au pire, ça augmentera plus l’erreur que ça ne diminuera le biais.
7. Standardisation directe pour « comparer » des populations entre elles
La standardisation directe correspond à la même procédure statistique que le redressement d’échantillon pour biais de sélection. Mais là, je fais référence à des standardisations pour lesquels l’échantillon sélectionné est représentatif de la population dont il est issu mais que l’on réalise afin de comparer les résultats (pourcentages, moyennes) à une ou plusieurs autres populations de structure différente (variables démographiques ± variables sociales ± variables médicales).
L’interprétation des résultats est fortement différente de celle d’un redressement pour biais de sélection. Dans le cadre d’un redressement pour biais de sélection, le résultat brut n’est pas extrapolable à qui que ce soit alors que dans le cadre d’une standardisation, le résultat brut est tout à fait extrapolable à la population dont il est issu et au contraire, le résultat standardisé ne l’est plus. La standardisation sert à effacer l’effet des variables de standardisation afin de comparer les différences qui n’y sont pas dues.
Comme exemple, considérons une nation qui constate une prévalence élevée de démence dans sa population. Plus élevée, par exemple que dans la nation voisine. Après avoir éliminé une différence due à un biais de mesure (sous-diagnostic ou définition diagnostique différente), on peut se demander : la différence est-elle due à une population plus âgée ? En standardisant sur l’âge d’une même population de référence (l’une ou l’autre des nations ou la population de référence OMS), si la différence disparaît, alors l’explication est bien celle-là. Sinon, il y a d’autres différences qui justifient l’écart.
Le chiffre brut, non ajusté, reste le vrai chiffre, impliquant une nécessité d’organisation sociale et médicale pour subvenir aux besoins de cette population de patients déments. Pire encore, la variable de standardisation (âge ± sexe) n’est pas (ou peu) maîtrisable, de telle sorte qu’on va devoir vivre avec ce vrai handicap par rapport au pays voisin. Si, au contraire, on constate qu’une différence avec le pays voisin est explicable par une différence dans la répartition d’un facteur de risque modifiable (p.e. alcoolisme chronique), alors on a un espoir (ce n’est pas gagné pour l’alcool) d’amélioration avec une politique de prévention primaire ou secondaire.
L’interprétation se fait donc, en comparant successivement les chiffres successivement :
- Chiffres bruts
- Chiffres standardisés sur une ou deux variables (p.e. âge et sexe)
- Chiffres standardisés sur encore plus de variables (p.e. prévalence de l’alcoolisme chronique)
On décompose ainsi la différence en ses constituants. La vraie différence, reste la différence brute.
8. Imputation simple ou multiple
Là, on utilise un modèle pour imputer une donnée une ou plusieurs fois. D’un point de vue théorique, on a le droit d’utiliser toutes les autres covariables pour imputer une covariable. La nécessité de respect de la chronologie, obligatoire dans la plupart des modèles, disparaît ici. La seule limite qu’on doit se mettre sur le nombre de covariables explicatives pour l’imputation, c’est le problème de rapport signal/bruit. Si on a un échantillon un peu petit, on brouille le modèle en rajoutant des variables peu pertinentes dont l’effet sera trop mal estimé, avec une erreur plus grande que l’effet. Dans le pire des cas, on met beaucoup trop de variables peu pertinentes et l’imputation par modèle est équivalente à une imputation par une valeur aléatoire. Le choix de l’intégration d’une covariable dans le modèle dépend de la taille d’échantillon, de la variance de cette covariable et de son effet escompté sur la variable à imputer. On a le droit de faire des modèles complexes non linéaires et avec interactions puisqu’ils n’auront pas à être interprétés. On retrouve le principe de modélisation de l’équilibre entre le biais et l’erreur que l’on avait décrit pour le redressement d’échantillon et la standardisation directe.
Lors d’une imputation multiple dans un essai clinique, il ne faut pas oublier de mettre le bras de traitement comme covariable expliquant l’outcome, sans quoi, les valeurs imputées auraient tendance à sous-estimer la différence entre les deux bras, sauf si on assume ce biais (pénalisation volontaire des données manquantes pour préférer un conservatisme à un libéralisme).
9. Interprétation conditionnelle à des variables qu’on ne peut ignorer
Il vous est peut-être arrivé de demander à un clinicien quel était, selon lui, le risque approximatif d’un événement (p.e. complication post-opératoire ou survie sans progression) et qu’il réponde « je ne peux pas dire, ça dépend complètement de … ». Pourquoi cette réponse ? Cela arrive lorsqu’un ou plusieurs facteurs sont hautement pronostiques. Selon le sous-groupe, l’évolution est tellement différente que le clinicien ne moyenne jamais leur pronostic. Une caractéristique de la maladie fortement pronostique est elle qu’on pourrait dire que les patients ayant des valeurs différentes de ce facteur pronostique ont des maladies différentes ! Cela suggère alors que l’interprétation et toujours conditionnelle à ce ou ces facteurs. Il faudrait idéalement faire des analyses en sous-groupes, sauf si on n’a pas la puissance et qu’on a de bonnes raisons de penser que l’interaction est faible ou négligeable. Auquel cas, il faut faire un modèle ajusté sur cette covariable et il est pertinent de fournir un effet conditionnel plutôt que marginal.
Au final, cela se trouve souvent dans les critères d’inclusion. On mélange rarement des patients aux caractéristiques trop différentes. Le fait de n’inclure qu’un sous-groupe de patients est une manière d’à la fois ajuster et prendre en compte les interactions sur la variable définissant se sous-groupe.