Prospectif vs rétrospectif

Savez vous ce qu’est une étude prospective ? Ce terme est souvent employé dans la littérature médicale, mais rarement défini. Nous allons tenter de montrer les différents sens qu’il peut revêtir et les problématiques associées.

Je vais schématiquement distinguer:

  • Donnée prospective ou rétrospective
  • Protocole prospectif ou rétrospectif
  • Analyse prospective ou rétrospective

Lorsque les trois sont prospectifs, l’étude est clairement prospective, autrement, c’est matière à discussion, sans compter les études qui ont les deux versants sur un ou plusieurs aspects.

Donnée prospective

Pour faire simple une donnée prospective, est une donnée enregistrée de manière synchrone à la réalité qu’elle représente. Si, par exemple, en 2022, on décide de fouiller des dossiers médicaux de nutrition de 2010 à 2020, et que l’on enregistre tous les poids qui ont été mesurés sur la balance de la salle de consultation et notés dans le dossier médical, la donnée est prospective. À l’opposé, si, en 2022, on appelle les patients pour leur demander quel poids ils pesaient, environ, à l’époque (2010 à 2020), alors la donnée est rétrospective, avec un fort biais de mémorisation possible.

Considérons maintenant un patient qui décrit une perte de poids de 5 kg sur les 3 derniers mois durant une consultation en avril 2015. Il dit que son poids en janvier était de 68 kg et qu’il pèse maintenant 63 kg. Enfin, un protocole d’étude sur dossier médical est créé en 2021, et, le 8 février 2022, un interne en médecine fouille les dossiers médicaux et recopie ces données dans une base de données de la recherche, structurée.

Janvier 2015 est la date de mesure, Avril 2015 est la date d’enregistrement de la donnée, maintenant figée dans un dossier médical et février 2022 est la date de collecte de la donnée. Une donnée est prospective si la date de mesure et la date d’enregistrement sont identiques.

On peut encore distinguer deux cas de figures. Selon les situations, une donnée peut être enregistrée de manière systématique ou pas. Dans les dossiers médicaux usuels, aucune information n’est vraiment obligatoire, et les données manquantes seront généralement très nombreuses, même sur des variables particulièrement importantes. Dans les registres ou les grandes « cohortes prospectives », on mettra un soin tout particulier à enregistrer de manière systématique, certaines variables. Il existera alors une base de données structurée et des instructions précises pour que les responsables du registre ou de la cohorte enregistrent les données de manière systématique et standardisée. La liste des données systématiquement enregistrées ne sera pas forcément basée sur des objectifs de recherche précis; ceux-là étant éventuellement définis dans des protocoles de recherche ultérieurs.

On comprend alors que la valeur des données n’est pas la même dans le cas de registres avec une tentative d’enregistrement systématique et dans les dossiers médicaux emplis de données manquantes. Je distinguerai les deux cas de figure, en parlant d’enregistrement actif ou d’enregistrement passif. Je parlerai alors de donnée prospective active ou de donnée prospective passive. Il est aussi possible de parler de donnée rétrospective active lorsqu’une question soumise à un biais de mémorisation est systématiquement demandée au patient (pe. quel était votre poids de forme?).

Protocole prospectif

Un protocole de recherche sera dit prospectif, s’il est réalisé avant que la moindre donnée de la recherche ne soit enregistrée. On pourra néanmoins rédiger un protocole de recherche en 2021 pour questionner des patients sur leur vécu du premier confinement de COVID-19 en France de mars à mai 2020. Par exemple, ont-ils consulté un médecin au moins une fois sur cette période ? La donnée sera rétrospective active, soumise à un biais de mémorisation, mais le protocole sera prospectif, car la nature et la méthode d’enregistrement de ces données, ainsi que leur analyse, aura été décidée avant de débuter le premier enregistrement.

À l’opposé, on pourra parler de protocole rétrospectif lorsque les données ont déjà été enregistrées avant que l’on réalise le protocole de l’étude. Les données seront colligées dans une base structurée, spécifique au projet de recherche, après que le protocole soit rédigé.

Analyse prospective

L’analyse d’un lien entre une variable d’exposition (chronologiquement antérieure) et un critère de jugement (chronologiquement postérieur), sera dite prospective si la sélection des sujets opère sur la variable d’exposition et que la comparaison du critère de jugement est faite entre les niveaux d’exposition. Dans le cas d’une exposition catégorielle, on constituera des groupes d’exposition avant de comparer les critères de jugement. C’est typiquement l’analyse que l’on retrouvera dans les cohortes.

À l’opposé, on parlera d’analyse rétrospective lorsque l’on définit les groupes sur le critère de jugement (chronologiquement postérieur) et que l’on compare ensuite les taux d’exposition (chronologiquement antérieur) selon les groupes constitués.

Les cohortes sont alors toujours prospectives alors que les cas-témoins sont toujours rétrospectifs, par leur analyse.

Enfin, une analyse sera transversale lorsqu’elle sera basée sur un ensemble de variables dont les mesures sont synchrones. On remarquera que l’enregistrement de données peut être transversal, c’est-à-dire avec une seule date d’enregisrement par patient, sans forcément que l’analyse ne le soit. Par exemple, dans une étude cas-témoin sur le lien entre nombre d’enfants et risque de cancer du sein, on pourra demander à des femmes avec ou sans cancer du sein (appariées sur l’âge), combien d’enfants elles ont eu. L’enregistrement sera transversal, mais l’analyse sera longitudinale, rétrospective. La donnée de cancer sera prospective alors que la donnée du nombre d’enfants sera rétrospective.

On distinguera donc trois types d’analyses : prospectives, rétrospectives et transversales. Les analyses prospective et rétrospectives sont longitudinales car elles font appel à des mesures applicables à des dates différentes.

Quels biais ?

Une donnée rétrospective sera généralement déclarative et donc soumise au biais de mémorisation, même si l’ampleur de ce biais sera très variable. Une femme mémorise généralement très bien le nombre d’enfants qu’elle a eu, sauf cas de démence avancée.

Une donnée prospective passive souffrira généralement d’un taux de données manquantes élevé, rarement au hasard. Néanmoins, il existe des exceptions. L’histologie d’un cancer opéré sera généralement présente dans le dossier médical du centre dans lequel l’opération a été réalisée, avec un taux de données manquantes très faible, sauf exception liée à des parcours de soins particuliers pour lesquels le compte-rendu anatomo-pathologique se retrouvera ailleurs. Une donnée prospective active pourra avoir une bien meilleure qualité, si des ressources humaines y sont dédiées. Mon expérience personnelle avec certains registres et certaines cohortes prospectives m’a montré que la donnée prospective soi-disant active peut aussi être de qualité bien plus basse que la donnée prospective passive. Il est tout à fait possible d’avoir un taux de données manquantes supérieur à 50% sur la nature d’une chirurgie pour une donnée prospective en anesthésie. Il est alors parfois nécessaire de rectifier les données prospectives actives par des données prospectives passives de bien meilleure qualité.

Enfin, les analyses prospectives, comme celles que l’on réalise dans les études de cohortes seront soumises à des biais d’attrition, attribuables aux perdus de vue, alors que les analyses rétrospectives pourront être soumises à des biais de survie sélective.

Biais de mémorisation atypiques

Je vais vous raconter deux histoires courtes dans ce billet, illustrant des cas assez inattendus, de « biais de mémorisation ».

Premier cas rapporté

Cela concerne une étude avant-après prospective, dont la qualité du recueil de données est discutable. Notamment, la date d’inclusion n’avait pas été renseignée dans le base de données remplie sur tableur Excel. Je dus, suite à une remarque d’un reviewer, retrouver les dates d’inclusions afin d’évaluer l’adhésion au protocole avant-après par les investigateurs : traitement contrôle donné en période avant et traitement expérimental donné en période après. En croisant les identifiants de patients avec la base de données médico-administrative locale, je pus retrouver les dates ! C’est là que je découvris que les périodes fournies dans le manuscrit de l’article étaient complètement fausses ! Le manuscrit précisait que la période avant s’étendait de novembre 2016 à janvier 2017 et que la période après s’étendait de février 2017 à avril 2017 alors qu’avec les dates enfin retrouvées, je découvrir que le traitement contrôle avait été donné de septembre à décembre 2016 et le traitement expérimental avait été donné de janvier à mars 2017. Le premier auteur de l’article ne s’en étonna pas : il avait décrit les dates de mémoire, et s’était trompé de quelques mois…

Pour compléter l’histoire, j’ai retrouvé dans mes archives mail la date à laquelle j’ai fait la première analyse statistique de la base de données : mi-mars 2016. Encore une preuve que la fin de la période d’inclusion ne pouvait être en avril !

Second cas rapporté

Ce second cas concerne encore un biais de mémorisation dans une étude prospective, dont l’objectif était d’évaluer la validité d’un questionnaire de qualité de vie, avec une cohorte de cas incidents suivis six mois auquel s’ajoutait un groupe de patients prévalents, ne bénéficiant que d’une seule visite. Il semblerait que les investigateurs aient complètement oublié d’enregistrer le traitement médical prescrit aux patients à baseline. Comme les dossiers médicaux étaient d’une qualité excécrable, il n’était même pas possible de savoir ce qui avait été prescrit. Au final, l’interne en charge du projet appela les patients pour leur demander quel traitement ils avaient pris un an auparavant ! Elle me dit qu’elle ne pouvait pas leur demander la dose parce que là, le biais de mémorisation était trop fort, mais qu’au moins, elle espérait que l’information sur la molécule ne soit pas trop mauvaise. Après réflexion, je crains que pour les cas prévalents l’information soit de particulièrement mauvaise qualité, car ils sont susceptibles d’avoir plusieurs traitements au décours de leur suivi et mémoriser précisément celui qu’ils prenaient il y a un an paraît particulièrement difficile.

Lire entre les lignes : respect des recommandations

Méfiez vous des articles basés sur des échantillons rétrospectifs, sur dossiers médicaux, décrivant que la prise en charge des patients suivait strictement et rigoureusement les recommandations nationales ou internationales, voire paraphrasant les recommandations afin de donner l’illusion qu’elles sont respectées. La seule garantie que l’on puisse avoir sur une étude rétrospective, c’est que les pratiques habituelles des services concernés ont été suivies. Citer les recommandations peut être une solution pour ne pas avouer que l’on est incapable de décrire les pratiques habituelles parce qu’elles n’ont jamais été formalisées. Sur deux manuscrits vantant le fait que certaines recommandations et procédures étaient rigoureusement respectés, que j’ai relus en tant que statisticien ayant participé aux analyses, je peux affirmer que pour tous les deux, c’était faux. Je me suis empressé de corriger les manuscrits, bien entendu, mais beaucoup de statisticiens n’auraient pas relu suffisamment en profondeur les manuscrits pour s’en apercevoir. Dans le premier manuscrit, je connaissais suffisamment le chef de service pour savoir qu’il se vante d’ignorer les recommandations, obsolètes, inadaptées et reposant sur des niveaux de preuve très bas (et je confirme son opinion, puisque j’ai un peu étudié les recommandations moi-même). Cela était aussi confirmé par le nombre énorme de données manquantes sur les examens théoriquement obligatoires selon les recommandations. Dans le second, il était mentionné qu’un examen médical était réalisé systématiquement, dans les méthodes, mais sur environ 110 patients, seulement 2 avaient bénéficié de cet « examen systématique ». Heureusement, cela était visible dans les résultats de l’article.

Ensuite, ce problème peut aussi arriver dans les études prospectives. Sur l’étude prospective que j’ai relue qui détaillait le plus la prise en charge, j’ai constaté que l’adhésion des investigateurs au coeur de ce protocole avant-après, c’est-à-dire donner l’intervention Contrôle en période avant et l’intervention Expérimentale en période après, était particulièrement basse: < 80% sur l’ensemble de létude et < 30% les deux derniers mois de l’étude. Sur cette base, il me paraît difficile de s’assurer du respect des recommandations décrites dans des niveaux de détails extrêmes (y compris les situations atypiques), alors qu’aucune variable recueillie ne permettait d’évaluer l’adhésion à ces recommandations.

Ce que je retiens de ces cas rapportés, c’est que pour s’assurer de la conformité d’une pratique à des recommandations, il est nécessaire de collecter les variables permettant d’évaluer l’adhésion à ces pratiques. Tant que je n’ai pas ces variables, en tant que statisticien, j’aurais toujours un grand doute quant à l’adhésion. Je vous conseille aussi de vous méfier des articles qui citent moults recommandations dans les méthodes, vantant leur respect, sans décrire la moindre variable, dans la section des résultats, permettant de vérifier ces dires.

Études compétitives

Petite anecdote courte aujourd’hui, dans la thématique « ce qui n’est pas dit dans la méthodologie d’un article ». Dans nos Centres Hopistaliers Universitaires, de nombreuses études prospectives sont menées chaque jour. Parfois deux études portant sur un profil de patient proche recrutent en parallèle. Les patients ne pourront généralement pas être inclus dans les deux études en même temps, car leurs protocoles respectifs seraient susceptibles d’interférer. Cela pourra parfois engendrer un biais de sélection majeur, dépendant de la combinaison des critères d’inclusion des deux études.

Pour l’exemple, à Rouen, deux études incluent des patients atteints de syndrome de l’intestin irritable (SII). Cette maladie comporte trois formes cliniques distinctes : avec diarrhée, avec constipation, ou avec alternance des deux. La forme diarrhéique est la plus fréquente. La première étude exigeant des patients la forme diarrhéique (critère d’inclusion), l’inclusion des patients y est plus difficile que dans la seconde, qui inclue pratiquement le SII tout venant. En conséquence, presque tous les patients avec forme diarrhéique sont inclus, par les investigateurs, dans la première étude. La seconde étude se retrouve alors avec seulement quelques patients diarrhéique présentant des critères d’exclusion à la première étude. Cette seconde étude a alors un biais de sélection majeur, sous-représentant les formes diarrhéiques et les rendant non comparables aux autres formes, car elles sont associées à des critères d’exclusion de la première étude.

Ajuster ou ne pas ajuster, telle est la question

Je vais partager une petite réflexion concernant les ajustements statistiques dans les études quasi-expérimentales de type ici-ailleurs.

Principe des études ici-ailleurs

D’une manière générale l’évaluation de l’efficacité d’une intervention par rapport à une autre est très difficile dans une étude observationnelle en raison d’un biais d’indication, c’est-à-dire, une prescription dépendante des caractéristiques du patient, corrélée au pronostic de la maladie. Par exemple, on observera une mortalité bien plus grande des patients atteints de COVID-19 lorsqu’ils bénéficient d’une ventilation mécanique invasive que lorsqu’ils n’en bénéficient pas. Cela n’est pas dû à la nocivité de la ventilation mécanique, mais simplement au fait qu’elle n’est prescrite qu’à des patients dont l’état clinique est très altéré.

Exemple d’étude illustrative

Pour la suite, je prendrai un exemple dans lequel les indications sont beaucoup moins codifiées et la balance bénéfices/risques bien plus incertaine, ce qui permet alors de rendre la méthodologie ici-ailleurs envisageable. Après exérèse chirurgicale complète de mélanomes primitifs cutanés non métastatiques, la fermeture de l’espace cutané peut se faire, pour les exérèses étendues, par un lambeau cutané ou une auto-greffe cutanée. Il existe une querelle d’écoles quant à la meilleure technique, lambeau ou greffe, certains argumentant que les résultats carcinologiques diffèrent. À Lille, 100% des patients ont bénéficié d’une greffe contre 12% à Lyon et 66% à Rouen. Comment alors peut-on comparer les résultats carcinologiques entre lambeau et greffe ?

Stratégie per protocol ajustée sur le centre (comparaison intra-centre)

Deux stratégies de comparaison orthogonales existent. On peut comparer les patients ayant bénéficié d’une greffe à ceux ayant bénéficié d’un lambeau en ajustant sur l’effet centre. Cette méthode de comparaison est interprétable comme une comparaison des sujets avec lambeau et greffe d’un même centre. Ainsi, on comparera les 12% de sujets avec greffe de Lyon aux 88% de sujets avec lambeau de Lyon. On comparera les 66% de sujets avec greffe de Rouen aux 44% avec lambeau de Rouen. Le centre de Lille ne participera pas du tout à la statistique car l’effet centre y sera colinéaire à l’effet greffe. De manière grossière, on peut dire que les effets greffe vs lambeau de Rouen et Lyon seront moyennés par pondération par l’inverse de la variance des estimateurs. Le biais d’indication sera a priori majeur dans cette comparaison. Notamment, il est probable que la réalisation technique du lambeau soit difficile voire impossible dans les 12% de greffés à Lyon étant donné la localisation et l’étendue de l’exérèse. Même en ajustant sur le stade TNM, et les autres facteurs pronostics (sous-type histologique, ulcération, indice mitotique, état général), on peut craindre une persistance du biais d’indication.

Stratégie en intention de traiter (comparaison inter-centre)

La deuxième stratégie consiste à comparer le résultat carcinologique moyen de Lille (qui fait 100% de greffes) à celui de Lyon (qui fait 12% de greffes). Il s’agit alors d’une comparaison de la greffe au lambeau en « intention de traiter », considérant qu’à Lyon, il y a une intention de traiter tout le monde par un lambeau alors qu’à Lille, c’est l’inverse. C’est cette seconde stratégie qui correspond à une méthodologie ici-ailleurs. Le biais d’indication disparaît complètement de cette comparaison grace à l’approche en intention de traiter. Il n’y a plus aucun sens à ajuster sur l’effet centre. En réalité, il n’est même plus possible d’ajuster sur l’effet centre. Selon le point de vue, on peut considérer que l’effet centre est l’effet principal du traitement qui nous intéresse ou on peut considérer que l’effet centre est colinéaire à l’effet principal. Cette stratégie ici-ailleurs est immunisée au biais d’indication, mais est fragile à un potentiel biais de sélection différentiel si les populations consultant Lyon et Lille diffèrent notablement. Au contraire, la première stratégie de comparaison, ajustée sur l’effet centre est immunisée au biais de sélection différentiel des centres puisque les patients d’un centre sont comparés aux patients du même centre.

Quelle stratégie ? Quel biais ?

Pour résumer, il existe potentiellement deux biais remettant en cause la comparabilité des groupes de greffe et lambeau : (1) un biais d’indication et (2) un biais de sélection différentiel. L’analyse ajustée sur l’effet centre est fragile au biais d’indication mais immunisée au biais de sélection différentiel alors qu’à l’opposé, l’analyse ici-ailleurs en intention de traiter est immunisée au biais d’indication mais fragile au biais de sélection différentiel.

Meilleure stratégie ou stratégie combinée ?

Dans le contexte, je craindrais nettement plus le biais d’indication au biais de sélection différentiel, car la population de patients avec mélanomes primitifs cutanés opérables non métastatiques n’a pas de raison de différer notablement entre les centres alors qu’il est raisonnable de craindre un biais d’indication majeur, les prescriptions étant rarement faites au hasard. Néanmoins, il est intéressant de réaliser les deux analyses et d’en vérifier la cohérence, car réaliser deux analyses biaisées différemment mais fournissant la même conclusion est une manière de se rassurer quant à l’impact des biais. On pourrait, par exemple, réaliser une analyse ici-ailleurs en intention de traiter en analyse principale et l’analyse per protocol ajustée sur l’effet centre en analyse de sensibilité.

Que peut-on en retenir ?

Tout cela pour dire que le codage de la variable d’effet et l’ajustement sur l’effet centre modifient profondément l’interprétation des résultats et qu’un ajustement n’est pas toujours souhaitable, pouvant engendrer un biais plus important que l’approche orthogonale.

Pour aller plus loin

Comparaison des traitements ou des stratégies ?

Dans la stratégie en intention de traiter, on pourra argumenter qu’on ne compare plus les traitements (greffe vs lambeau) mais les stratégies de prescription (greffe pour tout le monde vs lambeau si possible). Si on considère que la question du lambeau ou de la greffe ne se pose pas pour certains patients pour lesquels le lambeau n’est pas techniquement réalisable, alors il est logique de comparer les stratégies ou de comparer greffe vs lambeau dans un sous-groupe restreint pour lesquels les deux techniques sont possibles à réaliser.

Études avant-après

La problématique décrite dans les études ici-ailleurs est transposable aux études avant-après. On peut faire une analyse en per protocol ajustée sur le temps (p.e. mois par mois), conduisant à une comparaison « transversale » des patients avec un fort biais d’indication mais pas de biais de sélection différentiel attribuable à une évolution de la population incluse, ou au contraire faire une analyse en intention de traiter, où c’est l’effet temps « après » vs « avant » qui représente l’effet principal, faisant disparaître tout biais d’indication mais faisant potentiellement apparaître un biais de sélection différentiel ou une confusion avec d’autres changements de pratiques simultanés.

Autre exemple

Le biais d’indication est souvent majeur, mais le biais de sélection différentiel peut parfois être majeur lui aussi, rendant alors les deux analyses toutes deux très fragiles. Prenons l’exemple de la prescription de l’hydroxychloroquine pour les patients infectés par COVID-19 hospitalisés. Bien que le pronostic du COVID-19 soit probablement peu différent entre régions françaises, après ajustement sur l’âge et l’IMC, les indications à l’hospitalisation dépendent des ressources en soins locales et des pratiques de prescription des médecins. En effet, l’hospitalisation est bien une prescription médicale ! C’est pour cela qu’en France métropolitaine, le taux de mortalité intra-hospitalière est hautement variable d’un département à l’autre, avec un premier décile à 12,7% (Côtes d’Armor) et un neuvième décile à 18,2% (Meuse), bien que la population générale de Meuse soit plus jeune (10,5% de sujets de plus de 75 ans vs 12,3% pour les Côtes d’Armor). Cela rend les études ici-ailleurs particulièrement biaisées.

Devenir des perdus de vue : un case report

Rappel de vocabulaire en survivologie

Considérons une étude de cohorte ouverte dans laquelle les patients sont inclus de janvier 2015 à décembre 2019 et dont le gel des données est réalisé en janvier 2020. Ainsi, un sujet inclus en janvier 2015 aura jusqu’à 5 ans de suivi alors qu’un sujet inclus début décembre 2019, aura un mois de suivi au maximum.

La date de point est le 31 décembre 2019. Les sujets dont on sait qu’ils sont encore survivants au 31 décembre 2019 sont appelés exclus-vivants. Ils subissent une censure administrative à cette date.

Un sujet inclus en 2015, dont on sait qu’il était vivant en juin 2017, mais dont on ne sait plus rien après, a pour date des dernières nouvelles juin 2017 et est un perdu de vue.

Pour les exclus-vivants, la date des dernières nouvelles est égale à la date de point. Pour les sujets décédés, la date des dernières nouvelles est égale à la date de décès.

Les modèles de survie ne distinguent généralement pas les exclus-vivants des perdus de vue. Les deux sont considérés identiquement comme des données censurées à la date des dernières nouvelles.

Problématique

Les modèles de survie partent du principe que les patients perdus de vue ont les mêmes caractéristiques et le même pronostic que les autres (données manquantes au hasard). Cela est généralement faux, mais on ne sait jamais exactement ce qu’ils deviennent.

Dans l’expérience décrite ci-dessous, nous avons eu le statut vital des perdus de vue ! Cela nous a permis d’évaluer le biais que nous aurions eu avec la publication initiale.

Description du cas d’école

Il s’agit d’une étude multicentrique (trois principaux centres) incluant des patients atteints de cancer du colon métastatique, lors de la première ligne de chimiothérapie. Cela peut arriver au moment du diagnostic initial de cancer du colon (métastases synchrones) ou après un certain d’évolution d’un cancer initialement non métastatique (métastases méta-chrones). Le protocole initialement prévoyait un suivi de 24 mois, mais l’e-CRF contenait des données au-delà de cette limite. La date des dernières nouvelles correspondait à une date de décès ou la date des dernières informations retrouvées dans le dossier clinique pour les survivants, c’est-à-dire, généralement une date de consultation ou hospitalisation. La fin de l’étude était en 2016. On avait considéré que c’était la date de point. À l’époque, on comptait 42 patients censurés dont 40 perdus de vue et 2 exclus-vivants.

L’étude prit du retard. Du fait de difficultés à publier l’article, un retard plus grand fut accumulé. Même si toutes les analyses avaient déjà été réalisées, l’investigateur décida finalement de mettre à jour les données de survie, en enquêtant sur chacun des patients afin de déterminer son statut vital en janvier 2020. Il fit un travail de bonne qualité, puisque sur 192 sujets, seuls 8 furent censurés, dont 5 exclus-vivants et 3 perdus de vue.

Ainsi, nous disposons maintenant du vrai devenir des patients qui étaient initialement perdus de vue. Nous pouvons donc comparer le pronostic des perdus à celui des sujets non perdus de vue.

Figure 1 : courbes de survie globale avec anciennes et nouvelles données

Toutes les courbes sont basées sur l’estimateur de Kaplan-Meier, avec des paramétrages différents. Les croix représentent les censures (perdus de vue ou exclus-vivants).

Chacune des courbes mérite un commentaire.

La courbe verte est extrêmement proche de la réalité car elle est basée sur les nouvelles données quasiment exhaustives, avec seulement 8 censures dont seulement 3 perdus de vue, susceptibles d’engendrer un biais non négligeable dans l’estimation. C’est à cette courbe qu’il faut comparer les autres.

Les courbes rouge et orange sont basées sur les données que l’on avait avant la mise à jour. C’est ce qu’on pouvait obtenir de plus fiable auparavant. La courbe rouge correspond à l’analyse de référence qui avait été réalisée et qui correspond à ce qui est généralement recommandé : tous les perdus de vue et exclus-vivants avaient été censurés à la date des dernières nouvelles. On surestime beaucoup la létalité avec cette courbe rouge parce que les perdus de vue correspondent à des ruptures de suivi clinique pour des patients dont l’état est meilleur que les autres.

La courbe orange est aussi basée sur les données non mises à jour mais plutôt que de censurer les perdus de vue à la date des dernières nouvelles on les a censurés à la date de point (janvier 2016), considérant ainsi que tous ces patients avaient survécu jusqu’à la date de point, ce qui, forcément surestime leur survie. On considère donc que le suivi est exhaustif jusqu’à la date de point et qu’il n’y a que des exclus-vivants comme censures et plus aucun perd de vue. La courbe orange est extrêmement proche de la réalité (courbe verte) pour les deux années de suivi planifiées dans le protocole. On peut donc considérer que le suivi du statut vital jusqu’à deux ans était bien exhaustif. Deux mécanismes peuvent expliquer ce phénomène. Le premier mécanisme serait que seuls les patients en très bon état clinique étaient en rupture de suivi clinique, de telle sorte qu’aucun (ou presque) n’est réellement décédé avant la date de point. Le second mécanisme serait dû à une comptabilisation inappropriée des décès fortuitement découverts chez des patients en rupture de suivi clinique. Ainsi, les sujets en rupture de suivi clinique pourraient avoir un pronostic aussi mauvais que les autres, mais si jamais ils décédaient, l’investigateur serait quand même mis au courant (p.e. le patient revient décéder au centre hospitalier) alors que si ils survivaient, on les considèrerait comme perdus de vue à la date des dernières nouvelles cliniques. Il est alors important de prendre conscience que la date de perte de vue doit être calculée comme une date telle que tout événement antérieur à cette date aurait été identifié et tout événement postérieur à cette date ne peut pas être identifié ou est volontairement ignoré. Autrement, une rupture de suivi clinique n’est pas synonyme de rupture de suivi du statut vital ! Si on veut que les deux notions coïncident il faut volontairement ignorer tous les décès que l’on découvre chez des sujets en rupture de suivi clinique.

On remarquera qu’au delà de 2 ans, la courbe orange commence à s’écarter de la courbe verte. Ainsi, le statut vital n’est plus connu exhaustivement et il y a des vrais perdus de vue pour le statut vital. À 3 ans, la courbe orange (suivi supposé exhaustif) reste quand même moins biaisée que la courbe rouge (censure aux pertes de vue).

Enfin la courbe bleue représente la survie des perdus de vue, à partir du début de la chimiothérapie, c’est-à-dire, le même début de suivi que les autres courbes. Les 2 exclus-vivants (anciennes données) ne participent pas à cette courbe, mais seulement les 40 perdus de vue (anciennes données). L’analyse est faite par troncature à gauche à la date de perte de vue et suivi jusqu’au décès ou date des dernières nouvelles (perte de vue ou exclusion-vivant sur nouvelles données). La troncature à gauche permet la suppression du biais de temps immortel. Ainsi, un sujet perdu de vue (anciennes données) à 2 ans et décédé à 2 ans et 6 mois va contribuer à estimer l’intervalle [2 ans – 2.5 ans] de la courbe de survie. Il rentre dans le dénominateur (nombre de sujets à risque) du Kaplan-Meier à 2 ans et en sort à 2.5 ans. Cela permet de tracer une courbe conditionnelle au fait que le sujet a survécu jusqu’à la date de perte de vue. Cela permet donc d’analyser la courbe de survie des perdus de vue, à partir du moment où ils sont perdus de vue mais en prenant pour base temporelle (début de chimiothérapie) que les autres courbes. Cela confirme le fait que le pronostic des perdus de vue est bien meilleur, explicable par l’un, l’autre ou les deux mécanismes cités précédemment.

Discussion

D’abord, et avant tout il est important de recueillir le statut vital de manière aussi exhaustive que possible. Un coup de fil au patient, un courrier, un appel au médecin traitement, voire la consultation du registre d’état civil en appelant la mairie de naissance, permettent d’obtenir un statut vital pour presque tout le monde. Il peut juste y avoir quelques difficultés avec des patients étrangers.

Malheureusement, on aura la plupart du temps, un suivi passif, basé sur le dossier médical, rythmé par les consultations et hospitalisations. Dans le contexte de patients atteints de cancer métastatiques suivis dans un protocole de chimiothérapie anti-cancéreuse, il peut être envisagé de considérer que le suivi du statut vital est exhaustif sur un ou deux ans et censurer les perdus de vue à la date de point plutôt qu’à la date des dernières nouvelles cliniques. Mieux vaut aussi censurer tout le monde (couper la courbe) à la date au-delà de laquelle la qualité du suivi n’est plus garantie. Dans l’exemple sus-cité, couper la courbe à deux ans et considérer que le suivi était exhaustif (courbe orange) aurait résolu le problème.

Cela reste un case report. La qualité du suivi peut dépendre du centre, du pays et dépend beaucoup de la maladie et de son traitement. On peut difficilement généraliser. J’ai déjà vu le phénomène contraire, avec des perdus qui correspondaient aux sujets décédés plutôt qu’aux survivants dans un article Marocain sur la pemphigoïde bulleuse avec un suivi d’un an (0.7% de décès et 31% de perdus de vue pour un taux attendu de létalité de 20-30%) !

Conditions de validité du coefficient de corrélation de Pearson et de la régression linéaire

Pour faire court, la seule condition de validité pour le calcul d’un coefficient de corrélation de Pearson ou l’estimation d’une régression linéaire, est l’existence d’une variance non-nulle sur chacune des deux variables, sous peine de division par zéro. Tous les autres éléments ne sont que des « précautions d’interprétation ».

La régression linéaire, estimée par les moindres carrés a des propriétés générales très intéressantes, parce l’estimateur des moindres carrés, c’est celui de la moyenne. Cela garantit une espérance d’erreur nulle, là où la plupart des estimateurs de modèle n’ont pas cette propriété extrêmement utile, voire indispensable dans certaines situations.

Le coefficient de corrélation de Pearson peut avoir une interprétation conjointe à la régression linéaire simple (son carré étant la variance expliquée par la régression) mais bénéficie aussi de propriétés propres très intéressantes.

Ce billet lance une réflexion sur l’usage de ces statistiques afin d’aller au-delà des algorithmes automatiques tournées autour de l’hypothèse de normalité ; cette dernière étant aussi plausible que l’existence du monstre du Loch Ness comme le montre cet algorithme.

Définition du coefficient de corrélation de Pearson

Le coefficient de corrélation de Pearson entre deux variables est égal à l’espérance du produit des variables préalablement centrées-réduites. C’est aussi égal à la covariance de ces deux variables centrées-réduites.

Cette définition, n’implique absolument pas d’hypothèse de normalité, de linéarité, d’homoscédasticité ou quoi que ce soit du genre. C’est juste un calcul mathématique, qui lui confère quelques propriétés générales très précieuses.

Propriétés générales du coefficient de corrélation de Pearson

Considérant deux variables A et B, de lois quelconques, dépendantes ou pas, alors

COV(A,B)=COR(A,B)×sqrt(VAR(A)×VAR(B))

Où VAR représente la variance, COV la covariance et COR, la corrélation de Pearson.

Ainsi, connaissant, l’écart-type (ou la variance) de A et de B, on peut calculer la variance de la somme de A et B ou de la différence, en s’aidant des deux formules

VAR(A+B) = VAR(A)+VAR(B)+2×COV(A,B)

VAR(A-B) = VAR(A)+VAR(B)-2×COV(A,B)

Ces propriétés mathématiques ne sont pas asymptotiques, elles sont exactes, même sur un échantillon fini. Même avec n=3 observations. Il n’y a aucune approximation et aucune hypothèse distributionnelle.

C’est une conséquence directe de la décomposition de la formule (a+b)²=a²+b²+2×a×b.

Ces propriétés sont très utiles pour les méta-analyses et/ou l’extraction de données d’un article.

Considérons la situation assez fréquente dans laquelle on souhaite connaître la variance intra-sujet d’une mesure afin de calculer le nombre de sujets nécessaires dans une étude en cross-over. À partir d’un article fournissant la moyenne et l’écart-type de la mesure d’intérêt, dans la population d’intérêt, à deux temps différents, et fournissant le petit p d’un Student sur séries appariées, on peut remonter du petit p à la statistique t de Student, pour en déduire la variance de la différence. On peut aussi aller plus loin, en utilisant la variance de la différence et la variance à chaque temps pour en déduire la covariance entre les deux temps ainsi que le coefficient de corrélation de Pearson. Cela fonctionne sans hypothèse de normalité. Quand bien même le petit p du Student sur séries appariées a une validité dépendant d’une hypothèse de normalité asymptotique, le calcul réalisé pour remonter au coefficient de corrélation reste vrai même si l’hypothèse est fortement fausse.

Si les auteurs omettent le test de Student sur séries appariées mais fournissent un coefficient de corrélation de Pearson, alors grâce aux moyennes et aux écarts-types, on peut calculer la variance d’une différence appariée, ainsi que faire le test de Student sur séries appariées. En bref, variance, covariance, corrélation de Pearson ont des propriétés mathématiques les rendant complémentaires, permettant l’extraction de données et la vérification de cohérence. Soit dit en passant, cela fonctionne tout aussi bien avec des variables binaires qu’avec des variables quantitatives continues ou discrètes.

Sur la population, le coefficient de corrélation de Pearson entre deux variables X et Y est égal au coefficient de corrélation de Pearson entre deux moyennes Mx et My d’échantillons de taille n d’observations indépendantes et identiquement distribuées, et ce pour tout n. Cela se démontre, en passant par la covariance:

COR(Mx, My) = COV(Mx, My)/sqrt(VAR(Mx)×VAR(My)) = (COV(X,Y)/n)/sqrt(VAR(X)/n × VAR(Y)/n) = COV(X,Y)/sqrt(VAR(X)×VAR(Y)) = COR(X,Y)

Au fond, c’est cette propriété qui permet d’estimer une différence de moyennes appariée en connaissant seulement de la moyenne et l’écart-type estimés sur chaque série de données ainsi que d’une estimation du coefficient de corrélation entre les deux variables.

Le code suivant montre qu’en présence d’un effet non-linéaire, le coefficient de corrélation de Pearson vérifie bien cette propriété alors que le coefficient de corrélation de Spearman entre les moyennes est dix fois plus fort (R=0.70) qu’entre les variables X et Y (R=0.07).

set.seed(2020)
a=rexp(1e6)
b=2*(a-1)^2+rexp(1e6)
cor.test(a,b, method="spearman") # Spearman's r=0.07
cor.test(a,b, method="pearson") # Pearson's r=0.70

m=sapply(1:1e6, function(x) {
	a=rexp(100)
	b=2*(a-1)^2+rexp(100)
	c(mean(a), mean(b))
})

cor.test(m[1,], m[2,], method="spearman") # Spearman's r=0.70
cor.test(m[1,], m[2,], method="pearson") # Pearson's r=0.70

Malheureusement, un coefficient de corrélation de Spearman entre les variables X et Y ne permet absolument pas d’estimer la corrélation de Spearman entre les variables Mx et My sauf si on fait des hypothèses distributionnelles fortes (p.e. relation linéaire et résidus normaux), et même ainsi, la relation n’est pas une simple égalité.

Définition théorique de la régression linéaire

Le modèle de régression linéaire simple sur un échantillon de taille n comportant des variables (X1, …, Xn) et (Y1, …, Yn) est généralement noté :

Yi=beta0+beta1×Xi+Epsilon_i

Pour i=1, …, n

où beta0 et beta1 sont des constantes.

On suppose que les Epsilon_i suivent tous une loi normale, de même variance et que tous les Epsilon_i sont indépendants. On associe généralement à ce modèle, l’estimateur des moindre carrés.

Que faire lorsqu’on sait qu’aucune loi du vivant ne suit une loi normale, comme décrit dans ce billet ? Cela rend-il impossible d’utiliser ce modèle ?

Ma réponse, c’est qu’en redéfinissant ce modèle, il apparaît que ces conditions ne sont pas nécessaires.

Redéfinition de la régression linéaire

Cette section est un peu technique et pas nécessaire à la compréhension globale du billet. N’hésitez pas à passer à la section « propriétés de la régression linéaire » si vous ne comprenez rien. Elle me permet juste de répondre aux puristes qui diraient que l’homoscédasticité, la linéarité et la normalité des résidus font partie, par définition, du modèle linéaire et qu’en conséquence tout ce que je dis n’est qu’un tas d’ineptie puisque je remets en cause une définition. Je suis peut-être hérétique en remettant en cause un dogme une définition.

L’estimateur des moindres carrés de la régression linéaire est applicable à n’importe quel échantillon (sauf division par zéro dans des cas exceptionnels). Il permet d’estimer des coefficients beta0 et beta1 ainsi que des prédictions comme des combinaisons linéaires de beta0 et beta1. Ce sont des statistiques, soumises à des fluctuations d’échantillonnage.

À partir d’une statistique calculable sur un échantillon, on peut toujours définir une statistique dans une population infinie, comme la limite, quand n tend vers l’infini, de l’espérance de la statistique sur un échantillon aléatoire de taille n, d’observations indépendantes et identiquement distribuées issues de la population considérée. Il est théoriquement possible que cette limite n’existe pas, comme avec la loi de Cauchy, mais dans les cas usuels en biologie et médecine où les distributions sont bornées, et avec la régression linéaire qui a des bonnes propriétés de stabilisation asymptotique, elle devrait toujours exister.

Ainsi, en transformant l’estimateur en statistique dans la population, je définis les coefficients (beta0 et beta1) et prédictions d’un modèle linéaire de manière totalement indépendante de la moindre hypothèse de linéarité, homoscédasticité ou normalité. La seule hypothèse est l’existence d’une limite à ces coefficients. Cela me permet alors d’analyser les propriétés de ces statistiques dans le cas ordinaire de non-respect des hypothèses théoriques de validité.

Propriétés de la régression linéaire

La moyenne est une statistique directement liée à l’estimateur des moindres carrés. En effet, c’est la statistique qui minimise les carrés des écarts à cette statistique.

Vous pouvez le vérifier par vous-même sous le logiciel R:

v=c(1,30,50)
mean(v) # vaut 27
optimize(function(position) {sum((v - position)^2)}, interval=range(v)) # vaut 27
coef(lm(v ~ 1)) # vaut 27

La régression linéaire est aussi habituellement estimée par les moindres carrés. Cela lui confère des propriétés intéressantes, sans hypothèse de normalité, homoscédasticité ni linéarité.

Sur un échantillon fini, aussi petit soit-il, la moyenne des résidus d’une régression linéaire estimée par les moindres carrés est nulle. Les résidus positifs sont compensés par les résidus négatifs. Cela est toujours vrai, sans la moindre hypothèse (même pas l’indépendance des observations). Le code R suivant permet de le vérifier:

x=rexp(3)
y=x^(1/3)+rexp(3)
mean(resid(lm(y ~ x))) # zéro, aux erreurs d'arrondi des nombres à virgule flottante près

Si on considère une régression linéaire des moindres carrés dont les coefficients sont connus exactement (ou estimés sur un très grand échantillon représentatif de la population), l’espérance des erreurs de prédiction de ce modèle est nulle sur cette même population, sous l’hypothèse d’observations indépendantes et identiquement distribuées. Les erreurs positives compensent exactement les erreurs négatives. Cela est faux avec d’autres modèles linéaires tel que le modèle linéaire identité-binomial estimé par le maximum de vraisemblance. Vous pouvez vérifier cette propriété avec le code R suivant:

set.seed(2020)
x=rexp(1e7) # distribution non normale
population=data.frame(x=x, y=x^(1/3)+rexp(1e7)) # relation non linéaire
model = lm(data=population, y ~ x) # coefficient presque exactement connus
x=rexp(1e6)
bigsample=data.frame(x=x, y=x^(1/3)+rexp(1e6))
mean(predict(model, newdata=bigsample) - bigsample$y) # erreur de prédiction moyenne presque nulle

Prenons l’exemple d’une mutuelle santé à but non lucratif voulant calculer les coûts de cotisation en adaptant le coût de cotisation à l’âge, qui est une variable reflétant la consommation de soins. Pour chaque cotisant, on peut calculer un coût de consommation précis (en euros). Les frais de gestion sont éventuellement ventilés proportionnellement au coût de cotisation, de telle sorte qu’on puisse calculer un « coût » de chaque cotisant de telle sorte que les dépenses totales de la structure sont égale à la somme de tous les coûts de tous les cotisants. L’échantillon exhaustif des cotisants sur les trois années précédentes sert ensuite à estimer les paramètres d’une régression linéaire des moindres carrés expliquant le coût par l’âge, permettant de calculer les cotisations mensuelles, adaptées à l’âge, pour l’année suivante. À moins que la pyramide des âges ou le profil de consommation selon l’âge évolue beaucoup l’année suivante, cette méthode garantit l’équilibre budgétaire, quand bien même la relation entre la consommation et l’âge n’est pas linéaire. On peut noter que la mutuelle peut aussi préférer un système plus solidaire, avec une cotisation indépendante de l’âge, en supprimant l’âge du modèle, conduisant alors à une cotisation égale à la moyenne des coûts des cotisants. Cette moyenne conserve aussi la propriété d’équilibre budgétaire. L’usage de modèles « robustes », excluant par exemple, le pourcent de consommateurs les plus forts, ne garantirait pas l’équilibre budgétaire.

Même si l’exemple fourni est basé sur une régression linéaire simple, cette bonne propriété d’espérance d’erreur nulle est applicable au modèle linéaire général, et donc à des modèles multivariés prenant en compte plusieurs paramètres pour le calcul des cotisations. Même en présence d’interactions, cette propriété est conservée.

Relation entre régression linéaire et coefficient de corrélation de Pearson

La régression linéaire des moindres carrés minimise la variance résiduelle. La variance expliquée, ou R², est égale à un moins le rapport entre la variance résiduelle et la variance totale. Pour une régression linéaire simple, le coefficient de corrélation de Pearson élevé au carré est égal à ce R². Cela est toujours vrai sur un échantillon, encore une fois, sans hypothèse particulière.

Propriétés spécifiques du modèle linéaire

Hypothèse de linéarité respectée

Définissons l’existence d’une relation linéaire entre une variable Y et une variable X par l’existence d’un modèle linéaire tel que l’espérance de la variable Y conditionnelle à une valeur de X est égale à la prédiction de Y par X. L’estimateur des moindres carrés est capable de trouver les bons coefficients, garantissant cette propriété, quand bien même il y a une hétéroscédasticité et les distributions de Y conditionnelles à chaque valeur de X diffèrent en forme les unes des autres ! On repose seulement sur l’hypothèse d’observations indépendantes et identiquement distribuées dans la distribution bivariée (X,Y). Le code R suivant illustre cette propriété:

set.seed(2020)
x=rep(c(1,2,3), c(1e5, 2e6, 1e6))
y=c(2+rnorm(1e5), # résidu normal de faible variance
4+(rexp(2e6)-1)*3, # résidu selon loi exponentielle d'écart-type égal à 3
6+(runif(1e6)-0.5)*10 # résidu selon loi uniforme, de très forte variance
)

predict(lm(y ~ x), newdata=data.frame(x=1:3)) # prédit bien 2, 4, 6

Ainsi, avec des coefficients estimés par l’estimateur des moindres carrés sur un grand échantillon, l’erreur de prédiction de Y conditionnelle à n’importe quelle valeur de X, est nulle. Cela garantit notamment que l’espérance de l’erreur de prédiction reste nulle quand bien même la distribution de X change.

On remarquera que l’estimateur des moindres carrés avec une quelconque pondération aura la même espérance des coefficients. Par exemple, une pondération ayant pour objectif de « rectifier » les problèmes d’hétéroscédasticité, sera asymptotiquement équivalent à la version non pondérée.

Hypothèse d’indépendance entre les résidus et la variable X respectée

De manière équivalente, on peut dire que la distribution de la différence entre la prédiction et l’observation est indépendante de X, c’est-à-dire, la distribution de cette différence conditionnelle à une valeur de X a la même distribution quelle que soit la valeur de X.

Si cette propriété est vérifiée, alors, non seulement on garantit que conditionnellement à chaque valeur de X, l’espérance de l’erreur est nulle, mais on peut même prédire la distribution de cette erreur. On peut empiriquement déterminer cette distribution comme la distribution des résidus observés. Il est possible de lisser, ou non, la distribution empirique de ces résidus par une estimation par noyau. En s’aidant de la distribution empirique de X estimée par noyau, on peut fournir une estimation de la distribution jointe (X,Y) avec densité de probabilité bivariée. Néanmoins, je déconseille fortement ce type de modélisation car cette hypothèse est généralement (toujours?) fausse. On peut souvent utiliser directement la distribution bivariée (X,Y) empirique, plus ou moins lissée si nécessaire. C’est néanmoins plus intéressant lorsqu’on s’intéresse à la distribution de Y conditionnelle à une valeur précise de X puisque dans ce cas, la distribution de Y conditionnelle à X est susceptible de n’être estimable qu’avec zéro ou une valeur si on souhaite une estimation empirique sans hypothèse de modélisation.

Hypothèse de normalité des résidus

Si cette hypothèse est vérifiée (ce qui n’arrive jamais ?), alors… elle est vérifiée et on peut reposer dessus. Cela veut dire, par exemple, qu’on peut estimer la variance résiduelle empiriquement, puis utiliser cette variance résiduelle comme paramètre d’une distribution normale afin de connaître la distribution de l’erreur résiduelle conditionnelle à n’importe quelle valeur de X. Par rapport à l’hypothèse précédente, on peut gagner un peu en précision sur l’estimation de cette distribution conditionnelle sur des échantillons de taille modeste. Reposer sur cette propriété engendre un biais mais est susceptible de réduire l’erreur sur de petits échantillons, lorsque l’écart à la normalité est modeste, par rapport à l’estimation empirique de la distribution des résidus. C’est alors un choix guidé par le rapport biais/erreur.

Normalité asymptotique

Si vous avez déjà essayé d’estimer des paramètres de régression Passing BaBlok par bootstrap non paramétrique sur un échantillon de taille modeste, vous avez dû remarquer que les fluctuations d’échantillonnages du Passing BaBlok sont discrètes. C’est dû au fait que la distribution empirique est discrète sur un échantillon de taille modeste. Le Passing BaBlok a des fluctuations d’échantillonnages chaotiques lorsque X ou Y suivent des lois discrètes. Ce problème n’existe pas avec la régression linéaire des moindres carrés dont les estimateurs de coefficients suivent asymptotiquement une loi normale multivariée quelque soient les distributions de X et Y à condition que l’échantillon soit constitué d’observations indépendantes identiquement distribuées. Cette normalité asymptotique s’applique aussi au coefficient de corrélation de Pearson. Il n’y a pas à reposer sur une hypothèse d’homoscédasticité ou de normalité des résidus.

Intervalles de confiance et petits p

Sur des échantillons de taille suffisante, alors, le boostrap permet de fournir des intervalles de confiance asymptotiquement corrects aussi bien pour la régression linéaire que pour le coefficient de corrélation de Pearson. Les estimateurs d’intervalles de confiance classiques peuvent par contre être biaisés. La transformation z de Fisher et l’approximation à une loi normale du coefficient de corrélation de Pearson sont asymptotiquement corrects mais l’estimateur de sa variance comme égal à 1/(n-3) est parfois asymptotiquement biaisé. Cette approximation est asymptotiquement correcte lorsque le vrai coefficient de corrélation nul, mais d’une manière générale elle est susceptible d’être asymptotiquement biaisée. De même, l’intervalle de confiance de Wald sur les coefficients d’une régression linéaire est susceptible d’être asymptotiquement biaisé. Si on a des résidus normalement distribués, indépendants et identiquement distribués, alors les approximations sont correctes. C’est pourquoi je recommande l’usage du boostrap dans le cas général.

Sensibilité aux outliers

L’estimateur des moindres carrés et fortement influencé par les valeurs atypiques (outliers) et donc la régression linéaire comme le coefficient de corrélation de Pearson le sont aussi. Selon les cas, cela peut-être souhaitable ou pas. Reprenons l’exemple d’une mutuelle santé qui s’intéresse au coûts de ses prestations. Si on s’intéresse aux rentrées d’argent associés à chaque adhérent, exprimées comme la somme des cotisations moins les dépenses associées aux remboursements, alors la majorité des adhérents fourniront une rentrée d’argent positive alors que quelques rares adhérents coûteront des dizaines de milliers d’euros en frais d’hospitalisation. Un adhérent qui coûte 70 000 €, pèse 700 fois plus sur le budget, qu’un adhérent qui coûte 100 €, et cela doit forcément être pris en compte si on souhaite l’équilibre budgétaire. En conséquence, si on veut garantir l’équilibre budgétaire, il faut une estimation précise de la proprotion de sujets qui coûtent 70 000 €. Vous comprenez bien que ce n’est pas avec 30 observations qu’on pourra estimer une moyenne correcte ! La règle selon laquelle la méthode de Student fonctionne dès que n>= 30 est ridicule puisque ça dépend fondamentalement de la fréquence et le degré d’atypie des valeurs atypiques. Ce phénomène est encore plus marqué pour les assurances qui remboursent des frais en cas d’accident très onéreux et très rare. La distribution des risques doit être alors estimés par des modèles bien plus complexes qu’un échantillon avec n=30. Il est bien évident que l’espérance reste le paramètre clé. Il ne faut surtout exclure ces outliers ou se baser sur la médiane. La sensibilité aux outliers est une nécessité; ce sont eux qui contiennent l’information.

Les choses sont très différentes si on s’intéresse, par exemple, à la corrélation entre la vitesse de sédimentation (VS) et la C Reactive Protein (CRP). L’espérance n’a plus d’importance et on s’intéressera plutôt à l’idée de seuils de positivité ou à des seuils pathologiques. Il paraîtra toujours pertinent de considérer qu’une valeur de CRP à 300 est supérieure à une valeur à 50, mais le ratio 300/50=6 ne revêtira pas de pertinence en pathogenèse. Devant cette situation, la corrélation sera mieux appréciée par un tau de Kendall ou un coefficient de corrélation de Spearman que par un coefficient de corrélation de Pearson. La régression linéaire posera des problèmes de stabilité d’estimateur sur des échantillons de taille modeste, mais manquera aussi de pertinence dans la description des relations. Le fait de perdre en performance prédictive sur les valeurs typiques pour améliorer la description des outliers, pourrait être contre-productif. Cela dépend néanmoins de l’usage de cette relation. Un meilleur exemple pourrait être la description de la relation entre deux techniques de dosage des anticorps ciblant un même antigène. Une modèle linéaire ou non-linéaire avec un estimateur robuste aux outliers pourrait être utilisé pour convertir un dosage en l’autre et établir ainsi une équivalence.

Résistance aux distributions discrètes

Juste en passant, le coefficient de corrélation de Spearman n’est pas spécialement adapté aux distributions discrètes. Le coefficient de corrélation de Pearson est parfaitement calculable avec des distributions discrètes, voire binaires, et ne souffre pas d’instabilité parce qu’il n’y a généralement pas d’outliers dans ce contexte.

Au contraire, le coefficient de corrélation de Spearman, avec sa transformation des rangs, va créer des écarts entre deux valeurs successives, d’autant plus grandes que la valeur est fréquente, rendant plus délicate l’interprétation du coefficient, sans compter les problèmes d’estimation de sa variance. On peut toujours s’en tirer avec du bootstrap si l’échantillon est de taille suffisante.

La régression linéaire est tout à fait pertinente sur des variables binaires. Si Y et X sont toutes deux binaires, la pente de la régression linéaire s’interprète comme la différence de proportions de Y=1 entre le groupe où X=0 et le groupe où X=1. L’ordonnée à l’origine (intercept) s’interprète comme la proportion de Y=1 dans le groupe où X=0.

Limites d’interprétation

En cas de relation non linéaire, il peut exister une corrélation très forte entre deux variables, mais le coefficient de corrélation de Pearson peut-être nul (ou très faible) et la régression linéaire peut avoir une pente nulle (ou très faible) et une très faible variance expliquée:

a=rnorm(1e4)
b=a^2
cor(a,b) # corrélation de Pearson nulle
coef(lm(b~a)) # pente nulle
plot(a,b)

Dans ces conditions, des modèles non linéaires permettent de prédire la valeur d’une variable en fonction de l’autre alors que le modèle linéaire n’a pas plus de pertinence que de fournir une moyenne générale. Le coefficient de corrélation de Pearson garde toutes ses propriétés intéressantes, mais ne peut pas être interprété comme une force d’association entre les deux variables. Il peut toujours s’interpréter comme la racine carrée de la variance expliquée par le modèle linéaire, qui est alors presque nul.

En cas d’hétéroscédasticité, le modèle linéaire reste toujours pertinent mais on peut espérer une meilleure stabilité des estimations en pondérant les résidus afin de rectifier l’homoscédasticité. Le modèle a toujours une erreur de prédiction moyenne nulle, voire une erreur de prédiction moyenne nulle conditionnellement à toute valeur de X, si la relation est linéaire, mais la distribution exacte des résidus diffère selon la valeur de X et ne peut pas être juste calculée comme la distribution empirique des résidus.

En cas de non linéarité, le modèle linéaire garde toujours la propriété d’erreur moyenne nulle, mais la variance résiduelle est susceptible d’être bien plus élevée que dans un modèle linéaire, de telle sorte qu’on peut dire qu’il a une performance prédictive médiocre. On perd aussi la propriété d’espérance nulle de l’erreur conditionnelle à toute valeur de X. Enfin, un changement de distribution de X, n’affectant pourtant pas la relation, peut faire apparaître un biais d’estimation, c’est-à-dire, une espérance d’erreur non nulle.

Conclusion

Beaucoup de modèles reposent sur une structure et des hypothèses manifestement fausses. On n’utilise jamais vraiment ces modèles (heureusement car ils sont faux) mais seulement leurs estimateurs. Il me paraît important d’étudier le bon ou mauvais comportement de ces estimateurs dans les cas usuels, en ne faisant qu’un minimum d’hypothèses. J’ai montré ainsi que l’estimateur des moindres carrés du modèle linéaire a des propriétés générales très intéressantes.

Le coefficient de corrélation de Pearson n’est pas un modèle mais une statistique, ayant de nombreuses propriétés intéressantes, comme j’ai montré plus haut. Il n’a pas vraiment de condition de validité mais seulement des limites d’interprétation dans certaines situations.

Le petit p bidon sous-puissant

Quelques définitions sur les risques

Considérant que la plupart des études font des comparaisons bilatérales, qu’il s’agisse d’épidémiologie ou de recherche clinique, l’hypothèse nulle est généralement l’absence totale d’effet de l’intervention ou l’exposition considérée. La plausibilité de cette hypothèse nulle est généralement douteuse, notamment pour les essais cliniques dans lesquels la question porte plus sur le signe et l’amplitude de l’effet que sur la réalité d’un effet. En bref, il paraît absolument impensable que le traitement médical ou chirurgical de la hernie discale ait exactement le même résultat fonctionnel à 1 an. Quand je dis, exactement le même résultat fonctionnel, c’est que la moyenne d’une échelle fonctionnelle serait identique même avec 10 000 chiffres après la virgule. Les vraies questions qui se posent sont :

  1. Lequel des deux traitements est le meilleur (signe de la différence) ?
  2. Est-ce que les deux traitements ont un résultat fonctionnel moyen presque équivalent ou très différent ?

Au sens strict, c’est la balance bénéfices/risques qu’on doit évaluer, en prenant en compte les effets indésirables médicamenteux et les complications chirurgicales, mais pour simplifier, on se concentre sur le résultat fonctionnel dans un premier temps.

Considérant donc que les deux traitements ne peuvent pas être strictement équivalents, le risque l’erreur de première espèce n’existe pas, au sens strict, mais elle est remplacée par les deux risques suivants :

  1. Conclure à l’existence d’une différence dans le sens opposé de la réalité (erreur de troisième espèce).
  2. Conclure à l’existence d’une différence importante alors que la différence réelle est totalement négligeable (quasi-équivalence). J’appellerai ça l’erreur de type Ib.

Définition du petit p bidon sous-puissant

Lorsqu’on utilise un échantillon trop petit et qu’on recherche un effet modeste, alors le signal (effet réel) devient négligeable par rapport au bruit (erreur aléatoire), de telle sorte qu’avec un seuil de significativité bilatéral à 5%, on a 2.5% de chances de conclure à une différence significative dans un sens et 2.5% de chance de conclure à une différence significative dans l’autre sens.

Dans ce contexte, le petit p est indépendant de la différence réelle. Un petit p significatif n’apporte plus aucune information. Il n’aide pas à identifier la réalité d’une différence non négligeable puisqu’il a la même probabilité d’arriver que la différence soit nulle, négligeable, ou non négligeable. Il n’aide pas non plus à identifier la direction de la différence puisqu’il a autant de chances d’aller dans le bon sens que dans le sens opposé et est donc indépendant du signe de la différence et donc non informatif dessus.

Je parlerai donc de petit p bidon sous-puissant pour décrire les petits p significatifs dans une situation de rapport signal/bruit très proche de zéro. Cela regroupe donc, trois cas :

  1. La différence réelle est négligeable ou nulle, mais le petit p est significatif
  2. La différence réelle n’est pas négligeable mais le petit p va dans le mauvaise direction (erreur de troisième espèce)
  3. La différence réelle n’est pas négligeable et le petit p va dans la bonne direction, mais il y avait autant de chances que ça aille dans la direction opposée, de telle sorte, que ce n’est que par pure chance que la conclusion de l’étude est correcte.

Considérer que le troisième item est bidon peut vous choquer, mais cela me paraît pertinent du point de vue de l’information. De mon point de vue, des propos peuvent être considérés de bidon, s’ils sont totalement indépendants de la réalité, ce qui implique de dire parfois des choses vraies et parfois des choses fausses. Quelque chose est bidon à partir du moment où il est décorrélé de la réalité. À l’opposé, dire systématiquement le contraire de la réalité, c’est informatif, puisqu’on peut alors croire le contraire de ce qui est dit.

Sémiologie

Devant un petit p significatif, certains signes évoquent un petit p bidon sous-puissant.

  1. Échantillon de toute petite taille face à l’effet attendu, suggérant une puissance très faible
  2. Estimation ponctuelle démesurée en comparaison à ce qui paraît plausible
  3. Petit p à la limite de la significativité (p typiquement compris entre 0.01 et 0.05)
  4. Multiplicité des tests, apparente ou cachée
  5. Autres tests répondant à la même question ne montrant pas plus de tendance à la significativité que ce qui est explicable par le hasard (environ un petit p sur 20 significatif, la moitié du temps dans le sens opposé à ce que veulent montrer les auteurs)
  6. Lorsqu’une différence d’évolution (p.e. Student inter-groupe sur différences intra-sujets) est analysée sur un paramètre dont la stabilité est attendue, apparition d’une dégradation importante dans le groupe contrôle et d’une amélioration de même amplitude dans le groupe expérimental et une différence à baseline qui va dans le sens opposé à la différence finale.
  7. Lorsqu’une différence d’évolution est analysée sur un paramètre qui doit évoluer, la moitié de la différence des différences est due à la différence à baseline et l’autre moitié à la différence finale.

Certains de critères sont très subjectifs, telle que les deux premiers, mais lorsque beaucoup d’éléments sont présent et fortement marqués, le tableau est évocateur.

À un niveau plus global de la littérature, une méta-analyse peut estimer de manière à peu près correcte l’effet réel avec des milliers de patients, ce qui permet ensuite de mieux identifier les études sous-puissantes. On peut craindre un biais de publication ainsi qu’un selective reporting biais dans ces études.

La multiplicité des tests cachée a sa propre sémiologie:

  1. Écart au protocole, sur les analyses (suspect lorsque celui-ci est disponible)
  2. Critères de jugements présentés dans la partie méthodes mais pas dans les résultats
  3. Grande majorité (voire totalité) de petits p significatifs (suggérant une très bonne puissance sur tous les tests réalisés) dans les résultats, mais presque tous compris entre 0.01 et 0.05 (alors qu’en cas de puissance à 90%, on en a 50% de petits p en dessous de 0.0012)
  4. Étrangeté des analyses qui « tirent dans les coins », comme la corrélation entre le max d’un dosage biologique entre J1 et J4 corrélé à la mortalité en réa, puis la moyenne d’un autre dosage biologique entre J2 et J3 corrélé à la mortalité intra-hospitalière, tous deux dans le même article.
  5. Critère de jugement principal inattendu étant donné la population et l’intervention, voire disparition des critères de jugements attendus.

Explication des critère N°6 et 7

Je crains que la pertinence de ce critère ne paraisse pas être une évidence au novice. Pour le comprendre, il faut raisonner en termes de distributions conditionnelles au petit p significatif. Pour cela, je partirai d’un cas d’école. Nous allons expliquer le critère N°6. Le N°7 est une variante assez simple qui en découle directement.

L’article est intitulé « Special nutrition intervention is required for muscle protective efficacy of physical exercise in elderly people at highest risk of sarcopenia« . La qualité du reporting est bien pourrie, les critères d’inclusion flous, mais on peut comprendre qu’il s’agit d’une population de patients âgés fragiles, avec une sarcopénie mais en état clinique stable. Randomisation de 17 patients (groupe qui bénéfice de kinésithérapie seule) vs 17 patients (groupe qui bénéfice de kinésithérapie + FortiFit). Le FortiFit, est un complément alimentaire à base de protéines de lactosérum et de vitamines. Plusieurs tests standardisés sont passés à baseline et à trois mois. Furent enregistrés par impédancemétrie : la masse muculaire (kg), la masse maigre (kg), l’indice de masse maigre (kg/m²), la force musculaire au handgrip test, le Short Physical Performance Battery divisable lui-même en test d’équilibre, test de vitesse de marche et test de lever de chaise. Cela fait 8 critères de jugement potentiels, assez redondants. Trois méthodes statistiques principales sont aussi possibles pour les comparaisons du résultat à trois mois : test de Student sur les résultats à 3 mois, test de Student sur les changements (3 mois moins baseline), et modèle linéaire expliquant le résultat à 3 mois par le groupe de traitement et le résultat du test à baseline. Cela fait donc 24 analyses statistiques possibles. On ne sait pas trop quelles analyses étaient planifiées étant donné qu’on n’a pas accès au protocole.

Quel est le résultat ?

 Handgrip test Baseline Moyenne ± SEMHandgrip test 3 mois Moyenne ± SEMChangement moyen
Groupe contrôle23.73±2.06 kg22.18±2.19 kg-1.55
Groupe FortiFit22.51±2.35 kg24.54 ± 2.65 kg+2.03

Le test de Student des changements (3 mois moins baseline) est significatif (p=0.013), montrant que les sujets améliorent plus leur force musculaire avec le Handgrip test. Il y a une incohérence entre le texte et la figure 1 qui semble montrer seulement une augmentation moyenne de force de +1.6 kg dans le groupe FortiFit. Il y a peut-être un mélange accidentel de données entre les forces et masses musculaires (qui sont proches).

N’y a-t-il rien d’étonnant ? Pourquoi des patients, en état stable, perdent-ils 1.55 kg au handgrip test alors qu’ils bénéficient de kinésithérapie ? Pourquoi la différence entre les groupes à baseline est-elle dans le sens opposé de la différence finale ?

Pour commencer, considérons la distribution des changements moyens (ici, les changements moyens observés sont -1.55 kg et +2.03 kg), conditionnelle à une espérance nulle du changement dans chaque groupe. Sous hypothèse d’homoscédasticité, les deux changements moyens ont la même variance car les groupes sont de taille égale. Ils sont aussi indépendants. Par le théorème central limite, la distribution jointe de ces deux moyennes de changement est donc approximable à une distribution binormale avec une corrélation nulle, centrée autour du point (0,0).

La figure présente la distribution binormale ainsi que le seuil de significativité à 10% bilatéral (orange) et 5% bilatéral (rouge). Conditionnellement à un petit p < 0.05, on constate que la densité de proba bivariée est maximale pour des moyennes égales et de signe opposé. Présenté sous un autre angle, sachant que la différence est de 2 erreurs types entre les deux groupes, il est bien plus probable d’avoir -1 erreur type dans un groupe et +1 erreur type dans l’autre groupe, que +0 erreur type dans un groupe et +2 erreurs types dans l’autre et il est encore plus improbable d’avoir +1 erreur type dans un groupe et +3 erreurs types dans l’autre !

En conditionnant la distribution binormale à un petit p < 0.05, j’ai pu calculer numériquement une probabilité d’avoir un ratio des différences de moyenne compris entre -0.5 et -2. Cette probabilité est estimée à 56%. La probabilité d’un ratio négatif (c’est-à-dire, que les deux changements moyens sont de signe opposé) est estimée à 97.5%.

En réalisant la même considération en analyse tétravariée, on peut calculer que la densité de probabilité maximale est concentrée sur le scenario suivant

 Handgrip test Baseline Moyenne ± SEMHandgrip test 3 mois Moyenne ± SEMChangement moyen
Groupe contrôleµ + epsilonµ – epsilon-2×epsilon
Groupe FortiFitµ – epsilonµ + epsilon+2×epsilon

Où µ représente l’espérance commune aux quatre cases et epsilon est la valeur telle que la différence fournisse un p=0.05, c’est-à-dire la plus petite valeur qui conduise à un résultat statistiquement significatif.

Évidemment, le point de densité de probabilité le plus élevé reste infiniment improbable puisque les distributions sont continues. Les quatre écarts à la moyenne générale diffèreront donc plus ou moins, mais les grandes tendances devraient souvent apparaître.

Le cas observé semble donc bien typique, si on présente les différences par rapport à la moyenne générale (quatre cases moyennées) :

 Handgrip test Baseline Moyenne ± SEMHandgrip test 3 mois Moyenne ± SEMChangement moyen
Groupe contrôlem + 0.49m – 1.06 -1.55
Groupe FortiFitm – 0.73m + 1.30 +2.03

Un peu de pratique

Reprenons le cas d’école et appliquons la liste des critères :

  1. Échantillon de toute petite taille face à l’effet attendu, suggérant une puissance très faible. CHECK
  2. Estimation ponctuelle démesurée en comparaison à ce qui paraît plausible. DISCUTABLE
  3. Petit p à la limite de la significativité (p typiquement compris entre 0.01 et 0.05) CHECK
  4. Multiplicité des tests, apparente ou cachée CHECK. N=3 tests apparents (avec test complètement inapproprié) seulement, mais nombreux critères de jugements mesurés mais non présentés dans les résultats. Un des tests présentés n’était même pas dans ma liste des tests imaginables et cache un choix de seuillage sur une variable catégorielle ordinale (-> deux tests possibles).
  5. Autres tests répondant à la même question ne montrant pas plus de tendance à la significativité que ce qui est explicable par le hasard (environ un petit p sur 20 significatif, la moitié du temps dans le sens opposé à ce que veulent montrer les auteurs). FAILED. Sur les trois tests présentés, deux vont dans le même sens et le troisième n’est pas reproductible mais irait dans le même sens selon les auteurs. Ce FAIL pourrait être dû à la non présentation de nombreux tests cachés.
  6. Lorsqu’une différence d’évolution (p.e. Student inter-groupe sur différences intra-sujets) est analysée sur un paramètre dont la stabilité est attendue, apparition d’une dégradation importante dans le groupe contrôle et d’une amélioration de même amplitude dans le groupe expérimental et une différence à baseline qui va dans le sens opposé à la différence finale. CHECK pour le premier critère de jugement CHECK pour le second critère (masse musculaire) CHECK pour le troisième (sarcopénie binaire)

Sur la sémiologie de la multiplicité des tests :

  1. Écart au protocole, sur les analyses SUSPECT
  2. Critères de jugements présentés dans la partie méthodes mais pas dans les résultats CHECK
  3. Grande majorité (voire totalité) de petits p significatifs dans les résultats mais presque tous compris entre 0.01 et 0.05 CHECK
  4. Étrangeté des analyses qui « tirent dans les coins » FAILED
  5. Critère de jugement principal inattendu étant donné la population et l’intervention, voire disparition des critères de jugements attendus. FAILED

Conclusion

Avec un peu d’expérience, on peut identifier beaucoup de petits p bidons.

Hypothèse nulle et alternative

Vous avez peut-être entendu parler d’un résultat statistiquement significatif qui ne serait pas cliniquement significatif car correspondant à une différence trop faible, notamment à cause d’un échantillon « trop grand« . Le problème ne vient pas de la taille de l’échantillon mais du mauvais choix de l’hypothèse nulle. Si on veut prouver qu’un effet est cliniquement significatif, il faut que l’hypothèse alternative soit « cet effet dépasse le seuil de significativité clinique » et que l’hypothèse nulle en soit la négation, c’est-à-dire « cet effet est inférieur ou égal au seuil de significativité clinique ».

H0 : µ1-µ2 <= +clinthreshold

H1 : µ1-µ2 > +clinthreshold

Où clinthreshold représente le seuil de significativité clinique. On est habitué à ça pour les essais de non-infériorité, avec des seuils négatifs. Une analyse de supériorité devrait se faire de la même manière mais avec un seuil positif.

Évidemment, il ne faut pas se faire avoir par le syllogisme consistant à poser

H0 : µ1<=µ2

H1 : µ1 > µ2

puis rejeter H0 et conclure que la différence m1-m2 observée est la différence réelle et que, comme elle est supérieure au seuil de significativité clinique, on a prouvé qu’il existait un effet cliniquement significatif. En effet, dans le pire des cas, l’effet observé est égal au seuil de significativité clinique et l’affirmation selon laquelle l’effet réel est supérieur à ce seuil a un risque alpha unilatéral à 50%.

Pourquoi n’est-il pas pragmatique d’utiliser un seuil de significativité clinique ?

C’est trop subjectif. Comme tout ce qui est subjectif, les auteurs seraient tentés de tricher au maximum dessus (comme pour le delta du nombre de sujets nécessaires) et les reviewers pourraient toujours pinailler même si l’effet choisi par les auteurs est pertinent. Bref, ça pose des problèmes à tout le monde. Le zéro, par contre est objectif et consensuel même s’il est un des choix les moins pertinents qui soient.

Il y a d’autres problèmes, comme l’augmentation du nombre de sujets nécessaires (NSN), obligeant à tricher encore plus sur le calcul. La mascarade du NSN deviendrait encore plus évidente ; ce NSN est généralement calculé à l’envers, c’est-à-dire partant du nombre de sujets incluables pour en déduire les hypothèses nécessaires à générer ce nombre. Peut-être finirait-on par admettre qu’une étude ne répond pas de manière certaine à une question. Peut-être admettrait-on qu’il faut attendre la méta-analyse pour juger d’un effet et qu’un travail qui tente de répliquer un résultat a au moins autant de valeur sinon plus que l’article original, mais là, je rêve. Soyons réaliste, ça passerait mal.

Solution pragmatique : fournir un intervalle de confiance à 95% de l’effet et laisser le lecteur final de l’article déterminer lui-même si la borne basse dépasse ou non son seuil subjectif de significativité.

Poussons la réflexion

Vous l’aurez compris, ma formulation des hypothèses n’a qu’un intérêt conceptuel. Cela peut aider dans l’interprétation subjective de résultats et plus ou moins dans la construction méthodologique de projets de recherche, mais ne sera pas explicitement formulé.

Dans un essai clinique randomisé, on a généralement une hypothèse précise. On veut prouver la supériorité d’une intervention par rapport à une autre. Une vision « binaire » succès/échec est pertinente car la décision finale est binaire. En épidémiologie, on est parfois un peu plus neutre sur le sujet. Un cadre théorique à trois hypothèses paraît alors utilisable.

H0 : effet futile, c’est-à-dire -clinthresthold < effet < +clinthreshold

H1 : effet > clinthreshold

H2 : effet < clinthreshold

Si l’effet correspond à une différence entre deux groupes, alors on pourra reformuler :

H0 : équivalence

H1 : supériorité

H2 : infériorité

En analysant un intervalle de confiance, on pourra rejeter une ou plusieurs des trois hypothèses et fournir une conclusion plus ou moins fine.

PS : un intervalle de confiance avec un niveau de confiance différent est possible, bien sûr.

Six conclusions différentes sont possibles dont trois sont tranchées, deux sont un peu floues et une est très floue :

Conclusions tranchées:

Supériorité : on a rejeté H0 et H2 et on accepte H1

Équivalence : on a rejeté H1 et H2 et on accepte H0

Infériorité : on a rejeté H0 et H1 et on accepte H2

Conclusions un peu floues:

Non-infériorité : on a rejeté H2 mais H1 comme H0 restent compatibles avec les données

Non-supériorité : on a rejeté H1 mais H2 comme H0 restent compatibles avec les données

Conclusion très floue: on n’a rejeté aucune hypothèse. Toutes les hypothèses restent compatibles avec les données.

Dans ce cadre conceptuel, on pourrait conclure à un différence significativement futile si la conclusion est l’équivalence… quand bien même le zéro n’est pas contenu dans l’intervalle de confiance de la différence.

De mon point de vue, ce n’est pas forcément aux auteurs de l’article de déterminer les seuils de significativité clinique, mais plutôt au lecteur de l’article. Par ailleurs, on pourrait pousser le concept plus loin en distinguant les effets cliniquement significatifs mineurs des effets cliniquement significatifs majeurs, les deux n’impliquant pas forcément la même réaction. En bref, la meilleure manière de « lire » un intervalle de confiance, c’est de tenter de conclure séparément sur l’effet observé à chacune des deux bornes de l’intervalle de confiance et de se dire que la réalité est probablement quelque part entre les deux (en négligeant les problèmes de prior bayésien ; ce qui est acceptable quand l’étude est de suffisamment grande taille pour que l’information du prior soit négligeable face à l’information contenue dans les données de l’étude).

Délire unilatéraliste

Vous avez pu déjà voir la formulation unilatérale suivante

H0 : µ1 = µ2

H1 : µ1 > µ2

Cette formulation est incorrecte à moins qu’il y ait une preuve mathématique que la proposition µ1 < µ2 soit fausse de telle sorte que µ1=µ2 est mathématiquement équivalent à µ1<=µ2. C’est le cas pour le test de Fisher dans une ANOVA, mais c’est loin d’être une situation habituelle.

En effet, rejeter l’égalité ne prouve pas la supériorité. Si on construit une statistique égale à la valeur absolue de la différence entre m1 et m2, on peut arriver à la conclusion que µ1 n’est pas égal à µ2 et rejeter H0, mais ça ne prouvera nullement la supériorité !

Une formulation plus correcte serait :

H0 : µ1 <= µ2

H1 : µ1 > µ2

On peut s’apercevoir que la P-value n’est pas aisément calculable dans ce cas, parce que si µ1 est légèrement inférieur à µ2 ou très largement inférieur, alors la distribution de M1-M2 change beaucoup. Eh bien, dans ce contexte, on prendra la borne supérieure des P-values spécifiques d’une différence donnée µ1-µ2 négative ou nulle. Si la statistique est bien conçue, il est probable que le pire des cas (P-value la plus grande) est dans le scenario µ1=µ2. C’est peut-être pour ça que certains ont mal formulé les hypothèses. Néanmoins la bonne formulation des hypothèses évite la construction de statistiques buggées qui ne se comportent pas bien dans le cas où µ1<µ2.

Délire bilatéraliste

Vous avez certainement vu la formulation

H0 : effet = 0

H1 : effet ≠ 0

Cette fois-ci H1 est bien la négation de H0, mais deux problèmes apparaissent.

  1. L’hypothèse nulle est souvent invraisemblable. Par exemple, paraît-il possible que le traitement chirurgical et le traitement médical de la hernie discale aient exactement le même résultat fonctionnel moyen à 12 mois ? La différence peut-être minime, complètement négligeable, mais la nullité absolue de la différence paraît impossible.
  2. L’hypothèse alternative est pratiquement inutile car elle ne donne ni d’information sur l’amplitude, ni sur la direction de l’effet. Dire qu’une exposition a un effet n’a pas spécialement de pertinence si on ne précise pas si elle est bénéfique ou nocive…

Si les analyses statistiques sont simples, alors on peut s’aider de l’effet observé pour juger de la direction de l’effet. Ce n’est pas le cas avec certains modèles de survie. Un bon exemple est le test MaxCombo décrit par Theodore Karrison dans l’article intitulé « Versatile tests for comparing survival curves based on weighted log-rank statistics » publié dans « The Stata Journal » (2016, Vol 16, Number 3, pp. 678-690). Le test permet de rejeter l’hypothèse de superposition parfaite de deux courbes de survie (hypothèse nulle) mais n’aide pas à décider de laquelle est la meilleure. Si on conclut, par exemple, que le groupe pour lequel la plus grande médiane de survie est observée, a réellement une médiane de survie supérieure, on prend un risque alpha unilatéral pouvant atteindre 50% dans le pire des cas. De même pour la survie à 1 an, pour l’espérance de vie tronquée, pour l’espérance de vie globale et à peu près pour tout ce qu’on peut imaginer.

Conclusion

Hypothèse nulle ne devrait pas être synonyme d’absence totale d’effet mais devrait toujours être la négation de l’hypothèse alternative, cette dernière étant l’hypothèse que l’on souhaite prouver. Commencez toujours par formuler cette hypothèse alternative et vous produirez des hypothèses nulles pertinentes. On peut créer des cadres théoriques distinguant plus d’hypothèses, mais la dualité H0/H1 reste pertinente pour les essais cliniques.

Pourquoi un modèle multivarié ?

Les modèles de régression logistique multivariés se retrouvent dans beaucoup de publications, sans que la raison de leur réalisation soit clairement annoncée. Cela est dommage parce que la manière de les construire dépend beaucoup de cette raison.

Nous listons ici, un nombre de raisons de réaliser un modèle multivarié :

  1. Analyses de causalité en épidémiologie analytique, que ce soit la recherche d’un effet nocif d’une exposition, ou bénéfique d’un traitement
  2. Optimisation de la puissance dans un essai clinique randomisé
  3. Construction d’un score diagnostique ou de dépistage
  4. Recherche d’un modèle pronostique ou prédictif
  5. Recherche de « facteurs de risque »
  6. Redressement d’un échantillon soumis à des biais de sélection
  7. Standardisation directe pour « comparer » des populations entre elles
  8. Imputation simple ou multiple
  9. Interprétation conditionnelle à des variables qu’on ne peut ignorer

1. Analyse de causalité

Dans ces analyses, on cherche à identifier un lien causal entre une exposition et un outcome, et à rechercher éventuellement l’intensité de ce lien. Le concept, c’est qu’en imposant ou supprimant volontairement l’exposition, on espère influencer l’outcome. La recherche de causalité n’a généralement pas d’intérêt sur des facteurs non modifiables. Si on prend la définition contra-factuelle de la causalité, le concept même n’est pas applicable à des facteurs non modifiables. Pour d’autres définitions, il reste applicable.

Il faut ajuster sur les facteurs de confusion, qui sont chronologiquement antérieurs à l’exposition et à l’outcome et sont à la fois des causes de l’exposition et de l’outcome. D’une manière générale, il ne faut pas ajuster sur les variables chronologiquement postérieures à l’exposition et/ou l’outcome. Il ne faut surtout pas ajuster sur les symptômes et/ou conséquences de l’outcome. Il ne faut pas non plus ajuster sur les facteurs de médiation, sauf lorsque cette analyse est complètement assumée (analyse de médiation).

Dans ces modèles, on ne s’intéressera qu’à l’effet de l’exposition sur l’outcome, ajusté sur les covariables. On voudra aussi avoir une estimation non biaisée de cet effet, un intervalle de confiance non biaisé et un petit p interprétable. On voudra avoir une estimation interprétable et quantifiée, telle qu’une différence absolue de risque plutôt qu’un risque relatif dont l’importance dépend beaucoup du risque de base. La modélisation des effets des covariables, par contre, pourra être fine et complexe puisque leurs effets ne seront pas directement interprétés. On fournira des effets marginaux plutôt que conditionnels.

Les approches guidées par les données (data driven), sont, d’une manière générale, biaisées dans ce contexte. Par exemple, l’inclusion de variables corrélées à l’outcome avec p<0.20 en analyse « univariée », va engendrer des fluctuations d’échantillonnages chaotiques rendant invalide les petits p et intervalles de confiance, en plus d’ajuster insuffisamment l’effet d’intérêt. Les techniques automatiques stepwise/backward/forward sont tout aussi biaisées, de même toute technique « manuelle » de recherche du « meilleur modèle ». Par ailleurs, ces méthodes sont susceptibles d’induire en erreur le statisticien en lui faisant ajuster l’effet d’intérêt sur des variables de médiation.

2. Optimisation de la puissance dans un essai clinique randomisé

Pour commencer, il n’existe pas de facteur de confusion dans un essai clinique randomisé bien mené. Le déséquilibre aléatoire des facteurs pronostiques entre les groupes est à l’origine d’une erreur aléatoire d’espérance nulle et pas d’un biais. Évitez de parler de « biais de confusion résiduel », c’est un vocabulaire inadapté. En même temps que de choisir les variables d’ajustement lors de la rédaction d’un protocole d’essai clinique randomisé, il faut commencer par se demander si l’ajustement est pertinent, tout court. Pour cela, se poser les questions :

  1. Qu’est-ce que je gagne ?
  2. Qu’est-ce que je perds ?

Qu’est-ce que je gagne : S’il existe des variables pronostiques majeures, on peut réduire jusqu’à environ 10% le nombre de sujets nécessaires. S’il n’existe que des variables pronostiques « mineures » (p.e. stade TNM IIIa vs IIIb vs IIIc dans un essai clinique incluant des patients avec cancer du colon au stade IIIa), on ne réduira le NSN de 5%, voire moins. Le risque principal, c’est le P-hacking si on a pas été extrêmement explicite sur les procédures d’ajustement dans le protocole et qu’on ne s’est pas assuré que le protocole complet a été publié avant de démarrer l’étude. Il existe d’autres risques, comme le fait de s’orienter vers le modèle logistique sans retransformer l’effet final en différence absolue marginale de risque ou en interprétant un effet conditionnel comme s’il était marginal, ou s’orienter vers un modèle identité-binomial qui est asymptotiquement correct mais sur des échantillons de taille petite ou moyenne est fortement biaisé, d’autant plus qu’on ajuste sur des facteurs fortement pronostiques (cf article de ce blog intitulé « modèle identité-binomial vs identité-gaussien »).

Si on sait ce qu’on fait, alors l’ajustement doit se faire sur des variables suffisamment fortement pronostiques pour que l’erreur d’estimation de l’effet de la variable soit inférieur à l’effet réel de la variable. En bref, le rapport signal/bruit est favorable dans l’estimation de cette variable. Si vous avez une grosse étude, vous pourrez mettre des facteurs faiblement pronostiques. Sur une petite étude, il faut juste mettre les facteurs fortement pronostiques. C’est un pari. Si on ajuste sur des variables peu pertinentes, on augmente un peu l’erreur statistique et baisse un peu la puissance. Si on oublie d’ajuster sur une variable fortement pronostique, on perd aussi un peu en puissance. Les gains et pertes sont minimes (± 1 ou 2% de puissance), sauf pour les variables pronostiques majeures.

Bien sûr, toutes les variables d’ajustement doivent être choisies a priori et les détails méthodologiques hyper-précis doivent être mis dans le protocole, tel que l’estimateur exact utilisé, la méthode d’imputation de chacune des covariables. À la limite, il faut écrire le script d’analyse à l’avance.

Toutes les variables d’ajustement doivent être collectées AVANT la randomisation. Sinon, on risque d’ajuster sur des facteurs de médiation ou de créer des biais d’immortalité et autres variantes.

3. Construction d’un score diagnostique ou de dépistage

La question de la chronologie persiste. Je suppose qu’il existe un Gold Standard, coûteux ou invasif qu’on veut remplacer par des outils diagnostiques plus simples, moins performant ou aussi performant. Dans ce contexte, la question de causalité ne se pose plus. Il n’existe plus de facteur de confusion ou de médiation. Les notions apparaissant sont celles de l’information, de redondance, de « coût » (en temps, en unités monétaires, en effets secondaires, en acceptabilité pour le soignant et patient) de collecte de la variable, mais aussi de parcimonie et de sur-entraînement.

L’usage de méthodes automatiques d’estimation des coefficients, telles que la régression LASSO, ElasticNet ou le stepwise/backward/forward elimination, est autorisée mais n’est pas toujours capable de prendre en compte le coût d’une variable. Il faudra un échantillon de validation distinct de l’échantillon d’entraînement, ou une cross-validation ou autre technique de rectification du sur-entraînement. On a le droit d’utiliser des modèles de machine learning très complexes (p.e. réseaux de neurones), même si je suis convaincu qu’on gagne rarement beaucoup en performance diagnostique avec ces techniques lorsque l’information en entrée est pauvre et qu’on perd beaucoup en transparence et en simplicité d’usage.

La notion de petit p et d’intervalle de confiance disparaît. On doit évaluer les performances diagnostiques du modèle dans son ensemble, par des statistiques telles que l’aire sous la courbe ROC. On doit aussi évaluer la calibration du modèle. On fournira une formule incluant l’ordonnée à l’origine (intercept) du modèle.

La chronologie garde toujours de l’importance. On ne peut pas inclure dans un modèle diagnostique, une variable collectée après le passage du Gold Standard. Par exemple, on ne va pas utiliser la réponse à la radiothérapie contre un cancer du colon comme élément du diagnostic du cancer du colon.

4. Recherche d’un modèle pronostique ou prédictif

Le pronostic, c’est la prédiction de l’évolution favorable (amélioration, guérison) ou défavorable (aggravation, complication, décès) d’une maladie déjà établie.

Le scenario est statistiquement assez similaire à celui d’une étude diagnostique, à ceci près que les variables précèdent chronologiquement l’outcome. Les grands principes restent les mêmes. Il ne faut pas non plus parler de facteur de confusion puisqu’il n’est pas question de causalité, sauf dans de rares cas où on s’intéresse à un facteur pronostique modifiable que l’on pense être causal… Auquel cas, on quitte le champ du pronostic pour rentrer dans le champ de la causalité et les principes énoncés plus haut s’appliquent.

Vous aurez compris que quand on s’intéresse aux biomarqueurs, souvent utilisés dans l’évaluation pronostique ou dans la prédiction de réponse au traitement, on supposent nullement qu’ils sont la cause de l’évolution. Autrement, on rechercherait des traitements qui les ciblent directement. Ils ne sont généralement qu’un symptôme d’un état interne.

Je déconseille l’usage des modèles de Cox avec variable dépendante du temps car ceux-ci ne permettent que la prédiction du présent : dernière mesure de la variable dépendante corrélée avec l’outcome.

Bien sûr, vous l’aurez compris, la chronologie est fondamentale. Rien ne sert de prédire le présent ou le passé. Il faut se placer à un moment chronologiquement bien défini (p.e. diagnostic d’une maladie) et utiliser des variables que l’on peut collecter à ce moment là pour prédire l’événement à un horizon temporel bien défini.

Le moment de l’évaluation doit être explicitement pensé. Par exemple, dans le cas d’un infarctus du myocarde, on peut faire une évaluation pronostique au moment du diagnostic de l’IDM par un gold standard (p.e. coronarographie), on peut faire une seconde évaluation au moment de la sortie d’hospitalisation. Les sujets décédés à l’hôpital ne sont pas concernés du tout par la seconde évaluation pronostique alors qu’au contraire ils peuvent être l’objet de la première ! L’information disponible à la sortie d’hospitalisation est riche et moins volatile (p.e. résultat d’une échographie trans-thoracique à la sortie, degré d’insuffisance cardiaque) que l’information au diagnostic, permettant une évaluation pronostique à moyen et long terme bien plus fine qu’il n’aurait été imaginable de faire au moment du diagnostic.

Attention au modèle de Cox, il conduit au « relativisme ». Tendance à oublier que le risque « de base » est très important à connaître. On peut rechercher les facteurs pronostiques de la sclérose latérale amyotrophique (https://doi.org/10.1007/BF00839964) dont le pronostic global est effroyable (médiane de survie de 2,5 ans) mais considérer que les patients de moins de 65 ans ont un « bon pronostic » parce que leur médiane de survie est de presque 3,5 ans, en oubliant que ce dernier chiffre reste bien petit. Le modèle de Cox fait totalement disparaître de l’équation la courbe de survie de base, trompant donc facilement son monde.

En bref, avant d’expliquer la variance d’un facteur, il faut commencer par estimer son espérance.

Comme pour un modèle diagnostique, un modèle pronostique ou prédictif est basé sur la construction d’une formule permettant de calculer un risque. On peut par exemple, fournir une formule calculant l’espérance de vie restante d’un patient ayant une sclérose latérale amyotrophique.

Ça, c’est la théorie, en pratique, j’ai développé mon propre point de vue, issu de mon expérience qualitative des interactions avec les cliniciens. Il vaut ce qu’il vaut, mais que je vais le partager (c’est l’objet de ce blog).

Les formules, pour la majorité d’entre elles ne seront pas utilisées, et les quelques unes qui le seront (p.e. score Apache) serviront plus à la recherche qu’à la pratique clinique de routine, même si ça dépend des cliniciens, certains étant plus friands que d’autres d’outils qui les guident.

Ces formules ont souvent une très faible validité externe, notamment sur le risque de base, parce qu’elles sont faites sur des échantillons non représentatifs de la population cible, avec en plus de nombreux biais de mesures.

Ensuite, les formules issues de modèles multivariés donnent des poids différents à chaque facteur. On s’aperçoit souvent que cette nuance n’a pas grande importance et qu’en comptant simplement le nombre de facteurs présents, on a des performances pronostiques ou prédictives presque identiques. Au mieux, on peut avoir à distinguer les facteurs majeurs (poids 2) des facteurs mineurs (poids 1).

Ensuite, les cliniciens ont une mémoire énorme, mais limitée. Les consultations sont de courte durée et ils doivent rapidement calculer de tête tous les risques. Cela veut dire qu’ils ne vont pas utiliser la calculatrice que vous leur fournirez, mais ce contenteront de compter consciemment ou inconsciemment le nombre de facteurs de bon ou mauvais pronostic du patient. C’est un peu différent pour la prédiction de réponse au traitement dont la gestion est beaucoup plus codifiée, et nécessite d’être validée par des essais cliniques randomisés.

En bref, de votre article, les cliniciens mémoriseront et utiliseront seulement : les facteurs de risque sont A, B et C. On comprend alors, qu’il est fondamental d’inclure toutes les variables qu’ils utilisent déjà dans la pratique dans votre modèle afin de fournir des nouveaux facteurs pronostiques « indépendants » de ceux qui sont déjà connus. Par exemple, l’âge est un facteur de moralité évident. Si vous analysez le pronostic de la démence à corps de Lewy, vous êtes obligés d’ajuster sur l’âge car l’analyse du clinicien sera toujours conditionnelle à l’âge.

Il ne faut pas non plus inclure de variables qui ne seront pas collectées dans la pratique dans vos formules. Une variable un peu difficile à collecter, si elle apporte beaucoup, sera intéressante à mettre dans le modèle, dans l’idée que même si elle n’est pas encore utilisée en routine, elle le deviendra tellement elle est pertinente. Par contre, n’intégrez pas des variables dans votre modèle si vous savez qu’elles ont été collectées pour la recherche mais ne seront pas utilisées dans la routine clinique. En effet, ces variables risquent d’atténuer, voire de faire disparaître les effets d’autres variables, qui elles seront utilisées dans la routine. Autre formulation : les effets des variables dans le modèle, étant tous conditionnels aux autres, ils ne peuvent être interprétés que lorsque toutes les variables sont mesurées.

In fine, les cliniciens ont besoin d’une simple liste de variables qu’ils sauront employer ensuite. Fournissez leur, autant que possible.

5. Recherche de « facteurs de risque »

Beaucoup d’articles parlent de « rechercher des facteurs de risque » sans préciser ce qu’ils entendent par là. Il y a une ambiguïté. Le terme facteur de risque peut avoir une connotation causale ou pas. Si on souhaite potentiellement modifier ces facteurs de risque pour réduire l’apparition de la maladie, alors les principes de l’analyse causale précédemment décrits s’appliquent, sinon on rentre plutôt dans le champ de la prédiction, avec les principes sus-cités qui s’appliquent.

Plaçons nous maintenant dans un contexte de recherche de facteurs de risque sans que la causalité nous intéresse mais seulement la prédiction.

À quoi cela sert-il ?

À un niveau collectif, cela permet d’identifier des groupes à « haut risque » et à « bas risque » afin de n’appliquer des actions de prévention secondaire (dépistage) qu’à certains sous-groupes. C’est pour cela que le dépistage de certains cancers ne se fait pas en-dessous d’un certain âge. Le risque est trop faible en-dessous de cet âge, pour que les contraintes, risques et coûts associés au dépistage soient rentables. Il faut aussi faire attention à ne pas tomber dans le relativisme. On peut souvent s’apercevoir qu’une action de santé publique n’est pertinente pour personne, ou au contraire est pertinente pour tout le monde. C’est le risque absolu du sous-groupe qu’il faut regarder plutôt que le risque relatif du sous-groupe.

On peut aussi renforcer certaines actions dans des sous-groupes. Il me paraîtrait envisageable d’essayer d’augmenter la couverture vaccinale contre l’hépatite B virale des usagers de drogues intraveineuses, en s’aidant éventuellement du réseau des pharmaciens distribuant les seringues à usage unique (ce n’est qu’une idée). Il est à noter que même si c’est un facteur de risque causal, il n’est modifiable que dans une mesure limitée, et donc, il serait interprété dans cette stratégie comme facteur non modifiable, sans que la causalité ne revête d’intérêt.

À un niveau individuel, pour un clinicien, cela sert parfois à orienter le diagnostic. Une toux, une dyspnée et un amaigrissement progressif chez un patient fumeur orienteront plus rapidement le diagnostic vers le cancer du poumon que chez un non fumeur. Il est à noter que le facteur de risque sera plutôt utilisé comme facteur diagnostic et sa mesure sera synchrone, ou presque, du diagnostic. Le facteur de risque, au sens strict, est utilisé ici comme facteur diagnostic.

6. Redressement d’un échantillon soumis à des biais de sélection

On calcule des pourcentages ou moyennes dans un certain nombre de cases (p.e. combinaison d’une tranche d’âge, un sexe, une catégorie socio-professionnelle), puis on en calcule la moyenne pondérée par le taux de sujets dans ces cases selon une population de référence. Cela correspond au processus de standardisation directe, même si je préfère le terme de redressement lorsqu’il s’agit d’effacer un biais de sélection. Si on veut redresser sur beaucoup de variables, on s’aperçoit rapidement qu’on a zéro ou un sujet pour beaucoup de cases. Cela pose des problèmes d’estimation. Une solution consiste à lisser les estimations en faisant des hypothèses d’additivité de linéarité ou de continuité. On utilisera les « prédictions » du modèle dans chaque case plutôt que le pourcentage ou la moyenne empirique de la case. Il paraît plausible de considérer que le risque de décéder du COVID-19 d’un sujet symptomatique de 71 ans et compris entre celui d’un sujet de 70 ans et celui de 72 ans. Avec un effet polynomial ou une spline, on pourra être même assez fin et estimer avec 4 ou 5 paramètres le risque dans une centaine de cases. Si on ajoute au modèle la présence de maladie respiratoire chronique, en faisant l’hypothèse d’absence d’interaction ou en modélisant de manière simplifiée l’interaction, on pourra seulement ajouter une ou deux paramètres pour doubler le nombre de cases modélisées.

Ces modèles sont alors réalisés avec les idées suivantes :

  1. Le modèle sous-jacent peut-être complexe car il n’est pas communiqué in fine. On s’autorise l’usage de splines, polynômes, interactions, fonctions de lien complexes.
  2. Le choix des variables de modélisation s’impose naturellement : il s’agit de l’ensemble des variables connues dans la population de référence sur lesquelles on craint qu’il existe des biais de sélection
  3. Chaque coefficient supplémentaire intégré dans le modèle réduit le biais d’estimation mais augmente l’erreur. Plus l’échantillon est grand plus les erreurs sont petites alors que les biais sont inchangés. On mettra dans le modèle un nombre de coefficients d’autant plus grand qu’on a un grand échantillon.
  4. Toutes les hypothèses de modélisation sont fausses. Rien ne sert de les tester. Les hypothèses sont extrêmement nombreuses et les tests d’écart aux hypothèses peu puissants, conduisant à un problème de multiplicité des tests en situation de sous-puissance, associé à des fluctuations d’échantillonnages chaotiques associées aux changements de modélisation induits. Si vous êtes tentés de tester une interaction, mettez plutôt le terme correspondant. Au pire, ça augmentera plus l’erreur que ça ne diminuera le biais.

7. Standardisation directe pour « comparer » des populations entre elles

La standardisation directe correspond à la même procédure statistique que le redressement d’échantillon pour biais de sélection. Mais là, je fais référence à des standardisations pour lesquels l’échantillon sélectionné est représentatif de la population dont il est issu mais que l’on réalise afin de comparer les résultats (pourcentages, moyennes) à une ou plusieurs autres populations de structure différente (variables démographiques ± variables sociales ± variables médicales).

L’interprétation des résultats est fortement différente de celle d’un redressement pour biais de sélection. Dans le cadre d’un redressement pour biais de sélection, le résultat brut n’est pas extrapolable à qui que ce soit alors que dans le cadre d’une standardisation, le résultat brut est tout à fait extrapolable à la population dont il est issu et au contraire, le résultat standardisé ne l’est plus. La standardisation sert à effacer l’effet des variables de standardisation afin de comparer les différences qui n’y sont pas dues.

Comme exemple, considérons une nation qui constate une prévalence élevée de démence dans sa population. Plus élevée, par exemple que dans la nation voisine. Après avoir éliminé une différence due à un biais de mesure (sous-diagnostic ou définition diagnostique différente), on peut se demander : la différence est-elle due à une population plus âgée ? En standardisant sur l’âge d’une même population de référence (l’une ou l’autre des nations ou la population de référence OMS), si la différence disparaît, alors l’explication est bien celle-là. Sinon, il y a d’autres différences qui justifient l’écart.

Le chiffre brut, non ajusté, reste le vrai chiffre, impliquant une nécessité d’organisation sociale et médicale pour subvenir aux besoins de cette population de patients déments. Pire encore, la variable de standardisation (âge ± sexe) n’est pas (ou peu) maîtrisable, de telle sorte qu’on va devoir vivre avec ce vrai handicap par rapport au pays voisin. Si, au contraire, on constate qu’une différence avec le pays voisin est explicable par une différence dans la répartition d’un facteur de risque modifiable (p.e. alcoolisme chronique), alors on a un espoir (ce n’est pas gagné pour l’alcool) d’amélioration avec une politique de prévention primaire ou secondaire.

L’interprétation se fait donc, en comparant successivement les chiffres successivement :

  1. Chiffres bruts
  2. Chiffres standardisés sur une ou deux variables (p.e. âge et sexe)
  3. Chiffres standardisés sur encore plus de variables (p.e. prévalence de l’alcoolisme chronique)

On décompose ainsi la différence en ses constituants. La vraie différence, reste la différence brute.

8. Imputation simple ou multiple

Là, on utilise un modèle pour imputer une donnée une ou plusieurs fois. D’un point de vue théorique, on a le droit d’utiliser toutes les autres covariables pour imputer une covariable. La nécessité de respect de la chronologie, obligatoire dans la plupart des modèles, disparaît ici. La seule limite qu’on doit se mettre sur le nombre de covariables explicatives pour l’imputation, c’est le problème de rapport signal/bruit. Si on a un échantillon un peu petit, on brouille le modèle en rajoutant des variables peu pertinentes dont l’effet sera trop mal estimé, avec une erreur plus grande que l’effet. Dans le pire des cas, on met beaucoup trop de variables peu pertinentes et l’imputation par modèle est équivalente à une imputation par une valeur aléatoire. Le choix de l’intégration d’une covariable dans le modèle dépend de la taille d’échantillon, de la variance de cette covariable et de son effet escompté sur la variable à imputer. On a le droit de faire des modèles complexes non linéaires et avec interactions puisqu’ils n’auront pas à être interprétés. On retrouve le principe de modélisation de l’équilibre entre le biais et l’erreur que l’on avait décrit pour le redressement d’échantillon et la standardisation directe.

Lors d’une imputation multiple dans un essai clinique, il ne faut pas oublier de mettre le bras de traitement comme covariable expliquant l’outcome, sans quoi, les valeurs imputées auraient tendance à sous-estimer la différence entre les deux bras, sauf si on assume ce biais (pénalisation volontaire des données manquantes pour préférer un conservatisme à un libéralisme).

9. Interprétation conditionnelle à des variables qu’on ne peut ignorer

Il vous est peut-être arrivé de demander à un clinicien quel était, selon lui, le risque approximatif d’un événement (p.e. complication post-opératoire ou survie sans progression) et qu’il réponde « je ne peux pas dire, ça dépend complètement de … ». Pourquoi cette réponse ? Cela arrive lorsqu’un ou plusieurs facteurs sont hautement pronostiques. Selon le sous-groupe, l’évolution est tellement différente que le clinicien ne moyenne jamais leur pronostic. Une caractéristique de la maladie fortement pronostique est elle qu’on pourrait dire que les patients ayant des valeurs différentes de ce facteur pronostique ont des maladies différentes ! Cela suggère alors que l’interprétation et toujours conditionnelle à ce ou ces facteurs. Il faudrait idéalement faire des analyses en sous-groupes, sauf si on n’a pas la puissance et qu’on a de bonnes raisons de penser que l’interaction est faible ou négligeable. Auquel cas, il faut faire un modèle ajusté sur cette covariable et il est pertinent de fournir un effet conditionnel plutôt que marginal.

Au final, cela se trouve souvent dans les critères d’inclusion. On mélange rarement des patients aux caractéristiques trop différentes. Le fait de n’inclure qu’un sous-groupe de patients est une manière d’à la fois ajuster et prendre en compte les interactions sur la variable définissant se sous-groupe.