Visite index et cohortes rétrospectives

Problématique

La méthodologie des cohortes rétrospectives n’est presque jamais détaillée dans les articles et pourtant elle est essentielle. Si on s’intéresse, par exemple, au pronostic d’une maladie après diagnostic, on voudra inclure les sujets au moment du diagnostic. Si la recherche s’effectue dans des dossiers médicaux électroniques, les patients atteints de la maladie seront identifiés par une donnée structurée ou non structurée, tel qu’un code diagnostic, le résultat d’un examen biologique ou des mots-clés dans le texte. Il est aussi possible de se baser sur une combinaison de plusieurs éléments (pe. code diagnostic OU biologie). Cette étape conduira à la pré-sélection d’un ensemble de dossiers qui seront ensuite relus, afin de confirmer le diagnostic et les critères d’inclusion.

Trois dates peuvent alors être définies pour chaque sujet:

  1. La date de diagnostic de la maladie (ou date de début des symptômes si c’est ça qui nous intéresse)
  2. La date de la première visite présente dans le dossier médical du centre (ou des centres pour les cohortes multicentriques)
  3. La date index, c’est-à-dire, la date du premier document qui a permis à ce patient d’être pré-sélectionné. Si c’est la combinaison de plusieurs documents (pe. dosage biologique + code diagnostic), alors c’est la date à partir de laquelle les documents sont suffisants pour que le patient ait été pré-sélectionné.

Ces trois dates peuvent différer. Un patient transféré d’un autre centre pourra avoir une date de diagnostic antérieur à la date de la première visite du centre de l’étude. Selon la méthode de pré-sélection, la première visite du centre de l’étude pourra ne pas être identifiée par les codes ou mots-clés recherchés alors qu’une visite ultérieure le sera.

Une erreur méthodologique très fréquente consiste à analyser le pronostic à partir de la date de diagnostic, sans tenir en compte du biais de temps immortel (immortal time bias) induit par le délai entre la date de diagnostic et la date index. Ce phénomène est caricatural si le critère de jugement est la survie globale. Tout sujet décédé avant la date index sera exclu car il ne sera pas pré-sélectionné. S’il y a toujours un intervalle de deux ans entre le diagnostic et la date index, alors on n’observera aucun décès les deux premières années suivant le diagnostic puisque tous les sujets décédés auront été exclus !

Le biais persiste, dans une moindre mesure, si on se base sur la date de la première visite plutôt que la date de diagnostic. Le suivi, en réalité, débute à la date index.

Solutions

Comment peut-on alors correctement modéliser la survie avec les modèles de survie non paramétriques ou semi-paramétriques habituels (Kaplan-Meier et Cox) ?

Date de diagnostic comme baseline

La stratégie idéale, si elle est faisable, consiste à prendre la date de diagnostic comme date de début de suivi mais appliquer une troncature à gauche jusqu’à la date index dans le modèle de survie. Cette troncature à gauche est une fonction assez méconnue. Plutôt que de juste considérer que chaque patient est suivi à partir de T0 jusqu’à une date des dernières nouvelles, faisant alors sortir le sujet de la cohorte, on considère qu’il existe une date des premières nouvelles et une date des dernières nouvelles. Le sujet entre dans la cohorte aux premières nouvelles et en sort aux dernières nouvelles. Le nombre de sujets à risque peut alors croître puis décroître, puisqu’il y a des gagnés de vue et des perdus de vue. Cette méthode permet de conserver la forme de la courbe de survie originale, en reposant sur l’hypothèse d’entrée et de sortie de la cohorte au hasard, ou, du moins, pour des raisons non corrélées à l’outcome.

Méthode landmark

Cette stratégie a une limite: elle nécessite qu’un nombre suffisant de sujets ait une date index égale à la date de diagnostic, sinon, dans le pire des cas, on commencera par un estimateur de Kaplan-Meier à 0/0, ce qui rendra impossible toute estimation de courbe de survie. Si la majorité voire la totalité des sujets ont un écart important entre la date de diagnostic et la date index (pe. 1 an), on peut comprendre que l’évolution initiale est impossible à connaître. On doit alors renoncer à la comparaison sur la période initiale de la courbe de survie. On peut utiliser la méthode landmark, qui consiste à redéfinir la baseline, c’est-à-dire, le T0 de la courbe de survie, au diagnostic+constante tel qu’un an après le diagnostic. Au nouveau point de départ, tous les sujets auront la même ancienneté de la maladie. Ils seront suffisamment nombreux pour que le tracé de la courbe soit possible. Tout sujet ayant eu l’événement avant le landmark sera exclu (censure à gauche).

Date index comme baseline

Une stratégie alternative consiste à définir la baseline (T0 de la courbe de survie) comme la date index. Cette méthode fournit la meilleure précision statistique, car garantit un échantillon de taille maximale à T0. Par contre, cette méthode fournit des courbes de survie d’allure exponentielle quand bien même ça ne reflète pas du tout l’évolution de la maladie. En mélangeant tous les stades d’ancienneté de la maladie à baseline, le rythme d’apparition des événements devient une moyenne des risques associés à chaque ancienneté. Par exemple, l’ataxie spinocérébelleuse de type 2 est une maladie neurologique dégénérative d’évolution progressive lente mais inexorable. La figure 1 de l’article « Prediction of Survival With Long-Term Disease Progression in Most Common Spinocerebellar Ataxia » (doi: 10.1002/mds.27739, PMID: 31211461) décrit une survie globale de 97.8% à 10 ans, 78% à 20 ans, 31% à 30 ans et 11.2% à 40 ans. Ainsi, la mortalité précoce (< 10 ans) est négligeable alors l’issue fatale survient majoritairement entre 15 et 35 ans. On observe pourtant des courbes très différentes sur la figure 1 de l’article intitulé « Survival in patients with spinocerebellar ataxia types 1, 2, 3, and 6 (EUROSCA): a longitudinal cohort study » (doi: 10.1016/S1474-4422(18)30042-5, PMID: 29553382). Le taux de survie à 10 ans du l’ataxie spinocérébélleuse de type 2 est environ de 73%, avec un rythme de décès semblant assez constant sur les 10 années de suivi. Cela est explicable par un T0 correspondant à la date index, et concernant des cas prévalents d’ancienneté très variable. Le rythme de décès est alors égal à la moyenne des rythmes de décès de toutes les anciennetés, pondérée par la prévalence des anciennetés. Cette attitude peut néanmoins se défendre pour les situations où l’évolution est peu dépendante de l’ancienneté, c’est-à-dire, correspondant à des courbes de survie d’allure exponentielle.

Méthodes paramétriques ?

Éventuellement, on pourrait aussi utiliser la loi de Weibull pour compléter le début du suivi mal connu.

Généralisation des concepts

La distinction entre date de début des symptômes et date de diagnostic peut parfois avoir une importance (pe. syndrome démentiel) et c’est souvent la date de début des symptômes qui importe le plus, avec néanmoins des problèmes de difficulté à mesurer la date de début des symptômes.

Même s’il est fait référence au dossier médical informatisé, les problèmes décrits dans ce billet sont tout aussi applicables aux dossiers papiers, pour lesquels il existe des documents ou source de données index. Il est aussi généralisable aux registres. Il est enfin généralisable aux cohortes prospectives incluant des cas prévalents, pour lesquels la visite index sera généralement la visite d’inclusion.

Concept apparenté, l’anti-cohorte ou cohorte inversée

Ne cherchez pas ce concept dans la littérature scientifique, vous ne l’y trouverez pas. Le terme de cohorte inversée ou anti-cohorte est une invention de l’auteur de ce blog. Il s’agit d’une méthodologie à classer dans la sémiologie fongique des études, c’est-à-dire, un exemple de ce qu’il ne faut pas faire. Plutôt que de sélectionner les sujets nouvellement diagnostiqués sur une période donnée (pe. entre 2010 et 2019) et de les suivre jusqu’à survenue d’un événement ou censure administrative à une date de point (pe. 31 décembre 2019), la cohorte inversée sélectionne les sujets sur la présence d’un événement sur une période récente (pe. 2018-2019), puis on remonte le dossier médical jusqu’à la visite la plus ancienne du dossier médical (pe. 2000-2019) et on l’analyse comme si le sujet avait été sélectionné sur cette première visite.

Le taux de survenue d’événement atteint alors 100%. Cela ressemble à une méthodologie cas-témoin dans laquelle il n’y aurait que des cas. Malheureusement, le fichier de données se présente comme celui d’une cohorte et un statisticien non au fait de la méthodologie de sélection employée pourrait alors l’analyser comme s’il s’agissait d’une cohorte ordinaire. Les sujets dont la date de première visite est récente auront alors une survie avant événement raccourcie.

Une variante de cette cohorte inversée est la sélection de la « file active » des patients (pe. ayant eu une visite entre janvier et décembre 2019) qu’ils aient eu ou non l’événement d’intérêt, puis de remonter jusqu’à la première visite du dossier médical (pe. jusqu’à l’an 2000 pour certains patients). La visite index est alors en 2019, avec une forte représentation des cas prévalents. Même si certains événements peuvent survenir après la date index (pe. date index en février 2019 et événement en septembre 2019), si on utilise la date de première visite comme baseline du suivi, on aura une période d’immortalité extrêmement longue et un très faible nombre d’événements au total. Toute variable positivement corrélée à la date de première visite sera corrélée négativement corrélée au délai avant survie.

Prospectif vs rétrospectif

Savez vous ce qu’est une étude prospective ? Ce terme est souvent employé dans la littérature médicale, mais rarement défini. Nous allons tenter de montrer les différents sens qu’il peut revêtir et les problématiques associées.

Je vais schématiquement distinguer:

  • Donnée prospective ou rétrospective
  • Protocole prospectif ou rétrospectif
  • Analyse prospective ou rétrospective

Lorsque les trois sont prospectifs, l’étude est clairement prospective, autrement, c’est matière à discussion, sans compter les études qui ont les deux versants sur un ou plusieurs aspects.

Donnée prospective

Pour faire simple une donnée prospective, est une donnée enregistrée de manière synchrone à la réalité qu’elle représente. Si, par exemple, en 2022, on décide de fouiller des dossiers médicaux de nutrition de 2010 à 2020, et que l’on enregistre tous les poids qui ont été mesurés sur la balance de la salle de consultation et notés dans le dossier médical, la donnée est prospective. À l’opposé, si, en 2022, on appelle les patients pour leur demander quel poids ils pesaient, environ, à l’époque (2010 à 2020), alors la donnée est rétrospective, avec un fort biais de mémorisation possible.

Considérons maintenant un patient qui décrit une perte de poids de 5 kg sur les 3 derniers mois durant une consultation en avril 2015. Il dit que son poids en janvier était de 68 kg et qu’il pèse maintenant 63 kg. Enfin, un protocole d’étude sur dossier médical est créé en 2021, et, le 8 février 2022, un interne en médecine fouille les dossiers médicaux et recopie ces données dans une base de données de la recherche, structurée.

Janvier 2015 est la date de mesure, Avril 2015 est la date d’enregistrement de la donnée, maintenant figée dans un dossier médical et février 2022 est la date de collecte de la donnée. Une donnée est prospective si la date de mesure et la date d’enregistrement sont identiques.

On peut encore distinguer deux cas de figures. Selon les situations, une donnée peut être enregistrée de manière systématique ou pas. Dans les dossiers médicaux usuels, aucune information n’est vraiment obligatoire, et les données manquantes seront généralement très nombreuses, même sur des variables particulièrement importantes. Dans les registres ou les grandes « cohortes prospectives », on mettra un soin tout particulier à enregistrer de manière systématique, certaines variables. Il existera alors une base de données structurée et des instructions précises pour que les responsables du registre ou de la cohorte enregistrent les données de manière systématique et standardisée. La liste des données systématiquement enregistrées ne sera pas forcément basée sur des objectifs de recherche précis; ceux-là étant éventuellement définis dans des protocoles de recherche ultérieurs.

On comprend alors que la valeur des données n’est pas la même dans le cas de registres avec une tentative d’enregistrement systématique et dans les dossiers médicaux emplis de données manquantes. Je distinguerai les deux cas de figure, en parlant d’enregistrement actif ou d’enregistrement passif. Je parlerai alors de donnée prospective active ou de donnée prospective passive. Il est aussi possible de parler de donnée rétrospective active lorsqu’une question soumise à un biais de mémorisation est systématiquement demandée au patient (pe. quel était votre poids de forme?).

Protocole prospectif

Un protocole de recherche sera dit prospectif, s’il est réalisé avant que la moindre donnée de la recherche ne soit enregistrée. On pourra néanmoins rédiger un protocole de recherche en 2021 pour questionner des patients sur leur vécu du premier confinement de COVID-19 en France de mars à mai 2020. Par exemple, ont-ils consulté un médecin au moins une fois sur cette période ? La donnée sera rétrospective active, soumise à un biais de mémorisation, mais le protocole sera prospectif, car la nature et la méthode d’enregistrement de ces données, ainsi que leur analyse, aura été décidée avant de débuter le premier enregistrement.

À l’opposé, on pourra parler de protocole rétrospectif lorsque les données ont déjà été enregistrées avant que l’on réalise le protocole de l’étude. Les données seront colligées dans une base structurée, spécifique au projet de recherche, après que le protocole soit rédigé.

Analyse prospective

L’analyse d’un lien entre une variable d’exposition (chronologiquement antérieure) et un critère de jugement (chronologiquement postérieur), sera dite prospective si la sélection des sujets opère sur la variable d’exposition et que la comparaison du critère de jugement est faite entre les niveaux d’exposition. Dans le cas d’une exposition catégorielle, on constituera des groupes d’exposition avant de comparer les critères de jugement. C’est typiquement l’analyse que l’on retrouvera dans les cohortes.

À l’opposé, on parlera d’analyse rétrospective lorsque l’on définit les groupes sur le critère de jugement (chronologiquement postérieur) et que l’on compare ensuite les taux d’exposition (chronologiquement antérieur) selon les groupes constitués.

Les cohortes sont alors toujours prospectives alors que les cas-témoins sont toujours rétrospectifs, par leur analyse.

Enfin, une analyse sera transversale lorsqu’elle sera basée sur un ensemble de variables dont les mesures sont synchrones. On remarquera que l’enregistrement de données peut être transversal, c’est-à-dire avec une seule date d’enregisrement par patient, sans forcément que l’analyse ne le soit. Par exemple, dans une étude cas-témoin sur le lien entre nombre d’enfants et risque de cancer du sein, on pourra demander à des femmes avec ou sans cancer du sein (appariées sur l’âge), combien d’enfants elles ont eu. L’enregistrement sera transversal, mais l’analyse sera longitudinale, rétrospective. La donnée de cancer sera prospective alors que la donnée du nombre d’enfants sera rétrospective.

On distinguera donc trois types d’analyses : prospectives, rétrospectives et transversales. Les analyses prospective et rétrospectives sont longitudinales car elles font appel à des mesures applicables à des dates différentes.

Quels biais ?

Une donnée rétrospective sera généralement déclarative et donc soumise au biais de mémorisation, même si l’ampleur de ce biais sera très variable. Une femme mémorise généralement très bien le nombre d’enfants qu’elle a eu, sauf cas de démence avancée.

Une donnée prospective passive souffrira généralement d’un taux de données manquantes élevé, rarement au hasard. Néanmoins, il existe des exceptions. L’histologie d’un cancer opéré sera généralement présente dans le dossier médical du centre dans lequel l’opération a été réalisée, avec un taux de données manquantes très faible, sauf exception liée à des parcours de soins particuliers pour lesquels le compte-rendu anatomo-pathologique se retrouvera ailleurs. Une donnée prospective active pourra avoir une bien meilleure qualité, si des ressources humaines y sont dédiées. Mon expérience personnelle avec certains registres et certaines cohortes prospectives m’a montré que la donnée prospective soi-disant active peut aussi être de qualité bien plus basse que la donnée prospective passive. Il est tout à fait possible d’avoir un taux de données manquantes supérieur à 50% sur la nature d’une chirurgie pour une donnée prospective en anesthésie. Il est alors parfois nécessaire de rectifier les données prospectives actives par des données prospectives passives de bien meilleure qualité.

Enfin, les analyses prospectives, comme celles que l’on réalise dans les études de cohortes seront soumises à des biais d’attrition, attribuables aux perdus de vue, alors que les analyses rétrospectives pourront être soumises à des biais de survie sélective.

Biais de mémorisation atypiques

Je vais vous raconter deux histoires courtes dans ce billet, illustrant des cas assez inattendus, de « biais de mémorisation ».

Premier cas rapporté

Cela concerne une étude avant-après prospective, dont la qualité du recueil de données est discutable. Notamment, la date d’inclusion n’avait pas été renseignée dans le base de données remplie sur tableur Excel. Je dus, suite à une remarque d’un reviewer, retrouver les dates d’inclusions afin d’évaluer l’adhésion au protocole avant-après par les investigateurs : traitement contrôle donné en période avant et traitement expérimental donné en période après. En croisant les identifiants de patients avec la base de données médico-administrative locale, je pus retrouver les dates ! C’est là que je découvris que les périodes fournies dans le manuscrit de l’article étaient complètement fausses ! Le manuscrit précisait que la période avant s’étendait de novembre 2016 à janvier 2017 et que la période après s’étendait de février 2017 à avril 2017 alors qu’avec les dates enfin retrouvées, je découvrir que le traitement contrôle avait été donné de septembre à décembre 2016 et le traitement expérimental avait été donné de janvier à mars 2017. Le premier auteur de l’article ne s’en étonna pas : il avait décrit les dates de mémoire, et s’était trompé de quelques mois…

Pour compléter l’histoire, j’ai retrouvé dans mes archives mail la date à laquelle j’ai fait la première analyse statistique de la base de données : mi-mars 2016. Encore une preuve que la fin de la période d’inclusion ne pouvait être en avril !

Second cas rapporté

Ce second cas concerne encore un biais de mémorisation dans une étude prospective, dont l’objectif était d’évaluer la validité d’un questionnaire de qualité de vie, avec une cohorte de cas incidents suivis six mois auquel s’ajoutait un groupe de patients prévalents, ne bénéficiant que d’une seule visite. Il semblerait que les investigateurs aient complètement oublié d’enregistrer le traitement médical prescrit aux patients à baseline. Comme les dossiers médicaux étaient d’une qualité excécrable, il n’était même pas possible de savoir ce qui avait été prescrit. Au final, l’interne en charge du projet appela les patients pour leur demander quel traitement ils avaient pris un an auparavant ! Elle me dit qu’elle ne pouvait pas leur demander la dose parce que là, le biais de mémorisation était trop fort, mais qu’au moins, elle espérait que l’information sur la molécule ne soit pas trop mauvaise. Après réflexion, je crains que pour les cas prévalents l’information soit de particulièrement mauvaise qualité, car ils sont susceptibles d’avoir plusieurs traitements au décours de leur suivi et mémoriser précisément celui qu’ils prenaient il y a un an paraît particulièrement difficile.

Lire entre les lignes : respect des recommandations

Méfiez vous des articles basés sur des échantillons rétrospectifs, sur dossiers médicaux, décrivant que la prise en charge des patients suivait strictement et rigoureusement les recommandations nationales ou internationales, voire paraphrasant les recommandations afin de donner l’illusion qu’elles sont respectées. La seule garantie que l’on puisse avoir sur une étude rétrospective, c’est que les pratiques habituelles des services concernés ont été suivies. Citer les recommandations peut être une solution pour ne pas avouer que l’on est incapable de décrire les pratiques habituelles parce qu’elles n’ont jamais été formalisées. Sur deux manuscrits vantant le fait que certaines recommandations et procédures étaient rigoureusement respectés, que j’ai relus en tant que statisticien ayant participé aux analyses, je peux affirmer que pour tous les deux, c’était faux. Je me suis empressé de corriger les manuscrits, bien entendu, mais beaucoup de statisticiens n’auraient pas relu suffisamment en profondeur les manuscrits pour s’en apercevoir. Dans le premier manuscrit, je connaissais suffisamment le chef de service pour savoir qu’il se vante d’ignorer les recommandations, obsolètes, inadaptées et reposant sur des niveaux de preuve très bas (et je confirme son opinion, puisque j’ai un peu étudié les recommandations moi-même). Cela était aussi confirmé par le nombre énorme de données manquantes sur les examens théoriquement obligatoires selon les recommandations. Dans le second, il était mentionné qu’un examen médical était réalisé systématiquement, dans les méthodes, mais sur environ 110 patients, seulement 2 avaient bénéficié de cet « examen systématique ». Heureusement, cela était visible dans les résultats de l’article.

Ensuite, ce problème peut aussi arriver dans les études prospectives. Sur l’étude prospective que j’ai relue qui détaillait le plus la prise en charge, j’ai constaté que l’adhésion des investigateurs au coeur de ce protocole avant-après, c’est-à-dire donner l’intervention Contrôle en période avant et l’intervention Expérimentale en période après, était particulièrement basse: < 80% sur l’ensemble de létude et < 30% les deux derniers mois de l’étude. Sur cette base, il me paraît difficile de s’assurer du respect des recommandations décrites dans des niveaux de détails extrêmes (y compris les situations atypiques), alors qu’aucune variable recueillie ne permettait d’évaluer l’adhésion à ces recommandations.

Ce que je retiens de ces cas rapportés, c’est que pour s’assurer de la conformité d’une pratique à des recommandations, il est nécessaire de collecter les variables permettant d’évaluer l’adhésion à ces pratiques. Tant que je n’ai pas ces variables, en tant que statisticien, j’aurais toujours un grand doute quant à l’adhésion. Je vous conseille aussi de vous méfier des articles qui citent moults recommandations dans les méthodes, vantant leur respect, sans décrire la moindre variable, dans la section des résultats, permettant de vérifier ces dires.

Études compétitives

Petite anecdote courte aujourd’hui, dans la thématique « ce qui n’est pas dit dans la méthodologie d’un article ». Dans nos Centres Hopistaliers Universitaires, de nombreuses études prospectives sont menées chaque jour. Parfois deux études portant sur un profil de patient proche recrutent en parallèle. Les patients ne pourront généralement pas être inclus dans les deux études en même temps, car leurs protocoles respectifs seraient susceptibles d’interférer. Cela pourra parfois engendrer un biais de sélection majeur, dépendant de la combinaison des critères d’inclusion des deux études.

Pour l’exemple, à Rouen, deux études incluent des patients atteints de syndrome de l’intestin irritable (SII). Cette maladie comporte trois formes cliniques distinctes : avec diarrhée, avec constipation, ou avec alternance des deux. La forme diarrhéique est la plus fréquente. La première étude exigeant des patients la forme diarrhéique (critère d’inclusion), l’inclusion des patients y est plus difficile que dans la seconde, qui inclue pratiquement le SII tout venant. En conséquence, presque tous les patients avec forme diarrhéique sont inclus, par les investigateurs, dans la première étude. La seconde étude se retrouve alors avec seulement quelques patients diarrhéique présentant des critères d’exclusion à la première étude. Cette seconde étude a alors un biais de sélection majeur, sous-représentant les formes diarrhéiques et les rendant non comparables aux autres formes, car elles sont associées à des critères d’exclusion de la première étude.

Ajuster ou ne pas ajuster, telle est la question

Je vais partager une petite réflexion concernant les ajustements statistiques dans les études quasi-expérimentales de type ici-ailleurs.

Principe des études ici-ailleurs

D’une manière générale l’évaluation de l’efficacité d’une intervention par rapport à une autre est très difficile dans une étude observationnelle en raison d’un biais d’indication, c’est-à-dire, une prescription dépendante des caractéristiques du patient, corrélée au pronostic de la maladie. Par exemple, on observera une mortalité bien plus grande des patients atteints de COVID-19 lorsqu’ils bénéficient d’une ventilation mécanique invasive que lorsqu’ils n’en bénéficient pas. Cela n’est pas dû à la nocivité de la ventilation mécanique, mais simplement au fait qu’elle n’est prescrite qu’à des patients dont l’état clinique est très altéré.

Exemple d’étude illustrative

Pour la suite, je prendrai un exemple dans lequel les indications sont beaucoup moins codifiées et la balance bénéfices/risques bien plus incertaine, ce qui permet alors de rendre la méthodologie ici-ailleurs envisageable. Après exérèse chirurgicale complète de mélanomes primitifs cutanés non métastatiques, la fermeture de l’espace cutané peut se faire, pour les exérèses étendues, par un lambeau cutané ou une auto-greffe cutanée. Il existe une querelle d’écoles quant à la meilleure technique, lambeau ou greffe, certains argumentant que les résultats carcinologiques diffèrent. À Lille, 100% des patients ont bénéficié d’une greffe contre 12% à Lyon et 66% à Rouen. Comment alors peut-on comparer les résultats carcinologiques entre lambeau et greffe ?

Stratégie per protocol ajustée sur le centre (comparaison intra-centre)

Deux stratégies de comparaison orthogonales existent. On peut comparer les patients ayant bénéficié d’une greffe à ceux ayant bénéficié d’un lambeau en ajustant sur l’effet centre. Cette méthode de comparaison est interprétable comme une comparaison des sujets avec lambeau et greffe d’un même centre. Ainsi, on comparera les 12% de sujets avec greffe de Lyon aux 88% de sujets avec lambeau de Lyon. On comparera les 66% de sujets avec greffe de Rouen aux 44% avec lambeau de Rouen. Le centre de Lille ne participera pas du tout à la statistique car l’effet centre y sera colinéaire à l’effet greffe. De manière grossière, on peut dire que les effets greffe vs lambeau de Rouen et Lyon seront moyennés par pondération par l’inverse de la variance des estimateurs. Le biais d’indication sera a priori majeur dans cette comparaison. Notamment, il est probable que la réalisation technique du lambeau soit difficile voire impossible dans les 12% de greffés à Lyon étant donné la localisation et l’étendue de l’exérèse. Même en ajustant sur le stade TNM, et les autres facteurs pronostics (sous-type histologique, ulcération, indice mitotique, état général), on peut craindre une persistance du biais d’indication.

Stratégie en intention de traiter (comparaison inter-centre)

La deuxième stratégie consiste à comparer le résultat carcinologique moyen de Lille (qui fait 100% de greffes) à celui de Lyon (qui fait 12% de greffes). Il s’agit alors d’une comparaison de la greffe au lambeau en « intention de traiter », considérant qu’à Lyon, il y a une intention de traiter tout le monde par un lambeau alors qu’à Lille, c’est l’inverse. C’est cette seconde stratégie qui correspond à une méthodologie ici-ailleurs. Le biais d’indication disparaît complètement de cette comparaison grace à l’approche en intention de traiter. Il n’y a plus aucun sens à ajuster sur l’effet centre. En réalité, il n’est même plus possible d’ajuster sur l’effet centre. Selon le point de vue, on peut considérer que l’effet centre est l’effet principal du traitement qui nous intéresse ou on peut considérer que l’effet centre est colinéaire à l’effet principal. Cette stratégie ici-ailleurs est immunisée au biais d’indication, mais est fragile à un potentiel biais de sélection différentiel si les populations consultant Lyon et Lille diffèrent notablement. Au contraire, la première stratégie de comparaison, ajustée sur l’effet centre est immunisée au biais de sélection différentiel des centres puisque les patients d’un centre sont comparés aux patients du même centre.

Quelle stratégie ? Quel biais ?

Pour résumer, il existe potentiellement deux biais remettant en cause la comparabilité des groupes de greffe et lambeau : (1) un biais d’indication et (2) un biais de sélection différentiel. L’analyse ajustée sur l’effet centre est fragile au biais d’indication mais immunisée au biais de sélection différentiel alors qu’à l’opposé, l’analyse ici-ailleurs en intention de traiter est immunisée au biais d’indication mais fragile au biais de sélection différentiel.

Meilleure stratégie ou stratégie combinée ?

Dans le contexte, je craindrais nettement plus le biais d’indication au biais de sélection différentiel, car la population de patients avec mélanomes primitifs cutanés opérables non métastatiques n’a pas de raison de différer notablement entre les centres alors qu’il est raisonnable de craindre un biais d’indication majeur, les prescriptions étant rarement faites au hasard. Néanmoins, il est intéressant de réaliser les deux analyses et d’en vérifier la cohérence, car réaliser deux analyses biaisées différemment mais fournissant la même conclusion est une manière de se rassurer quant à l’impact des biais. On pourrait, par exemple, réaliser une analyse ici-ailleurs en intention de traiter en analyse principale et l’analyse per protocol ajustée sur l’effet centre en analyse de sensibilité.

Que peut-on en retenir ?

Tout cela pour dire que le codage de la variable d’effet et l’ajustement sur l’effet centre modifient profondément l’interprétation des résultats et qu’un ajustement n’est pas toujours souhaitable, pouvant engendrer un biais plus important que l’approche orthogonale.

Pour aller plus loin

Comparaison des traitements ou des stratégies ?

Dans la stratégie en intention de traiter, on pourra argumenter qu’on ne compare plus les traitements (greffe vs lambeau) mais les stratégies de prescription (greffe pour tout le monde vs lambeau si possible). Si on considère que la question du lambeau ou de la greffe ne se pose pas pour certains patients pour lesquels le lambeau n’est pas techniquement réalisable, alors il est logique de comparer les stratégies ou de comparer greffe vs lambeau dans un sous-groupe restreint pour lesquels les deux techniques sont possibles à réaliser.

Études avant-après

La problématique décrite dans les études ici-ailleurs est transposable aux études avant-après. On peut faire une analyse en per protocol ajustée sur le temps (p.e. mois par mois), conduisant à une comparaison « transversale » des patients avec un fort biais d’indication mais pas de biais de sélection différentiel attribuable à une évolution de la population incluse, ou au contraire faire une analyse en intention de traiter, où c’est l’effet temps « après » vs « avant » qui représente l’effet principal, faisant disparaître tout biais d’indication mais faisant potentiellement apparaître un biais de sélection différentiel ou une confusion avec d’autres changements de pratiques simultanés.

Autre exemple

Le biais d’indication est souvent majeur, mais le biais de sélection différentiel peut parfois être majeur lui aussi, rendant alors les deux analyses toutes deux très fragiles. Prenons l’exemple de la prescription de l’hydroxychloroquine pour les patients infectés par COVID-19 hospitalisés. Bien que le pronostic du COVID-19 soit probablement peu différent entre régions françaises, après ajustement sur l’âge et l’IMC, les indications à l’hospitalisation dépendent des ressources en soins locales et des pratiques de prescription des médecins. En effet, l’hospitalisation est bien une prescription médicale ! C’est pour cela qu’en France métropolitaine, le taux de mortalité intra-hospitalière est hautement variable d’un département à l’autre, avec un premier décile à 12,7% (Côtes d’Armor) et un neuvième décile à 18,2% (Meuse), bien que la population générale de Meuse soit plus jeune (10,5% de sujets de plus de 75 ans vs 12,3% pour les Côtes d’Armor). Cela rend les études ici-ailleurs particulièrement biaisées.

Devenir des perdus de vue : un case report

Rappel de vocabulaire en survivologie

Considérons une étude de cohorte ouverte dans laquelle les patients sont inclus de janvier 2015 à décembre 2019 et dont le gel des données est réalisé en janvier 2020. Ainsi, un sujet inclus en janvier 2015 aura jusqu’à 5 ans de suivi alors qu’un sujet inclus début décembre 2019, aura un mois de suivi au maximum.

La date de point est le 31 décembre 2019. Les sujets dont on sait qu’ils sont encore survivants au 31 décembre 2019 sont appelés exclus-vivants. Ils subissent une censure administrative à cette date.

Un sujet inclus en 2015, dont on sait qu’il était vivant en juin 2017, mais dont on ne sait plus rien après, a pour date des dernières nouvelles juin 2017 et est un perdu de vue.

Pour les exclus-vivants, la date des dernières nouvelles est égale à la date de point. Pour les sujets décédés, la date des dernières nouvelles est égale à la date de décès.

Les modèles de survie ne distinguent généralement pas les exclus-vivants des perdus de vue. Les deux sont considérés identiquement comme des données censurées à la date des dernières nouvelles.

Problématique

Les modèles de survie partent du principe que les patients perdus de vue ont les mêmes caractéristiques et le même pronostic que les autres (données manquantes au hasard). Cela est généralement faux, mais on ne sait jamais exactement ce qu’ils deviennent.

Dans l’expérience décrite ci-dessous, nous avons eu le statut vital des perdus de vue ! Cela nous a permis d’évaluer le biais que nous aurions eu avec la publication initiale.

Description du cas d’école

Il s’agit d’une étude multicentrique (trois principaux centres) incluant des patients atteints de cancer du colon métastatique, lors de la première ligne de chimiothérapie. Cela peut arriver au moment du diagnostic initial de cancer du colon (métastases synchrones) ou après un certain d’évolution d’un cancer initialement non métastatique (métastases méta-chrones). Le protocole initialement prévoyait un suivi de 24 mois, mais l’e-CRF contenait des données au-delà de cette limite. La date des dernières nouvelles correspondait à une date de décès ou la date des dernières informations retrouvées dans le dossier clinique pour les survivants, c’est-à-dire, généralement une date de consultation ou hospitalisation. La fin de l’étude était en 2016. On avait considéré que c’était la date de point. À l’époque, on comptait 42 patients censurés dont 40 perdus de vue et 2 exclus-vivants.

L’étude prit du retard. Du fait de difficultés à publier l’article, un retard plus grand fut accumulé. Même si toutes les analyses avaient déjà été réalisées, l’investigateur décida finalement de mettre à jour les données de survie, en enquêtant sur chacun des patients afin de déterminer son statut vital en janvier 2020. Il fit un travail de bonne qualité, puisque sur 192 sujets, seuls 8 furent censurés, dont 5 exclus-vivants et 3 perdus de vue.

Ainsi, nous disposons maintenant du vrai devenir des patients qui étaient initialement perdus de vue. Nous pouvons donc comparer le pronostic des perdus à celui des sujets non perdus de vue.

Figure 1 : courbes de survie globale avec anciennes et nouvelles données

Toutes les courbes sont basées sur l’estimateur de Kaplan-Meier, avec des paramétrages différents. Les croix représentent les censures (perdus de vue ou exclus-vivants).

Chacune des courbes mérite un commentaire.

La courbe verte est extrêmement proche de la réalité car elle est basée sur les nouvelles données quasiment exhaustives, avec seulement 8 censures dont seulement 3 perdus de vue, susceptibles d’engendrer un biais non négligeable dans l’estimation. C’est à cette courbe qu’il faut comparer les autres.

Les courbes rouge et orange sont basées sur les données que l’on avait avant la mise à jour. C’est ce qu’on pouvait obtenir de plus fiable auparavant. La courbe rouge correspond à l’analyse de référence qui avait été réalisée et qui correspond à ce qui est généralement recommandé : tous les perdus de vue et exclus-vivants avaient été censurés à la date des dernières nouvelles. On surestime beaucoup la létalité avec cette courbe rouge parce que les perdus de vue correspondent à des ruptures de suivi clinique pour des patients dont l’état est meilleur que les autres.

La courbe orange est aussi basée sur les données non mises à jour mais plutôt que de censurer les perdus de vue à la date des dernières nouvelles on les a censurés à la date de point (janvier 2016), considérant ainsi que tous ces patients avaient survécu jusqu’à la date de point, ce qui, forcément surestime leur survie. On considère donc que le suivi est exhaustif jusqu’à la date de point et qu’il n’y a que des exclus-vivants comme censures et plus aucun perd de vue. La courbe orange est extrêmement proche de la réalité (courbe verte) pour les deux années de suivi planifiées dans le protocole. On peut donc considérer que le suivi du statut vital jusqu’à deux ans était bien exhaustif. Deux mécanismes peuvent expliquer ce phénomène. Le premier mécanisme serait que seuls les patients en très bon état clinique étaient en rupture de suivi clinique, de telle sorte qu’aucun (ou presque) n’est réellement décédé avant la date de point. Le second mécanisme serait dû à une comptabilisation inappropriée des décès fortuitement découverts chez des patients en rupture de suivi clinique. Ainsi, les sujets en rupture de suivi clinique pourraient avoir un pronostic aussi mauvais que les autres, mais si jamais ils décédaient, l’investigateur serait quand même mis au courant (p.e. le patient revient décéder au centre hospitalier) alors que si ils survivaient, on les considèrerait comme perdus de vue à la date des dernières nouvelles cliniques. Il est alors important de prendre conscience que la date de perte de vue doit être calculée comme une date telle que tout événement antérieur à cette date aurait été identifié et tout événement postérieur à cette date ne peut pas être identifié ou est volontairement ignoré. Autrement, une rupture de suivi clinique n’est pas synonyme de rupture de suivi du statut vital ! Si on veut que les deux notions coïncident il faut volontairement ignorer tous les décès que l’on découvre chez des sujets en rupture de suivi clinique.

On remarquera qu’au delà de 2 ans, la courbe orange commence à s’écarter de la courbe verte. Ainsi, le statut vital n’est plus connu exhaustivement et il y a des vrais perdus de vue pour le statut vital. À 3 ans, la courbe orange (suivi supposé exhaustif) reste quand même moins biaisée que la courbe rouge (censure aux pertes de vue).

Enfin la courbe bleue représente la survie des perdus de vue, à partir du début de la chimiothérapie, c’est-à-dire, le même début de suivi que les autres courbes. Les 2 exclus-vivants (anciennes données) ne participent pas à cette courbe, mais seulement les 40 perdus de vue (anciennes données). L’analyse est faite par troncature à gauche à la date de perte de vue et suivi jusqu’au décès ou date des dernières nouvelles (perte de vue ou exclusion-vivant sur nouvelles données). La troncature à gauche permet la suppression du biais de temps immortel. Ainsi, un sujet perdu de vue (anciennes données) à 2 ans et décédé à 2 ans et 6 mois va contribuer à estimer l’intervalle [2 ans – 2.5 ans] de la courbe de survie. Il rentre dans le dénominateur (nombre de sujets à risque) du Kaplan-Meier à 2 ans et en sort à 2.5 ans. Cela permet de tracer une courbe conditionnelle au fait que le sujet a survécu jusqu’à la date de perte de vue. Cela permet donc d’analyser la courbe de survie des perdus de vue, à partir du moment où ils sont perdus de vue mais en prenant pour base temporelle (début de chimiothérapie) que les autres courbes. Cela confirme le fait que le pronostic des perdus de vue est bien meilleur, explicable par l’un, l’autre ou les deux mécanismes cités précédemment.

Discussion

D’abord, et avant tout il est important de recueillir le statut vital de manière aussi exhaustive que possible. Un coup de fil au patient, un courrier, un appel au médecin traitement, voire la consultation du registre d’état civil en appelant la mairie de naissance, permettent d’obtenir un statut vital pour presque tout le monde. Il peut juste y avoir quelques difficultés avec des patients étrangers.

Malheureusement, on aura la plupart du temps, un suivi passif, basé sur le dossier médical, rythmé par les consultations et hospitalisations. Dans le contexte de patients atteints de cancer métastatiques suivis dans un protocole de chimiothérapie anti-cancéreuse, il peut être envisagé de considérer que le suivi du statut vital est exhaustif sur un ou deux ans et censurer les perdus de vue à la date de point plutôt qu’à la date des dernières nouvelles cliniques. Mieux vaut aussi censurer tout le monde (couper la courbe) à la date au-delà de laquelle la qualité du suivi n’est plus garantie. Dans l’exemple sus-cité, couper la courbe à deux ans et considérer que le suivi était exhaustif (courbe orange) aurait résolu le problème.

Cela reste un case report. La qualité du suivi peut dépendre du centre, du pays et dépend beaucoup de la maladie et de son traitement. On peut difficilement généraliser. J’ai déjà vu le phénomène contraire, avec des perdus qui correspondaient aux sujets décédés plutôt qu’aux survivants dans un article Marocain sur la pemphigoïde bulleuse avec un suivi d’un an (0.7% de décès et 31% de perdus de vue pour un taux attendu de létalité de 20-30%) !

Conditions de validité du coefficient de corrélation de Pearson et de la régression linéaire

Pour faire court, la seule condition de validité pour le calcul d’un coefficient de corrélation de Pearson ou l’estimation d’une régression linéaire, est l’existence d’une variance non-nulle sur chacune des deux variables, sous peine de division par zéro. Tous les autres éléments ne sont que des « précautions d’interprétation ».

La régression linéaire, estimée par les moindres carrés a des propriétés générales très intéressantes, parce l’estimateur des moindres carrés, c’est celui de la moyenne. Cela garantit une espérance d’erreur nulle, là où la plupart des estimateurs de modèle n’ont pas cette propriété extrêmement utile, voire indispensable dans certaines situations.

Le coefficient de corrélation de Pearson peut avoir une interprétation conjointe à la régression linéaire simple (son carré étant la variance expliquée par la régression) mais bénéficie aussi de propriétés propres très intéressantes.

Ce billet lance une réflexion sur l’usage de ces statistiques afin d’aller au-delà des algorithmes automatiques tournées autour de l’hypothèse de normalité ; cette dernière étant aussi plausible que l’existence du monstre du Loch Ness comme le montre cet algorithme.

Définition du coefficient de corrélation de Pearson

Le coefficient de corrélation de Pearson entre deux variables est égal à l’espérance du produit des variables préalablement centrées-réduites. C’est aussi égal à la covariance de ces deux variables centrées-réduites.

Cette définition, n’implique absolument pas d’hypothèse de normalité, de linéarité, d’homoscédasticité ou quoi que ce soit du genre. C’est juste un calcul mathématique, qui lui confère quelques propriétés générales très précieuses.

Propriétés générales du coefficient de corrélation de Pearson

Considérant deux variables A et B, de lois quelconques, dépendantes ou pas, alors

COV(A,B)=COR(A,B)×sqrt(VAR(A)×VAR(B))

Où VAR représente la variance, COV la covariance et COR, la corrélation de Pearson.

Ainsi, connaissant, l’écart-type (ou la variance) de A et de B, on peut calculer la variance de la somme de A et B ou de la différence, en s’aidant des deux formules

VAR(A+B) = VAR(A)+VAR(B)+2×COV(A,B)

VAR(A-B) = VAR(A)+VAR(B)-2×COV(A,B)

Ces propriétés mathématiques ne sont pas asymptotiques, elles sont exactes, même sur un échantillon fini. Même avec n=3 observations. Il n’y a aucune approximation et aucune hypothèse distributionnelle.

C’est une conséquence directe de la décomposition de la formule (a+b)²=a²+b²+2×a×b.

Ces propriétés sont très utiles pour les méta-analyses et/ou l’extraction de données d’un article.

Considérons la situation assez fréquente dans laquelle on souhaite connaître la variance intra-sujet d’une mesure afin de calculer le nombre de sujets nécessaires dans une étude en cross-over. À partir d’un article fournissant la moyenne et l’écart-type de la mesure d’intérêt, dans la population d’intérêt, à deux temps différents, et fournissant le petit p d’un Student sur séries appariées, on peut remonter du petit p à la statistique t de Student, pour en déduire la variance de la différence. On peut aussi aller plus loin, en utilisant la variance de la différence et la variance à chaque temps pour en déduire la covariance entre les deux temps ainsi que le coefficient de corrélation de Pearson. Cela fonctionne sans hypothèse de normalité. Quand bien même le petit p du Student sur séries appariées a une validité dépendant d’une hypothèse de normalité asymptotique, le calcul réalisé pour remonter au coefficient de corrélation reste vrai même si l’hypothèse est fortement fausse.

Si les auteurs omettent le test de Student sur séries appariées mais fournissent un coefficient de corrélation de Pearson, alors grâce aux moyennes et aux écarts-types, on peut calculer la variance d’une différence appariée, ainsi que faire le test de Student sur séries appariées. En bref, variance, covariance, corrélation de Pearson ont des propriétés mathématiques les rendant complémentaires, permettant l’extraction de données et la vérification de cohérence. Soit dit en passant, cela fonctionne tout aussi bien avec des variables binaires qu’avec des variables quantitatives continues ou discrètes.

Sur la population, le coefficient de corrélation de Pearson entre deux variables X et Y est égal au coefficient de corrélation de Pearson entre deux moyennes Mx et My d’échantillons de taille n d’observations indépendantes et identiquement distribuées, et ce pour tout n. Cela se démontre, en passant par la covariance:

COR(Mx, My) = COV(Mx, My)/sqrt(VAR(Mx)×VAR(My)) = (COV(X,Y)/n)/sqrt(VAR(X)/n × VAR(Y)/n) = COV(X,Y)/sqrt(VAR(X)×VAR(Y)) = COR(X,Y)

Au fond, c’est cette propriété qui permet d’estimer une différence de moyennes appariée en connaissant seulement de la moyenne et l’écart-type estimés sur chaque série de données ainsi que d’une estimation du coefficient de corrélation entre les deux variables.

Le code suivant montre qu’en présence d’un effet non-linéaire, le coefficient de corrélation de Pearson vérifie bien cette propriété alors que le coefficient de corrélation de Spearman entre les moyennes est dix fois plus fort (R=0.70) qu’entre les variables X et Y (R=0.07).

set.seed(2020)
a=rexp(1e6)
b=2*(a-1)^2+rexp(1e6)
cor.test(a,b, method="spearman") # Spearman's r=0.07
cor.test(a,b, method="pearson") # Pearson's r=0.70

m=sapply(1:1e6, function(x) {
	a=rexp(100)
	b=2*(a-1)^2+rexp(100)
	c(mean(a), mean(b))
})

cor.test(m[1,], m[2,], method="spearman") # Spearman's r=0.70
cor.test(m[1,], m[2,], method="pearson") # Pearson's r=0.70

Malheureusement, un coefficient de corrélation de Spearman entre les variables X et Y ne permet absolument pas d’estimer la corrélation de Spearman entre les variables Mx et My sauf si on fait des hypothèses distributionnelles fortes (p.e. relation linéaire et résidus normaux), et même ainsi, la relation n’est pas une simple égalité.

Définition théorique de la régression linéaire

Le modèle de régression linéaire simple sur un échantillon de taille n comportant des variables (X1, …, Xn) et (Y1, …, Yn) est généralement noté :

Yi=beta0+beta1×Xi+Epsilon_i

Pour i=1, …, n

où beta0 et beta1 sont des constantes.

On suppose que les Epsilon_i suivent tous une loi normale, de même variance et que tous les Epsilon_i sont indépendants. On associe généralement à ce modèle, l’estimateur des moindre carrés.

Que faire lorsqu’on sait qu’aucune loi du vivant ne suit une loi normale, comme décrit dans ce billet ? Cela rend-il impossible d’utiliser ce modèle ?

Ma réponse, c’est qu’en redéfinissant ce modèle, il apparaît que ces conditions ne sont pas nécessaires.

Redéfinition de la régression linéaire

Cette section est un peu technique et pas nécessaire à la compréhension globale du billet. N’hésitez pas à passer à la section « propriétés de la régression linéaire » si vous ne comprenez rien. Elle me permet juste de répondre aux puristes qui diraient que l’homoscédasticité, la linéarité et la normalité des résidus font partie, par définition, du modèle linéaire et qu’en conséquence tout ce que je dis n’est qu’un tas d’ineptie puisque je remets en cause une définition. Je suis peut-être hérétique en remettant en cause un dogme une définition.

L’estimateur des moindres carrés de la régression linéaire est applicable à n’importe quel échantillon (sauf division par zéro dans des cas exceptionnels). Il permet d’estimer des coefficients beta0 et beta1 ainsi que des prédictions comme des combinaisons linéaires de beta0 et beta1. Ce sont des statistiques, soumises à des fluctuations d’échantillonnage.

À partir d’une statistique calculable sur un échantillon, on peut toujours définir une statistique dans une population infinie, comme la limite, quand n tend vers l’infini, de l’espérance de la statistique sur un échantillon aléatoire de taille n, d’observations indépendantes et identiquement distribuées issues de la population considérée. Il est théoriquement possible que cette limite n’existe pas, comme avec la loi de Cauchy, mais dans les cas usuels en biologie et médecine où les distributions sont bornées, et avec la régression linéaire qui a des bonnes propriétés de stabilisation asymptotique, elle devrait toujours exister.

Ainsi, en transformant l’estimateur en statistique dans la population, je définis les coefficients (beta0 et beta1) et prédictions d’un modèle linéaire de manière totalement indépendante de la moindre hypothèse de linéarité, homoscédasticité ou normalité. La seule hypothèse est l’existence d’une limite à ces coefficients. Cela me permet alors d’analyser les propriétés de ces statistiques dans le cas ordinaire de non-respect des hypothèses théoriques de validité.

Propriétés de la régression linéaire

La moyenne est une statistique directement liée à l’estimateur des moindres carrés. En effet, c’est la statistique qui minimise les carrés des écarts à cette statistique.

Vous pouvez le vérifier par vous-même sous le logiciel R:

v=c(1,30,50)
mean(v) # vaut 27
optimize(function(position) {sum((v - position)^2)}, interval=range(v)) # vaut 27
coef(lm(v ~ 1)) # vaut 27

La régression linéaire est aussi habituellement estimée par les moindres carrés. Cela lui confère des propriétés intéressantes, sans hypothèse de normalité, homoscédasticité ni linéarité.

Sur un échantillon fini, aussi petit soit-il, la moyenne des résidus d’une régression linéaire estimée par les moindres carrés est nulle. Les résidus positifs sont compensés par les résidus négatifs. Cela est toujours vrai, sans la moindre hypothèse (même pas l’indépendance des observations). Le code R suivant permet de le vérifier:

x=rexp(3)
y=x^(1/3)+rexp(3)
mean(resid(lm(y ~ x))) # zéro, aux erreurs d'arrondi des nombres à virgule flottante près

Si on considère une régression linéaire des moindres carrés dont les coefficients sont connus exactement (ou estimés sur un très grand échantillon représentatif de la population), l’espérance des erreurs de prédiction de ce modèle est nulle sur cette même population, sous l’hypothèse d’observations indépendantes et identiquement distribuées. Les erreurs positives compensent exactement les erreurs négatives. Cela est faux avec d’autres modèles linéaires tel que le modèle linéaire identité-binomial estimé par le maximum de vraisemblance. Vous pouvez vérifier cette propriété avec le code R suivant:

set.seed(2020)
x=rexp(1e7) # distribution non normale
population=data.frame(x=x, y=x^(1/3)+rexp(1e7)) # relation non linéaire
model = lm(data=population, y ~ x) # coefficient presque exactement connus
x=rexp(1e6)
bigsample=data.frame(x=x, y=x^(1/3)+rexp(1e6))
mean(predict(model, newdata=bigsample) - bigsample$y) # erreur de prédiction moyenne presque nulle

Prenons l’exemple d’une mutuelle santé à but non lucratif voulant calculer les coûts de cotisation en adaptant le coût de cotisation à l’âge, qui est une variable reflétant la consommation de soins. Pour chaque cotisant, on peut calculer un coût de consommation précis (en euros). Les frais de gestion sont éventuellement ventilés proportionnellement au coût de cotisation, de telle sorte qu’on puisse calculer un « coût » de chaque cotisant de telle sorte que les dépenses totales de la structure sont égale à la somme de tous les coûts de tous les cotisants. L’échantillon exhaustif des cotisants sur les trois années précédentes sert ensuite à estimer les paramètres d’une régression linéaire des moindres carrés expliquant le coût par l’âge, permettant de calculer les cotisations mensuelles, adaptées à l’âge, pour l’année suivante. À moins que la pyramide des âges ou le profil de consommation selon l’âge évolue beaucoup l’année suivante, cette méthode garantit l’équilibre budgétaire, quand bien même la relation entre la consommation et l’âge n’est pas linéaire. On peut noter que la mutuelle peut aussi préférer un système plus solidaire, avec une cotisation indépendante de l’âge, en supprimant l’âge du modèle, conduisant alors à une cotisation égale à la moyenne des coûts des cotisants. Cette moyenne conserve aussi la propriété d’équilibre budgétaire. L’usage de modèles « robustes », excluant par exemple, le pourcent de consommateurs les plus forts, ne garantirait pas l’équilibre budgétaire.

Même si l’exemple fourni est basé sur une régression linéaire simple, cette bonne propriété d’espérance d’erreur nulle est applicable au modèle linéaire général, et donc à des modèles multivariés prenant en compte plusieurs paramètres pour le calcul des cotisations. Même en présence d’interactions, cette propriété est conservée.

Relation entre régression linéaire et coefficient de corrélation de Pearson

La régression linéaire des moindres carrés minimise la variance résiduelle. La variance expliquée, ou R², est égale à un moins le rapport entre la variance résiduelle et la variance totale. Pour une régression linéaire simple, le coefficient de corrélation de Pearson élevé au carré est égal à ce R². Cela est toujours vrai sur un échantillon, encore une fois, sans hypothèse particulière.

Propriétés spécifiques du modèle linéaire

Hypothèse de linéarité respectée

Définissons l’existence d’une relation linéaire entre une variable Y et une variable X par l’existence d’un modèle linéaire tel que l’espérance de la variable Y conditionnelle à une valeur de X est égale à la prédiction de Y par X. L’estimateur des moindres carrés est capable de trouver les bons coefficients, garantissant cette propriété, quand bien même il y a une hétéroscédasticité et les distributions de Y conditionnelles à chaque valeur de X diffèrent en forme les unes des autres ! On repose seulement sur l’hypothèse d’observations indépendantes et identiquement distribuées dans la distribution bivariée (X,Y). Le code R suivant illustre cette propriété:

set.seed(2020)
x=rep(c(1,2,3), c(1e5, 2e6, 1e6))
y=c(2+rnorm(1e5), # résidu normal de faible variance
4+(rexp(2e6)-1)*3, # résidu selon loi exponentielle d'écart-type égal à 3
6+(runif(1e6)-0.5)*10 # résidu selon loi uniforme, de très forte variance
)

predict(lm(y ~ x), newdata=data.frame(x=1:3)) # prédit bien 2, 4, 6

Ainsi, avec des coefficients estimés par l’estimateur des moindres carrés sur un grand échantillon, l’erreur de prédiction de Y conditionnelle à n’importe quelle valeur de X, est nulle. Cela garantit notamment que l’espérance de l’erreur de prédiction reste nulle quand bien même la distribution de X change.

On remarquera que l’estimateur des moindres carrés avec une quelconque pondération aura la même espérance des coefficients. Par exemple, une pondération ayant pour objectif de « rectifier » les problèmes d’hétéroscédasticité, sera asymptotiquement équivalent à la version non pondérée.

Hypothèse d’indépendance entre les résidus et la variable X respectée

De manière équivalente, on peut dire que la distribution de la différence entre la prédiction et l’observation est indépendante de X, c’est-à-dire, la distribution de cette différence conditionnelle à une valeur de X a la même distribution quelle que soit la valeur de X.

Si cette propriété est vérifiée, alors, non seulement on garantit que conditionnellement à chaque valeur de X, l’espérance de l’erreur est nulle, mais on peut même prédire la distribution de cette erreur. On peut empiriquement déterminer cette distribution comme la distribution des résidus observés. Il est possible de lisser, ou non, la distribution empirique de ces résidus par une estimation par noyau. En s’aidant de la distribution empirique de X estimée par noyau, on peut fournir une estimation de la distribution jointe (X,Y) avec densité de probabilité bivariée. Néanmoins, je déconseille fortement ce type de modélisation car cette hypothèse est généralement (toujours?) fausse. On peut souvent utiliser directement la distribution bivariée (X,Y) empirique, plus ou moins lissée si nécessaire. C’est néanmoins plus intéressant lorsqu’on s’intéresse à la distribution de Y conditionnelle à une valeur précise de X puisque dans ce cas, la distribution de Y conditionnelle à X est susceptible de n’être estimable qu’avec zéro ou une valeur si on souhaite une estimation empirique sans hypothèse de modélisation.

Hypothèse de normalité des résidus

Si cette hypothèse est vérifiée (ce qui n’arrive jamais ?), alors… elle est vérifiée et on peut reposer dessus. Cela veut dire, par exemple, qu’on peut estimer la variance résiduelle empiriquement, puis utiliser cette variance résiduelle comme paramètre d’une distribution normale afin de connaître la distribution de l’erreur résiduelle conditionnelle à n’importe quelle valeur de X. Par rapport à l’hypothèse précédente, on peut gagner un peu en précision sur l’estimation de cette distribution conditionnelle sur des échantillons de taille modeste. Reposer sur cette propriété engendre un biais mais est susceptible de réduire l’erreur sur de petits échantillons, lorsque l’écart à la normalité est modeste, par rapport à l’estimation empirique de la distribution des résidus. C’est alors un choix guidé par le rapport biais/erreur.

Normalité asymptotique

Si vous avez déjà essayé d’estimer des paramètres de régression Passing BaBlok par bootstrap non paramétrique sur un échantillon de taille modeste, vous avez dû remarquer que les fluctuations d’échantillonnages du Passing BaBlok sont discrètes. C’est dû au fait que la distribution empirique est discrète sur un échantillon de taille modeste. Le Passing BaBlok a des fluctuations d’échantillonnages chaotiques lorsque X ou Y suivent des lois discrètes. Ce problème n’existe pas avec la régression linéaire des moindres carrés dont les estimateurs de coefficients suivent asymptotiquement une loi normale multivariée quelque soient les distributions de X et Y à condition que l’échantillon soit constitué d’observations indépendantes identiquement distribuées. Cette normalité asymptotique s’applique aussi au coefficient de corrélation de Pearson. Il n’y a pas à reposer sur une hypothèse d’homoscédasticité ou de normalité des résidus.

Intervalles de confiance et petits p

Sur des échantillons de taille suffisante, alors, le boostrap permet de fournir des intervalles de confiance asymptotiquement corrects aussi bien pour la régression linéaire que pour le coefficient de corrélation de Pearson. Les estimateurs d’intervalles de confiance classiques peuvent par contre être biaisés. La transformation z de Fisher et l’approximation à une loi normale du coefficient de corrélation de Pearson sont asymptotiquement corrects mais l’estimateur de sa variance comme égal à 1/(n-3) est parfois asymptotiquement biaisé. Cette approximation est asymptotiquement correcte lorsque le vrai coefficient de corrélation nul, mais d’une manière générale elle est susceptible d’être asymptotiquement biaisée. De même, l’intervalle de confiance de Wald sur les coefficients d’une régression linéaire est susceptible d’être asymptotiquement biaisé. Si on a des résidus normalement distribués, indépendants et identiquement distribués, alors les approximations sont correctes. C’est pourquoi je recommande l’usage du boostrap dans le cas général.

Sensibilité aux outliers

L’estimateur des moindres carrés et fortement influencé par les valeurs atypiques (outliers) et donc la régression linéaire comme le coefficient de corrélation de Pearson le sont aussi. Selon les cas, cela peut-être souhaitable ou pas. Reprenons l’exemple d’une mutuelle santé qui s’intéresse au coûts de ses prestations. Si on s’intéresse aux rentrées d’argent associés à chaque adhérent, exprimées comme la somme des cotisations moins les dépenses associées aux remboursements, alors la majorité des adhérents fourniront une rentrée d’argent positive alors que quelques rares adhérents coûteront des dizaines de milliers d’euros en frais d’hospitalisation. Un adhérent qui coûte 70 000 €, pèse 700 fois plus sur le budget, qu’un adhérent qui coûte 100 €, et cela doit forcément être pris en compte si on souhaite l’équilibre budgétaire. En conséquence, si on veut garantir l’équilibre budgétaire, il faut une estimation précise de la proprotion de sujets qui coûtent 70 000 €. Vous comprenez bien que ce n’est pas avec 30 observations qu’on pourra estimer une moyenne correcte ! La règle selon laquelle la méthode de Student fonctionne dès que n>= 30 est ridicule puisque ça dépend fondamentalement de la fréquence et le degré d’atypie des valeurs atypiques. Ce phénomène est encore plus marqué pour les assurances qui remboursent des frais en cas d’accident très onéreux et très rare. La distribution des risques doit être alors estimés par des modèles bien plus complexes qu’un échantillon avec n=30. Il est bien évident que l’espérance reste le paramètre clé. Il ne faut surtout exclure ces outliers ou se baser sur la médiane. La sensibilité aux outliers est une nécessité; ce sont eux qui contiennent l’information.

Les choses sont très différentes si on s’intéresse, par exemple, à la corrélation entre la vitesse de sédimentation (VS) et la C Reactive Protein (CRP). L’espérance n’a plus d’importance et on s’intéressera plutôt à l’idée de seuils de positivité ou à des seuils pathologiques. Il paraîtra toujours pertinent de considérer qu’une valeur de CRP à 300 est supérieure à une valeur à 50, mais le ratio 300/50=6 ne revêtira pas de pertinence en pathogenèse. Devant cette situation, la corrélation sera mieux appréciée par un tau de Kendall ou un coefficient de corrélation de Spearman que par un coefficient de corrélation de Pearson. La régression linéaire posera des problèmes de stabilité d’estimateur sur des échantillons de taille modeste, mais manquera aussi de pertinence dans la description des relations. Le fait de perdre en performance prédictive sur les valeurs typiques pour améliorer la description des outliers, pourrait être contre-productif. Cela dépend néanmoins de l’usage de cette relation. Un meilleur exemple pourrait être la description de la relation entre deux techniques de dosage des anticorps ciblant un même antigène. Une modèle linéaire ou non-linéaire avec un estimateur robuste aux outliers pourrait être utilisé pour convertir un dosage en l’autre et établir ainsi une équivalence.

Résistance aux distributions discrètes

Juste en passant, le coefficient de corrélation de Spearman n’est pas spécialement adapté aux distributions discrètes. Le coefficient de corrélation de Pearson est parfaitement calculable avec des distributions discrètes, voire binaires, et ne souffre pas d’instabilité parce qu’il n’y a généralement pas d’outliers dans ce contexte.

Au contraire, le coefficient de corrélation de Spearman, avec sa transformation des rangs, va créer des écarts entre deux valeurs successives, d’autant plus grandes que la valeur est fréquente, rendant plus délicate l’interprétation du coefficient, sans compter les problèmes d’estimation de sa variance. On peut toujours s’en tirer avec du bootstrap si l’échantillon est de taille suffisante.

La régression linéaire est tout à fait pertinente sur des variables binaires. Si Y et X sont toutes deux binaires, la pente de la régression linéaire s’interprète comme la différence de proportions de Y=1 entre le groupe où X=0 et le groupe où X=1. L’ordonnée à l’origine (intercept) s’interprète comme la proportion de Y=1 dans le groupe où X=0.

Limites d’interprétation

En cas de relation non linéaire, il peut exister une corrélation très forte entre deux variables, mais le coefficient de corrélation de Pearson peut-être nul (ou très faible) et la régression linéaire peut avoir une pente nulle (ou très faible) et une très faible variance expliquée:

a=rnorm(1e4)
b=a^2
cor(a,b) # corrélation de Pearson nulle
coef(lm(b~a)) # pente nulle
plot(a,b)

Dans ces conditions, des modèles non linéaires permettent de prédire la valeur d’une variable en fonction de l’autre alors que le modèle linéaire n’a pas plus de pertinence que de fournir une moyenne générale. Le coefficient de corrélation de Pearson garde toutes ses propriétés intéressantes, mais ne peut pas être interprété comme une force d’association entre les deux variables. Il peut toujours s’interpréter comme la racine carrée de la variance expliquée par le modèle linéaire, qui est alors presque nul.

En cas d’hétéroscédasticité, le modèle linéaire reste toujours pertinent mais on peut espérer une meilleure stabilité des estimations en pondérant les résidus afin de rectifier l’homoscédasticité. Le modèle a toujours une erreur de prédiction moyenne nulle, voire une erreur de prédiction moyenne nulle conditionnellement à toute valeur de X, si la relation est linéaire, mais la distribution exacte des résidus diffère selon la valeur de X et ne peut pas être juste calculée comme la distribution empirique des résidus.

En cas de non linéarité, le modèle linéaire garde toujours la propriété d’erreur moyenne nulle, mais la variance résiduelle est susceptible d’être bien plus élevée que dans un modèle linéaire, de telle sorte qu’on peut dire qu’il a une performance prédictive médiocre. On perd aussi la propriété d’espérance nulle de l’erreur conditionnelle à toute valeur de X. Enfin, un changement de distribution de X, n’affectant pourtant pas la relation, peut faire apparaître un biais d’estimation, c’est-à-dire, une espérance d’erreur non nulle.

Conclusion

Beaucoup de modèles reposent sur une structure et des hypothèses manifestement fausses. On n’utilise jamais vraiment ces modèles (heureusement car ils sont faux) mais seulement leurs estimateurs. Il me paraît important d’étudier le bon ou mauvais comportement de ces estimateurs dans les cas usuels, en ne faisant qu’un minimum d’hypothèses. J’ai montré ainsi que l’estimateur des moindres carrés du modèle linéaire a des propriétés générales très intéressantes.

Le coefficient de corrélation de Pearson n’est pas un modèle mais une statistique, ayant de nombreuses propriétés intéressantes, comme j’ai montré plus haut. Il n’a pas vraiment de condition de validité mais seulement des limites d’interprétation dans certaines situations.

Le petit p bidon sous-puissant

Quelques définitions sur les risques

Considérant que la plupart des études font des comparaisons bilatérales, qu’il s’agisse d’épidémiologie ou de recherche clinique, l’hypothèse nulle est généralement l’absence totale d’effet de l’intervention ou l’exposition considérée. La plausibilité de cette hypothèse nulle est généralement douteuse, notamment pour les essais cliniques dans lesquels la question porte plus sur le signe et l’amplitude de l’effet que sur la réalité d’un effet. En bref, il paraît absolument impensable que le traitement médical ou chirurgical de la hernie discale ait exactement le même résultat fonctionnel à 1 an. Quand je dis, exactement le même résultat fonctionnel, c’est que la moyenne d’une échelle fonctionnelle serait identique même avec 10 000 chiffres après la virgule. Les vraies questions qui se posent sont :

  1. Lequel des deux traitements est le meilleur (signe de la différence) ?
  2. Est-ce que les deux traitements ont un résultat fonctionnel moyen presque équivalent ou très différent ?

Au sens strict, c’est la balance bénéfices/risques qu’on doit évaluer, en prenant en compte les effets indésirables médicamenteux et les complications chirurgicales, mais pour simplifier, on se concentre sur le résultat fonctionnel dans un premier temps.

Considérant donc que les deux traitements ne peuvent pas être strictement équivalents, le risque l’erreur de première espèce n’existe pas, au sens strict, mais elle est remplacée par les deux risques suivants :

  1. Conclure à l’existence d’une différence dans le sens opposé de la réalité (erreur de troisième espèce).
  2. Conclure à l’existence d’une différence importante alors que la différence réelle est totalement négligeable (quasi-équivalence). J’appellerai ça l’erreur de type Ib.

Définition du petit p bidon sous-puissant

Lorsqu’on utilise un échantillon trop petit et qu’on recherche un effet modeste, alors le signal (effet réel) devient négligeable par rapport au bruit (erreur aléatoire), de telle sorte qu’avec un seuil de significativité bilatéral à 5%, on a 2.5% de chances de conclure à une différence significative dans un sens et 2.5% de chance de conclure à une différence significative dans l’autre sens.

Dans ce contexte, le petit p est indépendant de la différence réelle. Un petit p significatif n’apporte plus aucune information. Il n’aide pas à identifier la réalité d’une différence non négligeable puisqu’il a la même probabilité d’arriver que la différence soit nulle, négligeable, ou non négligeable. Il n’aide pas non plus à identifier la direction de la différence puisqu’il a autant de chances d’aller dans le bon sens que dans le sens opposé et est donc indépendant du signe de la différence et donc non informatif dessus.

Je parlerai donc de petit p bidon sous-puissant pour décrire les petits p significatifs dans une situation de rapport signal/bruit très proche de zéro. Cela regroupe donc, trois cas :

  1. La différence réelle est négligeable ou nulle, mais le petit p est significatif
  2. La différence réelle n’est pas négligeable mais le petit p va dans le mauvaise direction (erreur de troisième espèce)
  3. La différence réelle n’est pas négligeable et le petit p va dans la bonne direction, mais il y avait autant de chances que ça aille dans la direction opposée, de telle sorte, que ce n’est que par pure chance que la conclusion de l’étude est correcte.

Considérer que le troisième item est bidon peut vous choquer, mais cela me paraît pertinent du point de vue de l’information. De mon point de vue, des propos peuvent être considérés de bidon, s’ils sont totalement indépendants de la réalité, ce qui implique de dire parfois des choses vraies et parfois des choses fausses. Quelque chose est bidon à partir du moment où il est décorrélé de la réalité. À l’opposé, dire systématiquement le contraire de la réalité, c’est informatif, puisqu’on peut alors croire le contraire de ce qui est dit.

Sémiologie

Devant un petit p significatif, certains signes évoquent un petit p bidon sous-puissant.

  1. Échantillon de toute petite taille face à l’effet attendu, suggérant une puissance très faible
  2. Estimation ponctuelle démesurée en comparaison à ce qui paraît plausible
  3. Petit p à la limite de la significativité (p typiquement compris entre 0.01 et 0.05)
  4. Multiplicité des tests, apparente ou cachée
  5. Autres tests répondant à la même question ne montrant pas plus de tendance à la significativité que ce qui est explicable par le hasard (environ un petit p sur 20 significatif, la moitié du temps dans le sens opposé à ce que veulent montrer les auteurs)
  6. Lorsqu’une différence d’évolution (p.e. Student inter-groupe sur différences intra-sujets) est analysée sur un paramètre dont la stabilité est attendue, apparition d’une dégradation importante dans le groupe contrôle et d’une amélioration de même amplitude dans le groupe expérimental et une différence à baseline qui va dans le sens opposé à la différence finale.
  7. Lorsqu’une différence d’évolution est analysée sur un paramètre qui doit évoluer, la moitié de la différence des différences est due à la différence à baseline et l’autre moitié à la différence finale.

Certains de critères sont très subjectifs, telle que les deux premiers, mais lorsque beaucoup d’éléments sont présent et fortement marqués, le tableau est évocateur.

À un niveau plus global de la littérature, une méta-analyse peut estimer de manière à peu près correcte l’effet réel avec des milliers de patients, ce qui permet ensuite de mieux identifier les études sous-puissantes. On peut craindre un biais de publication ainsi qu’un selective reporting biais dans ces études.

La multiplicité des tests cachée a sa propre sémiologie:

  1. Écart au protocole, sur les analyses (suspect lorsque celui-ci est disponible)
  2. Critères de jugements présentés dans la partie méthodes mais pas dans les résultats
  3. Grande majorité (voire totalité) de petits p significatifs (suggérant une très bonne puissance sur tous les tests réalisés) dans les résultats, mais presque tous compris entre 0.01 et 0.05 (alors qu’en cas de puissance à 90%, on en a 50% de petits p en dessous de 0.0012)
  4. Étrangeté des analyses qui « tirent dans les coins », comme la corrélation entre le max d’un dosage biologique entre J1 et J4 corrélé à la mortalité en réa, puis la moyenne d’un autre dosage biologique entre J2 et J3 corrélé à la mortalité intra-hospitalière, tous deux dans le même article.
  5. Critère de jugement principal inattendu étant donné la population et l’intervention, voire disparition des critères de jugements attendus.

Explication des critère N°6 et 7

Je crains que la pertinence de ce critère ne paraisse pas être une évidence au novice. Pour le comprendre, il faut raisonner en termes de distributions conditionnelles au petit p significatif. Pour cela, je partirai d’un cas d’école. Nous allons expliquer le critère N°6. Le N°7 est une variante assez simple qui en découle directement.

L’article est intitulé « Special nutrition intervention is required for muscle protective efficacy of physical exercise in elderly people at highest risk of sarcopenia« . La qualité du reporting est bien pourrie, les critères d’inclusion flous, mais on peut comprendre qu’il s’agit d’une population de patients âgés fragiles, avec une sarcopénie mais en état clinique stable. Randomisation de 17 patients (groupe qui bénéfice de kinésithérapie seule) vs 17 patients (groupe qui bénéfice de kinésithérapie + FortiFit). Le FortiFit, est un complément alimentaire à base de protéines de lactosérum et de vitamines. Plusieurs tests standardisés sont passés à baseline et à trois mois. Furent enregistrés par impédancemétrie : la masse muculaire (kg), la masse maigre (kg), l’indice de masse maigre (kg/m²), la force musculaire au handgrip test, le Short Physical Performance Battery divisable lui-même en test d’équilibre, test de vitesse de marche et test de lever de chaise. Cela fait 8 critères de jugement potentiels, assez redondants. Trois méthodes statistiques principales sont aussi possibles pour les comparaisons du résultat à trois mois : test de Student sur les résultats à 3 mois, test de Student sur les changements (3 mois moins baseline), et modèle linéaire expliquant le résultat à 3 mois par le groupe de traitement et le résultat du test à baseline. Cela fait donc 24 analyses statistiques possibles. On ne sait pas trop quelles analyses étaient planifiées étant donné qu’on n’a pas accès au protocole.

Quel est le résultat ?

 Handgrip test Baseline Moyenne ± SEMHandgrip test 3 mois Moyenne ± SEMChangement moyen
Groupe contrôle23.73±2.06 kg22.18±2.19 kg-1.55
Groupe FortiFit22.51±2.35 kg24.54 ± 2.65 kg+2.03

Le test de Student des changements (3 mois moins baseline) est significatif (p=0.013), montrant que les sujets améliorent plus leur force musculaire avec le Handgrip test. Il y a une incohérence entre le texte et la figure 1 qui semble montrer seulement une augmentation moyenne de force de +1.6 kg dans le groupe FortiFit. Il y a peut-être un mélange accidentel de données entre les forces et masses musculaires (qui sont proches).

N’y a-t-il rien d’étonnant ? Pourquoi des patients, en état stable, perdent-ils 1.55 kg au handgrip test alors qu’ils bénéficient de kinésithérapie ? Pourquoi la différence entre les groupes à baseline est-elle dans le sens opposé de la différence finale ?

Pour commencer, considérons la distribution des changements moyens (ici, les changements moyens observés sont -1.55 kg et +2.03 kg), conditionnelle à une espérance nulle du changement dans chaque groupe. Sous hypothèse d’homoscédasticité, les deux changements moyens ont la même variance car les groupes sont de taille égale. Ils sont aussi indépendants. Par le théorème central limite, la distribution jointe de ces deux moyennes de changement est donc approximable à une distribution binormale avec une corrélation nulle, centrée autour du point (0,0).

La figure présente la distribution binormale ainsi que le seuil de significativité à 10% bilatéral (orange) et 5% bilatéral (rouge). Conditionnellement à un petit p < 0.05, on constate que la densité de proba bivariée est maximale pour des moyennes égales et de signe opposé. Présenté sous un autre angle, sachant que la différence est de 2 erreurs types entre les deux groupes, il est bien plus probable d’avoir -1 erreur type dans un groupe et +1 erreur type dans l’autre groupe, que +0 erreur type dans un groupe et +2 erreurs types dans l’autre et il est encore plus improbable d’avoir +1 erreur type dans un groupe et +3 erreurs types dans l’autre !

En conditionnant la distribution binormale à un petit p < 0.05, j’ai pu calculer numériquement une probabilité d’avoir un ratio des différences de moyenne compris entre -0.5 et -2. Cette probabilité est estimée à 56%. La probabilité d’un ratio négatif (c’est-à-dire, que les deux changements moyens sont de signe opposé) est estimée à 97.5%.

En réalisant la même considération en analyse tétravariée, on peut calculer que la densité de probabilité maximale est concentrée sur le scenario suivant

 Handgrip test Baseline Moyenne ± SEMHandgrip test 3 mois Moyenne ± SEMChangement moyen
Groupe contrôleµ + epsilonµ – epsilon-2×epsilon
Groupe FortiFitµ – epsilonµ + epsilon+2×epsilon

Où µ représente l’espérance commune aux quatre cases et epsilon est la valeur telle que la différence fournisse un p=0.05, c’est-à-dire la plus petite valeur qui conduise à un résultat statistiquement significatif.

Évidemment, le point de densité de probabilité le plus élevé reste infiniment improbable puisque les distributions sont continues. Les quatre écarts à la moyenne générale diffèreront donc plus ou moins, mais les grandes tendances devraient souvent apparaître.

Le cas observé semble donc bien typique, si on présente les différences par rapport à la moyenne générale (quatre cases moyennées) :

 Handgrip test Baseline Moyenne ± SEMHandgrip test 3 mois Moyenne ± SEMChangement moyen
Groupe contrôlem + 0.49m – 1.06 -1.55
Groupe FortiFitm – 0.73m + 1.30 +2.03

Un peu de pratique

Reprenons le cas d’école et appliquons la liste des critères :

  1. Échantillon de toute petite taille face à l’effet attendu, suggérant une puissance très faible. CHECK
  2. Estimation ponctuelle démesurée en comparaison à ce qui paraît plausible. DISCUTABLE
  3. Petit p à la limite de la significativité (p typiquement compris entre 0.01 et 0.05) CHECK
  4. Multiplicité des tests, apparente ou cachée CHECK. N=3 tests apparents (avec test complètement inapproprié) seulement, mais nombreux critères de jugements mesurés mais non présentés dans les résultats. Un des tests présentés n’était même pas dans ma liste des tests imaginables et cache un choix de seuillage sur une variable catégorielle ordinale (-> deux tests possibles).
  5. Autres tests répondant à la même question ne montrant pas plus de tendance à la significativité que ce qui est explicable par le hasard (environ un petit p sur 20 significatif, la moitié du temps dans le sens opposé à ce que veulent montrer les auteurs). FAILED. Sur les trois tests présentés, deux vont dans le même sens et le troisième n’est pas reproductible mais irait dans le même sens selon les auteurs. Ce FAIL pourrait être dû à la non présentation de nombreux tests cachés.
  6. Lorsqu’une différence d’évolution (p.e. Student inter-groupe sur différences intra-sujets) est analysée sur un paramètre dont la stabilité est attendue, apparition d’une dégradation importante dans le groupe contrôle et d’une amélioration de même amplitude dans le groupe expérimental et une différence à baseline qui va dans le sens opposé à la différence finale. CHECK pour le premier critère de jugement CHECK pour le second critère (masse musculaire) CHECK pour le troisième (sarcopénie binaire)

Sur la sémiologie de la multiplicité des tests :

  1. Écart au protocole, sur les analyses SUSPECT
  2. Critères de jugements présentés dans la partie méthodes mais pas dans les résultats CHECK
  3. Grande majorité (voire totalité) de petits p significatifs dans les résultats mais presque tous compris entre 0.01 et 0.05 CHECK
  4. Étrangeté des analyses qui « tirent dans les coins » FAILED
  5. Critère de jugement principal inattendu étant donné la population et l’intervention, voire disparition des critères de jugements attendus. FAILED

Conclusion

Avec un peu d’expérience, on peut identifier beaucoup de petits p bidons.

Hypothèse nulle et alternative

Vous avez peut-être entendu parler d’un résultat statistiquement significatif qui ne serait pas cliniquement significatif car correspondant à une différence trop faible, notamment à cause d’un échantillon « trop grand« . Le problème ne vient pas de la taille de l’échantillon mais du mauvais choix de l’hypothèse nulle. Si on veut prouver qu’un effet est cliniquement significatif, il faut que l’hypothèse alternative soit « cet effet dépasse le seuil de significativité clinique » et que l’hypothèse nulle en soit la négation, c’est-à-dire « cet effet est inférieur ou égal au seuil de significativité clinique ».

H0 : µ1-µ2 <= +clinthreshold

H1 : µ1-µ2 > +clinthreshold

Où clinthreshold représente le seuil de significativité clinique. On est habitué à ça pour les essais de non-infériorité, avec des seuils négatifs. Une analyse de supériorité devrait se faire de la même manière mais avec un seuil positif.

Évidemment, il ne faut pas se faire avoir par le syllogisme consistant à poser

H0 : µ1<=µ2

H1 : µ1 > µ2

puis rejeter H0 et conclure que la différence m1-m2 observée est la différence réelle et que, comme elle est supérieure au seuil de significativité clinique, on a prouvé qu’il existait un effet cliniquement significatif. En effet, dans le pire des cas, l’effet observé est égal au seuil de significativité clinique et l’affirmation selon laquelle l’effet réel est supérieur à ce seuil a un risque alpha unilatéral à 50%.

Pourquoi n’est-il pas pragmatique d’utiliser un seuil de significativité clinique ?

C’est trop subjectif. Comme tout ce qui est subjectif, les auteurs seraient tentés de tricher au maximum dessus (comme pour le delta du nombre de sujets nécessaires) et les reviewers pourraient toujours pinailler même si l’effet choisi par les auteurs est pertinent. Bref, ça pose des problèmes à tout le monde. Le zéro, par contre est objectif et consensuel même s’il est un des choix les moins pertinents qui soient.

Il y a d’autres problèmes, comme l’augmentation du nombre de sujets nécessaires (NSN), obligeant à tricher encore plus sur le calcul. La mascarade du NSN deviendrait encore plus évidente ; ce NSN est généralement calculé à l’envers, c’est-à-dire partant du nombre de sujets incluables pour en déduire les hypothèses nécessaires à générer ce nombre. Peut-être finirait-on par admettre qu’une étude ne répond pas de manière certaine à une question. Peut-être admettrait-on qu’il faut attendre la méta-analyse pour juger d’un effet et qu’un travail qui tente de répliquer un résultat a au moins autant de valeur sinon plus que l’article original, mais là, je rêve. Soyons réaliste, ça passerait mal.

Solution pragmatique : fournir un intervalle de confiance à 95% de l’effet et laisser le lecteur final de l’article déterminer lui-même si la borne basse dépasse ou non son seuil subjectif de significativité.

Poussons la réflexion

Vous l’aurez compris, ma formulation des hypothèses n’a qu’un intérêt conceptuel. Cela peut aider dans l’interprétation subjective de résultats et plus ou moins dans la construction méthodologique de projets de recherche, mais ne sera pas explicitement formulé.

Dans un essai clinique randomisé, on a généralement une hypothèse précise. On veut prouver la supériorité d’une intervention par rapport à une autre. Une vision « binaire » succès/échec est pertinente car la décision finale est binaire. En épidémiologie, on est parfois un peu plus neutre sur le sujet. Un cadre théorique à trois hypothèses paraît alors utilisable.

H0 : effet futile, c’est-à-dire -clinthresthold < effet < +clinthreshold

H1 : effet > clinthreshold

H2 : effet < clinthreshold

Si l’effet correspond à une différence entre deux groupes, alors on pourra reformuler :

H0 : équivalence

H1 : supériorité

H2 : infériorité

En analysant un intervalle de confiance, on pourra rejeter une ou plusieurs des trois hypothèses et fournir une conclusion plus ou moins fine.

PS : un intervalle de confiance avec un niveau de confiance différent est possible, bien sûr.

Six conclusions différentes sont possibles dont trois sont tranchées, deux sont un peu floues et une est très floue :

Conclusions tranchées:

Supériorité : on a rejeté H0 et H2 et on accepte H1

Équivalence : on a rejeté H1 et H2 et on accepte H0

Infériorité : on a rejeté H0 et H1 et on accepte H2

Conclusions un peu floues:

Non-infériorité : on a rejeté H2 mais H1 comme H0 restent compatibles avec les données

Non-supériorité : on a rejeté H1 mais H2 comme H0 restent compatibles avec les données

Conclusion très floue: on n’a rejeté aucune hypothèse. Toutes les hypothèses restent compatibles avec les données.

Dans ce cadre conceptuel, on pourrait conclure à un différence significativement futile si la conclusion est l’équivalence… quand bien même le zéro n’est pas contenu dans l’intervalle de confiance de la différence.

De mon point de vue, ce n’est pas forcément aux auteurs de l’article de déterminer les seuils de significativité clinique, mais plutôt au lecteur de l’article. Par ailleurs, on pourrait pousser le concept plus loin en distinguant les effets cliniquement significatifs mineurs des effets cliniquement significatifs majeurs, les deux n’impliquant pas forcément la même réaction. En bref, la meilleure manière de « lire » un intervalle de confiance, c’est de tenter de conclure séparément sur l’effet observé à chacune des deux bornes de l’intervalle de confiance et de se dire que la réalité est probablement quelque part entre les deux (en négligeant les problèmes de prior bayésien ; ce qui est acceptable quand l’étude est de suffisamment grande taille pour que l’information du prior soit négligeable face à l’information contenue dans les données de l’étude).

Délire unilatéraliste

Vous avez pu déjà voir la formulation unilatérale suivante

H0 : µ1 = µ2

H1 : µ1 > µ2

Cette formulation est incorrecte à moins qu’il y ait une preuve mathématique que la proposition µ1 < µ2 soit fausse de telle sorte que µ1=µ2 est mathématiquement équivalent à µ1<=µ2. C’est le cas pour le test de Fisher dans une ANOVA, mais c’est loin d’être une situation habituelle.

En effet, rejeter l’égalité ne prouve pas la supériorité. Si on construit une statistique égale à la valeur absolue de la différence entre m1 et m2, on peut arriver à la conclusion que µ1 n’est pas égal à µ2 et rejeter H0, mais ça ne prouvera nullement la supériorité !

Une formulation plus correcte serait :

H0 : µ1 <= µ2

H1 : µ1 > µ2

On peut s’apercevoir que la P-value n’est pas aisément calculable dans ce cas, parce que si µ1 est légèrement inférieur à µ2 ou très largement inférieur, alors la distribution de M1-M2 change beaucoup. Eh bien, dans ce contexte, on prendra la borne supérieure des P-values spécifiques d’une différence donnée µ1-µ2 négative ou nulle. Si la statistique est bien conçue, il est probable que le pire des cas (P-value la plus grande) est dans le scenario µ1=µ2. C’est peut-être pour ça que certains ont mal formulé les hypothèses. Néanmoins la bonne formulation des hypothèses évite la construction de statistiques buggées qui ne se comportent pas bien dans le cas où µ1<µ2.

Délire bilatéraliste

Vous avez certainement vu la formulation

H0 : effet = 0

H1 : effet ≠ 0

Cette fois-ci H1 est bien la négation de H0, mais deux problèmes apparaissent.

  1. L’hypothèse nulle est souvent invraisemblable. Par exemple, paraît-il possible que le traitement chirurgical et le traitement médical de la hernie discale aient exactement le même résultat fonctionnel moyen à 12 mois ? La différence peut-être minime, complètement négligeable, mais la nullité absolue de la différence paraît impossible.
  2. L’hypothèse alternative est pratiquement inutile car elle ne donne ni d’information sur l’amplitude, ni sur la direction de l’effet. Dire qu’une exposition a un effet n’a pas spécialement de pertinence si on ne précise pas si elle est bénéfique ou nocive…

Si les analyses statistiques sont simples, alors on peut s’aider de l’effet observé pour juger de la direction de l’effet. Ce n’est pas le cas avec certains modèles de survie. Un bon exemple est le test MaxCombo décrit par Theodore Karrison dans l’article intitulé « Versatile tests for comparing survival curves based on weighted log-rank statistics » publié dans « The Stata Journal » (2016, Vol 16, Number 3, pp. 678-690). Le test permet de rejeter l’hypothèse de superposition parfaite de deux courbes de survie (hypothèse nulle) mais n’aide pas à décider de laquelle est la meilleure. Si on conclut, par exemple, que le groupe pour lequel la plus grande médiane de survie est observée, a réellement une médiane de survie supérieure, on prend un risque alpha unilatéral pouvant atteindre 50% dans le pire des cas. De même pour la survie à 1 an, pour l’espérance de vie tronquée, pour l’espérance de vie globale et à peu près pour tout ce qu’on peut imaginer.

Conclusion

Hypothèse nulle ne devrait pas être synonyme d’absence totale d’effet mais devrait toujours être la négation de l’hypothèse alternative, cette dernière étant l’hypothèse que l’on souhaite prouver. Commencez toujours par formuler cette hypothèse alternative et vous produirez des hypothèses nulles pertinentes. On peut créer des cadres théoriques distinguant plus d’hypothèses, mais la dualité H0/H1 reste pertinente pour les essais cliniques.