Visite index et cohortes rétrospectives

Problématique

La méthodologie des cohortes rétrospectives n’est presque jamais détaillée dans les articles et pourtant elle est essentielle. Si on s’intéresse, par exemple, au pronostic d’une maladie après diagnostic, on voudra inclure les sujets au moment du diagnostic. Si la recherche s’effectue dans des dossiers médicaux électroniques, les patients atteints de la maladie seront identifiés par une donnée structurée ou non structurée, tel qu’un code diagnostic, le résultat d’un examen biologique ou des mots-clés dans le texte. Il est aussi possible de se baser sur une combinaison de plusieurs éléments (pe. code diagnostic OU biologie). Cette étape conduira à la pré-sélection d’un ensemble de dossiers qui seront ensuite relus, afin de confirmer le diagnostic et les critères d’inclusion.

Trois dates peuvent alors être définies pour chaque sujet:

  1. La date de diagnostic de la maladie (ou date de début des symptômes si c’est ça qui nous intéresse)
  2. La date de la première visite présente dans le dossier médical du centre (ou des centres pour les cohortes multicentriques)
  3. La date index, c’est-à-dire, la date du premier document qui a permis à ce patient d’être pré-sélectionné. Si c’est la combinaison de plusieurs documents (pe. dosage biologique + code diagnostic), alors c’est la date à partir de laquelle les documents sont suffisants pour que le patient ait été pré-sélectionné.

Ces trois dates peuvent différer. Un patient transféré d’un autre centre pourra avoir une date de diagnostic antérieur à la date de la première visite du centre de l’étude. Selon la méthode de pré-sélection, la première visite du centre de l’étude pourra ne pas être identifiée par les codes ou mots-clés recherchés alors qu’une visite ultérieure le sera.

Une erreur méthodologique très fréquente consiste à analyser le pronostic à partir de la date de diagnostic, sans tenir en compte du biais de temps immortel (immortal time bias) induit par le délai entre la date de diagnostic et la date index. Ce phénomène est caricatural si le critère de jugement est la survie globale. Tout sujet décédé avant la date index sera exclu car il ne sera pas pré-sélectionné. S’il y a toujours un intervalle de deux ans entre le diagnostic et la date index, alors on n’observera aucun décès les deux premières années suivant le diagnostic puisque tous les sujets décédés auront été exclus !

Le biais persiste, dans une moindre mesure, si on se base sur la date de la première visite plutôt que la date de diagnostic. Le suivi, en réalité, débute à la date index.

Solutions

Comment peut-on alors correctement modéliser la survie avec les modèles de survie non paramétriques ou semi-paramétriques habituels (Kaplan-Meier et Cox) ?

Date de diagnostic comme baseline

La stratégie idéale, si elle est faisable, consiste à prendre la date de diagnostic comme date de début de suivi mais appliquer une troncature à gauche jusqu’à la date index dans le modèle de survie. Cette troncature à gauche est une fonction assez méconnue. Plutôt que de juste considérer que chaque patient est suivi à partir de T0 jusqu’à une date des dernières nouvelles, faisant alors sortir le sujet de la cohorte, on considère qu’il existe une date des premières nouvelles et une date des dernières nouvelles. Le sujet entre dans la cohorte aux premières nouvelles et en sort aux dernières nouvelles. Le nombre de sujets à risque peut alors croître puis décroître, puisqu’il y a des gagnés de vue et des perdus de vue. Cette méthode permet de conserver la forme de la courbe de survie originale, en reposant sur l’hypothèse d’entrée et de sortie de la cohorte au hasard, ou, du moins, pour des raisons non corrélées à l’outcome.

Méthode landmark

Cette stratégie a une limite: elle nécessite qu’un nombre suffisant de sujets ait une date index égale à la date de diagnostic, sinon, dans le pire des cas, on commencera par un estimateur de Kaplan-Meier à 0/0, ce qui rendra impossible toute estimation de courbe de survie. Si la majorité voire la totalité des sujets ont un écart important entre la date de diagnostic et la date index (pe. 1 an), on peut comprendre que l’évolution initiale est impossible à connaître. On doit alors renoncer à la comparaison sur la période initiale de la courbe de survie. On peut utiliser la méthode landmark, qui consiste à redéfinir la baseline, c’est-à-dire, le T0 de la courbe de survie, au diagnostic+constante tel qu’un an après le diagnostic. Au nouveau point de départ, tous les sujets auront la même ancienneté de la maladie. Ils seront suffisamment nombreux pour que le tracé de la courbe soit possible. Tout sujet ayant eu l’événement avant le landmark sera exclu (censure à gauche).

Date index comme baseline

Une stratégie alternative consiste à définir la baseline (T0 de la courbe de survie) comme la date index. Cette méthode fournit la meilleure précision statistique, car garantit un échantillon de taille maximale à T0. Par contre, cette méthode fournit des courbes de survie d’allure exponentielle quand bien même ça ne reflète pas du tout l’évolution de la maladie. En mélangeant tous les stades d’ancienneté de la maladie à baseline, le rythme d’apparition des événements devient une moyenne des risques associés à chaque ancienneté. Par exemple, l’ataxie spinocérébelleuse de type 2 est une maladie neurologique dégénérative d’évolution progressive lente mais inexorable. La figure 1 de l’article « Prediction of Survival With Long-Term Disease Progression in Most Common Spinocerebellar Ataxia » (doi: 10.1002/mds.27739, PMID: 31211461) décrit une survie globale de 97.8% à 10 ans, 78% à 20 ans, 31% à 30 ans et 11.2% à 40 ans. Ainsi, la mortalité précoce (< 10 ans) est négligeable alors l’issue fatale survient majoritairement entre 15 et 35 ans. On observe pourtant des courbes très différentes sur la figure 1 de l’article intitulé « Survival in patients with spinocerebellar ataxia types 1, 2, 3, and 6 (EUROSCA): a longitudinal cohort study » (doi: 10.1016/S1474-4422(18)30042-5, PMID: 29553382). Le taux de survie à 10 ans du l’ataxie spinocérébélleuse de type 2 est environ de 73%, avec un rythme de décès semblant assez constant sur les 10 années de suivi. Cela est explicable par un T0 correspondant à la date index, et concernant des cas prévalents d’ancienneté très variable. Le rythme de décès est alors égal à la moyenne des rythmes de décès de toutes les anciennetés, pondérée par la prévalence des anciennetés. Cette attitude peut néanmoins se défendre pour les situations où l’évolution est peu dépendante de l’ancienneté, c’est-à-dire, correspondant à des courbes de survie d’allure exponentielle.

Méthodes paramétriques ?

Éventuellement, on pourrait aussi utiliser la loi de Weibull pour compléter le début du suivi mal connu.

Généralisation des concepts

La distinction entre date de début des symptômes et date de diagnostic peut parfois avoir une importance (pe. syndrome démentiel) et c’est souvent la date de début des symptômes qui importe le plus, avec néanmoins des problèmes de difficulté à mesurer la date de début des symptômes.

Même s’il est fait référence au dossier médical informatisé, les problèmes décrits dans ce billet sont tout aussi applicables aux dossiers papiers, pour lesquels il existe des documents ou source de données index. Il est aussi généralisable aux registres. Il est enfin généralisable aux cohortes prospectives incluant des cas prévalents, pour lesquels la visite index sera généralement la visite d’inclusion.

Concept apparenté, l’anti-cohorte ou cohorte inversée

Ne cherchez pas ce concept dans la littérature scientifique, vous ne l’y trouverez pas. Le terme de cohorte inversée ou anti-cohorte est une invention de l’auteur de ce blog. Il s’agit d’une méthodologie à classer dans la sémiologie fongique des études, c’est-à-dire, un exemple de ce qu’il ne faut pas faire. Plutôt que de sélectionner les sujets nouvellement diagnostiqués sur une période donnée (pe. entre 2010 et 2019) et de les suivre jusqu’à survenue d’un événement ou censure administrative à une date de point (pe. 31 décembre 2019), la cohorte inversée sélectionne les sujets sur la présence d’un événement sur une période récente (pe. 2018-2019), puis on remonte le dossier médical jusqu’à la visite la plus ancienne du dossier médical (pe. 2000-2019) et on l’analyse comme si le sujet avait été sélectionné sur cette première visite.

Le taux de survenue d’événement atteint alors 100%. Cela ressemble à une méthodologie cas-témoin dans laquelle il n’y aurait que des cas. Malheureusement, le fichier de données se présente comme celui d’une cohorte et un statisticien non au fait de la méthodologie de sélection employée pourrait alors l’analyser comme s’il s’agissait d’une cohorte ordinaire. Les sujets dont la date de première visite est récente auront alors une survie avant événement raccourcie.

Une variante de cette cohorte inversée est la sélection de la « file active » des patients (pe. ayant eu une visite entre janvier et décembre 2019) qu’ils aient eu ou non l’événement d’intérêt, puis de remonter jusqu’à la première visite du dossier médical (pe. jusqu’à l’an 2000 pour certains patients). La visite index est alors en 2019, avec une forte représentation des cas prévalents. Même si certains événements peuvent survenir après la date index (pe. date index en février 2019 et événement en septembre 2019), si on utilise la date de première visite comme baseline du suivi, on aura une période d’immortalité extrêmement longue et un très faible nombre d’événements au total. Toute variable positivement corrélée à la date de première visite sera corrélée négativement corrélée au délai avant survie.

Rejoindre la conversation

1 commentaire

  1. Merci André, je pense que tu auras convaincu pas mal de personnes avec ce petit billet sur une erreur qui est très fréquente. Je me permets de mettre un lien sur le biais de temps immortel et te laisse juger de son intérêt. En effet, il dépasse le cadre des études de survie. https://hal.archives-ouvertes.fr/hal-02157541/document

    Amicalement
    Thibaut

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *