Biostatistics: The Good, the Bad and the Ugly – Page 3 – Réflexions méthodologiques et statistiques

Choix du critère de jugement

Incorporation de l’exposition dans le critère de jugement

À la troisième observation d’une même erreur méthodologique, dans mon expérience personnelle, je considère qu’un problème existe. Cela ne permet pas d’en évaluer la fréquence, mais cela veut dire qu’il vaut peut-être la peine de la mentionner.

Un critère de jugement principal ne doit pas être confondu avec l’exposition. Considérons une maladie évoluant sous forme de poussées plus ou moins récurrentes ou sous forme permanente pour laquelle on obtient assez souvent une réponse complète à moyen terme, avec disparition complète des symptômes, avec le traitement de référence. On compare dans un essai clinique randomisé en ouvert le traitement de référence A au traitement innovant B plus ou moins combiné au traitement A, selon le souhait du médecin. Considérons pour critère de jugement principal la « réponse complète off therapy » définie par l’absence de symptômes combinée à l’interruption totale du traitement de référence A. Le critère de jugement principal comprend, dans sa définition, l’exposition au traitement A ! On peut alors conclure que les sujets randomisés dans le groupe A vont prendre généralement le traitement A, alors que les sujets randomisés dans le groupe B±A vont le prendre moins souvent.

Afin de ne pas faire cette erreur, je vous conseille deux stratégies.

D’abord, systématiquement vérifier que votre critère de jugement n’incorpore pas l’exposition
Ensuite, considérer le scenario virtuel où on comparerait le traitement à lui même mais en version de couleur différente (comprimé rouge versus bleu, identique en principe actif), afin de vérifier que le traitement ne montrerait pas sa supériorité à lui-même

Critère de jugement différent selon le groupe

J’ai observé ce problème à la fois dans une étude non publiée et dans une étude publiée.

Étude publiée dans le JAMA

Pour commencer, Salminen et al, 2015 (https://dx.doi.org/10.1001/jama.2015.6154) présente un essai clinique randomisé comparant la chirurgie à l’antibiothérapie dans le traitement de l’appendicite aiguë non compliquée. Dans le groupe chirurgie, le succès (critère de jugement principal) est défini par le fait que le patient a été opéré (taux attendu de succès ~= 100%) alors que dans le groupe antibiotiques il est défini par le fait que le patient n’a pas été opéré ! La non-infériorité devait être démontrée avec une marge de -24% pour les antibiotiques vs chirurgie.

Le succès du groupe chirurgie est, par définition, un échec du groupe antibiotiques et vice versa ! Si on comparait la chirurgie à elle même, on arriverait aisément à la conclusion que la chirurgie est très largement inférieure à elle même (0% vs 100% de succès) tout en étant très largement supérieure à elle même (100% vs 0% de succès).

On peut d’ailleurs se demander comment on peut ne pas avoir 100% de succès de la chirurgie ! Outre les décès per-opératoires (très rares pour une appendicite aiguë non compliquée) il y a les annulations opératoires pour l’analyse en intention de traiter. Cela conduit à la mention « The patient randomized to appendectomy who did not have an operation had resolution of symptoms before the operation could be performed ». Peut-être était-ce juste un patient bien constipé pour lequel on a fait une erreur diagnostique ? Je ne suis pas sûr que le patient considère lui-même que c’est une évolution défavorable de sa maladie, par contre, c’est peut être une évolution défavorable des finances du chirurgien s’il travaille dans le secteur privé.

Étude non publiée

Plusieurs stratégies thérapeutiques étaient analysées, dans une optique de désescalade thérapeutique de la chimiothérapie anti-cancéreuse. Dans un sous-groupe bien spécifique les patients étaient randomisés en un groupe d’abstention thérapeutique alors que l’autre groupe bénéficiait d’une chimiothérapie. Le critère de jugement principal était la survie sans rechute dans le groupe avec chimiothérapie et de la survie sans re-progression après rechute dans le groupe d’abstention thérapeutique. C’est-à-dire que dans le groupe chimiothérapie, on mesure le délai avant une première rechute, alors que dans le groupe d’abstention thérapeutique on attend la première rechute avant de mesurer le délai entre la première et la seconde rechute.

Encore une fois, si on comparait la chimiothérapie à elle même, on trouverait une différence, parce qu’il n’y a pas de raison que le délai avant première rechute soit identique au délai entre première et seconde rechute.

Pondération d’un modèle à effets mixtes

Les modèles à effets mixtes sont très largement utilisés, mais la statistique qu’ils estiment n’est pas forcément correctement interprétée. Alors que tous les statisticiens connaissent l’interprétation de la médiane ou la moyenne, on parlera plutôt d’effet dans un modèle à effets mixtes sans forcément savoir ce que ça représente.

Pour aider à l’interprétation et au choix des statistiques, je vous propose de partir de deux exemples de mesures répétées très simples.

1er exemple : paires de jumeaux

Supposons qu’on souhaite évaluer les conséquences de la grande prématurité (< 32 semaines d’aménorrhée) sur le développement psychomoteur de l’enfant. On comparerait alors, certains outcomes de développement psychomoteur, entre enfants prématurés et non prématurés.

Plusieurs problèmes statistiques apparaissent:

L’exposition (prématurité ou non) des jumeaux est parfaitement corrélée (R=1) puisque le terme de naissance est la même pour les deux jumeaux d’une paire (sauf rare exception)
Le devenir des jumeaux est aussi corrélé, car ils partagent très fortement leur environnement pré-natal et post-natal et partagent plus ou moins fortement leur génôme
Il existe une corrélation forte entre la gémellarité et la prématurité; c’est-à-dire, qu’un plus grand nombre de jumeaux sera retrouvé dans le groupe prématuré
À prématurité égale, le devenir psychomoteur moyen d’un enfant pourrait différer selon que la grossesse soit gémellaire ou pas. Une prématurité à 31 SA chez des jumeaux peut être principalement attribuable à la gémellarité alors qu’elle sera plus souvent due à d’autres comorbidités (p.e. macrosomie, RCIU, anomalies congénitales) dans des grossesses simples. Ainsi, il existe potentiellement une corrélation entre la taille du cluster et son devenir.

Néanmoins, avant de nous concentrer sur tous ces problèmes, considérons que nous souhaitons répondre à la question : quelle est la valeur moyenne de l’échelle de développement psychomoteur à l’âge corrigé de deux ans chez les prématurés ?

Pour répondre à cette question, on doit se demander : est-ce que la moyenne porte sur les enfants, avec une paire de jumeaux qui compte pour deux enfants, ou est-ce que la moyenne porte sur les grossesses, avec une paire de jumeaux qui ne compte que pour un ? Dans le premier cas, on ferait la moyenne brute des résultats de tous les enfants, sans prendre en compte le fait que deux enfants peuvent appartenir à une paire de jumeaux. Dans le second cas, on commencerait par faire la moyenne dans chacune des paires de jumeaux, afin de n’obtenir qu’une seule valeur par paire, avant de faire la moyenne de tous les clusters. On peut aussi considérer que, dans le premier cas, on fait la moyenne non pondérée de tous les résultats de tous les enfants, alors que dans le second cas, on fait la moyenne pondérée par l’inverse du nombre d’enfants dans la grossesse.

On peut donc résumer la question à : est-ce que les deux jumeaux d’une même grossesse comptent pour deux ou ne comptent que pour un ?

Même si la réponse à cette question peut sembler difficile au premier abord, elle ne fait pas de doute pour moi. Que des séquelles graves soient retrouvées chez deux singletons issus de deux grossesses différentes ou alors qu’elles soient retrouvées chez deux jumeaux issus d’une même grossesse, le handicap populationnel conséquent est le même. Les deux jumeaux sont deux individus distincts dont la valeur de la vie compte tout autant que celle de deux individus différents. La pondération par un-demi des jumeaux supposerait que la valeur de la vie des jumeaux est deux fois moins importante que celle des singletons. La réponse, pour moi est claire: deux jumeaux comptent pour deux.

Cette distinction entre les deux moyennes revêt une grande importance à cause des problèmes N°3 et N°4 évoqués ci-dessus. En effet, à cause de ces problèmes, l’espérance d’une moyenne ou d’une diffférence de moyennes diffère selon le choix de la pondération.

2ème exemple : calendrier de symptômes

Je pars d’un exemple réel. Un essai clinique randomisé sur un traitement de l’incontinence fécale. L’objectif étant d’obtenir une diminution de la fréquence des épisodes d’incontinence de selles et d’impériosités, le critère de jugement principal est basé sur le remplissage d’un calendrier, rempli quotidiennement sur 21 jours consécutifs après trois mois de traitement. Avec 21 mesures par sujet, on atténue la variance intra-sujet. On peut raisonnablement supposer que sur la période de mesure, l’état des patients sera en moyenne stable. Néanmoins, on peut craindre que certains patients ne remplissent qu’à moitié le calendrier (pe. les 10 premiers jours de la période d’évaluation), parce que le remplissage est répétitif et ennuyeux. On peut aussi craindre que ce remplissage partiel soit corrélé à la fréquence et la sévérité des symptômes.

On retrouve donc jusqu’à 21 données par patient, corrélées les unes avec les autres. La même question que pour le premier exemple se pose : un patient qui a rempli 7 jours de calendrier doit-il compter trois fois moins qu’un patient qui a rempli correctement les 21 jours ? De mon point de vue, la réponse, cette fois-ci est inversée par rapport au premier cas. Il n’y a pas de raison de donner un plus grand poids aux patients ayant entièrement complété le questionnaire qu’aux autres. On peut craindre que leur donner un plus grand poids biaise les résultats si le taux de remplissage est corrélé au contenu du questionnaire. À l’opposé, on peut espérer qu’un remplissage de bonne qualité sur les 7 premiers jours soit déjà représentatif de la période entière, et que finalement, la corrélation entre la durée de remplissage et la valeur moyenne n’ait pas d’impact sur les résultats si on commence par calculer une unique valeur moyenne par sujet avant d’en faire la moyenne sur l’ensemble des sujets.

Synthèse des deux exemples

Nous avons vu que selon la situation, le poids donné aux mesures répétées ne devrait pas être le même. Dans le premier exemple, les clusters de deux jumeaux doivent compter double par rapport aux clusters d’un singleton. Dans le second exemple, les clusters de 21 mesures (1 seul patient) devraient compter le même poids que les clusters de 7 mesures (1 seul patient) plutôt que de compter triple. Dans le second cas, le choix est absolument critique car il est susceptible d’influencer le signe de la différence entre les deux groupes dans le cadre d’un essai clinique randomisé.

Et le modèle linéaire à effets mixtes ?

Comment le modèle linéaire à effets mixtes, avec un intercept cluster aléatoire, se comporte-t-il dans les deux exemples ci-dessus ? Pour simplifier l’exemple, considérons même que l’on ne s’intéresse qu’à calculer la moyenne d’un seul groupe avec un modèle à effets mixtes sans covariable (intercept seul).

Est-ce qu’un cluster deux fois plus grand compte double ? Ou alors, chaque cluster aurait le même poids ?

La réponse est entre les deux. Ce modèle va être interprétable comme une moyenne pondérée. Un cluster de taille deux comptera plus fortement qu’un cluter de taille un, mais ce ne sera pas le double. Ce sera une valeur intermédiaire entre 1 et 2. Cette valeur intermédiaire dépendra de la force de la corrélation intra-cluster. Si les observations d’un même cluster sont très fortement corrélées, alors le poids sera proche de 1, c’est-à-dire que le poids total d’un cluster sera presque indépendant de sa taille. À l’opposé, si les observations d’un même cluster sont très faiblement corrélées, alors le poids total d’un cluster sera proche du nombre d’observations du cluster.

Reprenons l’exemple des jumeaux (exemple 1). Le modèle à effets mixtes considèrera que la valeur de la vie de deux jumeaux est d’autant plus grande que leur devenir est divergent, faiblement corrélé. À l’opposé, si les deux jumeaux partagent leur évolution, alors leur vie ne compte que pour un. Comme si la valeur d’une vie était proportionnelle à son imprévisibilité. C’est l’aléatoire d’une vie qui en ferait la valeur ! C’est ce qu’elle a d’unique. Je vous avoue que je ne suis pas branché par ce concept de snowflake, mais c’est ce que le modèle à effets mixtes fait dans votre dos quand vous lui faites confiance.

Pour aller plus loin : quels poids donne réellement le modèle à effets mixtes

Pour pousser les choses plus loin encore, dans le premier exemple des singletons/jumeaux (clusters de taille 1 ou 2), l’estimation de moyenne du devenir des enfants prématurés par le modèle à effets mixtes est extrêmement proche de l’estimation que l’on obtient par la procédure suivante:

Calculer la moyenne M1 et son erreur type dans le groupe des jumeaux prématurés (pour que l’erreur type ne soit pas biaisée, on commence par moyenner les deux jumeaux de chaque paire)
Calculer la moyenne M2 et son erreur type dans le groupe des singletons prématurés
Calculer la moyenne de M1 et M2 pondérée par l’inverse de la variance de M1 et de M2 (inverse du carré des erreurs types)

Sur de grands échantillons, la procédure du modèle à effets mixtes converge vers celle de la moyenne pondérée par l’inverse de la variance. J’ai fait quelques simulations pour vérifier ma théorie, et on peut, en première intention, considérer les procédures comme équivalentes tant elles convergent vite.

On comprend alors l’intérêt du modèle à effets mixtes : cette pondération par l’inverse de la variance est la procédure la plus efficace statistiquement (faible variance de l’estimateur) pour faire la moyenne de M1 et M2 sous l’hypothèse que les deux moyennes de la population µ1 et µ2 sont identiques. C’est-à-dire que si la moyenne de la mesure d’un cluster est indépendante de la taille du cluster, la procédure du modèle à effets mixtes est équivalente aux autres procédures en moyenne, tout en étant plus précise statistiquement. Mais dès qu’on s’écarte de cette hypothèse, ça perd toute sa pertinence.

Pour aller plus loin : calculs d’incertitude

Jusqu’à maintenant, je n’ai pas parlé du problème de calcul des intervalles de confiance et petits p. Je me suis concentré sur l’espérance de l’estimateur ponctuel, c’est-à-dire, la statistique qui est vraiment estimée par le modèle. Je me suis concentré là-dessus, parce que je considère que c’est la clé du choix statistique. Malheureusement, je crains que le modèle à effets mixtes soit souvent utilisé en faisant le raisonnement foireux ci-dessous:

La méthode de Student repose sur l’indépendance entre les observations
À cause de la corrélation des mesures, Student sous-estime la variance et fournit une inférence biaisée
Les modèles à effets mixtes prennent en compte cette corrélation et donc, fournissent une inférence non biaisée
Donc je vais utiliser ces modèles magiques

La faille du raisonnement, c’est que la statistique du modèle à effets mixtes diffère de la statistique de moyenne simple qu’on voulait estimer. On infère sans biais, mais sur la mauvaise cible.

Les calculs d’incertitudes, sont un détail secondaire qu’on résout généralement assez simplement. D’abord, on peut faire du boostrap sur les clusters eux-mêmes. C’est une procédure extrêmement solide, adéquate notamment lorsque les corrélations intra-clusters sont extrêmement complexes. Par exemple, le modèle à effets mixtes à intercept seul fournira des résultats biaisés dans le second exemple (calendrier des symptômes) car il ne prendra pas en compte l’auto-corrélation intra-sujet, c’est-à-dire, le fait que deux jours successifs se ressemblent plus que deux jours distants. On peut aussi utiliser un estimateur sandwich sur un modèle linéaire général pondéré. Enfin, on peut estimer les variances dans les sous-groupes (pe. clusters de taille 1 et 2) puis utiliser les formules VAR(cX)=c²VAR(X) et VAR(X+Y) = VAR(X) + VAR(Y) + 2×COV(X,Y) pour calculer la variance de la moyenne des deux sous-groupes, correctement pondérée.

Conclusion

Je pense qu’au lieu de se concentrer sur des modèles, c’est-à-dire, un ensemble d’hyptohèses sur les processus de génération des données et la forme des relations, on devrait raisonner en termes de statistique : quelle valeur synthétique représente le mieux ce qui m’intéresse. Ce n’est qu’après avoir défini cette statistique que les problématiques d’échantillon fini doivent être considérés : rectification des biais d’estimateur ponctuel et calcul des incertitudes.

Il est parfois nécessaire de reposer sur des modèles, mais les conséquences de la violation des hypothèses sous-jacentes, qui est systématique, doit être connue afin de pouvoir interpréter correctement les résultats.

Calulatrices graphiques

Un petit billet sur le marché étonnant des calculatrices graphiques en 2021. Le marché orbite autour des épreuves et concours, tels que le baccalauréat en France. Les constructeurs adaptent leurs modèles au programme et aux réglementations, tels que l’obligation du mode examen (https://calculatrice-scientifique.eu/mode-examen-concours/) ou l’ajout du langage Python dans les derniers modèles. Le marché est très large, puisque rien qu’en France, environ 750 000 candidats passent le baccalauréat chaque année. Même s’il existe des spécificités nationales, les constructeurs utilisent les mêmes modèles partout dans le monde. Casio, Texas Instruments et Helwet Packard sont les principaux constructeurs.

Le prix de ce matériel, généralement compris entre 70 € pour l’entrée de gamme et 160 ou 170 € pour le haut de gamme, est-il justifié?

Pour ce faire, nous allons comparer les modèles les plus répandus sur le marché Français.

Description du matériel

Modèle	Prix (TTC)	Microprocesseur	DMIPS	FPU	RAM	Flash	Écran	Périphériques additionnels
Raspberry pi zero	~ 10 €	BCM2835 1 Ghz ARM11 32 bits	1130	Oui	512 Mo LPDDR2	microSD requis ~ 6-7€ pour 16 Go	None	microSD HDMI GPIO USB
Wiko Y51	60 €	SC7731E 4 Cortex-A7 1.3 Ghz	9880 (multi-core)	Oui	1 Go	8 Go	960×480	2×5MP camera Wifi 802 b/g/n Bluetooth GSM 2G/3G+ accéléromètre capteur de lumière écran capacitif Carte son GPS USB microSD Radio FM
TI 82 Advanced	~ 70 €	Z80 15Mhz 8 bits	0.61	Non	48 Ko SRAM	1 Mo	96×64 monochrome	Clavier USB
Ti 83 premium CE	~ 80 €	eZ80 48 Mhz 8 bits	7.8	Non	256 Ko SRAM	4 Mo	320×240	Clavier USB
Ti Nspire CX II-T CAS	~ 150€	ARM926EJ-S 396 Mhz	436	Oui	64 Mo	100 Mo	320×240	Clavier USB
Casio Graph 35+E II (fx-9860GIII)	~ 90€	SH7305 59 Mhz	106.2	Non	?? Mo 61 Ko utilisateur	8 Mo	128×64 monochrome	Clavier USB
Casio Graph 90+E (fx-CG 50)	~ 90 €	SH-4A SH7305 117.96 Mhz	212.3	Non	8 Mo 61 Ko utilisateur	32 Mo	396 × 224	Clavier USB
HP Prime G2	~165€	Cortex A7 528 Mhz	1003	Oui	256 Mo	512 Mo	320×240	Clavier USB
NumWorks	~ 80 €	STM32F730V8T6 Cortex M7 216 Mhz	462	Oui	256 Ko SRAM	8 Mo	320×240	Clavier USB

Le tableau ci-dessus décrit divers types de calculatrices ainsi que deux autres matériels: le Raspberry pi zero, un micro-ordinateur vendu sans périphérique (ni écran, ni clavier) et le Wiko Y51, un smartphone Android d’entrée de gamme. Les DMIPS représentent une estimation des performances au benchmark Dhrystone, reflétant les capacités de calcul du microprocesseur. Ces DMIPS ont été critiqués pour être des micro-benchmarks, basés sur une petite quantité de données et de code. Cela va tendre à sous-estimer l’écart entre les processeurs les plus puissant et les moins puissants. Ainsi, le processeur du Raspberry pi zero, avec 1130 DMIPS n’est pas 1130/7.8 = 145 fois plus rapide que la Ti 83 Premium CE. L’écart est certainement beaucoup plus important pour des programmes non triviaux. En réalité, la plupart des applications que l’on fera fonctioner sur un Raspberry pi zero ne pourraient jamais être exécutées sur une Ti 83 Premium CE car elles dépasseraient complètement les capacités mémoire maximales du microprocesseur. Il est aussi à noter que les DMIPS ne prennent pas en compte le calcul des nombres à virgule flottante qui sera extrêmement lent sur la Ti 83 Premium CE car entièrement émulé.

Les caractéristiques techniques du Wiko Y51 dépassent très largement tous les modèles de calculatrices les plus onéreux sur absolument tous les aspects techniques : puissance du microprocesseur, mémoire RAM, mémoire Flash, écran et connectivité. En comparaison à une Ti 82 Advanced, elle a 21845 fois plus de mémoire RAM, un écran qui comporte 75 fois plus de pixels, 8192 fois plus de Flash et un microprocesseur dont les performances sont incommensurables. Son prix est pourtant inférieur.

Du fait de l’absence d’unité de calcul à virgule flottante (FPU), la Ti 83 premium CE doit émuler les nombres à virgule avec les additions et soustractions 8 bits, et utilise une représentation numérique particulièrement peu précise, avec une mantisse de 22 bits, inférieure aux 24 bits d’un FP32 IEEE-754. En bref, cette calculatrice n’est même pas bonne à faire des calculs numériques.

Qu’est-ce qui pourrait justifier ce prix démesuré ?

On ne demande pas forcément d’une calculatrice d’égaler les performances d’un smartphone, mais pourquoi le prix n’est-il pas en rapport avec le matériel ?

Il ne s’agit pas du volume de ventes. Le marché des calculatrices graphiques est très grand, en raison de leur utilité aux examens et concours. C’est un marché international, avec un faible nombre de modèles, puisque Casio, Texas Instruments et Helwet Packard ne vendent chacun que quelques modèles différents. Helwet Packard ne vend plus qu’un seul modèle (HP Prime) alors que Casio vend presque le même matériel à différents prix afin de créer artificiellement une gamme. En comparaison, le Wiko Y51 doit tailler sa place dans un marché encore plus large mais très fragmenté, parmi des milliers de modèles Android différents.

Pourrait-il s’agir du coût du logiciel ? Cela est difficile à dire car les coûts de développement ne sont pas communiqués. Helwet Packard a probablement eu des frais minimes puisqu’il a repris du logiciel libre : FreeRTOS pour le système d’exploitation et GiCalc/Xcas pour le logiciel de calcul formel. Les quelques applications supplémentaires (Classeur, Statistiques) sont triviales à développer. Il est possible que le coût de développement de Texas Instruments soit bien plus élevé, car le microprocesseur Z80 est extrêmement ancien, sous-performant et oblige probablement les ingénieurs à programmer en assembleur en raison des limites de mémoire de la Ti 82 et la Ti 83. Étant donné que le processeur et le logiciel ont faiblement évolué depuis la Ti 81 commercialisée en 1990, il y a quand même trente ans d’amortissement. On remarquera que ce microprocesseur existe depuis 1976 et a représenté, avec le 6502, l’un des deux microprocesseurs 8 bits les plus vendus des années 1980. Le logiciel de Casio évolue aussi lentement, toujours basé sur le Casio Basic qui ne gère que 28 variables nommées de A à Z, plus rho et theta.

Le travail principal des constructeurs semble être la veille réglementaire et des programmes des examens de l’enseignement secondaire des différents pays. Il existe aussi un travail de démarchage auprès des enseignants, qui ont toujours le dernier modèle avant les autres.

Au total, il est probable que les marges bénéficiaires soient très importantes. Cela est d’autant plus problématique qu’il s’agit d’un marché forcé, avec des lycéens, ou plutôt leurs parents, de toute catégorie sociale devant acheter un instrument qui ne servira probablement plus une fois les examens passés.

On peut aussi craindre que cela amplifie les inégalités sociales, en raison d’une gamme de modèles, plus ou moins perfectionnés. Les plus riches pourraient acheter les modèles avec les fonctions les plus avancées, qui leur donnerait un avantage. Ce phénomène pourrait avoir été aggravé par le mode examen, supprimant les options de programmation permettant de débrider les modèles bas de gamme pour leur offrir des fonctionnalités équivalentes aux modèles haut de gamme.

Visite index et cohortes rétrospectives

Problématique

La méthodologie des cohortes rétrospectives n’est presque jamais détaillée dans les articles et pourtant elle est essentielle. Si on s’intéresse, par exemple, au pronostic d’une maladie après diagnostic, on voudra inclure les sujets au moment du diagnostic. Si la recherche s’effectue dans des dossiers médicaux électroniques, les patients atteints de la maladie seront identifiés par une donnée structurée ou non structurée, tel qu’un code diagnostic, le résultat d’un examen biologique ou des mots-clés dans le texte. Il est aussi possible de se baser sur une combinaison de plusieurs éléments (pe. code diagnostic OU biologie). Cette étape conduira à la pré-sélection d’un ensemble de dossiers qui seront ensuite relus, afin de confirmer le diagnostic et les critères d’inclusion.

Trois dates peuvent alors être définies pour chaque sujet:

La date de diagnostic de la maladie (ou date de début des symptômes si c’est ça qui nous intéresse)
La date de la première visite présente dans le dossier médical du centre (ou des centres pour les cohortes multicentriques)
La date index, c’est-à-dire, la date du premier document qui a permis à ce patient d’être pré-sélectionné. Si c’est la combinaison de plusieurs documents (pe. dosage biologique + code diagnostic), alors c’est la date à partir de laquelle les documents sont suffisants pour que le patient ait été pré-sélectionné.

Ces trois dates peuvent différer. Un patient transféré d’un autre centre pourra avoir une date de diagnostic antérieur à la date de la première visite du centre de l’étude. Selon la méthode de pré-sélection, la première visite du centre de l’étude pourra ne pas être identifiée par les codes ou mots-clés recherchés alors qu’une visite ultérieure le sera.

Une erreur méthodologique très fréquente consiste à analyser le pronostic à partir de la date de diagnostic, sans tenir en compte du biais de temps immortel (immortal time bias) induit par le délai entre la date de diagnostic et la date index. Ce phénomène est caricatural si le critère de jugement est la survie globale. Tout sujet décédé avant la date index sera exclu car il ne sera pas pré-sélectionné. S’il y a toujours un intervalle de deux ans entre le diagnostic et la date index, alors on n’observera aucun décès les deux premières années suivant le diagnostic puisque tous les sujets décédés auront été exclus !

Le biais persiste, dans une moindre mesure, si on se base sur la date de la première visite plutôt que la date de diagnostic. Le suivi, en réalité, débute à la date index.

Solutions

Comment peut-on alors correctement modéliser la survie avec les modèles de survie non paramétriques ou semi-paramétriques habituels (Kaplan-Meier et Cox) ?

Date de diagnostic comme baseline

La stratégie idéale, si elle est faisable, consiste à prendre la date de diagnostic comme date de début de suivi mais appliquer une troncature à gauche jusqu’à la date index dans le modèle de survie. Cette troncature à gauche est une fonction assez méconnue. Plutôt que de juste considérer que chaque patient est suivi à partir de T0 jusqu’à une date des dernières nouvelles, faisant alors sortir le sujet de la cohorte, on considère qu’il existe une date des premières nouvelles et une date des dernières nouvelles. Le sujet entre dans la cohorte aux premières nouvelles et en sort aux dernières nouvelles. Le nombre de sujets à risque peut alors croître puis décroître, puisqu’il y a des gagnés de vue et des perdus de vue. Cette méthode permet de conserver la forme de la courbe de survie originale, en reposant sur l’hypothèse d’entrée et de sortie de la cohorte au hasard, ou, du moins, pour des raisons non corrélées à l’outcome.

Méthode landmark

Cette stratégie a une limite: elle nécessite qu’un nombre suffisant de sujets ait une date index égale à la date de diagnostic, sinon, dans le pire des cas, on commencera par un estimateur de Kaplan-Meier à 0/0, ce qui rendra impossible toute estimation de courbe de survie. Si la majorité voire la totalité des sujets ont un écart important entre la date de diagnostic et la date index (pe. 1 an), on peut comprendre que l’évolution initiale est impossible à connaître. On doit alors renoncer à la comparaison sur la période initiale de la courbe de survie. On peut utiliser la méthode landmark, qui consiste à redéfinir la baseline, c’est-à-dire, le T0 de la courbe de survie, au diagnostic+constante tel qu’un an après le diagnostic. Au nouveau point de départ, tous les sujets auront la même ancienneté de la maladie. Ils seront suffisamment nombreux pour que le tracé de la courbe soit possible. Tout sujet ayant eu l’événement avant le landmark sera exclu (censure à gauche).

Date index comme baseline

Une stratégie alternative consiste à définir la baseline (T0 de la courbe de survie) comme la date index. Cette méthode fournit la meilleure précision statistique, car garantit un échantillon de taille maximale à T0. Par contre, cette méthode fournit des courbes de survie d’allure exponentielle quand bien même ça ne reflète pas du tout l’évolution de la maladie. En mélangeant tous les stades d’ancienneté de la maladie à baseline, le rythme d’apparition des événements devient une moyenne des risques associés à chaque ancienneté. Par exemple, l’ataxie spinocérébelleuse de type 2 est une maladie neurologique dégénérative d’évolution progressive lente mais inexorable. La figure 1 de l’article « Prediction of Survival With Long-Term Disease Progression in Most Common Spinocerebellar Ataxia » (doi: 10.1002/mds.27739, PMID: 31211461) décrit une survie globale de 97.8% à 10 ans, 78% à 20 ans, 31% à 30 ans et 11.2% à 40 ans. Ainsi, la mortalité précoce (< 10 ans) est négligeable alors l’issue fatale survient majoritairement entre 15 et 35 ans. On observe pourtant des courbes très différentes sur la figure 1 de l’article intitulé « Survival in patients with spinocerebellar ataxia types 1, 2, 3, and 6 (EUROSCA): a longitudinal cohort study » (doi: 10.1016/S1474-4422(18)30042-5, PMID: 29553382). Le taux de survie à 10 ans du l’ataxie spinocérébélleuse de type 2 est environ de 73%, avec un rythme de décès semblant assez constant sur les 10 années de suivi. Cela est explicable par un T0 correspondant à la date index, et concernant des cas prévalents d’ancienneté très variable. Le rythme de décès est alors égal à la moyenne des rythmes de décès de toutes les anciennetés, pondérée par la prévalence des anciennetés. Cette attitude peut néanmoins se défendre pour les situations où l’évolution est peu dépendante de l’ancienneté, c’est-à-dire, correspondant à des courbes de survie d’allure exponentielle.

Méthodes paramétriques ?

Éventuellement, on pourrait aussi utiliser la loi de Weibull pour compléter le début du suivi mal connu.

Généralisation des concepts

La distinction entre date de début des symptômes et date de diagnostic peut parfois avoir une importance (pe. syndrome démentiel) et c’est souvent la date de début des symptômes qui importe le plus, avec néanmoins des problèmes de difficulté à mesurer la date de début des symptômes.

Même s’il est fait référence au dossier médical informatisé, les problèmes décrits dans ce billet sont tout aussi applicables aux dossiers papiers, pour lesquels il existe des documents ou source de données index. Il est aussi généralisable aux registres. Il est enfin généralisable aux cohortes prospectives incluant des cas prévalents, pour lesquels la visite index sera généralement la visite d’inclusion.

Concept apparenté, l’anti-cohorte ou cohorte inversée

Ne cherchez pas ce concept dans la littérature scientifique, vous ne l’y trouverez pas. Le terme de cohorte inversée ou anti-cohorte est une invention de l’auteur de ce blog. Il s’agit d’une méthodologie à classer dans la sémiologie fongique des études, c’est-à-dire, un exemple de ce qu’il ne faut pas faire. Plutôt que de sélectionner les sujets nouvellement diagnostiqués sur une période donnée (pe. entre 2010 et 2019) et de les suivre jusqu’à survenue d’un événement ou censure administrative à une date de point (pe. 31 décembre 2019), la cohorte inversée sélectionne les sujets sur la présence d’un événement sur une période récente (pe. 2018-2019), puis on remonte le dossier médical jusqu’à la visite la plus ancienne du dossier médical (pe. 2000-2019) et on l’analyse comme si le sujet avait été sélectionné sur cette première visite.

Le taux de survenue d’événement atteint alors 100%. Cela ressemble à une méthodologie cas-témoin dans laquelle il n’y aurait que des cas. Malheureusement, le fichier de données se présente comme celui d’une cohorte et un statisticien non au fait de la méthodologie de sélection employée pourrait alors l’analyser comme s’il s’agissait d’une cohorte ordinaire. Les sujets dont la date de première visite est récente auront alors une survie avant événement raccourcie.

Une variante de cette cohorte inversée est la sélection de la « file active » des patients (pe. ayant eu une visite entre janvier et décembre 2019) qu’ils aient eu ou non l’événement d’intérêt, puis de remonter jusqu’à la première visite du dossier médical (pe. jusqu’à l’an 2000 pour certains patients). La visite index est alors en 2019, avec une forte représentation des cas prévalents. Même si certains événements peuvent survenir après la date index (pe. date index en février 2019 et événement en septembre 2019), si on utilise la date de première visite comme baseline du suivi, on aura une période d’immortalité extrêmement longue et un très faible nombre d’événements au total. Toute variable positivement corrélée à la date de première visite sera corrélée négativement corrélée au délai avant survie.

Prospectif vs rétrospectif

Savez vous ce qu’est une étude prospective ? Ce terme est souvent employé dans la littérature médicale, mais rarement défini. Nous allons tenter de montrer les différents sens qu’il peut revêtir et les problématiques associées.

Je vais schématiquement distinguer:

Donnée prospective ou rétrospective
Protocole prospectif ou rétrospectif
Analyse prospective ou rétrospective

Lorsque les trois sont prospectifs, l’étude est clairement prospective, autrement, c’est matière à discussion, sans compter les études qui ont les deux versants sur un ou plusieurs aspects.

Donnée prospective

Pour faire simple une donnée prospective, est une donnée enregistrée de manière synchrone à la réalité qu’elle représente. Si, par exemple, en 2022, on décide de fouiller des dossiers médicaux de nutrition de 2010 à 2020, et que l’on enregistre tous les poids qui ont été mesurés sur la balance de la salle de consultation et notés dans le dossier médical, la donnée est prospective. À l’opposé, si, en 2022, on appelle les patients pour leur demander quel poids ils pesaient, environ, à l’époque (2010 à 2020), alors la donnée est rétrospective, avec un fort biais de mémorisation possible.

Considérons maintenant un patient qui décrit une perte de poids de 5 kg sur les 3 derniers mois durant une consultation en avril 2015. Il dit que son poids en janvier était de 68 kg et qu’il pèse maintenant 63 kg. Enfin, un protocole d’étude sur dossier médical est créé en 2021, et, le 8 février 2022, un interne en médecine fouille les dossiers médicaux et recopie ces données dans une base de données de la recherche, structurée.

Janvier 2015 est la date de mesure, Avril 2015 est la date d’enregistrement de la donnée, maintenant figée dans un dossier médical et février 2022 est la date de collecte de la donnée. Une donnée est prospective si la date de mesure et la date d’enregistrement sont identiques.

On peut encore distinguer deux cas de figures. Selon les situations, une donnée peut être enregistrée de manière systématique ou pas. Dans les dossiers médicaux usuels, aucune information n’est vraiment obligatoire, et les données manquantes seront généralement très nombreuses, même sur des variables particulièrement importantes. Dans les registres ou les grandes « cohortes prospectives », on mettra un soin tout particulier à enregistrer de manière systématique, certaines variables. Il existera alors une base de données structurée et des instructions précises pour que les responsables du registre ou de la cohorte enregistrent les données de manière systématique et standardisée. La liste des données systématiquement enregistrées ne sera pas forcément basée sur des objectifs de recherche précis; ceux-là étant éventuellement définis dans des protocoles de recherche ultérieurs.

On comprend alors que la valeur des données n’est pas la même dans le cas de registres avec une tentative d’enregistrement systématique et dans les dossiers médicaux emplis de données manquantes. Je distinguerai les deux cas de figure, en parlant d’enregistrement actif ou d’enregistrement passif. Je parlerai alors de donnée prospective active ou de donnée prospective passive. Il est aussi possible de parler de donnée rétrospective active lorsqu’une question soumise à un biais de mémorisation est systématiquement demandée au patient (pe. quel était votre poids de forme?).

Protocole prospectif

Un protocole de recherche sera dit prospectif, s’il est réalisé avant que la moindre donnée de la recherche ne soit enregistrée. On pourra néanmoins rédiger un protocole de recherche en 2021 pour questionner des patients sur leur vécu du premier confinement de COVID-19 en France de mars à mai 2020. Par exemple, ont-ils consulté un médecin au moins une fois sur cette période ? La donnée sera rétrospective active, soumise à un biais de mémorisation, mais le protocole sera prospectif, car la nature et la méthode d’enregistrement de ces données, ainsi que leur analyse, aura été décidée avant de débuter le premier enregistrement.

À l’opposé, on pourra parler de protocole rétrospectif lorsque les données ont déjà été enregistrées avant que l’on réalise le protocole de l’étude. Les données seront colligées dans une base structurée, spécifique au projet de recherche, après que le protocole soit rédigé.

Analyse prospective

L’analyse d’un lien entre une variable d’exposition (chronologiquement antérieure) et un critère de jugement (chronologiquement postérieur), sera dite prospective si la sélection des sujets opère sur la variable d’exposition et que la comparaison du critère de jugement est faite entre les niveaux d’exposition. Dans le cas d’une exposition catégorielle, on constituera des groupes d’exposition avant de comparer les critères de jugement. C’est typiquement l’analyse que l’on retrouvera dans les cohortes.

À l’opposé, on parlera d’analyse rétrospective lorsque l’on définit les groupes sur le critère de jugement (chronologiquement postérieur) et que l’on compare ensuite les taux d’exposition (chronologiquement antérieur) selon les groupes constitués.

Les cohortes sont alors toujours prospectives alors que les cas-témoins sont toujours rétrospectifs, par leur analyse.

Enfin, une analyse sera transversale lorsqu’elle sera basée sur un ensemble de variables dont les mesures sont synchrones. On remarquera que l’enregistrement de données peut être transversal, c’est-à-dire avec une seule date d’enregisrement par patient, sans forcément que l’analyse ne le soit. Par exemple, dans une étude cas-témoin sur le lien entre nombre d’enfants et risque de cancer du sein, on pourra demander à des femmes avec ou sans cancer du sein (appariées sur l’âge), combien d’enfants elles ont eu. L’enregistrement sera transversal, mais l’analyse sera longitudinale, rétrospective. La donnée de cancer sera prospective alors que la donnée du nombre d’enfants sera rétrospective.

On distinguera donc trois types d’analyses : prospectives, rétrospectives et transversales. Les analyses prospective et rétrospectives sont longitudinales car elles font appel à des mesures applicables à des dates différentes.

Quels biais ?

Une donnée rétrospective sera généralement déclarative et donc soumise au biais de mémorisation, même si l’ampleur de ce biais sera très variable. Une femme mémorise généralement très bien le nombre d’enfants qu’elle a eu, sauf cas de démence avancée.

Une donnée prospective passive souffrira généralement d’un taux de données manquantes élevé, rarement au hasard. Néanmoins, il existe des exceptions. L’histologie d’un cancer opéré sera généralement présente dans le dossier médical du centre dans lequel l’opération a été réalisée, avec un taux de données manquantes très faible, sauf exception liée à des parcours de soins particuliers pour lesquels le compte-rendu anatomo-pathologique se retrouvera ailleurs. Une donnée prospective active pourra avoir une bien meilleure qualité, si des ressources humaines y sont dédiées. Mon expérience personnelle avec certains registres et certaines cohortes prospectives m’a montré que la donnée prospective soi-disant active peut aussi être de qualité bien plus basse que la donnée prospective passive. Il est tout à fait possible d’avoir un taux de données manquantes supérieur à 50% sur la nature d’une chirurgie pour une donnée prospective en anesthésie. Il est alors parfois nécessaire de rectifier les données prospectives actives par des données prospectives passives de bien meilleure qualité.

Enfin, les analyses prospectives, comme celles que l’on réalise dans les études de cohortes seront soumises à des biais d’attrition, attribuables aux perdus de vue, alors que les analyses rétrospectives pourront être soumises à des biais de survie sélective.

Biais de mémorisation atypiques

Je vais vous raconter deux histoires courtes dans ce billet, illustrant des cas assez inattendus, de « biais de mémorisation ».

Premier cas rapporté

Cela concerne une étude avant-après prospective, dont la qualité du recueil de données est discutable. Notamment, la date d’inclusion n’avait pas été renseignée dans le base de données remplie sur tableur Excel. Je dus, suite à une remarque d’un reviewer, retrouver les dates d’inclusions afin d’évaluer l’adhésion au protocole avant-après par les investigateurs : traitement contrôle donné en période avant et traitement expérimental donné en période après. En croisant les identifiants de patients avec la base de données médico-administrative locale, je pus retrouver les dates ! C’est là que je découvris que les périodes fournies dans le manuscrit de l’article étaient complètement fausses ! Le manuscrit précisait que la période avant s’étendait de novembre 2016 à janvier 2017 et que la période après s’étendait de février 2017 à avril 2017 alors qu’avec les dates enfin retrouvées, je découvrir que le traitement contrôle avait été donné de septembre à décembre 2016 et le traitement expérimental avait été donné de janvier à mars 2017. Le premier auteur de l’article ne s’en étonna pas : il avait décrit les dates de mémoire, et s’était trompé de quelques mois…

Pour compléter l’histoire, j’ai retrouvé dans mes archives mail la date à laquelle j’ai fait la première analyse statistique de la base de données : mi-mars 2016. Encore une preuve que la fin de la période d’inclusion ne pouvait être en avril !

Second cas rapporté

Ce second cas concerne encore un biais de mémorisation dans une étude prospective, dont l’objectif était d’évaluer la validité d’un questionnaire de qualité de vie, avec une cohorte de cas incidents suivis six mois auquel s’ajoutait un groupe de patients prévalents, ne bénéficiant que d’une seule visite. Il semblerait que les investigateurs aient complètement oublié d’enregistrer le traitement médical prescrit aux patients à baseline. Comme les dossiers médicaux étaient d’une qualité excécrable, il n’était même pas possible de savoir ce qui avait été prescrit. Au final, l’interne en charge du projet appela les patients pour leur demander quel traitement ils avaient pris un an auparavant ! Elle me dit qu’elle ne pouvait pas leur demander la dose parce que là, le biais de mémorisation était trop fort, mais qu’au moins, elle espérait que l’information sur la molécule ne soit pas trop mauvaise. Après réflexion, je crains que pour les cas prévalents l’information soit de particulièrement mauvaise qualité, car ils sont susceptibles d’avoir plusieurs traitements au décours de leur suivi et mémoriser précisément celui qu’ils prenaient il y a un an paraît particulièrement difficile.

Lire entre les lignes : respect des recommandations

Méfiez vous des articles basés sur des échantillons rétrospectifs, sur dossiers médicaux, décrivant que la prise en charge des patients suivait strictement et rigoureusement les recommandations nationales ou internationales, voire paraphrasant les recommandations afin de donner l’illusion qu’elles sont respectées. La seule garantie que l’on puisse avoir sur une étude rétrospective, c’est que les pratiques habituelles des services concernés ont été suivies. Citer les recommandations peut être une solution pour ne pas avouer que l’on est incapable de décrire les pratiques habituelles parce qu’elles n’ont jamais été formalisées. Sur deux manuscrits vantant le fait que certaines recommandations et procédures étaient rigoureusement respectés, que j’ai relus en tant que statisticien ayant participé aux analyses, je peux affirmer que pour tous les deux, c’était faux. Je me suis empressé de corriger les manuscrits, bien entendu, mais beaucoup de statisticiens n’auraient pas relu suffisamment en profondeur les manuscrits pour s’en apercevoir. Dans le premier manuscrit, je connaissais suffisamment le chef de service pour savoir qu’il se vante d’ignorer les recommandations, obsolètes, inadaptées et reposant sur des niveaux de preuve très bas (et je confirme son opinion, puisque j’ai un peu étudié les recommandations moi-même). Cela était aussi confirmé par le nombre énorme de données manquantes sur les examens théoriquement obligatoires selon les recommandations. Dans le second, il était mentionné qu’un examen médical était réalisé systématiquement, dans les méthodes, mais sur environ 110 patients, seulement 2 avaient bénéficié de cet « examen systématique ». Heureusement, cela était visible dans les résultats de l’article.

Ensuite, ce problème peut aussi arriver dans les études prospectives. Sur l’étude prospective que j’ai relue qui détaillait le plus la prise en charge, j’ai constaté que l’adhésion des investigateurs au coeur de ce protocole avant-après, c’est-à-dire donner l’intervention Contrôle en période avant et l’intervention Expérimentale en période après, était particulièrement basse: < 80% sur l’ensemble de létude et < 30% les deux derniers mois de l’étude. Sur cette base, il me paraît difficile de s’assurer du respect des recommandations décrites dans des niveaux de détails extrêmes (y compris les situations atypiques), alors qu’aucune variable recueillie ne permettait d’évaluer l’adhésion à ces recommandations.

Ce que je retiens de ces cas rapportés, c’est que pour s’assurer de la conformité d’une pratique à des recommandations, il est nécessaire de collecter les variables permettant d’évaluer l’adhésion à ces pratiques. Tant que je n’ai pas ces variables, en tant que statisticien, j’aurais toujours un grand doute quant à l’adhésion. Je vous conseille aussi de vous méfier des articles qui citent moults recommandations dans les méthodes, vantant leur respect, sans décrire la moindre variable, dans la section des résultats, permettant de vérifier ces dires.

Études compétitives

Petite anecdote courte aujourd’hui, dans la thématique « ce qui n’est pas dit dans la méthodologie d’un article ». Dans nos Centres Hopistaliers Universitaires, de nombreuses études prospectives sont menées chaque jour. Parfois deux études portant sur un profil de patient proche recrutent en parallèle. Les patients ne pourront généralement pas être inclus dans les deux études en même temps, car leurs protocoles respectifs seraient susceptibles d’interférer. Cela pourra parfois engendrer un biais de sélection majeur, dépendant de la combinaison des critères d’inclusion des deux études.

Pour l’exemple, à Rouen, deux études incluent des patients atteints de syndrome de l’intestin irritable (SII). Cette maladie comporte trois formes cliniques distinctes : avec diarrhée, avec constipation, ou avec alternance des deux. La forme diarrhéique est la plus fréquente. La première étude exigeant des patients la forme diarrhéique (critère d’inclusion), l’inclusion des patients y est plus difficile que dans la seconde, qui inclue pratiquement le SII tout venant. En conséquence, presque tous les patients avec forme diarrhéique sont inclus, par les investigateurs, dans la première étude. La seconde étude se retrouve alors avec seulement quelques patients diarrhéique présentant des critères d’exclusion à la première étude. Cette seconde étude a alors un biais de sélection majeur, sous-représentant les formes diarrhéiques et les rendant non comparables aux autres formes, car elles sont associées à des critères d’exclusion de la première étude.

Ajuster ou ne pas ajuster, telle est la question

Je vais partager une petite réflexion concernant les ajustements statistiques dans les études quasi-expérimentales de type ici-ailleurs.

Principe des études ici-ailleurs

D’une manière générale l’évaluation de l’efficacité d’une intervention par rapport à une autre est très difficile dans une étude observationnelle en raison d’un biais d’indication, c’est-à-dire, une prescription dépendante des caractéristiques du patient, corrélée au pronostic de la maladie. Par exemple, on observera une mortalité bien plus grande des patients atteints de COVID-19 lorsqu’ils bénéficient d’une ventilation mécanique invasive que lorsqu’ils n’en bénéficient pas. Cela n’est pas dû à la nocivité de la ventilation mécanique, mais simplement au fait qu’elle n’est prescrite qu’à des patients dont l’état clinique est très altéré.

Exemple d’étude illustrative

Pour la suite, je prendrai un exemple dans lequel les indications sont beaucoup moins codifiées et la balance bénéfices/risques bien plus incertaine, ce qui permet alors de rendre la méthodologie ici-ailleurs envisageable. Après exérèse chirurgicale complète de mélanomes primitifs cutanés non métastatiques, la fermeture de l’espace cutané peut se faire, pour les exérèses étendues, par un lambeau cutané ou une auto-greffe cutanée. Il existe une querelle d’écoles quant à la meilleure technique, lambeau ou greffe, certains argumentant que les résultats carcinologiques diffèrent. À Lille, 100% des patients ont bénéficié d’une greffe contre 12% à Lyon et 66% à Rouen. Comment alors peut-on comparer les résultats carcinologiques entre lambeau et greffe ?

Stratégie per protocol ajustée sur le centre (comparaison intra-centre)

Deux stratégies de comparaison orthogonales existent. On peut comparer les patients ayant bénéficié d’une greffe à ceux ayant bénéficié d’un lambeau en ajustant sur l’effet centre. Cette méthode de comparaison est interprétable comme une comparaison des sujets avec lambeau et greffe d’un même centre. Ainsi, on comparera les 12% de sujets avec greffe de Lyon aux 88% de sujets avec lambeau de Lyon. On comparera les 66% de sujets avec greffe de Rouen aux 44% avec lambeau de Rouen. Le centre de Lille ne participera pas du tout à la statistique car l’effet centre y sera colinéaire à l’effet greffe. De manière grossière, on peut dire que les effets greffe vs lambeau de Rouen et Lyon seront moyennés par pondération par l’inverse de la variance des estimateurs. Le biais d’indication sera a priori majeur dans cette comparaison. Notamment, il est probable que la réalisation technique du lambeau soit difficile voire impossible dans les 12% de greffés à Lyon étant donné la localisation et l’étendue de l’exérèse. Même en ajustant sur le stade TNM, et les autres facteurs pronostics (sous-type histologique, ulcération, indice mitotique, état général), on peut craindre une persistance du biais d’indication.

Stratégie en intention de traiter (comparaison inter-centre)

La deuxième stratégie consiste à comparer le résultat carcinologique moyen de Lille (qui fait 100% de greffes) à celui de Lyon (qui fait 12% de greffes). Il s’agit alors d’une comparaison de la greffe au lambeau en « intention de traiter », considérant qu’à Lyon, il y a une intention de traiter tout le monde par un lambeau alors qu’à Lille, c’est l’inverse. C’est cette seconde stratégie qui correspond à une méthodologie ici-ailleurs. Le biais d’indication disparaît complètement de cette comparaison grace à l’approche en intention de traiter. Il n’y a plus aucun sens à ajuster sur l’effet centre. En réalité, il n’est même plus possible d’ajuster sur l’effet centre. Selon le point de vue, on peut considérer que l’effet centre est l’effet principal du traitement qui nous intéresse ou on peut considérer que l’effet centre est colinéaire à l’effet principal. Cette stratégie ici-ailleurs est immunisée au biais d’indication, mais est fragile à un potentiel biais de sélection différentiel si les populations consultant Lyon et Lille diffèrent notablement. Au contraire, la première stratégie de comparaison, ajustée sur l’effet centre est immunisée au biais de sélection différentiel des centres puisque les patients d’un centre sont comparés aux patients du même centre.

Quelle stratégie ? Quel biais ?

Pour résumer, il existe potentiellement deux biais remettant en cause la comparabilité des groupes de greffe et lambeau : (1) un biais d’indication et (2) un biais de sélection différentiel. L’analyse ajustée sur l’effet centre est fragile au biais d’indication mais immunisée au biais de sélection différentiel alors qu’à l’opposé, l’analyse ici-ailleurs en intention de traiter est immunisée au biais d’indication mais fragile au biais de sélection différentiel.

Meilleure stratégie ou stratégie combinée ?

Dans le contexte, je craindrais nettement plus le biais d’indication au biais de sélection différentiel, car la population de patients avec mélanomes primitifs cutanés opérables non métastatiques n’a pas de raison de différer notablement entre les centres alors qu’il est raisonnable de craindre un biais d’indication majeur, les prescriptions étant rarement faites au hasard. Néanmoins, il est intéressant de réaliser les deux analyses et d’en vérifier la cohérence, car réaliser deux analyses biaisées différemment mais fournissant la même conclusion est une manière de se rassurer quant à l’impact des biais. On pourrait, par exemple, réaliser une analyse ici-ailleurs en intention de traiter en analyse principale et l’analyse per protocol ajustée sur l’effet centre en analyse de sensibilité.

Que peut-on en retenir ?

Tout cela pour dire que le codage de la variable d’effet et l’ajustement sur l’effet centre modifient profondément l’interprétation des résultats et qu’un ajustement n’est pas toujours souhaitable, pouvant engendrer un biais plus important que l’approche orthogonale.

Pour aller plus loin

Comparaison des traitements ou des stratégies ?

Dans la stratégie en intention de traiter, on pourra argumenter qu’on ne compare plus les traitements (greffe vs lambeau) mais les stratégies de prescription (greffe pour tout le monde vs lambeau si possible). Si on considère que la question du lambeau ou de la greffe ne se pose pas pour certains patients pour lesquels le lambeau n’est pas techniquement réalisable, alors il est logique de comparer les stratégies ou de comparer greffe vs lambeau dans un sous-groupe restreint pour lesquels les deux techniques sont possibles à réaliser.

Études avant-après

La problématique décrite dans les études ici-ailleurs est transposable aux études avant-après. On peut faire une analyse en per protocol ajustée sur le temps (p.e. mois par mois), conduisant à une comparaison « transversale » des patients avec un fort biais d’indication mais pas de biais de sélection différentiel attribuable à une évolution de la population incluse, ou au contraire faire une analyse en intention de traiter, où c’est l’effet temps « après » vs « avant » qui représente l’effet principal, faisant disparaître tout biais d’indication mais faisant potentiellement apparaître un biais de sélection différentiel ou une confusion avec d’autres changements de pratiques simultanés.

Autre exemple

Le biais d’indication est souvent majeur, mais le biais de sélection différentiel peut parfois être majeur lui aussi, rendant alors les deux analyses toutes deux très fragiles. Prenons l’exemple de la prescription de l’hydroxychloroquine pour les patients infectés par COVID-19 hospitalisés. Bien que le pronostic du COVID-19 soit probablement peu différent entre régions françaises, après ajustement sur l’âge et l’IMC, les indications à l’hospitalisation dépendent des ressources en soins locales et des pratiques de prescription des médecins. En effet, l’hospitalisation est bien une prescription médicale ! C’est pour cela qu’en France métropolitaine, le taux de mortalité intra-hospitalière est hautement variable d’un département à l’autre, avec un premier décile à 12,7% (Côtes d’Armor) et un neuvième décile à 18,2% (Meuse), bien que la population générale de Meuse soit plus jeune (10,5% de sujets de plus de 75 ans vs 12,3% pour les Côtes d’Armor). Cela rend les études ici-ailleurs particulièrement biaisées.

Devenir des perdus de vue : un case report

Rappel de vocabulaire en survivologie

Considérons une étude de cohorte ouverte dans laquelle les patients sont inclus de janvier 2015 à décembre 2019 et dont le gel des données est réalisé en janvier 2020. Ainsi, un sujet inclus en janvier 2015 aura jusqu’à 5 ans de suivi alors qu’un sujet inclus début décembre 2019, aura un mois de suivi au maximum.

La date de point est le 31 décembre 2019. Les sujets dont on sait qu’ils sont encore survivants au 31 décembre 2019 sont appelés exclus-vivants. Ils subissent une censure administrative à cette date.

Un sujet inclus en 2015, dont on sait qu’il était vivant en juin 2017, mais dont on ne sait plus rien après, a pour date des dernières nouvelles juin 2017 et est un perdu de vue.

Pour les exclus-vivants, la date des dernières nouvelles est égale à la date de point. Pour les sujets décédés, la date des dernières nouvelles est égale à la date de décès.

Les modèles de survie ne distinguent généralement pas les exclus-vivants des perdus de vue. Les deux sont considérés identiquement comme des données censurées à la date des dernières nouvelles.

Problématique

Les modèles de survie partent du principe que les patients perdus de vue ont les mêmes caractéristiques et le même pronostic que les autres (données manquantes au hasard). Cela est généralement faux, mais on ne sait jamais exactement ce qu’ils deviennent.

Dans l’expérience décrite ci-dessous, nous avons eu le statut vital des perdus de vue ! Cela nous a permis d’évaluer le biais que nous aurions eu avec la publication initiale.

Description du cas d’école

Il s’agit d’une étude multicentrique (trois principaux centres) incluant des patients atteints de cancer du colon métastatique, lors de la première ligne de chimiothérapie. Cela peut arriver au moment du diagnostic initial de cancer du colon (métastases synchrones) ou après un certain d’évolution d’un cancer initialement non métastatique (métastases méta-chrones). Le protocole initialement prévoyait un suivi de 24 mois, mais l’e-CRF contenait des données au-delà de cette limite. La date des dernières nouvelles correspondait à une date de décès ou la date des dernières informations retrouvées dans le dossier clinique pour les survivants, c’est-à-dire, généralement une date de consultation ou hospitalisation. La fin de l’étude était en 2016. On avait considéré que c’était la date de point. À l’époque, on comptait 42 patients censurés dont 40 perdus de vue et 2 exclus-vivants.

L’étude prit du retard. Du fait de difficultés à publier l’article, un retard plus grand fut accumulé. Même si toutes les analyses avaient déjà été réalisées, l’investigateur décida finalement de mettre à jour les données de survie, en enquêtant sur chacun des patients afin de déterminer son statut vital en janvier 2020. Il fit un travail de bonne qualité, puisque sur 192 sujets, seuls 8 furent censurés, dont 5 exclus-vivants et 3 perdus de vue.

Ainsi, nous disposons maintenant du vrai devenir des patients qui étaient initialement perdus de vue. Nous pouvons donc comparer le pronostic des perdus à celui des sujets non perdus de vue.

Figure 1 : courbes de survie globale avec anciennes et nouvelles données

Toutes les courbes sont basées sur l’estimateur de Kaplan-Meier, avec des paramétrages différents. Les croix représentent les censures (perdus de vue ou exclus-vivants).

Chacune des courbes mérite un commentaire.

La courbe verte est extrêmement proche de la réalité car elle est basée sur les nouvelles données quasiment exhaustives, avec seulement 8 censures dont seulement 3 perdus de vue, susceptibles d’engendrer un biais non négligeable dans l’estimation. C’est à cette courbe qu’il faut comparer les autres.

Les courbes rouge et orange sont basées sur les données que l’on avait avant la mise à jour. C’est ce qu’on pouvait obtenir de plus fiable auparavant. La courbe rouge correspond à l’analyse de référence qui avait été réalisée et qui correspond à ce qui est généralement recommandé : tous les perdus de vue et exclus-vivants avaient été censurés à la date des dernières nouvelles. On surestime beaucoup la létalité avec cette courbe rouge parce que les perdus de vue correspondent à des ruptures de suivi clinique pour des patients dont l’état est meilleur que les autres.

La courbe orange est aussi basée sur les données non mises à jour mais plutôt que de censurer les perdus de vue à la date des dernières nouvelles on les a censurés à la date de point (janvier 2016), considérant ainsi que tous ces patients avaient survécu jusqu’à la date de point, ce qui, forcément surestime leur survie. On considère donc que le suivi est exhaustif jusqu’à la date de point et qu’il n’y a que des exclus-vivants comme censures et plus aucun perd de vue. La courbe orange est extrêmement proche de la réalité (courbe verte) pour les deux années de suivi planifiées dans le protocole. On peut donc considérer que le suivi du statut vital jusqu’à deux ans était bien exhaustif. Deux mécanismes peuvent expliquer ce phénomène. Le premier mécanisme serait que seuls les patients en très bon état clinique étaient en rupture de suivi clinique, de telle sorte qu’aucun (ou presque) n’est réellement décédé avant la date de point. Le second mécanisme serait dû à une comptabilisation inappropriée des décès fortuitement découverts chez des patients en rupture de suivi clinique. Ainsi, les sujets en rupture de suivi clinique pourraient avoir un pronostic aussi mauvais que les autres, mais si jamais ils décédaient, l’investigateur serait quand même mis au courant (p.e. le patient revient décéder au centre hospitalier) alors que si ils survivaient, on les considèrerait comme perdus de vue à la date des dernières nouvelles cliniques. Il est alors important de prendre conscience que la date de perte de vue doit être calculée comme une date telle que tout événement antérieur à cette date aurait été identifié et tout événement postérieur à cette date ne peut pas être identifié ou est volontairement ignoré. Autrement, une rupture de suivi clinique n’est pas synonyme de rupture de suivi du statut vital ! Si on veut que les deux notions coïncident il faut volontairement ignorer tous les décès que l’on découvre chez des sujets en rupture de suivi clinique.

On remarquera qu’au delà de 2 ans, la courbe orange commence à s’écarter de la courbe verte. Ainsi, le statut vital n’est plus connu exhaustivement et il y a des vrais perdus de vue pour le statut vital. À 3 ans, la courbe orange (suivi supposé exhaustif) reste quand même moins biaisée que la courbe rouge (censure aux pertes de vue).

Enfin la courbe bleue représente la survie des perdus de vue, à partir du début de la chimiothérapie, c’est-à-dire, le même début de suivi que les autres courbes. Les 2 exclus-vivants (anciennes données) ne participent pas à cette courbe, mais seulement les 40 perdus de vue (anciennes données). L’analyse est faite par troncature à gauche à la date de perte de vue et suivi jusqu’au décès ou date des dernières nouvelles (perte de vue ou exclusion-vivant sur nouvelles données). La troncature à gauche permet la suppression du biais de temps immortel. Ainsi, un sujet perdu de vue (anciennes données) à 2 ans et décédé à 2 ans et 6 mois va contribuer à estimer l’intervalle [2 ans – 2.5 ans] de la courbe de survie. Il rentre dans le dénominateur (nombre de sujets à risque) du Kaplan-Meier à 2 ans et en sort à 2.5 ans. Cela permet de tracer une courbe conditionnelle au fait que le sujet a survécu jusqu’à la date de perte de vue. Cela permet donc d’analyser la courbe de survie des perdus de vue, à partir du moment où ils sont perdus de vue mais en prenant pour base temporelle (début de chimiothérapie) que les autres courbes. Cela confirme le fait que le pronostic des perdus de vue est bien meilleur, explicable par l’un, l’autre ou les deux mécanismes cités précédemment.

Discussion

D’abord, et avant tout il est important de recueillir le statut vital de manière aussi exhaustive que possible. Un coup de fil au patient, un courrier, un appel au médecin traitement, voire la consultation du registre d’état civil en appelant la mairie de naissance, permettent d’obtenir un statut vital pour presque tout le monde. Il peut juste y avoir quelques difficultés avec des patients étrangers.

Malheureusement, on aura la plupart du temps, un suivi passif, basé sur le dossier médical, rythmé par les consultations et hospitalisations. Dans le contexte de patients atteints de cancer métastatiques suivis dans un protocole de chimiothérapie anti-cancéreuse, il peut être envisagé de considérer que le suivi du statut vital est exhaustif sur un ou deux ans et censurer les perdus de vue à la date de point plutôt qu’à la date des dernières nouvelles cliniques. Mieux vaut aussi censurer tout le monde (couper la courbe) à la date au-delà de laquelle la qualité du suivi n’est plus garantie. Dans l’exemple sus-cité, couper la courbe à deux ans et considérer que le suivi était exhaustif (courbe orange) aurait résolu le problème.

Cela reste un case report. La qualité du suivi peut dépendre du centre, du pays et dépend beaucoup de la maladie et de son traitement. On peut difficilement généraliser. J’ai déjà vu le phénomène contraire, avec des perdus qui correspondaient aux sujets décédés plutôt qu’aux survivants dans un article Marocain sur la pemphigoïde bulleuse avec un suivi d’un an (0.7% de décès et 31% de perdus de vue pour un taux attendu de létalité de 20-30%) !