Erreur fréquente : facteurs de réponse au traitement

Un petit mot pour dire qu’il ne faut pas confondre pronostic sous traitement et réponse au traitement. La réponse à un traitement, c’est la différence d’évolution entre un sujet qui aurait le traitement et le même sujet qui ne l’aurait pas. Généralement, on peut évaluer la réponse moyenne à un traitement par un essai clinique randomisé en groupes parallèles. La réponse individuelle est bien plus difficile à évaluer, voire impossible, car il n’est pas forcément possible de savoir qu’elle aurait été l’évolution si le patient n’avait pas reçu la prise en charge qu’il eût.

Ce qu’il faut faire

L’identification d’un facteur de réponse au traitement nécessite schématiquement quatre groupes:

  1. un groupe exposé au facteur et prenant le traitement
  2. un groupe exposé au facteur et ne prenant pas le traitement
  3. un groupe non exposé au facteur et prenant le traitement
  4. un groupe non exposé au facteur et ne prenant pas le traitement

(pour un facteur quantitatif, on peut distinguer différents niveaux d’exposition, mais l’idée reste la même, il doit y avoir une variance de ce facteur d’exposition dans un groupe traité comme dans un groupe non traité)

La différence moyenne entre (1) et (2) représente la réponse moyenne des exposés alors que la différence moyenne entre (3) et (4) représente la réponse moyenne des non exposés. La différence des différences (interaction) représente la différence de réponses et si elle est statistiquement significativement différente de zéro (ou d’un seuil de significativité clinique) conduit à la conclusion que l’exposition considérée est un facteur de réponse au traitement.

Ces analyses de facteur de réponse au traitement correspondent aux fameuses analyses en sous-groupes que l’on retrouve dans bon nombre d’essais cliniques randomisés.

Ce qu’il ne faut pas faire

Malheureusement la majorité des soi-disant recherche de facteurs de réponse à un traitement qu’il m’ait été donné de voir ne contenaient que deux groupes: les patients traités et exposés au facteur et les patients traités et non exposés au facteur. Cela permet seulement de trouver des facteurs pronostics sous traitement, c’est-à-dire des facteurs prédictifs d’une évolution favorable ou défavorable, et ce, sur une population de patients tous traités.

Comme exemple frappant, je suggère de considérer l’analyse de soi-disant facteurs de réponse à l’homéopathie sur le cancer de la prostate. Le critère de jugement principal serait la survie globale de patients. On constaterait alors que les patients peu symptomatiques, dont le stade tumoral est précoce (notamment sans métastases) et de bas grade Gleason sont les meilleurs répondeurs à l’homéopathie.

Régression vers la moyenne

Pourquoi confond-on la réponse au traitement et le pronostic sous traitement ? Pourquoi toute évolution clinique n’est-elle pas totalement attribuable au traitement ?

Certaines maladies ont une évolution spontanée tendant vers une évolution inexorablement défavorable; cela comprend notamment la plupart des maladies neurodégénératives telles que les maladies démentielles, la maladie de Parkinson, la sclérose latérale amyotrophique. Même si cette évolution défavorable ne concerne pas forcément 100% des patients, on peut dire que l’état clinique moyen se dégrade.

D’autres maladies ont une évolution moyenne plus stable, comme l’asthme chronique. Néanmoins, il est très rare que la stabilité individuelle soit parfaite. Il existera presque toujours des fluctuations intra-sujet, c’est-à-dire, des jours, semaines ou mois plus symptomatiques que d’autres. Le phénomène de régression vers la moyenne s’applique alors à ces sujets. En moyenne un sujet sélectionné sur un état clinique moins bon que la moyenne, tendra à en voir une amélioration dans les jours, semaines ou mois avenir. Or, l’initiation des traitements est rarement faite au moment où le sujet va le mieux; au contraire, ce sera lors d’un état clinique médiocre ou d’une dégradation de l’état habituel. Parfois cela est même formalisé explicitement dans les critères d’inclusions, sous forme d’un seuil sur un score ! Par simple régression vers la moyenne, l’état clinique du sujet tendra à s’améliorer quel que soit le traitement donné; c’est une des principales raisons justifiant la perception d’efficacité de l’homéopathie. Il s’agit alors de l’évolution spontanée de la maladie.

Si on analyse la différence entre deux mesures répétées d’un score des symptômes, à baseline et un certain temps après (p.e. 3 mois), alors il s’agit de la somme de deux composantes:

  1. L’évolution spontanée
  2. La réponse au traitement

Malheureusement, c’est souvent interprété comme la réponse au traitement.

Il apparaît alors que les patients dont l’état est le pire vont le mieux s’améliorer, ce qui pourra être, à tort, considéré comme une meilleure réponse au traitement.

Si on a en conscience cela, il faut savoir qu’on peut avoir une réponse au traitement quand bien même l’état clinique du patient est stable, comme pour la sclérose latérale amyotrophique pour laquelle l’évolution naturelle est très défavorable et une stabilisation prolongée déjà acceptable pour un traitement. Et bien sûr, il peut y avoir une évolution spontanée favorable sans la moindre réponse au traitement. Un traitement homéopathique d’une angine tendra à une résolution totale des symptômes en généralement quelques jours, ainsi que l’absence totale de traitement. La réponse doit être évaluée par la différence entre les des deux effets.

C’est peut-être pour cette confusion entre réponse au traitement et pronostic sous traitement que l’homéopathie est aussi populaire en France.

Pour aller plus loin

Comme mentionné au début, un facteur de réponse au traitement est un facteur ayant une interaction statistique avec l’effet du traitement, c’est-à-dire, la différence entre un groupe traité et un groupe non traité. La notion d’interaction est assez simple lorsque les états cliniques sans traitement sont identiques chez les exposés et les non exposés au facteur. Par contre, si ces états diffèrent, l’interaction statistique dépend alors du modèle employé, pouvant conduire à des conclusions opposées.

Considérons, par exemple, que l’on s’intéresse à un critère de jugement binaire, tel que « mortalité à 1 an ».

Non traitésTraités
Non exposés30%10%
Exposés60%30%
Taux de mortalité à 1 an selon la présence d’exposition et l’usage d’un traitement spécifique

Pour une différence absolue de mortalité, on peut dire que les non exposés ont une meilleure réponse au traitement (-30% de décès) que les non exposés (-20%). Pour un risque relatif de décès, au contraire, les non exposés ont une réponse moindre (RR = 0.50) aux exposés (RR = 0.33). Pour un odds ratio de risque de décès, c’est à nouveau les non exposés qui ont une meilleure réponse (0.26 vs 0.29). La réponse pourrait encore différer si l’on s’intéressait aux rapport des chances de survie plutôt que des risques de décès. Bien sûr, les hazard ratio conduisent encore à des conclusions différentes.

Est-ce vraiment si important que ça ? De toute façon, les deux groupes, exposés et non exposés, bénéficient chacun du traitement et ces deux groupes ne sont pas comparables de toute façon. Au final, à quoi sert-il de comparer leur réponse ? Il pourrait finalement être plus sage de juste comparer leur pronostic sous traitement ou de ne rien comparer du tout.

Là où il est crucial d’identifier des facteurs de réponse au traitement, c’est lorsque certains sous-groupes ne répondent pas du tout, voire pire, ont une réponse négative au traitement (interaction qualitative). Dans ces situations, la statistique d’analyse de l’effet du traitement n’importe pas, puisque toutes tendront à la même conclusion.

On peut aussi s’interroger sur la pratique consistant à tenter de prouver l’homogénéité de l’effet d’un traitement dans divers sous-groupes en formulant une hypothèse nulle d’absence d’interaction, puis en acceptant cette hypothèse après réalisation d’un test statistique sous-puissant. Comme précédemment décrit, les interactions quantitatives, consistant à des effets plus ou moins forts du traitement selon les sous-groupes, sont bien moins préoccupantes que les interactions qualitatives; mieux vaudrait juste prouver l’existence d’un effet positif du traitement dans chacun des sous-groupes plutôt que de comparer les effets entre eux ; mais cette méthode mettrait en évidence l’incapacité à conclure sur certains sous-groupes en situation de sous-puissance statistique plutôt que de fournir une confortable acceptation de l’hypothèse nulle en situtation de sous-puissance majorée.

Sur ce, je vous laisse méditer…

Choix du critère de jugement

Incorporation de l’exposition dans le critère de jugement

À la troisième observation d’une même erreur méthodologique, dans mon expérience personnelle, je considère qu’un problème existe. Cela ne permet pas d’en évaluer la fréquence, mais cela veut dire qu’il vaut peut-être la peine de la mentionner.

Un critère de jugement principal ne doit pas être confondu avec l’exposition. Considérons une maladie évoluant sous forme de poussées plus ou moins récurrentes ou sous forme permanente pour laquelle on obtient assez souvent une réponse complète à moyen terme, avec disparition complète des symptômes, avec le traitement de référence. On compare dans un essai clinique randomisé en ouvert le traitement de référence A au traitement innovant B plus ou moins combiné au traitement A, selon le souhait du médecin. Considérons pour critère de jugement principal la « réponse complète off therapy » définie par l’absence de symptômes combinée à l’interruption totale du traitement de référence A. Le critère de jugement principal comprend, dans sa définition, l’exposition au traitement A ! On peut alors conclure que les sujets randomisés dans le groupe A vont prendre généralement le traitement A, alors que les sujets randomisés dans le groupe B±A vont le prendre moins souvent.

Afin de ne pas faire cette erreur, je vous conseille deux stratégies.

  1. D’abord, systématiquement vérifier que votre critère de jugement n’incorpore pas l’exposition
  2. Ensuite, considérer le scenario virtuel où on comparerait le traitement à lui même mais en version de couleur différente (comprimé rouge versus bleu, identique en principe actif), afin de vérifier que le traitement ne montrerait pas sa supériorité à lui-même

Critère de jugement différent selon le groupe

J’ai observé ce problème à la fois dans une étude non publiée et dans une étude publiée.

Étude publiée dans le JAMA

Pour commencer, Salminen et al, 2015 (https://dx.doi.org/10.1001/jama.2015.6154) présente un essai clinique randomisé comparant la chirurgie à l’antibiothérapie dans le traitement de l’appendicite aiguë non compliquée. Dans le groupe chirurgie, le succès (critère de jugement principal) est défini par le fait que le patient a été opéré (taux attendu de succès ~= 100%) alors que dans le groupe antibiotiques il est défini par le fait que le patient n’a pas été opéré ! La non-infériorité devait être démontrée avec une marge de -24% pour les antibiotiques vs chirurgie.

Le succès du groupe chirurgie est, par définition, un échec du groupe antibiotiques et vice versa ! Si on comparait la chirurgie à elle même, on arriverait aisément à la conclusion que la chirurgie est très largement inférieure à elle même (0% vs 100% de succès) tout en étant très largement supérieure à elle même (100% vs 0% de succès).

On peut d’ailleurs se demander comment on peut ne pas avoir 100% de succès de la chirurgie ! Outre les décès per-opératoires (très rares pour une appendicite aiguë non compliquée) il y a les annulations opératoires pour l’analyse en intention de traiter. Cela conduit à la mention « The patient randomized to appendectomy who did not have an operation had resolution of symptoms before the operation could be performed ». Peut-être était-ce juste un patient bien constipé pour lequel on a fait une erreur diagnostique ? Je ne suis pas sûr que le patient considère lui-même que c’est une évolution défavorable de sa maladie, par contre, c’est peut être une évolution défavorable des finances du chirurgien s’il travaille dans le secteur privé.

Étude non publiée

Plusieurs stratégies thérapeutiques étaient analysées, dans une optique de désescalade thérapeutique de la chimiothérapie anti-cancéreuse. Dans un sous-groupe bien spécifique les patients étaient randomisés en un groupe d’abstention thérapeutique alors que l’autre groupe bénéficiait d’une chimiothérapie. Le critère de jugement principal était la survie sans rechute dans le groupe avec chimiothérapie et de la survie sans re-progression après rechute dans le groupe d’abstention thérapeutique. C’est-à-dire que dans le groupe chimiothérapie, on mesure le délai avant une première rechute, alors que dans le groupe d’abstention thérapeutique on attend la première rechute avant de mesurer le délai entre la première et la seconde rechute.

Encore une fois, si on comparait la chimiothérapie à elle même, on trouverait une différence, parce qu’il n’y a pas de raison que le délai avant première rechute soit identique au délai entre première et seconde rechute.

Pondération d’un modèle à effets mixtes

Les modèles à effets mixtes sont très largement utilisés, mais la statistique qu’ils estiment n’est pas forcément correctement interprétée. Alors que tous les statisticiens connaissent l’interprétation de la médiane ou la moyenne, on parlera plutôt d’effet dans un modèle à effets mixtes sans forcément savoir ce que ça représente.

Pour aider à l’interprétation et au choix des statistiques, je vous propose de partir de deux exemples de mesures répétées très simples.

1er exemple : paires de jumeaux

Supposons qu’on souhaite évaluer les conséquences de la grande prématurité (< 32 semaines d’aménorrhée) sur le développement psychomoteur de l’enfant. On comparerait alors, certains outcomes de développement psychomoteur, entre enfants prématurés et non prématurés.

Plusieurs problèmes statistiques apparaissent:

  1. L’exposition (prématurité ou non) des jumeaux est parfaitement corrélée (R=1) puisque le terme de naissance est la même pour les deux jumeaux d’une paire (sauf rare exception)
  2. Le devenir des jumeaux est aussi corrélé, car ils partagent très fortement leur environnement pré-natal et post-natal et partagent plus ou moins fortement leur génôme
  3. Il existe une corrélation forte entre la gémellarité et la prématurité; c’est-à-dire, qu’un plus grand nombre de jumeaux sera retrouvé dans le groupe prématuré
  4. À prématurité égale, le devenir psychomoteur moyen d’un enfant pourrait différer selon que la grossesse soit gémellaire ou pas. Une prématurité à 31 SA chez des jumeaux peut être principalement attribuable à la gémellarité alors qu’elle sera plus souvent due à d’autres comorbidités (p.e. macrosomie, RCIU, anomalies congénitales) dans des grossesses simples. Ainsi, il existe potentiellement une corrélation entre la taille du cluster et son devenir.

Néanmoins, avant de nous concentrer sur tous ces problèmes, considérons que nous souhaitons répondre à la question : quelle est la valeur moyenne de l’échelle de développement psychomoteur à l’âge corrigé de deux ans chez les prématurés ?

Pour répondre à cette question, on doit se demander : est-ce que la moyenne porte sur les enfants, avec une paire de jumeaux qui compte pour deux enfants, ou est-ce que la moyenne porte sur les grossesses, avec une paire de jumeaux qui ne compte que pour un ? Dans le premier cas, on ferait la moyenne brute des résultats de tous les enfants, sans prendre en compte le fait que deux enfants peuvent appartenir à une paire de jumeaux. Dans le second cas, on commencerait par faire la moyenne dans chacune des paires de jumeaux, afin de n’obtenir qu’une seule valeur par paire, avant de faire la moyenne de tous les clusters. On peut aussi considérer que, dans le premier cas, on fait la moyenne non pondérée de tous les résultats de tous les enfants, alors que dans le second cas, on fait la moyenne pondérée par l’inverse du nombre d’enfants dans la grossesse.

On peut donc résumer la question à : est-ce que les deux jumeaux d’une même grossesse comptent pour deux ou ne comptent que pour un ?

Même si la réponse à cette question peut sembler difficile au premier abord, elle ne fait pas de doute pour moi. Que des séquelles graves soient retrouvées chez deux singletons issus de deux grossesses différentes ou alors qu’elles soient retrouvées chez deux jumeaux issus d’une même grossesse, le handicap populationnel conséquent est le même. Les deux jumeaux sont deux individus distincts dont la valeur de la vie compte tout autant que celle de deux individus différents. La pondération par un-demi des jumeaux supposerait que la valeur de la vie des jumeaux est deux fois moins importante que celle des singletons. La réponse, pour moi est claire: deux jumeaux comptent pour deux.

Cette distinction entre les deux moyennes revêt une grande importance à cause des problèmes N°3 et N°4 évoqués ci-dessus. En effet, à cause de ces problèmes, l’espérance d’une moyenne ou d’une diffférence de moyennes diffère selon le choix de la pondération.

2ème exemple : calendrier de symptômes

Je pars d’un exemple réel. Un essai clinique randomisé sur un traitement de l’incontinence fécale. L’objectif étant d’obtenir une diminution de la fréquence des épisodes d’incontinence de selles et d’impériosités, le critère de jugement principal est basé sur le remplissage d’un calendrier, rempli quotidiennement sur 21 jours consécutifs après trois mois de traitement. Avec 21 mesures par sujet, on atténue la variance intra-sujet. On peut raisonnablement supposer que sur la période de mesure, l’état des patients sera en moyenne stable. Néanmoins, on peut craindre que certains patients ne remplissent qu’à moitié le calendrier (pe. les 10 premiers jours de la période d’évaluation), parce que le remplissage est répétitif et ennuyeux. On peut aussi craindre que ce remplissage partiel soit corrélé à la fréquence et la sévérité des symptômes.

On retrouve donc jusqu’à 21 données par patient, corrélées les unes avec les autres. La même question que pour le premier exemple se pose : un patient qui a rempli 7 jours de calendrier doit-il compter trois fois moins qu’un patient qui a rempli correctement les 21 jours ? De mon point de vue, la réponse, cette fois-ci est inversée par rapport au premier cas. Il n’y a pas de raison de donner un plus grand poids aux patients ayant entièrement complété le questionnaire qu’aux autres. On peut craindre que leur donner un plus grand poids biaise les résultats si le taux de remplissage est corrélé au contenu du questionnaire. À l’opposé, on peut espérer qu’un remplissage de bonne qualité sur les 7 premiers jours soit déjà représentatif de la période entière, et que finalement, la corrélation entre la durée de remplissage et la valeur moyenne n’ait pas d’impact sur les résultats si on commence par calculer une unique valeur moyenne par sujet avant d’en faire la moyenne sur l’ensemble des sujets.

Synthèse des deux exemples

Nous avons vu que selon la situation, le poids donné aux mesures répétées ne devrait pas être le même. Dans le premier exemple, les clusters de deux jumeaux doivent compter double par rapport aux clusters d’un singleton. Dans le second exemple, les clusters de 21 mesures (1 seul patient) devraient compter le même poids que les clusters de 7 mesures (1 seul patient) plutôt que de compter triple. Dans le second cas, le choix est absolument critique car il est susceptible d’influencer le signe de la différence entre les deux groupes dans le cadre d’un essai clinique randomisé.

Et le modèle linéaire à effets mixtes ?

Comment le modèle linéaire à effets mixtes, avec un intercept cluster aléatoire, se comporte-t-il dans les deux exemples ci-dessus ? Pour simplifier l’exemple, considérons même que l’on ne s’intéresse qu’à calculer la moyenne d’un seul groupe avec un modèle à effets mixtes sans covariable (intercept seul).

Est-ce qu’un cluster deux fois plus grand compte double ? Ou alors, chaque cluster aurait le même poids ?

La réponse est entre les deux. Ce modèle va être interprétable comme une moyenne pondérée. Un cluster de taille deux comptera plus fortement qu’un cluter de taille un, mais ce ne sera pas le double. Ce sera une valeur intermédiaire entre 1 et 2. Cette valeur intermédiaire dépendra de la force de la corrélation intra-cluster. Si les observations d’un même cluster sont très fortement corrélées, alors le poids sera proche de 1, c’est-à-dire que le poids total d’un cluster sera presque indépendant de sa taille. À l’opposé, si les observations d’un même cluster sont très faiblement corrélées, alors le poids total d’un cluster sera proche du nombre d’observations du cluster.

Reprenons l’exemple des jumeaux (exemple 1). Le modèle à effets mixtes considèrera que la valeur de la vie de deux jumeaux est d’autant plus grande que leur devenir est divergent, faiblement corrélé. À l’opposé, si les deux jumeaux partagent leur évolution, alors leur vie ne compte que pour un. Comme si la valeur d’une vie était proportionnelle à son imprévisibilité. C’est l’aléatoire d’une vie qui en ferait la valeur ! C’est ce qu’elle a d’unique. Je vous avoue que je ne suis pas branché par ce concept de snowflake, mais c’est ce que le modèle à effets mixtes fait dans votre dos quand vous lui faites confiance.

Pour aller plus loin : quels poids donne réellement le modèle à effets mixtes

Pour pousser les choses plus loin encore, dans le premier exemple des singletons/jumeaux (clusters de taille 1 ou 2), l’estimation de moyenne du devenir des enfants prématurés par le modèle à effets mixtes est extrêmement proche de l’estimation que l’on obtient par la procédure suivante:

  1. Calculer la moyenne M1 et son erreur type dans le groupe des jumeaux prématurés (pour que l’erreur type ne soit pas biaisée, on commence par moyenner les deux jumeaux de chaque paire)
  2. Calculer la moyenne M2 et son erreur type dans le groupe des singletons prématurés
  3. Calculer la moyenne de M1 et M2 pondérée par l’inverse de la variance de M1 et de M2 (inverse du carré des erreurs types)

Sur de grands échantillons, la procédure du modèle à effets mixtes converge vers celle de la moyenne pondérée par l’inverse de la variance. J’ai fait quelques simulations pour vérifier ma théorie, et on peut, en première intention, considérer les procédures comme équivalentes tant elles convergent vite.

On comprend alors l’intérêt du modèle à effets mixtes : cette pondération par l’inverse de la variance est la procédure la plus efficace statistiquement (faible variance de l’estimateur) pour faire la moyenne de M1 et M2 sous l’hypothèse que les deux moyennes de la population µ1 et µ2 sont identiques. C’est-à-dire que si la moyenne de la mesure d’un cluster est indépendante de la taille du cluster, la procédure du modèle à effets mixtes est équivalente aux autres procédures en moyenne, tout en étant plus précise statistiquement. Mais dès qu’on s’écarte de cette hypothèse, ça perd toute sa pertinence.

Pour aller plus loin : calculs d’incertitude

Jusqu’à maintenant, je n’ai pas parlé du problème de calcul des intervalles de confiance et petits p. Je me suis concentré sur l’espérance de l’estimateur ponctuel, c’est-à-dire, la statistique qui est vraiment estimée par le modèle. Je me suis concentré là-dessus, parce que je considère que c’est la clé du choix statistique. Malheureusement, je crains que le modèle à effets mixtes soit souvent utilisé en faisant le raisonnement foireux ci-dessous:

  1. La méthode de Student repose sur l’indépendance entre les observations
  2. À cause de la corrélation des mesures, Student sous-estime la variance et fournit une inférence biaisée
  3. Les modèles à effets mixtes prennent en compte cette corrélation et donc, fournissent une inférence non biaisée
  4. Donc je vais utiliser ces modèles magiques

La faille du raisonnement, c’est que la statistique du modèle à effets mixtes diffère de la statistique de moyenne simple qu’on voulait estimer. On infère sans biais, mais sur la mauvaise cible.

Les calculs d’incertitudes, sont un détail secondaire qu’on résout généralement assez simplement. D’abord, on peut faire du boostrap sur les clusters eux-mêmes. C’est une procédure extrêmement solide, adéquate notamment lorsque les corrélations intra-clusters sont extrêmement complexes. Par exemple, le modèle à effets mixtes à intercept seul fournira des résultats biaisés dans le second exemple (calendrier des symptômes) car il ne prendra pas en compte l’auto-corrélation intra-sujet, c’est-à-dire, le fait que deux jours successifs se ressemblent plus que deux jours distants. On peut aussi utiliser un estimateur sandwich sur un modèle linéaire général pondéré. Enfin, on peut estimer les variances dans les sous-groupes (pe. clusters de taille 1 et 2) puis utiliser les formules VAR(cX)=c²VAR(X) et VAR(X+Y) = VAR(X) + VAR(Y) + 2×COV(X,Y) pour calculer la variance de la moyenne des deux sous-groupes, correctement pondérée.

Conclusion

Je pense qu’au lieu de se concentrer sur des modèles, c’est-à-dire, un ensemble d’hyptohèses sur les processus de génération des données et la forme des relations, on devrait raisonner en termes de statistique : quelle valeur synthétique représente le mieux ce qui m’intéresse. Ce n’est qu’après avoir défini cette statistique que les problématiques d’échantillon fini doivent être considérés : rectification des biais d’estimateur ponctuel et calcul des incertitudes.

Il est parfois nécessaire de reposer sur des modèles, mais les conséquences de la violation des hypothèses sous-jacentes, qui est systématique, doit être connue afin de pouvoir interpréter correctement les résultats.

Calulatrices graphiques

Un petit billet sur le marché étonnant des calculatrices graphiques en 2021. Le marché orbite autour des épreuves et concours, tels que le baccalauréat en France. Les constructeurs adaptent leurs modèles au programme et aux réglementations, tels que l’obligation du mode examen (https://calculatrice-scientifique.eu/mode-examen-concours/) ou l’ajout du langage Python dans les derniers modèles. Le marché est très large, puisque rien qu’en France, environ 750 000 candidats passent le baccalauréat chaque année. Même s’il existe des spécificités nationales, les constructeurs utilisent les mêmes modèles partout dans le monde. Casio, Texas Instruments et Helwet Packard sont les principaux constructeurs.

Le prix de ce matériel, généralement compris entre 70 € pour l’entrée de gamme et 160 ou 170 € pour le haut de gamme, est-il justifié?

Pour ce faire, nous allons comparer les modèles les plus répandus sur le marché Français.

Description du matériel

ModèlePrix (TTC)MicroprocesseurDMIPSFPURAMFlashÉcranPériphériques additionnels
Raspberry pi zero~ 10 €BCM2835 1 Ghz
ARM11 32 bits
1130Oui512 Mo LPDDR2microSD requis
~ 6-7€ pour 16 Go
NonemicroSD
HDMI
GPIO
USB
Wiko Y51 60 €SC7731E
4 Cortex-A7 1.3 Ghz
9880 (multi-core)Oui1 Go8 Go960×4802×5MP camera
Wifi 802 b/g/n
Bluetooth
GSM 2G/3G+
accéléromètre
capteur de lumière
écran capacitif
Carte son
GPS
USB
microSD
Radio FM
TI 82 Advanced~ 70 €Z80 15Mhz
8 bits
0.61Non48 Ko SRAM1 Mo96×64
monochrome
Clavier
USB
Ti 83 premium CE~ 80 €eZ80 48 Mhz
8 bits
7.8Non256 Ko SRAM4 Mo320×240Clavier
USB
Ti Nspire CX II-T CAS~ 150€ARM926EJ-S
396 Mhz
436Oui 64 Mo100 Mo320×240Clavier USB
Casio Graph 35+E II
(fx-9860GIII)
~ 90€SH7305
59 Mhz
106.2Non?? Mo
61 Ko utilisateur
8 Mo128×64
monochrome
Clavier
USB
Casio Graph 90+E
(fx-CG 50)
~ 90 €SH-4A SH7305
117.96 Mhz
212.3Non8 Mo
61 Ko utilisateur
32 Mo396 × 224Clavier
USB
HP Prime G2~165€Cortex A7
528 Mhz
1003Oui256 Mo512 Mo320×240Clavier
USB
NumWorks~ 80 €STM32F730V8T6
Cortex M7
216 Mhz
462Oui256 Ko SRAM8 Mo320×240Clavier
USB

Le tableau ci-dessus décrit divers types de calculatrices ainsi que deux autres matériels: le Raspberry pi zero, un micro-ordinateur vendu sans périphérique (ni écran, ni clavier) et le Wiko Y51, un smartphone Android d’entrée de gamme. Les DMIPS représentent une estimation des performances au benchmark Dhrystone, reflétant les capacités de calcul du microprocesseur. Ces DMIPS ont été critiqués pour être des micro-benchmarks, basés sur une petite quantité de données et de code. Cela va tendre à sous-estimer l’écart entre les processeurs les plus puissant et les moins puissants. Ainsi, le processeur du Raspberry pi zero, avec 1130 DMIPS n’est pas 1130/7.8 = 145 fois plus rapide que la Ti 83 Premium CE. L’écart est certainement beaucoup plus important pour des programmes non triviaux. En réalité, la plupart des applications que l’on fera fonctioner sur un Raspberry pi zero ne pourraient jamais être exécutées sur une Ti 83 Premium CE car elles dépasseraient complètement les capacités mémoire maximales du microprocesseur. Il est aussi à noter que les DMIPS ne prennent pas en compte le calcul des nombres à virgule flottante qui sera extrêmement lent sur la Ti 83 Premium CE car entièrement émulé.

Les caractéristiques techniques du Wiko Y51 dépassent très largement tous les modèles de calculatrices les plus onéreux sur absolument tous les aspects techniques : puissance du microprocesseur, mémoire RAM, mémoire Flash, écran et connectivité. En comparaison à une Ti 82 Advanced, elle a 21845 fois plus de mémoire RAM, un écran qui comporte 75 fois plus de pixels, 8192 fois plus de Flash et un microprocesseur dont les performances sont incommensurables. Son prix est pourtant inférieur.

Du fait de l’absence d’unité de calcul à virgule flottante (FPU), la Ti 83 premium CE doit émuler les nombres à virgule avec les additions et soustractions 8 bits, et utilise une représentation numérique particulièrement peu précise, avec une mantisse de 22 bits, inférieure aux 24 bits d’un FP32 IEEE-754. En bref, cette calculatrice n’est même pas bonne à faire des calculs numériques.

Qu’est-ce qui pourrait justifier ce prix démesuré ?

On ne demande pas forcément d’une calculatrice d’égaler les performances d’un smartphone, mais pourquoi le prix n’est-il pas en rapport avec le matériel ?

Il ne s’agit pas du volume de ventes. Le marché des calculatrices graphiques est très grand, en raison de leur utilité aux examens et concours. C’est un marché international, avec un faible nombre de modèles, puisque Casio, Texas Instruments et Helwet Packard ne vendent chacun que quelques modèles différents. Helwet Packard ne vend plus qu’un seul modèle (HP Prime) alors que Casio vend presque le même matériel à différents prix afin de créer artificiellement une gamme. En comparaison, le Wiko Y51 doit tailler sa place dans un marché encore plus large mais très fragmenté, parmi des milliers de modèles Android différents.

Pourrait-il s’agir du coût du logiciel ? Cela est difficile à dire car les coûts de développement ne sont pas communiqués. Helwet Packard a probablement eu des frais minimes puisqu’il a repris du logiciel libre : FreeRTOS pour le système d’exploitation et GiCalc/Xcas pour le logiciel de calcul formel. Les quelques applications supplémentaires (Classeur, Statistiques) sont triviales à développer. Il est possible que le coût de développement de Texas Instruments soit bien plus élevé, car le microprocesseur Z80 est extrêmement ancien, sous-performant et oblige probablement les ingénieurs à programmer en assembleur en raison des limites de mémoire de la Ti 82 et la Ti 83. Étant donné que le processeur et le logiciel ont faiblement évolué depuis la Ti 81 commercialisée en 1990, il y a quand même trente ans d’amortissement. On remarquera que ce microprocesseur existe depuis 1976 et a représenté, avec le 6502, l’un des deux microprocesseurs 8 bits les plus vendus des années 1980. Le logiciel de Casio évolue aussi lentement, toujours basé sur le Casio Basic qui ne gère que 28 variables nommées de A à Z, plus rho et theta.

Le travail principal des constructeurs semble être la veille réglementaire et des programmes des examens de l’enseignement secondaire des différents pays. Il existe aussi un travail de démarchage auprès des enseignants, qui ont toujours le dernier modèle avant les autres.

Au total, il est probable que les marges bénéficiaires soient très importantes. Cela est d’autant plus problématique qu’il s’agit d’un marché forcé, avec des lycéens, ou plutôt leurs parents, de toute catégorie sociale devant acheter un instrument qui ne servira probablement plus une fois les examens passés.

On peut aussi craindre que cela amplifie les inégalités sociales, en raison d’une gamme de modèles, plus ou moins perfectionnés. Les plus riches pourraient acheter les modèles avec les fonctions les plus avancées, qui leur donnerait un avantage. Ce phénomène pourrait avoir été aggravé par le mode examen, supprimant les options de programmation permettant de débrider les modèles bas de gamme pour leur offrir des fonctionnalités équivalentes aux modèles haut de gamme.

Visite index et cohortes rétrospectives

Problématique

La méthodologie des cohortes rétrospectives n’est presque jamais détaillée dans les articles et pourtant elle est essentielle. Si on s’intéresse, par exemple, au pronostic d’une maladie après diagnostic, on voudra inclure les sujets au moment du diagnostic. Si la recherche s’effectue dans des dossiers médicaux électroniques, les patients atteints de la maladie seront identifiés par une donnée structurée ou non structurée, tel qu’un code diagnostic, le résultat d’un examen biologique ou des mots-clés dans le texte. Il est aussi possible de se baser sur une combinaison de plusieurs éléments (pe. code diagnostic OU biologie). Cette étape conduira à la pré-sélection d’un ensemble de dossiers qui seront ensuite relus, afin de confirmer le diagnostic et les critères d’inclusion.

Trois dates peuvent alors être définies pour chaque sujet:

  1. La date de diagnostic de la maladie (ou date de début des symptômes si c’est ça qui nous intéresse)
  2. La date de la première visite présente dans le dossier médical du centre (ou des centres pour les cohortes multicentriques)
  3. La date index, c’est-à-dire, la date du premier document qui a permis à ce patient d’être pré-sélectionné. Si c’est la combinaison de plusieurs documents (pe. dosage biologique + code diagnostic), alors c’est la date à partir de laquelle les documents sont suffisants pour que le patient ait été pré-sélectionné.

Ces trois dates peuvent différer. Un patient transféré d’un autre centre pourra avoir une date de diagnostic antérieur à la date de la première visite du centre de l’étude. Selon la méthode de pré-sélection, la première visite du centre de l’étude pourra ne pas être identifiée par les codes ou mots-clés recherchés alors qu’une visite ultérieure le sera.

Une erreur méthodologique très fréquente consiste à analyser le pronostic à partir de la date de diagnostic, sans tenir en compte du biais de temps immortel (immortal time bias) induit par le délai entre la date de diagnostic et la date index. Ce phénomène est caricatural si le critère de jugement est la survie globale. Tout sujet décédé avant la date index sera exclu car il ne sera pas pré-sélectionné. S’il y a toujours un intervalle de deux ans entre le diagnostic et la date index, alors on n’observera aucun décès les deux premières années suivant le diagnostic puisque tous les sujets décédés auront été exclus !

Le biais persiste, dans une moindre mesure, si on se base sur la date de la première visite plutôt que la date de diagnostic. Le suivi, en réalité, débute à la date index.

Solutions

Comment peut-on alors correctement modéliser la survie avec les modèles de survie non paramétriques ou semi-paramétriques habituels (Kaplan-Meier et Cox) ?

Date de diagnostic comme baseline

La stratégie idéale, si elle est faisable, consiste à prendre la date de diagnostic comme date de début de suivi mais appliquer une troncature à gauche jusqu’à la date index dans le modèle de survie. Cette troncature à gauche est une fonction assez méconnue. Plutôt que de juste considérer que chaque patient est suivi à partir de T0 jusqu’à une date des dernières nouvelles, faisant alors sortir le sujet de la cohorte, on considère qu’il existe une date des premières nouvelles et une date des dernières nouvelles. Le sujet entre dans la cohorte aux premières nouvelles et en sort aux dernières nouvelles. Le nombre de sujets à risque peut alors croître puis décroître, puisqu’il y a des gagnés de vue et des perdus de vue. Cette méthode permet de conserver la forme de la courbe de survie originale, en reposant sur l’hypothèse d’entrée et de sortie de la cohorte au hasard, ou, du moins, pour des raisons non corrélées à l’outcome.

Méthode landmark

Cette stratégie a une limite: elle nécessite qu’un nombre suffisant de sujets ait une date index égale à la date de diagnostic, sinon, dans le pire des cas, on commencera par un estimateur de Kaplan-Meier à 0/0, ce qui rendra impossible toute estimation de courbe de survie. Si la majorité voire la totalité des sujets ont un écart important entre la date de diagnostic et la date index (pe. 1 an), on peut comprendre que l’évolution initiale est impossible à connaître. On doit alors renoncer à la comparaison sur la période initiale de la courbe de survie. On peut utiliser la méthode landmark, qui consiste à redéfinir la baseline, c’est-à-dire, le T0 de la courbe de survie, au diagnostic+constante tel qu’un an après le diagnostic. Au nouveau point de départ, tous les sujets auront la même ancienneté de la maladie. Ils seront suffisamment nombreux pour que le tracé de la courbe soit possible. Tout sujet ayant eu l’événement avant le landmark sera exclu (censure à gauche).

Date index comme baseline

Une stratégie alternative consiste à définir la baseline (T0 de la courbe de survie) comme la date index. Cette méthode fournit la meilleure précision statistique, car garantit un échantillon de taille maximale à T0. Par contre, cette méthode fournit des courbes de survie d’allure exponentielle quand bien même ça ne reflète pas du tout l’évolution de la maladie. En mélangeant tous les stades d’ancienneté de la maladie à baseline, le rythme d’apparition des événements devient une moyenne des risques associés à chaque ancienneté. Par exemple, l’ataxie spinocérébelleuse de type 2 est une maladie neurologique dégénérative d’évolution progressive lente mais inexorable. La figure 1 de l’article « Prediction of Survival With Long-Term Disease Progression in Most Common Spinocerebellar Ataxia » (doi: 10.1002/mds.27739, PMID: 31211461) décrit une survie globale de 97.8% à 10 ans, 78% à 20 ans, 31% à 30 ans et 11.2% à 40 ans. Ainsi, la mortalité précoce (< 10 ans) est négligeable alors l’issue fatale survient majoritairement entre 15 et 35 ans. On observe pourtant des courbes très différentes sur la figure 1 de l’article intitulé « Survival in patients with spinocerebellar ataxia types 1, 2, 3, and 6 (EUROSCA): a longitudinal cohort study » (doi: 10.1016/S1474-4422(18)30042-5, PMID: 29553382). Le taux de survie à 10 ans du l’ataxie spinocérébélleuse de type 2 est environ de 73%, avec un rythme de décès semblant assez constant sur les 10 années de suivi. Cela est explicable par un T0 correspondant à la date index, et concernant des cas prévalents d’ancienneté très variable. Le rythme de décès est alors égal à la moyenne des rythmes de décès de toutes les anciennetés, pondérée par la prévalence des anciennetés. Cette attitude peut néanmoins se défendre pour les situations où l’évolution est peu dépendante de l’ancienneté, c’est-à-dire, correspondant à des courbes de survie d’allure exponentielle.

Méthodes paramétriques ?

Éventuellement, on pourrait aussi utiliser la loi de Weibull pour compléter le début du suivi mal connu.

Généralisation des concepts

La distinction entre date de début des symptômes et date de diagnostic peut parfois avoir une importance (pe. syndrome démentiel) et c’est souvent la date de début des symptômes qui importe le plus, avec néanmoins des problèmes de difficulté à mesurer la date de début des symptômes.

Même s’il est fait référence au dossier médical informatisé, les problèmes décrits dans ce billet sont tout aussi applicables aux dossiers papiers, pour lesquels il existe des documents ou source de données index. Il est aussi généralisable aux registres. Il est enfin généralisable aux cohortes prospectives incluant des cas prévalents, pour lesquels la visite index sera généralement la visite d’inclusion.

Concept apparenté, l’anti-cohorte ou cohorte inversée

Ne cherchez pas ce concept dans la littérature scientifique, vous ne l’y trouverez pas. Le terme de cohorte inversée ou anti-cohorte est une invention de l’auteur de ce blog. Il s’agit d’une méthodologie à classer dans la sémiologie fongique des études, c’est-à-dire, un exemple de ce qu’il ne faut pas faire. Plutôt que de sélectionner les sujets nouvellement diagnostiqués sur une période donnée (pe. entre 2010 et 2019) et de les suivre jusqu’à survenue d’un événement ou censure administrative à une date de point (pe. 31 décembre 2019), la cohorte inversée sélectionne les sujets sur la présence d’un événement sur une période récente (pe. 2018-2019), puis on remonte le dossier médical jusqu’à la visite la plus ancienne du dossier médical (pe. 2000-2019) et on l’analyse comme si le sujet avait été sélectionné sur cette première visite.

Le taux de survenue d’événement atteint alors 100%. Cela ressemble à une méthodologie cas-témoin dans laquelle il n’y aurait que des cas. Malheureusement, le fichier de données se présente comme celui d’une cohorte et un statisticien non au fait de la méthodologie de sélection employée pourrait alors l’analyser comme s’il s’agissait d’une cohorte ordinaire. Les sujets dont la date de première visite est récente auront alors une survie avant événement raccourcie.

Une variante de cette cohorte inversée est la sélection de la « file active » des patients (pe. ayant eu une visite entre janvier et décembre 2019) qu’ils aient eu ou non l’événement d’intérêt, puis de remonter jusqu’à la première visite du dossier médical (pe. jusqu’à l’an 2000 pour certains patients). La visite index est alors en 2019, avec une forte représentation des cas prévalents. Même si certains événements peuvent survenir après la date index (pe. date index en février 2019 et événement en septembre 2019), si on utilise la date de première visite comme baseline du suivi, on aura une période d’immortalité extrêmement longue et un très faible nombre d’événements au total. Toute variable positivement corrélée à la date de première visite sera corrélée négativement corrélée au délai avant survie.

Prospectif vs rétrospectif

Savez vous ce qu’est une étude prospective ? Ce terme est souvent employé dans la littérature médicale, mais rarement défini. Nous allons tenter de montrer les différents sens qu’il peut revêtir et les problématiques associées.

Je vais schématiquement distinguer:

  • Donnée prospective ou rétrospective
  • Protocole prospectif ou rétrospectif
  • Analyse prospective ou rétrospective

Lorsque les trois sont prospectifs, l’étude est clairement prospective, autrement, c’est matière à discussion, sans compter les études qui ont les deux versants sur un ou plusieurs aspects.

Donnée prospective

Pour faire simple une donnée prospective, est une donnée enregistrée de manière synchrone à la réalité qu’elle représente. Si, par exemple, en 2022, on décide de fouiller des dossiers médicaux de nutrition de 2010 à 2020, et que l’on enregistre tous les poids qui ont été mesurés sur la balance de la salle de consultation et notés dans le dossier médical, la donnée est prospective. À l’opposé, si, en 2022, on appelle les patients pour leur demander quel poids ils pesaient, environ, à l’époque (2010 à 2020), alors la donnée est rétrospective, avec un fort biais de mémorisation possible.

Considérons maintenant un patient qui décrit une perte de poids de 5 kg sur les 3 derniers mois durant une consultation en avril 2015. Il dit que son poids en janvier était de 68 kg et qu’il pèse maintenant 63 kg. Enfin, un protocole d’étude sur dossier médical est créé en 2021, et, le 8 février 2022, un interne en médecine fouille les dossiers médicaux et recopie ces données dans une base de données de la recherche, structurée.

Janvier 2015 est la date de mesure, Avril 2015 est la date d’enregistrement de la donnée, maintenant figée dans un dossier médical et février 2022 est la date de collecte de la donnée. Une donnée est prospective si la date de mesure et la date d’enregistrement sont identiques.

On peut encore distinguer deux cas de figures. Selon les situations, une donnée peut être enregistrée de manière systématique ou pas. Dans les dossiers médicaux usuels, aucune information n’est vraiment obligatoire, et les données manquantes seront généralement très nombreuses, même sur des variables particulièrement importantes. Dans les registres ou les grandes « cohortes prospectives », on mettra un soin tout particulier à enregistrer de manière systématique, certaines variables. Il existera alors une base de données structurée et des instructions précises pour que les responsables du registre ou de la cohorte enregistrent les données de manière systématique et standardisée. La liste des données systématiquement enregistrées ne sera pas forcément basée sur des objectifs de recherche précis; ceux-là étant éventuellement définis dans des protocoles de recherche ultérieurs.

On comprend alors que la valeur des données n’est pas la même dans le cas de registres avec une tentative d’enregistrement systématique et dans les dossiers médicaux emplis de données manquantes. Je distinguerai les deux cas de figure, en parlant d’enregistrement actif ou d’enregistrement passif. Je parlerai alors de donnée prospective active ou de donnée prospective passive. Il est aussi possible de parler de donnée rétrospective active lorsqu’une question soumise à un biais de mémorisation est systématiquement demandée au patient (pe. quel était votre poids de forme?).

Protocole prospectif

Un protocole de recherche sera dit prospectif, s’il est réalisé avant que la moindre donnée de la recherche ne soit enregistrée. On pourra néanmoins rédiger un protocole de recherche en 2021 pour questionner des patients sur leur vécu du premier confinement de COVID-19 en France de mars à mai 2020. Par exemple, ont-ils consulté un médecin au moins une fois sur cette période ? La donnée sera rétrospective active, soumise à un biais de mémorisation, mais le protocole sera prospectif, car la nature et la méthode d’enregistrement de ces données, ainsi que leur analyse, aura été décidée avant de débuter le premier enregistrement.

À l’opposé, on pourra parler de protocole rétrospectif lorsque les données ont déjà été enregistrées avant que l’on réalise le protocole de l’étude. Les données seront colligées dans une base structurée, spécifique au projet de recherche, après que le protocole soit rédigé.

Analyse prospective

L’analyse d’un lien entre une variable d’exposition (chronologiquement antérieure) et un critère de jugement (chronologiquement postérieur), sera dite prospective si la sélection des sujets opère sur la variable d’exposition et que la comparaison du critère de jugement est faite entre les niveaux d’exposition. Dans le cas d’une exposition catégorielle, on constituera des groupes d’exposition avant de comparer les critères de jugement. C’est typiquement l’analyse que l’on retrouvera dans les cohortes.

À l’opposé, on parlera d’analyse rétrospective lorsque l’on définit les groupes sur le critère de jugement (chronologiquement postérieur) et que l’on compare ensuite les taux d’exposition (chronologiquement antérieur) selon les groupes constitués.

Les cohortes sont alors toujours prospectives alors que les cas-témoins sont toujours rétrospectifs, par leur analyse.

Enfin, une analyse sera transversale lorsqu’elle sera basée sur un ensemble de variables dont les mesures sont synchrones. On remarquera que l’enregistrement de données peut être transversal, c’est-à-dire avec une seule date d’enregisrement par patient, sans forcément que l’analyse ne le soit. Par exemple, dans une étude cas-témoin sur le lien entre nombre d’enfants et risque de cancer du sein, on pourra demander à des femmes avec ou sans cancer du sein (appariées sur l’âge), combien d’enfants elles ont eu. L’enregistrement sera transversal, mais l’analyse sera longitudinale, rétrospective. La donnée de cancer sera prospective alors que la donnée du nombre d’enfants sera rétrospective.

On distinguera donc trois types d’analyses : prospectives, rétrospectives et transversales. Les analyses prospective et rétrospectives sont longitudinales car elles font appel à des mesures applicables à des dates différentes.

Quels biais ?

Une donnée rétrospective sera généralement déclarative et donc soumise au biais de mémorisation, même si l’ampleur de ce biais sera très variable. Une femme mémorise généralement très bien le nombre d’enfants qu’elle a eu, sauf cas de démence avancée.

Une donnée prospective passive souffrira généralement d’un taux de données manquantes élevé, rarement au hasard. Néanmoins, il existe des exceptions. L’histologie d’un cancer opéré sera généralement présente dans le dossier médical du centre dans lequel l’opération a été réalisée, avec un taux de données manquantes très faible, sauf exception liée à des parcours de soins particuliers pour lesquels le compte-rendu anatomo-pathologique se retrouvera ailleurs. Une donnée prospective active pourra avoir une bien meilleure qualité, si des ressources humaines y sont dédiées. Mon expérience personnelle avec certains registres et certaines cohortes prospectives m’a montré que la donnée prospective soi-disant active peut aussi être de qualité bien plus basse que la donnée prospective passive. Il est tout à fait possible d’avoir un taux de données manquantes supérieur à 50% sur la nature d’une chirurgie pour une donnée prospective en anesthésie. Il est alors parfois nécessaire de rectifier les données prospectives actives par des données prospectives passives de bien meilleure qualité.

Enfin, les analyses prospectives, comme celles que l’on réalise dans les études de cohortes seront soumises à des biais d’attrition, attribuables aux perdus de vue, alors que les analyses rétrospectives pourront être soumises à des biais de survie sélective.

Biais de mémorisation atypiques

Je vais vous raconter deux histoires courtes dans ce billet, illustrant des cas assez inattendus, de « biais de mémorisation ».

Premier cas rapporté

Cela concerne une étude avant-après prospective, dont la qualité du recueil de données est discutable. Notamment, la date d’inclusion n’avait pas été renseignée dans le base de données remplie sur tableur Excel. Je dus, suite à une remarque d’un reviewer, retrouver les dates d’inclusions afin d’évaluer l’adhésion au protocole avant-après par les investigateurs : traitement contrôle donné en période avant et traitement expérimental donné en période après. En croisant les identifiants de patients avec la base de données médico-administrative locale, je pus retrouver les dates ! C’est là que je découvris que les périodes fournies dans le manuscrit de l’article étaient complètement fausses ! Le manuscrit précisait que la période avant s’étendait de novembre 2016 à janvier 2017 et que la période après s’étendait de février 2017 à avril 2017 alors qu’avec les dates enfin retrouvées, je découvrir que le traitement contrôle avait été donné de septembre à décembre 2016 et le traitement expérimental avait été donné de janvier à mars 2017. Le premier auteur de l’article ne s’en étonna pas : il avait décrit les dates de mémoire, et s’était trompé de quelques mois…

Pour compléter l’histoire, j’ai retrouvé dans mes archives mail la date à laquelle j’ai fait la première analyse statistique de la base de données : mi-mars 2016. Encore une preuve que la fin de la période d’inclusion ne pouvait être en avril !

Second cas rapporté

Ce second cas concerne encore un biais de mémorisation dans une étude prospective, dont l’objectif était d’évaluer la validité d’un questionnaire de qualité de vie, avec une cohorte de cas incidents suivis six mois auquel s’ajoutait un groupe de patients prévalents, ne bénéficiant que d’une seule visite. Il semblerait que les investigateurs aient complètement oublié d’enregistrer le traitement médical prescrit aux patients à baseline. Comme les dossiers médicaux étaient d’une qualité excécrable, il n’était même pas possible de savoir ce qui avait été prescrit. Au final, l’interne en charge du projet appela les patients pour leur demander quel traitement ils avaient pris un an auparavant ! Elle me dit qu’elle ne pouvait pas leur demander la dose parce que là, le biais de mémorisation était trop fort, mais qu’au moins, elle espérait que l’information sur la molécule ne soit pas trop mauvaise. Après réflexion, je crains que pour les cas prévalents l’information soit de particulièrement mauvaise qualité, car ils sont susceptibles d’avoir plusieurs traitements au décours de leur suivi et mémoriser précisément celui qu’ils prenaient il y a un an paraît particulièrement difficile.

Lire entre les lignes : respect des recommandations

Méfiez vous des articles basés sur des échantillons rétrospectifs, sur dossiers médicaux, décrivant que la prise en charge des patients suivait strictement et rigoureusement les recommandations nationales ou internationales, voire paraphrasant les recommandations afin de donner l’illusion qu’elles sont respectées. La seule garantie que l’on puisse avoir sur une étude rétrospective, c’est que les pratiques habituelles des services concernés ont été suivies. Citer les recommandations peut être une solution pour ne pas avouer que l’on est incapable de décrire les pratiques habituelles parce qu’elles n’ont jamais été formalisées. Sur deux manuscrits vantant le fait que certaines recommandations et procédures étaient rigoureusement respectés, que j’ai relus en tant que statisticien ayant participé aux analyses, je peux affirmer que pour tous les deux, c’était faux. Je me suis empressé de corriger les manuscrits, bien entendu, mais beaucoup de statisticiens n’auraient pas relu suffisamment en profondeur les manuscrits pour s’en apercevoir. Dans le premier manuscrit, je connaissais suffisamment le chef de service pour savoir qu’il se vante d’ignorer les recommandations, obsolètes, inadaptées et reposant sur des niveaux de preuve très bas (et je confirme son opinion, puisque j’ai un peu étudié les recommandations moi-même). Cela était aussi confirmé par le nombre énorme de données manquantes sur les examens théoriquement obligatoires selon les recommandations. Dans le second, il était mentionné qu’un examen médical était réalisé systématiquement, dans les méthodes, mais sur environ 110 patients, seulement 2 avaient bénéficié de cet « examen systématique ». Heureusement, cela était visible dans les résultats de l’article.

Ensuite, ce problème peut aussi arriver dans les études prospectives. Sur l’étude prospective que j’ai relue qui détaillait le plus la prise en charge, j’ai constaté que l’adhésion des investigateurs au coeur de ce protocole avant-après, c’est-à-dire donner l’intervention Contrôle en période avant et l’intervention Expérimentale en période après, était particulièrement basse: < 80% sur l’ensemble de létude et < 30% les deux derniers mois de l’étude. Sur cette base, il me paraît difficile de s’assurer du respect des recommandations décrites dans des niveaux de détails extrêmes (y compris les situations atypiques), alors qu’aucune variable recueillie ne permettait d’évaluer l’adhésion à ces recommandations.

Ce que je retiens de ces cas rapportés, c’est que pour s’assurer de la conformité d’une pratique à des recommandations, il est nécessaire de collecter les variables permettant d’évaluer l’adhésion à ces pratiques. Tant que je n’ai pas ces variables, en tant que statisticien, j’aurais toujours un grand doute quant à l’adhésion. Je vous conseille aussi de vous méfier des articles qui citent moults recommandations dans les méthodes, vantant leur respect, sans décrire la moindre variable, dans la section des résultats, permettant de vérifier ces dires.

Études compétitives

Petite anecdote courte aujourd’hui, dans la thématique « ce qui n’est pas dit dans la méthodologie d’un article ». Dans nos Centres Hopistaliers Universitaires, de nombreuses études prospectives sont menées chaque jour. Parfois deux études portant sur un profil de patient proche recrutent en parallèle. Les patients ne pourront généralement pas être inclus dans les deux études en même temps, car leurs protocoles respectifs seraient susceptibles d’interférer. Cela pourra parfois engendrer un biais de sélection majeur, dépendant de la combinaison des critères d’inclusion des deux études.

Pour l’exemple, à Rouen, deux études incluent des patients atteints de syndrome de l’intestin irritable (SII). Cette maladie comporte trois formes cliniques distinctes : avec diarrhée, avec constipation, ou avec alternance des deux. La forme diarrhéique est la plus fréquente. La première étude exigeant des patients la forme diarrhéique (critère d’inclusion), l’inclusion des patients y est plus difficile que dans la seconde, qui inclue pratiquement le SII tout venant. En conséquence, presque tous les patients avec forme diarrhéique sont inclus, par les investigateurs, dans la première étude. La seconde étude se retrouve alors avec seulement quelques patients diarrhéique présentant des critères d’exclusion à la première étude. Cette seconde étude a alors un biais de sélection majeur, sous-représentant les formes diarrhéiques et les rendant non comparables aux autres formes, car elles sont associées à des critères d’exclusion de la première étude.

Ajuster ou ne pas ajuster, telle est la question

Je vais partager une petite réflexion concernant les ajustements statistiques dans les études quasi-expérimentales de type ici-ailleurs.

Principe des études ici-ailleurs

D’une manière générale l’évaluation de l’efficacité d’une intervention par rapport à une autre est très difficile dans une étude observationnelle en raison d’un biais d’indication, c’est-à-dire, une prescription dépendante des caractéristiques du patient, corrélée au pronostic de la maladie. Par exemple, on observera une mortalité bien plus grande des patients atteints de COVID-19 lorsqu’ils bénéficient d’une ventilation mécanique invasive que lorsqu’ils n’en bénéficient pas. Cela n’est pas dû à la nocivité de la ventilation mécanique, mais simplement au fait qu’elle n’est prescrite qu’à des patients dont l’état clinique est très altéré.

Exemple d’étude illustrative

Pour la suite, je prendrai un exemple dans lequel les indications sont beaucoup moins codifiées et la balance bénéfices/risques bien plus incertaine, ce qui permet alors de rendre la méthodologie ici-ailleurs envisageable. Après exérèse chirurgicale complète de mélanomes primitifs cutanés non métastatiques, la fermeture de l’espace cutané peut se faire, pour les exérèses étendues, par un lambeau cutané ou une auto-greffe cutanée. Il existe une querelle d’écoles quant à la meilleure technique, lambeau ou greffe, certains argumentant que les résultats carcinologiques diffèrent. À Lille, 100% des patients ont bénéficié d’une greffe contre 12% à Lyon et 66% à Rouen. Comment alors peut-on comparer les résultats carcinologiques entre lambeau et greffe ?

Stratégie per protocol ajustée sur le centre (comparaison intra-centre)

Deux stratégies de comparaison orthogonales existent. On peut comparer les patients ayant bénéficié d’une greffe à ceux ayant bénéficié d’un lambeau en ajustant sur l’effet centre. Cette méthode de comparaison est interprétable comme une comparaison des sujets avec lambeau et greffe d’un même centre. Ainsi, on comparera les 12% de sujets avec greffe de Lyon aux 88% de sujets avec lambeau de Lyon. On comparera les 66% de sujets avec greffe de Rouen aux 44% avec lambeau de Rouen. Le centre de Lille ne participera pas du tout à la statistique car l’effet centre y sera colinéaire à l’effet greffe. De manière grossière, on peut dire que les effets greffe vs lambeau de Rouen et Lyon seront moyennés par pondération par l’inverse de la variance des estimateurs. Le biais d’indication sera a priori majeur dans cette comparaison. Notamment, il est probable que la réalisation technique du lambeau soit difficile voire impossible dans les 12% de greffés à Lyon étant donné la localisation et l’étendue de l’exérèse. Même en ajustant sur le stade TNM, et les autres facteurs pronostics (sous-type histologique, ulcération, indice mitotique, état général), on peut craindre une persistance du biais d’indication.

Stratégie en intention de traiter (comparaison inter-centre)

La deuxième stratégie consiste à comparer le résultat carcinologique moyen de Lille (qui fait 100% de greffes) à celui de Lyon (qui fait 12% de greffes). Il s’agit alors d’une comparaison de la greffe au lambeau en « intention de traiter », considérant qu’à Lyon, il y a une intention de traiter tout le monde par un lambeau alors qu’à Lille, c’est l’inverse. C’est cette seconde stratégie qui correspond à une méthodologie ici-ailleurs. Le biais d’indication disparaît complètement de cette comparaison grace à l’approche en intention de traiter. Il n’y a plus aucun sens à ajuster sur l’effet centre. En réalité, il n’est même plus possible d’ajuster sur l’effet centre. Selon le point de vue, on peut considérer que l’effet centre est l’effet principal du traitement qui nous intéresse ou on peut considérer que l’effet centre est colinéaire à l’effet principal. Cette stratégie ici-ailleurs est immunisée au biais d’indication, mais est fragile à un potentiel biais de sélection différentiel si les populations consultant Lyon et Lille diffèrent notablement. Au contraire, la première stratégie de comparaison, ajustée sur l’effet centre est immunisée au biais de sélection différentiel des centres puisque les patients d’un centre sont comparés aux patients du même centre.

Quelle stratégie ? Quel biais ?

Pour résumer, il existe potentiellement deux biais remettant en cause la comparabilité des groupes de greffe et lambeau : (1) un biais d’indication et (2) un biais de sélection différentiel. L’analyse ajustée sur l’effet centre est fragile au biais d’indication mais immunisée au biais de sélection différentiel alors qu’à l’opposé, l’analyse ici-ailleurs en intention de traiter est immunisée au biais d’indication mais fragile au biais de sélection différentiel.

Meilleure stratégie ou stratégie combinée ?

Dans le contexte, je craindrais nettement plus le biais d’indication au biais de sélection différentiel, car la population de patients avec mélanomes primitifs cutanés opérables non métastatiques n’a pas de raison de différer notablement entre les centres alors qu’il est raisonnable de craindre un biais d’indication majeur, les prescriptions étant rarement faites au hasard. Néanmoins, il est intéressant de réaliser les deux analyses et d’en vérifier la cohérence, car réaliser deux analyses biaisées différemment mais fournissant la même conclusion est une manière de se rassurer quant à l’impact des biais. On pourrait, par exemple, réaliser une analyse ici-ailleurs en intention de traiter en analyse principale et l’analyse per protocol ajustée sur l’effet centre en analyse de sensibilité.

Que peut-on en retenir ?

Tout cela pour dire que le codage de la variable d’effet et l’ajustement sur l’effet centre modifient profondément l’interprétation des résultats et qu’un ajustement n’est pas toujours souhaitable, pouvant engendrer un biais plus important que l’approche orthogonale.

Pour aller plus loin

Comparaison des traitements ou des stratégies ?

Dans la stratégie en intention de traiter, on pourra argumenter qu’on ne compare plus les traitements (greffe vs lambeau) mais les stratégies de prescription (greffe pour tout le monde vs lambeau si possible). Si on considère que la question du lambeau ou de la greffe ne se pose pas pour certains patients pour lesquels le lambeau n’est pas techniquement réalisable, alors il est logique de comparer les stratégies ou de comparer greffe vs lambeau dans un sous-groupe restreint pour lesquels les deux techniques sont possibles à réaliser.

Études avant-après

La problématique décrite dans les études ici-ailleurs est transposable aux études avant-après. On peut faire une analyse en per protocol ajustée sur le temps (p.e. mois par mois), conduisant à une comparaison « transversale » des patients avec un fort biais d’indication mais pas de biais de sélection différentiel attribuable à une évolution de la population incluse, ou au contraire faire une analyse en intention de traiter, où c’est l’effet temps « après » vs « avant » qui représente l’effet principal, faisant disparaître tout biais d’indication mais faisant potentiellement apparaître un biais de sélection différentiel ou une confusion avec d’autres changements de pratiques simultanés.

Autre exemple

Le biais d’indication est souvent majeur, mais le biais de sélection différentiel peut parfois être majeur lui aussi, rendant alors les deux analyses toutes deux très fragiles. Prenons l’exemple de la prescription de l’hydroxychloroquine pour les patients infectés par COVID-19 hospitalisés. Bien que le pronostic du COVID-19 soit probablement peu différent entre régions françaises, après ajustement sur l’âge et l’IMC, les indications à l’hospitalisation dépendent des ressources en soins locales et des pratiques de prescription des médecins. En effet, l’hospitalisation est bien une prescription médicale ! C’est pour cela qu’en France métropolitaine, le taux de mortalité intra-hospitalière est hautement variable d’un département à l’autre, avec un premier décile à 12,7% (Côtes d’Armor) et un neuvième décile à 18,2% (Meuse), bien que la population générale de Meuse soit plus jeune (10,5% de sujets de plus de 75 ans vs 12,3% pour les Côtes d’Armor). Cela rend les études ici-ailleurs particulièrement biaisées.