Erreur fréquente : ajustement sur baseline

Un billet pour vous présenter une erreur d’analyse tellement fréquente que c’est l’analyse correcte qui devient une exception. C’est le cas de la comparaison de scores quantitatifs (p.e. scores de qualité de vie, scores fonctionnels) après une intervention (p.e. 3 mois après) entre deux groupes de sujets susceptibles de différer sur le score avant l’intervention (baseline). Le cas le plus problématique est celui où les deux groupes ne sont pas randomisés. Cela peut correspondre à l’analyse de facteurs pronostiques sous traitement, les groupes étant définis par ces facteurs pronostiques, ou à la comparaison non randomisée de deux interventions.

Même si une partie des réflexions s’appliquent aussi bien à la recherche de facteurs pronostiques sous traitement qu’à la comparaison thérapeutique, je me focaliserai sur ce second scenario car il est difficile de définir si un pronostic (évolution favorable ou défavorable) est meilleur qu’un autre lorsque le point de départ (état initial) diffère. Pour les facteurs pronostiques, les différences à baseline ne sont pas forcément accidentelles mais sont souvent réelles, devant être prises en compte pour l’interprétation, alors que pour les comparaisons thérapeutiques, ces différences sont typiquement dues à des biais d’indication et pourraient être rectifiées par un essai clinique randomisé.

Les trois manières les plus fréquentes de comparer les deux groupes sur leur score post-intervention sont:

  1. La comparaison brute des scores post-intervention, sans ajustement (p.e. test de Student sur séries indépendantes)
  2. La comparaison des changements (aussi appelées deltas ou différences appariées) de score entre les deux groupes. Ça peut être fait par un test de Student sur séries indépendantes sur les deltas, ou par un test d’interaction temps×groupe dans un modèle linéaire à effets mixtes.
  3. Comparaison des scores post-intervention entre les deux groupes avec ajustement sur le score pré-intervention (modèle linéaire général).

La méthode N°3 est la seule a être correcte dans les études comparant deux thérapeutiques. La méthode N°1 ignore les différences pré-intervention et est donc sujette aux facteurs de confusion tels que le biais d’indication qui tendrait, par exemple, à faire donner le traitement innovant aux patients dont le pronostic est meilleur, ou pire, que les autres. La méthode N°2 donne l’illusion de corriger les différences pré-existantes au temps pré-intervention mais en réalité, sur-corrige systématiquement la différence. Le groupe avantagé à baseline se trouvera alors fortement désavantagé. Un biais d’indication positif deviendra un biais d’indication négatif.

Pour comprendre ça, il faut comprendre comment fonctionne la méthode N°3, pourquoi elle est correcte, et comment les méthodes N°1 et N°2 se comportent par rapport à cette méthode de référence.

Régression vers la moyenne

Il faut comprendre que même pour une maladie chronique « stable », deux mesures répétées ne sont jamais parfaitement corrélées, ne serait-ce qu’à cause des erreurs de mesure et fluctuations d’échantillonnage de chacune des deux mesures. Si la maladie est stable, sans la moindre intervention, alors une régression linéaire d’une mesure faite à T1 sur une mesure faite à T2 (p.e. trois mois plus tard), va trouver une pente systématiquement inférieure à 1.

Ce petit exemple de code R illustre mon propos:

vraie_valeur_T1=rnorm(100000) # valeur réelle de l'état du sujet
vraie_valeur_T2=vraie_valeur_T1

mesure_T1 = vraie_valeur_T1 + rnorm(100000)
mesure_T2 = vraie_valeur_T2 + rnorm(100000)

lm(mesure_T2 ~ mesure_T1) # pente à 0.50

Dans l’exemple ci-dessus, je distingue deux concepts:

  1. la valeur du score du sujet, qui reflète son état général de base, tel qu’on pourrait l’obtenir en faisant la moyenne d’un grand nombre de mesures étalées sur une période de temps suffisante
  2. la mesure du score du sujet, qui reflète la valeur du score à laquelle s’ajoutent la fluctuation d’échantillonnage attribuable au jour de la mesure ainsi que l’erreur de mesure. Ces sources de variation sont imprévisibles et seront donc appelées l’aléatoire.

Dans l’exemple ci-dessus, bien que les valeurs à T1 et T2 soient identiques pour chacun des sujets, la pente de la régression linéaire faisant le lien entre les deux mesures est à 0.50.

Comment interpréter cette pente de régression à 0.50 ? Cela veut dire que l’espérance de la mesure à T2, conditionnelle à une mesure à T1, est égale à la moyenne générale plus 0.50 fois la mesure à T1. C’est-à-dire, un sujet dont la mesure à T1 est à +1 écart-type de la moyenne générale, devrait se trouver, en moyenne à +0.5 écart-type de la moyenne générale à T2. Un sujet qui se trouve à -1 écart-type de la moyenne générale à T1, devrait se trouver, en moyenne à -0.5 écart-type de la moyenne générale. Toute mesure écartée de la moyenne générale à T1, devrait se trouver, en moyenne, plus proche de la moyenne générale à T1. Ce phénomène est connu sous le nom de « régression vers la moyenne ». L’explication intuitive de ce phénomène, c’est qu’une mesure à +1 écart-type à T1 est explicable, en partie par le fait que le sujet à une valeur à T1 plus grande que les autres (ici, +0.5 écart-type en moyenne), mais aussi parce qu’il a eu une source de variation aléatoire plus grande que les autres (ici +0.5 écart-type en moyenne). Comme l’aléatoire est, par principe, indépendant de tout ce qui est observable, lors de la deuxième mesure à T2, l’aléatoire sera en moyenne nul (légèrement positif ou négatif sur une observation particulière), de telle sorte qu’en moyenne, il ne restera que les +0.5 écarts-types attribuables à une valeur réellement plus élevée à T1, alors qu’en moyenne l’aléatoire sera revenu à 0.

NB : Cette idée qu’une valeur à T1 à +1 écart-type de la moyenne générale est attribuable en partie à une différence réelle de valeur, et en partie attribuable à de l’aléatoire, est vraie, en moyenne seulement. C’est-à-dire, qu’à un niveau individuel, il est possible qu’une mesure à +1 écart-type soit la somme d’une valeur réelle à -0.2 écart-type et d’un aléatoire à +1.2 écart-type. Néanmoins, en moyenne, le phénomène décrit ci-dessus s’appliquera.

L’exemple fourni est assez artificiel, avec une pente à 0.50, explicable par le fait que la variance inter-sujet de la valeur réelle est égal à la variance de l’aléatoire. Si la part d’aléatoire est plus importante, alors la pente va diminuer, conduisant à une régression vers la moyenne plus violente. Au contraire, si la part d’aléatoire est minime, on tendra vers une pente à 1.

ratio = 3 # ratio entre l'écart-type aléatoire et l'écart-type
# de la vraie valeur

vraie_valeur_T1=rnorm(1000000)
vraie_valeur_T2=vraie_valeur_T1

mesure_T1 = vraie_valeur_T1 + ratio*rnorm(1000000)
mesure_T2 = vraie_valeur_T2 + ratio*rnorm(1000000)

lm(mesure_T2 ~ mesure_T1) # pente à 0.10

Dans l’exemple ci-dessus, le rapport des écarts-types est à 3, le rapport des variances est alors à 9 et la pente est à 1/(9+1) = 0.10. Le phénomène de régression vers la moyenne est très fort, parce que l’aléatoire est très fort; ainsi, une mesure très élevée témoigne très certainement d’une grosse part d’aléatoire plutôt que d’une valeur réellement très forte.

Régression vers la moyenne sous traitement

Comme décrit ci-dessus, lorsqu’il y a des mesures répétées en état stable, la deuxième mesure tendra, en moyenne, à se rapprocher de la moyenne générale par rapport à la première. Lorsque les patients bénéficient d’un traitement, alors il y aura une tendance générale à l’amélioration pour deux phénomènes :

  1. Les effets contextuels. Notamment la sélection des sujets au moment où ils vont le moins bien, et donc, dont l’aléatoire est défavorable à l’inclusion. Cela peut aussi correspondre à une maladie qui tend à la guérison spontanée.
  2. L’effet réel du traitement

Cette tendance générale s’exprimera comme la différence de moyennes entre T1 et T2. Le phénomène de régression vers la moyenne persistera après soustraction de cette tendance générale aux mesures de T2. Par ailleurs, de nouveaux phénomènes apparaîtront pour les scores de symptômes. Par exemple, si l’évolution est favorable pour la majorité des sujets, il est probable que la variance des scores soit plus faible après traitement qu’avant. En effet, pour un score symptomatique, d’autant plus élevé que les symptômes sont sévères et nombreux, les sujets auront majoritairement des scores proches de zéro après traitement. Dans ce cas, la pente de régression expliquant la mesure à T2 par la mesure à T1 sera encore plus proche de zéro. Plus rarement, lorsque l’effet du traitement est très variable, avec des sujets répondeurs et des non répondeurs, il est possible que la variance augmente, mais encore une fois, la pente de régression devrait rester inférieure à 1. D’un point de vue théorique, cette pente pourrait dépasser 1, dans des conditions qui ne sont jamais rencontrées dans la pratique : faibles erreurs de mesures et très faibles fluctuations d’échantillonnage et réponse au traitement extrêmement corrélée à la valeur à baseline, avec une variance à T2 largement supérieure à la variance à T1.

Ajustement sur la mesure pré-intervention

Comment comparer deux traitements sur une mesure post-intervention (T2) lorsque les mesures pré-intervention (T1) diffèrent ?

L’idée, c’est de rectifier les différences à T1 telles qu’elles se répercutent à T2. Cela se fait par une estimation empirique de la pente de la régression de la mesure à T2 par la mesure à T1. Cela se fait très bien dans un modèle linéaire général expliquant la mesure à T2 par l’effet groupe (tt innovant vs tt de référence) et par la mesure à T1.

Ci-dessous un exemple illustratif, dans lequel il existerait un biais d’indication majeur où les patients ayant le plus de symptômes (score élevé) bénéficieraient du traitement innovant alors que les patients ayant le moins de symptômes auraient le traitement de référence:

set.seed(2021) # graine pseudo-aléatoire pour avoir des résultats reproductibles

effet_tt = -1 # même effet traitement dans les deux groupes
N1 = 5000000 # taille du groupe 1
N2 = 5000000 # taille du groupe 2
N = N1+N2
ratio = 3 # ratio entre l'écart-type aléatoire et l'écart-type de la vraie valeur

vraie_valeur_T1=rnorm(N)
mesure_T1 = vraie_valeur_T1 + ratio*rnorm(N) # on ajoute l'erreur de mesure/fluctuation aléatoire
# le traitement innovant est donné aux sujets avec plus de s
ymptômes
tt_innovant = (mesure_T1 > 1.00) 

# peu importe le groupe, l'effet du traitement est le même dans les deux groupes
# car le traitement innovant n'est pas meilleur que le traitement de référence
vraie_valeur_T2=vraie_valeur_T1 + effet_tt

mesure_T2 = vraie_valeur_T2 + ratio*rnorm(N) # on ajoute l'erreur de mesure/fluctuation aléatoire

mean(mesure_T1[tt_innovant]) # mesure à T1 en moyenne à 3.19 dans le groupe tt innovant
mean(mesure_T1[!tt_innovant]) # mesure à T1 en moyenne à -1.92 dans le groupe tt de référence
mean(mesure_T2[tt_innovant]) # mesure à T1 en moyenne à -0.68 dans le groupe tt innovant
mean(mesure_T2[!tt_innovant]) # mesure à T1 en moyenne à -1.19 dans le groupe tt de référence

# le modèle correct
# trouve une différence nulle entre traitement innovant et traitement de référence
# et trouve un effet (pente) à 0.10 de la mesure à T1 sur la mesure à T2
lm(mesure_T2 ~ mesure_T1+tt_innovant)

Dans cet exemple, il existe un fort effet de régression vers la moyenne et quand bien même les deux traitements sont équivalents, la différence entre les groupes de traitement que l’on trouve à T1 (moyenne à 3.19 vs -1.92, différence à 5.1) se réduit par un facteur dix à T2 (-0.68 vs -1.19, différence à 0.51). Ce facteur dix est explicable par une pente de régression de la mesure à T1 sur la mesure à T2 qui est égale à un dixième (0.10), révélant une forte régression vers la moyenne. Le modèle linéaire ajusté sur la mesure à T1 est tout à fait capable de comparer les valeurs à T2 (-0.68 vs -1.19) en rectifiant la différence attribuable à la différence de moyennes à T1 (3.19 vs -1.92). Cela permet de conclure à l’équivalence des traitements (ici, l’échantillon étant immense, on peut considérer que tout est exact) car la différence à T2 n’est pas supérieure à ce qui est attendu (0.51 unité), compte tenu de la différence à baseline (5.1 unités) et de la pente de régression de T1 sur T2 (pente à 0.10).

Autres ajustements corrects ou inappropriés

Cependant, si on comparait les moyennes des mesures à T2 avec un test de Student sur séries indépendantes, en ignorant ainsi, les différences à T1, on conclurait que les sujets avec traitement innovant ont un plus grand nombre de symptômes (+0.51) que les sujets avec le traitement de référence. Ainsi, on conclurait, à tort, que le traitement innovant est moins bon que le traitement de référence alors qu’ils sont en réalité équivalents. Cet effet à +0.51 est due au biais d’indication.

Enfin, si on comparait les moyennes des changements (différences appariées T2 moins T1), on conclurait à tort que le traitement innovant est très largement supérieur au traitement de référence. En effet, cette différence de différences est égale à 0.51-5.1 = -4.6, témoignant d’une réduction des symptômes beaucoup plus marquée dans le groupe de traitement innovant bien qu’en réalité les deux traitements soient équivalents.

Comme dit en introduction, la comparaison des moyennes de changements conduit à une sur-correction des différences à baseline, transformant le désavantage du groupe traité par le traitement innovant, en un avantage.

Un autre point de vue, sur ces deux analyses biaisées, c’est de les interpréter comme une analyse ajustée dans lesquelles la pente de régression de la mesure T2 sur la mesure T1 est artificiellement imposée à zéro (pour le Student à T2 sans ajustement sur la baseline) ou artificiellement imposée à 1 (pour la comparaison de moyennes des changements). Cela peut se décrire par le code R suivant, complétant le précédent:

lm(mesure_T2 ~ offset(mesure_T1*0)+tt_innovant) # modèle ignorant les différences à baseline (Student, sans ajustemnet)
lm(mesure_T2 ~ offset(mesure_T1*1)+tt_innovant) # pente imposée à 1, comparant les moyennes des changements

En effet, les deux équations suivantes, de modèles linéaires, sont équivalentes:

T2 = beta0 + beta1×tt + 1×T1 + epsilon

(T2-T1) = beta0 + beta1×tt + epsilon

Où epsilon suit une loi normale de moyenne zéro et écart-type sigma.

On remarquera aussi que l’analyse des changements, ajustée sur les mesures à T1, est équivalente à l’analyse des mesures à T2, ajustée sur les mesures à T1. C’est-à-dire qu’on obtient exactement le même effet traitement avec les deux modèles suivants:

lm(mesure_T2 ~ mesure_T1+tt_innovant)
lm(mesure_T2-mesure_T1 ~ mesure_T1+tt_innovant)

Encore une fois, ça découle assez directement des équations des modèles linéaires:

T2 = beta0 + beta1×tt + beta2×T1 + epsilon

(T2-T1) = beta0′ + beta1’×tt + beta2’×T1 + epsilon

On constate que les deux équations sont équivalentes pour beta0=beta0′, beta1=beta1′ et beta2’=beta2-1. En bref, les coefficients de l’ordonnée à l’origine (intercept) et de l’effet traitement sont inchangés; seul change le coefficient de la pente, qui est réduit d’une unité pour la seconde analyse par rapport à la première. Autrement, les modèles sont équivalents, au sens où ils prédisent exactement les mêmes valeurs pour les mêmes sujets. Les résidus des modèles sont identiques. Les coefficients beta0 et beta1 ont exactement les mêmes estimations ponctuelles sur n’importe quel échantillon.

C’est très intéressant parce que ça permet de présenter exactement les mêmes résultats sous un angle plus plaisant pour les investigateurs qui ne comprennent rien aux phénomènes de régression vers la moyenne et qui veulent absolument comparer les moyennes des changements : on peut leur dire qu’on a comparé les moyennes des changements, comme ils le souhaitaient, mais qu’on a ajusté sur la mesure à T1.

Modèle à effets mixtes

Comme présenté en introduction, le modèle à effets mixtes expliquant à la fois la mesure à T1 et à T2, avec un intercept aléatoire sujet, un effet temps, un effet groupe et une interaction temps×groupe, est équivalent à une comparaison de moyennes des changements (différences appariées) et conduit donc a une sur-correction de la différence à baseline. En l’absence de données manquantes, les estimations ponctuelles sont identiques. Néanmoins, ces modèles à effets mixtes rajoutent un grand nombre d’hypothèses dont on doit réfléchir aux conséquences. D’abord, il y a une hypothèse d’homoscédasticité (égalité des variances résiduelles) à T1 et à T2 alors que le simple Student fait seulement l’hypothèse d’homoscédasticité entre les groupes sur les différences appariées. Heureusement, comme le nombre de mesures à T1 et à T2 sont égales, en l’absence de données manquantes, les écarts à cette hypothèse de validité semblent n’engendrer aucun biais sur les intervalles de confiance. Il y a aussi une hypothèse de normalité des résidus qui semble, comme le Student, être relâchée lorsque l’échantillon est suffisamment grand. Le conditionnement à l’exposition, notamment à l’effet sujet, ne pose pas non plus de problème lorsque le modèle est linéaire avec fonction de lien identité. On peut aussi redouter que la variabilité de l’effet du traitement d’un sujet à l’autre pose problème, mais en réalité, cela est intégré dans le résidu, et se contente d’augmenter la variance résiduelle à T2, avec des problèmes d’hétéroscédasticité qui s’avèrent n’avoir pas de conséquence. En l’absence de données manquantes, c’est donc, équivalent, en estimation ponctuelle, et en incertitude, à un Student sur les différences appariées. En pratique, il y a quelques minimes biais supplémentaires, tels que le décompte des degrés de libertés qui est souvent incorrect dans les modèles à effets mixtes (dépend du logiciel et du package utilisé). En présence de données manquantes, le modèle à effets mixtes donne l’illusion de faire participer les perdus de vue, alors qu’en réalité, ils ne participent quasiment pas à la statistique car ils ne fournissent qu’une information infime sur la différence appariée ; et cette information repose énormément sur l’hypothèse de normalité. Au mieux, ils servent un tout petit peu à estimer la variance, en risquant de la biaiser un tout petit peu ; mais même là, leur variance étant la somme de la variance inter-sujet et intra-sujet, ils ne fournissent quasiment aucune information sur l’un ou l’autre des deux ; et cette information repose aussi massivement sur l’hypothèse de normalité. En bref, c’est une manière d’exclure les données manquantes sans le dire.

Essais cliniques randomisés

Pour les essais cliniques randomisés bien menés, la différence à baseline a une espérance nulle et les trois analyses ont la même espérance : comparaison sans ajustement à T2, comparaison ajustée sur T1 et comparaison des différences T2-T1. Néanmoins, la variance résiduelle sera minimale avec la comparaison ajustée sur T1, la précision statistique sera maximale et la puissance sera maximale, sauf si la pente de régression de T1 sur T2 est extrêmement proche de 0 ou de 1. J’affectionne particulièrement la comparaison à T2 sans ajustement, car cela est l’analyse la plus simple possible. Cela évite d’être accusé de p-Hacking.

D’ailleurs, c’est un des problèmes de ces multiples possibilités d’analyse : il est très facile de p-hacker. Même si les analyses sont équivalentes en espérance, sur un échantillon donné, elles peuvent différer de manière substantielle, fournissant alors une grande liberté de choix du petit p.

Erreur fréquente : facteurs de réponse au traitement

Un petit mot pour dire qu’il ne faut pas confondre pronostic sous traitement et réponse au traitement. La réponse à un traitement, c’est la différence d’évolution entre un sujet qui aurait le traitement et le même sujet qui ne l’aurait pas. Généralement, on peut évaluer la réponse moyenne à un traitement par un essai clinique randomisé en groupes parallèles. La réponse individuelle est bien plus difficile à évaluer, voire impossible, car il n’est pas forcément possible de savoir qu’elle aurait été l’évolution si le patient n’avait pas reçu la prise en charge qu’il eût.

Ce qu’il faut faire

L’identification d’un facteur de réponse au traitement nécessite schématiquement quatre groupes:

  1. un groupe exposé au facteur et prenant le traitement
  2. un groupe exposé au facteur et ne prenant pas le traitement
  3. un groupe non exposé au facteur et prenant le traitement
  4. un groupe non exposé au facteur et ne prenant pas le traitement

(pour un facteur quantitatif, on peut distinguer différents niveaux d’exposition, mais l’idée reste la même, il doit y avoir une variance de ce facteur d’exposition dans un groupe traité comme dans un groupe non traité)

La différence moyenne entre (1) et (2) représente la réponse moyenne des exposés alors que la différence moyenne entre (3) et (4) représente la réponse moyenne des non exposés. La différence des différences (interaction) représente la différence de réponses et si elle est statistiquement significativement différente de zéro (ou d’un seuil de significativité clinique) conduit à la conclusion que l’exposition considérée est un facteur de réponse au traitement.

Ces analyses de facteur de réponse au traitement correspondent aux fameuses analyses en sous-groupes que l’on retrouve dans bon nombre d’essais cliniques randomisés.

Ce qu’il ne faut pas faire

Malheureusement la majorité des soi-disant recherche de facteurs de réponse à un traitement qu’il m’ait été donné de voir ne contenaient que deux groupes: les patients traités et exposés au facteur et les patients traités et non exposés au facteur. Cela permet seulement de trouver des facteurs pronostics sous traitement, c’est-à-dire des facteurs prédictifs d’une évolution favorable ou défavorable, et ce, sur une population de patients tous traités.

Comme exemple frappant, je suggère de considérer l’analyse de soi-disant facteurs de réponse à l’homéopathie sur le cancer de la prostate. Le critère de jugement principal serait la survie globale de patients. On constaterait alors que les patients peu symptomatiques, dont le stade tumoral est précoce (notamment sans métastases) et de bas grade Gleason sont les meilleurs répondeurs à l’homéopathie.

Régression vers la moyenne

Pourquoi confond-on la réponse au traitement et le pronostic sous traitement ? Pourquoi toute évolution clinique n’est-elle pas totalement attribuable au traitement ?

Certaines maladies ont une évolution spontanée tendant vers une évolution inexorablement défavorable; cela comprend notamment la plupart des maladies neurodégénératives telles que les maladies démentielles, la maladie de Parkinson, la sclérose latérale amyotrophique. Même si cette évolution défavorable ne concerne pas forcément 100% des patients, on peut dire que l’état clinique moyen se dégrade.

D’autres maladies ont une évolution moyenne plus stable, comme l’asthme chronique. Néanmoins, il est très rare que la stabilité individuelle soit parfaite. Il existera presque toujours des fluctuations intra-sujet, c’est-à-dire, des jours, semaines ou mois plus symptomatiques que d’autres. Le phénomène de régression vers la moyenne s’applique alors à ces sujets. En moyenne un sujet sélectionné sur un état clinique moins bon que la moyenne, tendra à en voir une amélioration dans les jours, semaines ou mois avenir. Or, l’initiation des traitements est rarement faite au moment où le sujet va le mieux; au contraire, ce sera lors d’un état clinique médiocre ou d’une dégradation de l’état habituel. Parfois cela est même formalisé explicitement dans les critères d’inclusions, sous forme d’un seuil sur un score ! Par simple régression vers la moyenne, l’état clinique du sujet tendra à s’améliorer quel que soit le traitement donné; c’est une des principales raisons justifiant la perception d’efficacité de l’homéopathie. Il s’agit alors de l’évolution spontanée de la maladie.

Si on analyse la différence entre deux mesures répétées d’un score des symptômes, à baseline et un certain temps après (p.e. 3 mois), alors il s’agit de la somme de deux composantes:

  1. L’évolution spontanée
  2. La réponse au traitement

Malheureusement, c’est souvent interprété comme la réponse au traitement.

Il apparaît alors que les patients dont l’état est le pire vont le mieux s’améliorer, ce qui pourra être, à tort, considéré comme une meilleure réponse au traitement.

Si on a en conscience cela, il faut savoir qu’on peut avoir une réponse au traitement quand bien même l’état clinique du patient est stable, comme pour la sclérose latérale amyotrophique pour laquelle l’évolution naturelle est très défavorable et une stabilisation prolongée déjà acceptable pour un traitement. Et bien sûr, il peut y avoir une évolution spontanée favorable sans la moindre réponse au traitement. Un traitement homéopathique d’une angine tendra à une résolution totale des symptômes en généralement quelques jours, ainsi que l’absence totale de traitement. La réponse doit être évaluée par la différence entre les des deux effets.

C’est peut-être pour cette confusion entre réponse au traitement et pronostic sous traitement que l’homéopathie est aussi populaire en France.

Pour aller plus loin

Comme mentionné au début, un facteur de réponse au traitement est un facteur ayant une interaction statistique avec l’effet du traitement, c’est-à-dire, la différence entre un groupe traité et un groupe non traité. La notion d’interaction est assez simple lorsque les états cliniques sans traitement sont identiques chez les exposés et les non exposés au facteur. Par contre, si ces états diffèrent, l’interaction statistique dépend alors du modèle employé, pouvant conduire à des conclusions opposées.

Considérons, par exemple, que l’on s’intéresse à un critère de jugement binaire, tel que « mortalité à 1 an ».

Non traitésTraités
Non exposés30%10%
Exposés60%30%
Taux de mortalité à 1 an selon la présence d’exposition et l’usage d’un traitement spécifique

Pour une différence absolue de mortalité, on peut dire que les non exposés ont une meilleure réponse au traitement (-30% de décès) que les non exposés (-20%). Pour un risque relatif de décès, au contraire, les non exposés ont une réponse moindre (RR = 0.50) aux exposés (RR = 0.33). Pour un odds ratio de risque de décès, c’est à nouveau les non exposés qui ont une meilleure réponse (0.26 vs 0.29). La réponse pourrait encore différer si l’on s’intéressait aux rapport des chances de survie plutôt que des risques de décès. Bien sûr, les hazard ratio conduisent encore à des conclusions différentes.

Est-ce vraiment si important que ça ? De toute façon, les deux groupes, exposés et non exposés, bénéficient chacun du traitement et ces deux groupes ne sont pas comparables de toute façon. Au final, à quoi sert-il de comparer leur réponse ? Il pourrait finalement être plus sage de juste comparer leur pronostic sous traitement ou de ne rien comparer du tout.

Là où il est crucial d’identifier des facteurs de réponse au traitement, c’est lorsque certains sous-groupes ne répondent pas du tout, voire pire, ont une réponse négative au traitement (interaction qualitative). Dans ces situations, la statistique d’analyse de l’effet du traitement n’importe pas, puisque toutes tendront à la même conclusion.

On peut aussi s’interroger sur la pratique consistant à tenter de prouver l’homogénéité de l’effet d’un traitement dans divers sous-groupes en formulant une hypothèse nulle d’absence d’interaction, puis en acceptant cette hypothèse après réalisation d’un test statistique sous-puissant. Comme précédemment décrit, les interactions quantitatives, consistant à des effets plus ou moins forts du traitement selon les sous-groupes, sont bien moins préoccupantes que les interactions qualitatives; mieux vaudrait juste prouver l’existence d’un effet positif du traitement dans chacun des sous-groupes plutôt que de comparer les effets entre eux ; mais cette méthode mettrait en évidence l’incapacité à conclure sur certains sous-groupes en situation de sous-puissance statistique plutôt que de fournir une confortable acceptation de l’hypothèse nulle en situtation de sous-puissance majorée.

Sur ce, je vous laisse méditer…

Choix du critère de jugement

Incorporation de l’exposition dans le critère de jugement

À la troisième observation d’une même erreur méthodologique, dans mon expérience personnelle, je considère qu’un problème existe. Cela ne permet pas d’en évaluer la fréquence, mais cela veut dire qu’il vaut peut-être la peine de la mentionner.

Un critère de jugement principal ne doit pas être confondu avec l’exposition. Considérons une maladie évoluant sous forme de poussées plus ou moins récurrentes ou sous forme permanente pour laquelle on obtient assez souvent une réponse complète à moyen terme, avec disparition complète des symptômes, avec le traitement de référence. On compare dans un essai clinique randomisé en ouvert le traitement de référence A au traitement innovant B plus ou moins combiné au traitement A, selon le souhait du médecin. Considérons pour critère de jugement principal la « réponse complète off therapy » définie par l’absence de symptômes combinée à l’interruption totale du traitement de référence A. Le critère de jugement principal comprend, dans sa définition, l’exposition au traitement A ! On peut alors conclure que les sujets randomisés dans le groupe A vont prendre généralement le traitement A, alors que les sujets randomisés dans le groupe B±A vont le prendre moins souvent.

Afin de ne pas faire cette erreur, je vous conseille deux stratégies.

  1. D’abord, systématiquement vérifier que votre critère de jugement n’incorpore pas l’exposition
  2. Ensuite, considérer le scenario virtuel où on comparerait le traitement à lui même mais en version de couleur différente (comprimé rouge versus bleu, identique en principe actif), afin de vérifier que le traitement ne montrerait pas sa supériorité à lui-même

Critère de jugement différent selon le groupe

J’ai observé ce problème à la fois dans une étude non publiée et dans une étude publiée.

Étude publiée dans le JAMA

Pour commencer, Salminen et al, 2015 (https://dx.doi.org/10.1001/jama.2015.6154) présente un essai clinique randomisé comparant la chirurgie à l’antibiothérapie dans le traitement de l’appendicite aiguë non compliquée. Dans le groupe chirurgie, le succès (critère de jugement principal) est défini par le fait que le patient a été opéré (taux attendu de succès ~= 100%) alors que dans le groupe antibiotiques il est défini par le fait que le patient n’a pas été opéré ! La non-infériorité devait être démontrée avec une marge de -24% pour les antibiotiques vs chirurgie.

Le succès du groupe chirurgie est, par définition, un échec du groupe antibiotiques et vice versa ! Si on comparait la chirurgie à elle même, on arriverait aisément à la conclusion que la chirurgie est très largement inférieure à elle même (0% vs 100% de succès) tout en étant très largement supérieure à elle même (100% vs 0% de succès).

On peut d’ailleurs se demander comment on peut ne pas avoir 100% de succès de la chirurgie ! Outre les décès per-opératoires (très rares pour une appendicite aiguë non compliquée) il y a les annulations opératoires pour l’analyse en intention de traiter. Cela conduit à la mention « The patient randomized to appendectomy who did not have an operation had resolution of symptoms before the operation could be performed ». Peut-être était-ce juste un patient bien constipé pour lequel on a fait une erreur diagnostique ? Je ne suis pas sûr que le patient considère lui-même que c’est une évolution défavorable de sa maladie, par contre, c’est peut être une évolution défavorable des finances du chirurgien s’il travaille dans le secteur privé.

Étude non publiée

Plusieurs stratégies thérapeutiques étaient analysées, dans une optique de désescalade thérapeutique de la chimiothérapie anti-cancéreuse. Dans un sous-groupe bien spécifique les patients étaient randomisés en un groupe d’abstention thérapeutique alors que l’autre groupe bénéficiait d’une chimiothérapie. Le critère de jugement principal était la survie sans rechute dans le groupe avec chimiothérapie et de la survie sans re-progression après rechute dans le groupe d’abstention thérapeutique. C’est-à-dire que dans le groupe chimiothérapie, on mesure le délai avant une première rechute, alors que dans le groupe d’abstention thérapeutique on attend la première rechute avant de mesurer le délai entre la première et la seconde rechute.

Encore une fois, si on comparait la chimiothérapie à elle même, on trouverait une différence, parce qu’il n’y a pas de raison que le délai avant première rechute soit identique au délai entre première et seconde rechute.

Pondération d’un modèle à effets mixtes

Les modèles à effets mixtes sont très largement utilisés, mais la statistique qu’ils estiment n’est pas forcément correctement interprétée. Alors que tous les statisticiens connaissent l’interprétation de la médiane ou la moyenne, on parlera plutôt d’effet dans un modèle à effets mixtes sans forcément savoir ce que ça représente.

Pour aider à l’interprétation et au choix des statistiques, je vous propose de partir de deux exemples de mesures répétées très simples.

1er exemple : paires de jumeaux

Supposons qu’on souhaite évaluer les conséquences de la grande prématurité (< 32 semaines d’aménorrhée) sur le développement psychomoteur de l’enfant. On comparerait alors, certains outcomes de développement psychomoteur, entre enfants prématurés et non prématurés.

Plusieurs problèmes statistiques apparaissent:

  1. L’exposition (prématurité ou non) des jumeaux est parfaitement corrélée (R=1) puisque le terme de naissance est la même pour les deux jumeaux d’une paire (sauf rare exception)
  2. Le devenir des jumeaux est aussi corrélé, car ils partagent très fortement leur environnement pré-natal et post-natal et partagent plus ou moins fortement leur génôme
  3. Il existe une corrélation forte entre la gémellarité et la prématurité; c’est-à-dire, qu’un plus grand nombre de jumeaux sera retrouvé dans le groupe prématuré
  4. À prématurité égale, le devenir psychomoteur moyen d’un enfant pourrait différer selon que la grossesse soit gémellaire ou pas. Une prématurité à 31 SA chez des jumeaux peut être principalement attribuable à la gémellarité alors qu’elle sera plus souvent due à d’autres comorbidités (p.e. macrosomie, RCIU, anomalies congénitales) dans des grossesses simples. Ainsi, il existe potentiellement une corrélation entre la taille du cluster et son devenir.

Néanmoins, avant de nous concentrer sur tous ces problèmes, considérons que nous souhaitons répondre à la question : quelle est la valeur moyenne de l’échelle de développement psychomoteur à l’âge corrigé de deux ans chez les prématurés ?

Pour répondre à cette question, on doit se demander : est-ce que la moyenne porte sur les enfants, avec une paire de jumeaux qui compte pour deux enfants, ou est-ce que la moyenne porte sur les grossesses, avec une paire de jumeaux qui ne compte que pour un ? Dans le premier cas, on ferait la moyenne brute des résultats de tous les enfants, sans prendre en compte le fait que deux enfants peuvent appartenir à une paire de jumeaux. Dans le second cas, on commencerait par faire la moyenne dans chacune des paires de jumeaux, afin de n’obtenir qu’une seule valeur par paire, avant de faire la moyenne de tous les clusters. On peut aussi considérer que, dans le premier cas, on fait la moyenne non pondérée de tous les résultats de tous les enfants, alors que dans le second cas, on fait la moyenne pondérée par l’inverse du nombre d’enfants dans la grossesse.

On peut donc résumer la question à : est-ce que les deux jumeaux d’une même grossesse comptent pour deux ou ne comptent que pour un ?

Même si la réponse à cette question peut sembler difficile au premier abord, elle ne fait pas de doute pour moi. Que des séquelles graves soient retrouvées chez deux singletons issus de deux grossesses différentes ou alors qu’elles soient retrouvées chez deux jumeaux issus d’une même grossesse, le handicap populationnel conséquent est le même. Les deux jumeaux sont deux individus distincts dont la valeur de la vie compte tout autant que celle de deux individus différents. La pondération par un-demi des jumeaux supposerait que la valeur de la vie des jumeaux est deux fois moins importante que celle des singletons. La réponse, pour moi est claire: deux jumeaux comptent pour deux.

Cette distinction entre les deux moyennes revêt une grande importance à cause des problèmes N°3 et N°4 évoqués ci-dessus. En effet, à cause de ces problèmes, l’espérance d’une moyenne ou d’une diffférence de moyennes diffère selon le choix de la pondération.

2ème exemple : calendrier de symptômes

Je pars d’un exemple réel. Un essai clinique randomisé sur un traitement de l’incontinence fécale. L’objectif étant d’obtenir une diminution de la fréquence des épisodes d’incontinence de selles et d’impériosités, le critère de jugement principal est basé sur le remplissage d’un calendrier, rempli quotidiennement sur 21 jours consécutifs après trois mois de traitement. Avec 21 mesures par sujet, on atténue la variance intra-sujet. On peut raisonnablement supposer que sur la période de mesure, l’état des patients sera en moyenne stable. Néanmoins, on peut craindre que certains patients ne remplissent qu’à moitié le calendrier (pe. les 10 premiers jours de la période d’évaluation), parce que le remplissage est répétitif et ennuyeux. On peut aussi craindre que ce remplissage partiel soit corrélé à la fréquence et la sévérité des symptômes.

On retrouve donc jusqu’à 21 données par patient, corrélées les unes avec les autres. La même question que pour le premier exemple se pose : un patient qui a rempli 7 jours de calendrier doit-il compter trois fois moins qu’un patient qui a rempli correctement les 21 jours ? De mon point de vue, la réponse, cette fois-ci est inversée par rapport au premier cas. Il n’y a pas de raison de donner un plus grand poids aux patients ayant entièrement complété le questionnaire qu’aux autres. On peut craindre que leur donner un plus grand poids biaise les résultats si le taux de remplissage est corrélé au contenu du questionnaire. À l’opposé, on peut espérer qu’un remplissage de bonne qualité sur les 7 premiers jours soit déjà représentatif de la période entière, et que finalement, la corrélation entre la durée de remplissage et la valeur moyenne n’ait pas d’impact sur les résultats si on commence par calculer une unique valeur moyenne par sujet avant d’en faire la moyenne sur l’ensemble des sujets.

Synthèse des deux exemples

Nous avons vu que selon la situation, le poids donné aux mesures répétées ne devrait pas être le même. Dans le premier exemple, les clusters de deux jumeaux doivent compter double par rapport aux clusters d’un singleton. Dans le second exemple, les clusters de 21 mesures (1 seul patient) devraient compter le même poids que les clusters de 7 mesures (1 seul patient) plutôt que de compter triple. Dans le second cas, le choix est absolument critique car il est susceptible d’influencer le signe de la différence entre les deux groupes dans le cadre d’un essai clinique randomisé.

Et le modèle linéaire à effets mixtes ?

Comment le modèle linéaire à effets mixtes, avec un intercept cluster aléatoire, se comporte-t-il dans les deux exemples ci-dessus ? Pour simplifier l’exemple, considérons même que l’on ne s’intéresse qu’à calculer la moyenne d’un seul groupe avec un modèle à effets mixtes sans covariable (intercept seul).

Est-ce qu’un cluster deux fois plus grand compte double ? Ou alors, chaque cluster aurait le même poids ?

La réponse est entre les deux. Ce modèle va être interprétable comme une moyenne pondérée. Un cluster de taille deux comptera plus fortement qu’un cluter de taille un, mais ce ne sera pas le double. Ce sera une valeur intermédiaire entre 1 et 2. Cette valeur intermédiaire dépendra de la force de la corrélation intra-cluster. Si les observations d’un même cluster sont très fortement corrélées, alors le poids sera proche de 1, c’est-à-dire que le poids total d’un cluster sera presque indépendant de sa taille. À l’opposé, si les observations d’un même cluster sont très faiblement corrélées, alors le poids total d’un cluster sera proche du nombre d’observations du cluster.

Reprenons l’exemple des jumeaux (exemple 1). Le modèle à effets mixtes considèrera que la valeur de la vie de deux jumeaux est d’autant plus grande que leur devenir est divergent, faiblement corrélé. À l’opposé, si les deux jumeaux partagent leur évolution, alors leur vie ne compte que pour un. Comme si la valeur d’une vie était proportionnelle à son imprévisibilité. C’est l’aléatoire d’une vie qui en ferait la valeur ! C’est ce qu’elle a d’unique. Je vous avoue que je ne suis pas branché par ce concept de snowflake, mais c’est ce que le modèle à effets mixtes fait dans votre dos quand vous lui faites confiance.

Pour aller plus loin : quels poids donne réellement le modèle à effets mixtes

Pour pousser les choses plus loin encore, dans le premier exemple des singletons/jumeaux (clusters de taille 1 ou 2), l’estimation de moyenne du devenir des enfants prématurés par le modèle à effets mixtes est extrêmement proche de l’estimation que l’on obtient par la procédure suivante:

  1. Calculer la moyenne M1 et son erreur type dans le groupe des jumeaux prématurés (pour que l’erreur type ne soit pas biaisée, on commence par moyenner les deux jumeaux de chaque paire)
  2. Calculer la moyenne M2 et son erreur type dans le groupe des singletons prématurés
  3. Calculer la moyenne de M1 et M2 pondérée par l’inverse de la variance de M1 et de M2 (inverse du carré des erreurs types)

Sur de grands échantillons, la procédure du modèle à effets mixtes converge vers celle de la moyenne pondérée par l’inverse de la variance. J’ai fait quelques simulations pour vérifier ma théorie, et on peut, en première intention, considérer les procédures comme équivalentes tant elles convergent vite.

On comprend alors l’intérêt du modèle à effets mixtes : cette pondération par l’inverse de la variance est la procédure la plus efficace statistiquement (faible variance de l’estimateur) pour faire la moyenne de M1 et M2 sous l’hypothèse que les deux moyennes de la population µ1 et µ2 sont identiques. C’est-à-dire que si la moyenne de la mesure d’un cluster est indépendante de la taille du cluster, la procédure du modèle à effets mixtes est équivalente aux autres procédures en moyenne, tout en étant plus précise statistiquement. Mais dès qu’on s’écarte de cette hypothèse, ça perd toute sa pertinence.

Pour aller plus loin : calculs d’incertitude

Jusqu’à maintenant, je n’ai pas parlé du problème de calcul des intervalles de confiance et petits p. Je me suis concentré sur l’espérance de l’estimateur ponctuel, c’est-à-dire, la statistique qui est vraiment estimée par le modèle. Je me suis concentré là-dessus, parce que je considère que c’est la clé du choix statistique. Malheureusement, je crains que le modèle à effets mixtes soit souvent utilisé en faisant le raisonnement foireux ci-dessous:

  1. La méthode de Student repose sur l’indépendance entre les observations
  2. À cause de la corrélation des mesures, Student sous-estime la variance et fournit une inférence biaisée
  3. Les modèles à effets mixtes prennent en compte cette corrélation et donc, fournissent une inférence non biaisée
  4. Donc je vais utiliser ces modèles magiques

La faille du raisonnement, c’est que la statistique du modèle à effets mixtes diffère de la statistique de moyenne simple qu’on voulait estimer. On infère sans biais, mais sur la mauvaise cible.

Les calculs d’incertitudes, sont un détail secondaire qu’on résout généralement assez simplement. D’abord, on peut faire du boostrap sur les clusters eux-mêmes. C’est une procédure extrêmement solide, adéquate notamment lorsque les corrélations intra-clusters sont extrêmement complexes. Par exemple, le modèle à effets mixtes à intercept seul fournira des résultats biaisés dans le second exemple (calendrier des symptômes) car il ne prendra pas en compte l’auto-corrélation intra-sujet, c’est-à-dire, le fait que deux jours successifs se ressemblent plus que deux jours distants. On peut aussi utiliser un estimateur sandwich sur un modèle linéaire général pondéré. Enfin, on peut estimer les variances dans les sous-groupes (pe. clusters de taille 1 et 2) puis utiliser les formules VAR(cX)=c²VAR(X) et VAR(X+Y) = VAR(X) + VAR(Y) + 2×COV(X,Y) pour calculer la variance de la moyenne des deux sous-groupes, correctement pondérée.

Conclusion

Je pense qu’au lieu de se concentrer sur des modèles, c’est-à-dire, un ensemble d’hyptohèses sur les processus de génération des données et la forme des relations, on devrait raisonner en termes de statistique : quelle valeur synthétique représente le mieux ce qui m’intéresse. Ce n’est qu’après avoir défini cette statistique que les problématiques d’échantillon fini doivent être considérés : rectification des biais d’estimateur ponctuel et calcul des incertitudes.

Il est parfois nécessaire de reposer sur des modèles, mais les conséquences de la violation des hypothèses sous-jacentes, qui est systématique, doit être connue afin de pouvoir interpréter correctement les résultats.

Calulatrices graphiques

Un petit billet sur le marché étonnant des calculatrices graphiques en 2021. Le marché orbite autour des épreuves et concours, tels que le baccalauréat en France. Les constructeurs adaptent leurs modèles au programme et aux réglementations, tels que l’obligation du mode examen (https://calculatrice-scientifique.eu/mode-examen-concours/) ou l’ajout du langage Python dans les derniers modèles. Le marché est très large, puisque rien qu’en France, environ 750 000 candidats passent le baccalauréat chaque année. Même s’il existe des spécificités nationales, les constructeurs utilisent les mêmes modèles partout dans le monde. Casio, Texas Instruments et Helwet Packard sont les principaux constructeurs.

Le prix de ce matériel, généralement compris entre 70 € pour l’entrée de gamme et 160 ou 170 € pour le haut de gamme, est-il justifié?

Pour ce faire, nous allons comparer les modèles les plus répandus sur le marché Français.

Description du matériel

ModèlePrix (TTC)MicroprocesseurDMIPSFPURAMFlashÉcranPériphériques additionnels
Raspberry pi zero~ 10 €BCM2835 1 Ghz
ARM11 32 bits
1130Oui512 Mo LPDDR2microSD requis
~ 6-7€ pour 16 Go
NonemicroSD
HDMI
GPIO
USB
Wiko Y51 60 €SC7731E
4 Cortex-A7 1.3 Ghz
9880 (multi-core)Oui1 Go8 Go960×4802×5MP camera
Wifi 802 b/g/n
Bluetooth
GSM 2G/3G+
accéléromètre
capteur de lumière
écran capacitif
Carte son
GPS
USB
microSD
Radio FM
TI 82 Advanced~ 70 €Z80 15Mhz
8 bits
0.61Non48 Ko SRAM1 Mo96×64
monochrome
Clavier
USB
Ti 83 premium CE~ 80 €eZ80 48 Mhz
8 bits
7.8Non256 Ko SRAM4 Mo320×240Clavier
USB
Ti Nspire CX II-T CAS~ 150€ARM926EJ-S
396 Mhz
436Oui 64 Mo100 Mo320×240Clavier USB
Casio Graph 35+E II
(fx-9860GIII)
~ 90€SH7305
59 Mhz
106.2Non?? Mo
61 Ko utilisateur
8 Mo128×64
monochrome
Clavier
USB
Casio Graph 90+E
(fx-CG 50)
~ 90 €SH-4A SH7305
117.96 Mhz
212.3Non8 Mo
61 Ko utilisateur
32 Mo396 × 224Clavier
USB
HP Prime G2~165€Cortex A7
528 Mhz
1003Oui256 Mo512 Mo320×240Clavier
USB
NumWorks~ 80 €STM32F730V8T6
Cortex M7
216 Mhz
462Oui256 Ko SRAM8 Mo320×240Clavier
USB

Le tableau ci-dessus décrit divers types de calculatrices ainsi que deux autres matériels: le Raspberry pi zero, un micro-ordinateur vendu sans périphérique (ni écran, ni clavier) et le Wiko Y51, un smartphone Android d’entrée de gamme. Les DMIPS représentent une estimation des performances au benchmark Dhrystone, reflétant les capacités de calcul du microprocesseur. Ces DMIPS ont été critiqués pour être des micro-benchmarks, basés sur une petite quantité de données et de code. Cela va tendre à sous-estimer l’écart entre les processeurs les plus puissant et les moins puissants. Ainsi, le processeur du Raspberry pi zero, avec 1130 DMIPS n’est pas 1130/7.8 = 145 fois plus rapide que la Ti 83 Premium CE. L’écart est certainement beaucoup plus important pour des programmes non triviaux. En réalité, la plupart des applications que l’on fera fonctioner sur un Raspberry pi zero ne pourraient jamais être exécutées sur une Ti 83 Premium CE car elles dépasseraient complètement les capacités mémoire maximales du microprocesseur. Il est aussi à noter que les DMIPS ne prennent pas en compte le calcul des nombres à virgule flottante qui sera extrêmement lent sur la Ti 83 Premium CE car entièrement émulé.

Les caractéristiques techniques du Wiko Y51 dépassent très largement tous les modèles de calculatrices les plus onéreux sur absolument tous les aspects techniques : puissance du microprocesseur, mémoire RAM, mémoire Flash, écran et connectivité. En comparaison à une Ti 82 Advanced, elle a 21845 fois plus de mémoire RAM, un écran qui comporte 75 fois plus de pixels, 8192 fois plus de Flash et un microprocesseur dont les performances sont incommensurables. Son prix est pourtant inférieur.

Du fait de l’absence d’unité de calcul à virgule flottante (FPU), la Ti 83 premium CE doit émuler les nombres à virgule avec les additions et soustractions 8 bits, et utilise une représentation numérique particulièrement peu précise, avec une mantisse de 22 bits, inférieure aux 24 bits d’un FP32 IEEE-754. En bref, cette calculatrice n’est même pas bonne à faire des calculs numériques.

Qu’est-ce qui pourrait justifier ce prix démesuré ?

On ne demande pas forcément d’une calculatrice d’égaler les performances d’un smartphone, mais pourquoi le prix n’est-il pas en rapport avec le matériel ?

Il ne s’agit pas du volume de ventes. Le marché des calculatrices graphiques est très grand, en raison de leur utilité aux examens et concours. C’est un marché international, avec un faible nombre de modèles, puisque Casio, Texas Instruments et Helwet Packard ne vendent chacun que quelques modèles différents. Helwet Packard ne vend plus qu’un seul modèle (HP Prime) alors que Casio vend presque le même matériel à différents prix afin de créer artificiellement une gamme. En comparaison, le Wiko Y51 doit tailler sa place dans un marché encore plus large mais très fragmenté, parmi des milliers de modèles Android différents.

Pourrait-il s’agir du coût du logiciel ? Cela est difficile à dire car les coûts de développement ne sont pas communiqués. Helwet Packard a probablement eu des frais minimes puisqu’il a repris du logiciel libre : FreeRTOS pour le système d’exploitation et GiCalc/Xcas pour le logiciel de calcul formel. Les quelques applications supplémentaires (Classeur, Statistiques) sont triviales à développer. Il est possible que le coût de développement de Texas Instruments soit bien plus élevé, car le microprocesseur Z80 est extrêmement ancien, sous-performant et oblige probablement les ingénieurs à programmer en assembleur en raison des limites de mémoire de la Ti 82 et la Ti 83. Étant donné que le processeur et le logiciel ont faiblement évolué depuis la Ti 81 commercialisée en 1990, il y a quand même trente ans d’amortissement. On remarquera que ce microprocesseur existe depuis 1976 et a représenté, avec le 6502, l’un des deux microprocesseurs 8 bits les plus vendus des années 1980. Le logiciel de Casio évolue aussi lentement, toujours basé sur le Casio Basic qui ne gère que 28 variables nommées de A à Z, plus rho et theta.

Le travail principal des constructeurs semble être la veille réglementaire et des programmes des examens de l’enseignement secondaire des différents pays. Il existe aussi un travail de démarchage auprès des enseignants, qui ont toujours le dernier modèle avant les autres.

Au total, il est probable que les marges bénéficiaires soient très importantes. Cela est d’autant plus problématique qu’il s’agit d’un marché forcé, avec des lycéens, ou plutôt leurs parents, de toute catégorie sociale devant acheter un instrument qui ne servira probablement plus une fois les examens passés.

On peut aussi craindre que cela amplifie les inégalités sociales, en raison d’une gamme de modèles, plus ou moins perfectionnés. Les plus riches pourraient acheter les modèles avec les fonctions les plus avancées, qui leur donnerait un avantage. Ce phénomène pourrait avoir été aggravé par le mode examen, supprimant les options de programmation permettant de débrider les modèles bas de gamme pour leur offrir des fonctionnalités équivalentes aux modèles haut de gamme.

Visite index et cohortes rétrospectives

Problématique

La méthodologie des cohortes rétrospectives n’est presque jamais détaillée dans les articles et pourtant elle est essentielle. Si on s’intéresse, par exemple, au pronostic d’une maladie après diagnostic, on voudra inclure les sujets au moment du diagnostic. Si la recherche s’effectue dans des dossiers médicaux électroniques, les patients atteints de la maladie seront identifiés par une donnée structurée ou non structurée, tel qu’un code diagnostic, le résultat d’un examen biologique ou des mots-clés dans le texte. Il est aussi possible de se baser sur une combinaison de plusieurs éléments (pe. code diagnostic OU biologie). Cette étape conduira à la pré-sélection d’un ensemble de dossiers qui seront ensuite relus, afin de confirmer le diagnostic et les critères d’inclusion.

Trois dates peuvent alors être définies pour chaque sujet:

  1. La date de diagnostic de la maladie (ou date de début des symptômes si c’est ça qui nous intéresse)
  2. La date de la première visite présente dans le dossier médical du centre (ou des centres pour les cohortes multicentriques)
  3. La date index, c’est-à-dire, la date du premier document qui a permis à ce patient d’être pré-sélectionné. Si c’est la combinaison de plusieurs documents (pe. dosage biologique + code diagnostic), alors c’est la date à partir de laquelle les documents sont suffisants pour que le patient ait été pré-sélectionné.

Ces trois dates peuvent différer. Un patient transféré d’un autre centre pourra avoir une date de diagnostic antérieur à la date de la première visite du centre de l’étude. Selon la méthode de pré-sélection, la première visite du centre de l’étude pourra ne pas être identifiée par les codes ou mots-clés recherchés alors qu’une visite ultérieure le sera.

Une erreur méthodologique très fréquente consiste à analyser le pronostic à partir de la date de diagnostic, sans tenir en compte du biais de temps immortel (immortal time bias) induit par le délai entre la date de diagnostic et la date index. Ce phénomène est caricatural si le critère de jugement est la survie globale. Tout sujet décédé avant la date index sera exclu car il ne sera pas pré-sélectionné. S’il y a toujours un intervalle de deux ans entre le diagnostic et la date index, alors on n’observera aucun décès les deux premières années suivant le diagnostic puisque tous les sujets décédés auront été exclus !

Le biais persiste, dans une moindre mesure, si on se base sur la date de la première visite plutôt que la date de diagnostic. Le suivi, en réalité, débute à la date index.

Solutions

Comment peut-on alors correctement modéliser la survie avec les modèles de survie non paramétriques ou semi-paramétriques habituels (Kaplan-Meier et Cox) ?

Date de diagnostic comme baseline

La stratégie idéale, si elle est faisable, consiste à prendre la date de diagnostic comme date de début de suivi mais appliquer une troncature à gauche jusqu’à la date index dans le modèle de survie. Cette troncature à gauche est une fonction assez méconnue. Plutôt que de juste considérer que chaque patient est suivi à partir de T0 jusqu’à une date des dernières nouvelles, faisant alors sortir le sujet de la cohorte, on considère qu’il existe une date des premières nouvelles et une date des dernières nouvelles. Le sujet entre dans la cohorte aux premières nouvelles et en sort aux dernières nouvelles. Le nombre de sujets à risque peut alors croître puis décroître, puisqu’il y a des gagnés de vue et des perdus de vue. Cette méthode permet de conserver la forme de la courbe de survie originale, en reposant sur l’hypothèse d’entrée et de sortie de la cohorte au hasard, ou, du moins, pour des raisons non corrélées à l’outcome.

Méthode landmark

Cette stratégie a une limite: elle nécessite qu’un nombre suffisant de sujets ait une date index égale à la date de diagnostic, sinon, dans le pire des cas, on commencera par un estimateur de Kaplan-Meier à 0/0, ce qui rendra impossible toute estimation de courbe de survie. Si la majorité voire la totalité des sujets ont un écart important entre la date de diagnostic et la date index (pe. 1 an), on peut comprendre que l’évolution initiale est impossible à connaître. On doit alors renoncer à la comparaison sur la période initiale de la courbe de survie. On peut utiliser la méthode landmark, qui consiste à redéfinir la baseline, c’est-à-dire, le T0 de la courbe de survie, au diagnostic+constante tel qu’un an après le diagnostic. Au nouveau point de départ, tous les sujets auront la même ancienneté de la maladie. Ils seront suffisamment nombreux pour que le tracé de la courbe soit possible. Tout sujet ayant eu l’événement avant le landmark sera exclu (censure à gauche).

Date index comme baseline

Une stratégie alternative consiste à définir la baseline (T0 de la courbe de survie) comme la date index. Cette méthode fournit la meilleure précision statistique, car garantit un échantillon de taille maximale à T0. Par contre, cette méthode fournit des courbes de survie d’allure exponentielle quand bien même ça ne reflète pas du tout l’évolution de la maladie. En mélangeant tous les stades d’ancienneté de la maladie à baseline, le rythme d’apparition des événements devient une moyenne des risques associés à chaque ancienneté. Par exemple, l’ataxie spinocérébelleuse de type 2 est une maladie neurologique dégénérative d’évolution progressive lente mais inexorable. La figure 1 de l’article « Prediction of Survival With Long-Term Disease Progression in Most Common Spinocerebellar Ataxia » (doi: 10.1002/mds.27739, PMID: 31211461) décrit une survie globale de 97.8% à 10 ans, 78% à 20 ans, 31% à 30 ans et 11.2% à 40 ans. Ainsi, la mortalité précoce (< 10 ans) est négligeable alors l’issue fatale survient majoritairement entre 15 et 35 ans. On observe pourtant des courbes très différentes sur la figure 1 de l’article intitulé « Survival in patients with spinocerebellar ataxia types 1, 2, 3, and 6 (EUROSCA): a longitudinal cohort study » (doi: 10.1016/S1474-4422(18)30042-5, PMID: 29553382). Le taux de survie à 10 ans du l’ataxie spinocérébélleuse de type 2 est environ de 73%, avec un rythme de décès semblant assez constant sur les 10 années de suivi. Cela est explicable par un T0 correspondant à la date index, et concernant des cas prévalents d’ancienneté très variable. Le rythme de décès est alors égal à la moyenne des rythmes de décès de toutes les anciennetés, pondérée par la prévalence des anciennetés. Cette attitude peut néanmoins se défendre pour les situations où l’évolution est peu dépendante de l’ancienneté, c’est-à-dire, correspondant à des courbes de survie d’allure exponentielle.

Méthodes paramétriques ?

Éventuellement, on pourrait aussi utiliser la loi de Weibull pour compléter le début du suivi mal connu.

Généralisation des concepts

La distinction entre date de début des symptômes et date de diagnostic peut parfois avoir une importance (pe. syndrome démentiel) et c’est souvent la date de début des symptômes qui importe le plus, avec néanmoins des problèmes de difficulté à mesurer la date de début des symptômes.

Même s’il est fait référence au dossier médical informatisé, les problèmes décrits dans ce billet sont tout aussi applicables aux dossiers papiers, pour lesquels il existe des documents ou source de données index. Il est aussi généralisable aux registres. Il est enfin généralisable aux cohortes prospectives incluant des cas prévalents, pour lesquels la visite index sera généralement la visite d’inclusion.

Concept apparenté, l’anti-cohorte ou cohorte inversée

Ne cherchez pas ce concept dans la littérature scientifique, vous ne l’y trouverez pas. Le terme de cohorte inversée ou anti-cohorte est une invention de l’auteur de ce blog. Il s’agit d’une méthodologie à classer dans la sémiologie fongique des études, c’est-à-dire, un exemple de ce qu’il ne faut pas faire. Plutôt que de sélectionner les sujets nouvellement diagnostiqués sur une période donnée (pe. entre 2010 et 2019) et de les suivre jusqu’à survenue d’un événement ou censure administrative à une date de point (pe. 31 décembre 2019), la cohorte inversée sélectionne les sujets sur la présence d’un événement sur une période récente (pe. 2018-2019), puis on remonte le dossier médical jusqu’à la visite la plus ancienne du dossier médical (pe. 2000-2019) et on l’analyse comme si le sujet avait été sélectionné sur cette première visite.

Le taux de survenue d’événement atteint alors 100%. Cela ressemble à une méthodologie cas-témoin dans laquelle il n’y aurait que des cas. Malheureusement, le fichier de données se présente comme celui d’une cohorte et un statisticien non au fait de la méthodologie de sélection employée pourrait alors l’analyser comme s’il s’agissait d’une cohorte ordinaire. Les sujets dont la date de première visite est récente auront alors une survie avant événement raccourcie.

Une variante de cette cohorte inversée est la sélection de la « file active » des patients (pe. ayant eu une visite entre janvier et décembre 2019) qu’ils aient eu ou non l’événement d’intérêt, puis de remonter jusqu’à la première visite du dossier médical (pe. jusqu’à l’an 2000 pour certains patients). La visite index est alors en 2019, avec une forte représentation des cas prévalents. Même si certains événements peuvent survenir après la date index (pe. date index en février 2019 et événement en septembre 2019), si on utilise la date de première visite comme baseline du suivi, on aura une période d’immortalité extrêmement longue et un très faible nombre d’événements au total. Toute variable positivement corrélée à la date de première visite sera corrélée négativement corrélée au délai avant survie.

Prospectif vs rétrospectif

Savez vous ce qu’est une étude prospective ? Ce terme est souvent employé dans la littérature médicale, mais rarement défini. Nous allons tenter de montrer les différents sens qu’il peut revêtir et les problématiques associées.

Je vais schématiquement distinguer:

  • Donnée prospective ou rétrospective
  • Protocole prospectif ou rétrospectif
  • Analyse prospective ou rétrospective

Lorsque les trois sont prospectifs, l’étude est clairement prospective, autrement, c’est matière à discussion, sans compter les études qui ont les deux versants sur un ou plusieurs aspects.

Donnée prospective

Pour faire simple une donnée prospective, est une donnée enregistrée de manière synchrone à la réalité qu’elle représente. Si, par exemple, en 2022, on décide de fouiller des dossiers médicaux de nutrition de 2010 à 2020, et que l’on enregistre tous les poids qui ont été mesurés sur la balance de la salle de consultation et notés dans le dossier médical, la donnée est prospective. À l’opposé, si, en 2022, on appelle les patients pour leur demander quel poids ils pesaient, environ, à l’époque (2010 à 2020), alors la donnée est rétrospective, avec un fort biais de mémorisation possible.

Considérons maintenant un patient qui décrit une perte de poids de 5 kg sur les 3 derniers mois durant une consultation en avril 2015. Il dit que son poids en janvier était de 68 kg et qu’il pèse maintenant 63 kg. Enfin, un protocole d’étude sur dossier médical est créé en 2021, et, le 8 février 2022, un interne en médecine fouille les dossiers médicaux et recopie ces données dans une base de données de la recherche, structurée.

Janvier 2015 est la date de mesure, Avril 2015 est la date d’enregistrement de la donnée, maintenant figée dans un dossier médical et février 2022 est la date de collecte de la donnée. Une donnée est prospective si la date de mesure et la date d’enregistrement sont identiques.

On peut encore distinguer deux cas de figures. Selon les situations, une donnée peut être enregistrée de manière systématique ou pas. Dans les dossiers médicaux usuels, aucune information n’est vraiment obligatoire, et les données manquantes seront généralement très nombreuses, même sur des variables particulièrement importantes. Dans les registres ou les grandes « cohortes prospectives », on mettra un soin tout particulier à enregistrer de manière systématique, certaines variables. Il existera alors une base de données structurée et des instructions précises pour que les responsables du registre ou de la cohorte enregistrent les données de manière systématique et standardisée. La liste des données systématiquement enregistrées ne sera pas forcément basée sur des objectifs de recherche précis; ceux-là étant éventuellement définis dans des protocoles de recherche ultérieurs.

On comprend alors que la valeur des données n’est pas la même dans le cas de registres avec une tentative d’enregistrement systématique et dans les dossiers médicaux emplis de données manquantes. Je distinguerai les deux cas de figure, en parlant d’enregistrement actif ou d’enregistrement passif. Je parlerai alors de donnée prospective active ou de donnée prospective passive. Il est aussi possible de parler de donnée rétrospective active lorsqu’une question soumise à un biais de mémorisation est systématiquement demandée au patient (pe. quel était votre poids de forme?).

Protocole prospectif

Un protocole de recherche sera dit prospectif, s’il est réalisé avant que la moindre donnée de la recherche ne soit enregistrée. On pourra néanmoins rédiger un protocole de recherche en 2021 pour questionner des patients sur leur vécu du premier confinement de COVID-19 en France de mars à mai 2020. Par exemple, ont-ils consulté un médecin au moins une fois sur cette période ? La donnée sera rétrospective active, soumise à un biais de mémorisation, mais le protocole sera prospectif, car la nature et la méthode d’enregistrement de ces données, ainsi que leur analyse, aura été décidée avant de débuter le premier enregistrement.

À l’opposé, on pourra parler de protocole rétrospectif lorsque les données ont déjà été enregistrées avant que l’on réalise le protocole de l’étude. Les données seront colligées dans une base structurée, spécifique au projet de recherche, après que le protocole soit rédigé.

Analyse prospective

L’analyse d’un lien entre une variable d’exposition (chronologiquement antérieure) et un critère de jugement (chronologiquement postérieur), sera dite prospective si la sélection des sujets opère sur la variable d’exposition et que la comparaison du critère de jugement est faite entre les niveaux d’exposition. Dans le cas d’une exposition catégorielle, on constituera des groupes d’exposition avant de comparer les critères de jugement. C’est typiquement l’analyse que l’on retrouvera dans les cohortes.

À l’opposé, on parlera d’analyse rétrospective lorsque l’on définit les groupes sur le critère de jugement (chronologiquement postérieur) et que l’on compare ensuite les taux d’exposition (chronologiquement antérieur) selon les groupes constitués.

Les cohortes sont alors toujours prospectives alors que les cas-témoins sont toujours rétrospectifs, par leur analyse.

Enfin, une analyse sera transversale lorsqu’elle sera basée sur un ensemble de variables dont les mesures sont synchrones. On remarquera que l’enregistrement de données peut être transversal, c’est-à-dire avec une seule date d’enregisrement par patient, sans forcément que l’analyse ne le soit. Par exemple, dans une étude cas-témoin sur le lien entre nombre d’enfants et risque de cancer du sein, on pourra demander à des femmes avec ou sans cancer du sein (appariées sur l’âge), combien d’enfants elles ont eu. L’enregistrement sera transversal, mais l’analyse sera longitudinale, rétrospective. La donnée de cancer sera prospective alors que la donnée du nombre d’enfants sera rétrospective.

On distinguera donc trois types d’analyses : prospectives, rétrospectives et transversales. Les analyses prospective et rétrospectives sont longitudinales car elles font appel à des mesures applicables à des dates différentes.

Quels biais ?

Une donnée rétrospective sera généralement déclarative et donc soumise au biais de mémorisation, même si l’ampleur de ce biais sera très variable. Une femme mémorise généralement très bien le nombre d’enfants qu’elle a eu, sauf cas de démence avancée.

Une donnée prospective passive souffrira généralement d’un taux de données manquantes élevé, rarement au hasard. Néanmoins, il existe des exceptions. L’histologie d’un cancer opéré sera généralement présente dans le dossier médical du centre dans lequel l’opération a été réalisée, avec un taux de données manquantes très faible, sauf exception liée à des parcours de soins particuliers pour lesquels le compte-rendu anatomo-pathologique se retrouvera ailleurs. Une donnée prospective active pourra avoir une bien meilleure qualité, si des ressources humaines y sont dédiées. Mon expérience personnelle avec certains registres et certaines cohortes prospectives m’a montré que la donnée prospective soi-disant active peut aussi être de qualité bien plus basse que la donnée prospective passive. Il est tout à fait possible d’avoir un taux de données manquantes supérieur à 50% sur la nature d’une chirurgie pour une donnée prospective en anesthésie. Il est alors parfois nécessaire de rectifier les données prospectives actives par des données prospectives passives de bien meilleure qualité.

Enfin, les analyses prospectives, comme celles que l’on réalise dans les études de cohortes seront soumises à des biais d’attrition, attribuables aux perdus de vue, alors que les analyses rétrospectives pourront être soumises à des biais de survie sélective.

Biais de mémorisation atypiques

Je vais vous raconter deux histoires courtes dans ce billet, illustrant des cas assez inattendus, de « biais de mémorisation ».

Premier cas rapporté

Cela concerne une étude avant-après prospective, dont la qualité du recueil de données est discutable. Notamment, la date d’inclusion n’avait pas été renseignée dans le base de données remplie sur tableur Excel. Je dus, suite à une remarque d’un reviewer, retrouver les dates d’inclusions afin d’évaluer l’adhésion au protocole avant-après par les investigateurs : traitement contrôle donné en période avant et traitement expérimental donné en période après. En croisant les identifiants de patients avec la base de données médico-administrative locale, je pus retrouver les dates ! C’est là que je découvris que les périodes fournies dans le manuscrit de l’article étaient complètement fausses ! Le manuscrit précisait que la période avant s’étendait de novembre 2016 à janvier 2017 et que la période après s’étendait de février 2017 à avril 2017 alors qu’avec les dates enfin retrouvées, je découvrir que le traitement contrôle avait été donné de septembre à décembre 2016 et le traitement expérimental avait été donné de janvier à mars 2017. Le premier auteur de l’article ne s’en étonna pas : il avait décrit les dates de mémoire, et s’était trompé de quelques mois…

Pour compléter l’histoire, j’ai retrouvé dans mes archives mail la date à laquelle j’ai fait la première analyse statistique de la base de données : mi-mars 2016. Encore une preuve que la fin de la période d’inclusion ne pouvait être en avril !

Second cas rapporté

Ce second cas concerne encore un biais de mémorisation dans une étude prospective, dont l’objectif était d’évaluer la validité d’un questionnaire de qualité de vie, avec une cohorte de cas incidents suivis six mois auquel s’ajoutait un groupe de patients prévalents, ne bénéficiant que d’une seule visite. Il semblerait que les investigateurs aient complètement oublié d’enregistrer le traitement médical prescrit aux patients à baseline. Comme les dossiers médicaux étaient d’une qualité excécrable, il n’était même pas possible de savoir ce qui avait été prescrit. Au final, l’interne en charge du projet appela les patients pour leur demander quel traitement ils avaient pris un an auparavant ! Elle me dit qu’elle ne pouvait pas leur demander la dose parce que là, le biais de mémorisation était trop fort, mais qu’au moins, elle espérait que l’information sur la molécule ne soit pas trop mauvaise. Après réflexion, je crains que pour les cas prévalents l’information soit de particulièrement mauvaise qualité, car ils sont susceptibles d’avoir plusieurs traitements au décours de leur suivi et mémoriser précisément celui qu’ils prenaient il y a un an paraît particulièrement difficile.

Lire entre les lignes : respect des recommandations

Méfiez vous des articles basés sur des échantillons rétrospectifs, sur dossiers médicaux, décrivant que la prise en charge des patients suivait strictement et rigoureusement les recommandations nationales ou internationales, voire paraphrasant les recommandations afin de donner l’illusion qu’elles sont respectées. La seule garantie que l’on puisse avoir sur une étude rétrospective, c’est que les pratiques habituelles des services concernés ont été suivies. Citer les recommandations peut être une solution pour ne pas avouer que l’on est incapable de décrire les pratiques habituelles parce qu’elles n’ont jamais été formalisées. Sur deux manuscrits vantant le fait que certaines recommandations et procédures étaient rigoureusement respectés, que j’ai relus en tant que statisticien ayant participé aux analyses, je peux affirmer que pour tous les deux, c’était faux. Je me suis empressé de corriger les manuscrits, bien entendu, mais beaucoup de statisticiens n’auraient pas relu suffisamment en profondeur les manuscrits pour s’en apercevoir. Dans le premier manuscrit, je connaissais suffisamment le chef de service pour savoir qu’il se vante d’ignorer les recommandations, obsolètes, inadaptées et reposant sur des niveaux de preuve très bas (et je confirme son opinion, puisque j’ai un peu étudié les recommandations moi-même). Cela était aussi confirmé par le nombre énorme de données manquantes sur les examens théoriquement obligatoires selon les recommandations. Dans le second, il était mentionné qu’un examen médical était réalisé systématiquement, dans les méthodes, mais sur environ 110 patients, seulement 2 avaient bénéficié de cet « examen systématique ». Heureusement, cela était visible dans les résultats de l’article.

Ensuite, ce problème peut aussi arriver dans les études prospectives. Sur l’étude prospective que j’ai relue qui détaillait le plus la prise en charge, j’ai constaté que l’adhésion des investigateurs au coeur de ce protocole avant-après, c’est-à-dire donner l’intervention Contrôle en période avant et l’intervention Expérimentale en période après, était particulièrement basse: < 80% sur l’ensemble de létude et < 30% les deux derniers mois de l’étude. Sur cette base, il me paraît difficile de s’assurer du respect des recommandations décrites dans des niveaux de détails extrêmes (y compris les situations atypiques), alors qu’aucune variable recueillie ne permettait d’évaluer l’adhésion à ces recommandations.

Ce que je retiens de ces cas rapportés, c’est que pour s’assurer de la conformité d’une pratique à des recommandations, il est nécessaire de collecter les variables permettant d’évaluer l’adhésion à ces pratiques. Tant que je n’ai pas ces variables, en tant que statisticien, j’aurais toujours un grand doute quant à l’adhésion. Je vous conseille aussi de vous méfier des articles qui citent moults recommandations dans les méthodes, vantant leur respect, sans décrire la moindre variable, dans la section des résultats, permettant de vérifier ces dires.

Études compétitives

Petite anecdote courte aujourd’hui, dans la thématique « ce qui n’est pas dit dans la méthodologie d’un article ». Dans nos Centres Hopistaliers Universitaires, de nombreuses études prospectives sont menées chaque jour. Parfois deux études portant sur un profil de patient proche recrutent en parallèle. Les patients ne pourront généralement pas être inclus dans les deux études en même temps, car leurs protocoles respectifs seraient susceptibles d’interférer. Cela pourra parfois engendrer un biais de sélection majeur, dépendant de la combinaison des critères d’inclusion des deux études.

Pour l’exemple, à Rouen, deux études incluent des patients atteints de syndrome de l’intestin irritable (SII). Cette maladie comporte trois formes cliniques distinctes : avec diarrhée, avec constipation, ou avec alternance des deux. La forme diarrhéique est la plus fréquente. La première étude exigeant des patients la forme diarrhéique (critère d’inclusion), l’inclusion des patients y est plus difficile que dans la seconde, qui inclue pratiquement le SII tout venant. En conséquence, presque tous les patients avec forme diarrhéique sont inclus, par les investigateurs, dans la première étude. La seconde étude se retrouve alors avec seulement quelques patients diarrhéique présentant des critères d’exclusion à la première étude. Cette seconde étude a alors un biais de sélection majeur, sous-représentant les formes diarrhéiques et les rendant non comparables aux autres formes, car elles sont associées à des critères d’exclusion de la première étude.