Faut-il des petits p dans le tableau 1 d’un essai clinique randomisé ?

Introduction

Le tableau 1, dans les essais cliniques randomisés, décrit généralement les caractéristiques initiales des deux groupes randomisés. Âge, sexe, état général, comorbidités, sévérité de la maladie d’intérêt. Les grandes revues, telles que je New England Journal of Medicine présentent généralement les caractéristiques sous forme d’un tableau avec une colonne par groupe de randomisation. Il arrive, dans d’autres revues, que des comparaisons statistiques soient faites entre les deux groupes sous forme d’une dernière colonne de petits p. Quelle présentation est la plus pertinente ?

Résumé

Un petit p entre 0.01 et 0.05 n’a aucune valeur. Un petit p à 10^-9 prouve un écart au protocole de randomisation et est donc fortement informatif. Les petits p sont donc utiles s’ils sont bien interprétés. Afin d’éviter une surinterprétation d’un petit p entre 0.01 et 0.05 par un lecteur mal avisé ou un selective reporting d’auteurs qui souhaiteraient dissimuler un écart au protocole, le compromis du NEJM est optimal : fournir les caractéristiques des patients dans chaque groupe, mais ne pas faire de test statistique formel tout en permettant au lecteur avisé de réaliser ces tests a posteriori.s

Argumentaire détaillé

Dans les études observationnelles, on présente ce tableau avec des petits p afin de « montrer » la « comparabilité » des groupes. Je ne m’étendrai pas trop sur les études observationnelles mais traiterai essentiellement du cas des essais cliniques randomisés.

L’argument pour défendre l’absence de présentations des petits p est le fait que, par principe, toute différence observable entre les deux groupes est due au hasard, cela étant garanti par le processus de randomisation. Ainsi, par exemple, une différence d’âge conduisant à un petit p à 0.01 entre les deux groupes, est entièrement due à des fluctuations d’échantillonnage et même si cela désavantage un des deux groupes, cela n’affecte pas l’espérance de la statistique finale. Cela reflète de l’erreur aléatoire d’espérance nulle, pas du biais. Ceux qui veulent réduire cette erreur aléatoire peuvent préalablement spécifier dans le protocole un ajustement sur des facteurs pronostiques majeurs ainsi qu’une stratification de la randomisation sur ces mêmes facteurs (les limites en ont déjà été discutées dans ce blog). En conséquence, le garant de la comparabilité initiale des groupes est le processus de randomisation et aucunement la non-significativité des petits p à baseline. Donc, les petits p ne servent pas à savoir si les groupes sont comparables à baseline.

Il y a encore un autre problème avec la validité statistique des petits p dans le tableau 1. Dès que la randomisation est stratifiée sur un facteur, l’équilibre du facteur entre les deux groupes est garanti comme presque parfait, de telle sorte que les tests usuels (chi², Student), fournissant des petits p uniformes entre 0 et 1 en cas de randomisation simple, auront tendance à fournir des petits p très proches de 1. D’un point de vue strict, les tests employés sont statistiquement erronés.

Ensuite, le problème de multiplicité des tests existe. Souvent il y a 10 ou 20 caractéristiques présentées, et donc 10 ou 20 tests. Il est donc tout à fait attendu d’avoir un ou deux petits p inférieur à 0.05 dans ce tableau, en conditions tout à fait ordinaires, sans la moindre malchance.

Enfin, aussi bien dans les études observationnelles que randomisées, il y a un problème à réaliser un test de différence lorsqu’on souhaite montrer l’équivalence. Ce problème est caricatural dans les études observationnelles de toute petite taille pour lesquelles des différences énormes sont observées dans les groupes et on conclut que les deux groupes ont les mêmes caractéristiques dans les populations dont elles sont tirées puisque les différences peuvent être expliquées par le hasard. Néanmoins, cela ne prouve pas qu’elles SONT expliquées par le hasard. D’un point de vue fréquentiste, seul un test significatif a valeur de preuve. Échouer à montrer une différence ne prouve pas l’équivalence, notamment lorsque la puissance est presque nulle. Si on veut prouver l’équivalence des caractéristiques des groupes, des tests d’équivalence doivent être réalisés plutôt que des tests de différence.

Néanmoins, c’est là que l’interprétation bayésienne doit intervenir. De mon point de vue, le petit p de différence dans un essai clinique randomisé peut être pertinent à condition de placer le seuil de significativité extrêmement bas (10^-6 pour éveiller le soupçon, 10^-9 pour le confirmer). Il ne faut pas négliger le risque d’écart au protocole de randomisation. La qualité de la randomisation fait partie des éléments à prendre en compte dans la lecture critique d’article, et le tableau 1 peut aider à juger de cette qualité. Ainsi, un investigateur d’un centre où il est le seul à inclure peut aisément tricher dans un essai clinique randomisé en ouvert avec une randomisation par blocs de taille 4 stratifiée sur le centre. En effet, l’aléatoire devient très prévisible. Dès que 4 patients ont été randomisés dans le même bras, l’investigateur sait avec certitude que le patient suivant sera randomisé dans l’autre bras. Avec 3 patients randomisés dans le même bras, il a une forte présomption. Cela peut lui permettre de différer ou annuler l’inclusion d’un patient qu’il ne souhaiterait pas voir dans le bras de randomisation certain ou probable. Cela entraînera un déséquilibre entre les groupes sur certaines caractéristiques telle que la sévérité de la maladie. Il peut aussi y avoir un mauvais respect de l’ITT ou une analyse en per protocol qui exclue plus de patients dans un groupe que dans un autre.

C’est ainsi qu’on peut interpréter des petits p comme des détecteurs à défaut de randomisation. Considérons le seuil de significativité 10^-6 et 20 caractéristiques comparées à chaque essai clinique. Si on considère le risque de grosse triche sur la randomisation à une chance sur 100 (je ne sais pas si la réalité est plutôt à 1/10, 1/100 ou 1/1000) et qu’un quart de ces triches soient suffisamment importantes sur des essais cliniques de suffisamment grande taille pour conduire à une différence significative au seuil 10^-6, alors on s’aperçoit qu’un essai sur 400 (1/400=0.0025) sera un essai avec triche de randomisation et p<10^-6 alors que 99/100×(1-(1-10^-6)^20)=1.98×10^-5 seront un essai clinique sans triche de randomisation mais avec un p<10^-6. En présence d’un petit p<10^-6 la probabilité a posteriori de triche est égale à 0.0025/(0.0025+1.98×10^-5) = 99.2%. Si on considère que la grosse triche est seulement probable à une chance sur 1000 et toujours détectable (p<10^-6) une fois sur quatre, alors la probabilité a posteriori est de 92.6%. Le doute est donc permis. Par contre, si on abaisse le seuil de significativité à 10^-9, alors même en considérant que la triche est exceptionnelle (1 chance sur 10 000) et qu’en cas de triche elle ne conduit à une différence significative au seuil 10^-9 qu’une fois sur 100, alors la proba de triche a posteriori d’un résultat significatif à 10^-9 est de 98%.

C’est pourquoi je pense que les tests statistiques restent pertinents, à condition de décaler complètement le seuil de significativité. À 10^-6 un petit p doit éveiller les soupçons et à 10^-9 il y a manifestement un problème, du moins si des tests statistiques robustes ont été appliqués. Par exemple, le test exact de Fisher fonctionne assez bien pour des petits p extrêmes (il a juste tendance à être un peu conservatif) alors que le test du chi² et le test de Student reposent sur un théorème central limite qui est d’autant plus faux qu’on s’intéresse aux queues de probabilité. Il est à noter que ces tests sont plus solides en cas de randomisation 1:1 qui reste le design le plus fréquent.

Il est à noter qu’en cas de stratification, les écarts au protocole sont bien plus faciles à voir. La plupart du temps, seul un déséquilibre minime est possible sur une variable sur laquelle une randomisation stratifiée a été appliquée. Un déséquilibre plus important que la valeur maximale théorique prouve un écart au protocole, sans le moindre doute. L’écart au protocole peut être modeste (p.e. usage d’un nombre de listes de randomisation plus élevé que précisé dans le protocole, ou usage de blocs de plus grande taille) ou pas.

Faut-il rapporter les petits p dans les tableaux 1 des essais cliniques randomisés ? Faut-il rapporter seulement les caractéristiques de tous les groupes poolés sans test ? Faut-il séparer chaque groupe sans les comparer statistiquement (comme dans le NEJM) ?

Mon opinion personnelle, c’est que l’approche du NEJM est optimale. Elle permet d’éviter les surinterprétations de petits p entre 0.01 et 0.05 de lecteurs mal avisés mais permet aussi au lecteur avisé de calculer a posteriori un petit p à 10^-9 s’il a un soupçon. Enfin, elle permet l’identification d’écarts au protocole sur la stratification de la randomisation, qui ne nécessite pas de calcul de petit p mais juste une comparaison brute de l’écart d’équilibre entre les groupes par rapport au déséquilibre théorique maximal. Enfin, un bénéfice non négligeable, à mon avis, c’est la réduction du risque de selective reporting. Si le petit p doit être calculé par les auteurs, ceux-ci sont susceptibles de supprimer la caractéristique considérée du tableau 1, par crainte que cela bloque la publication (selective reporting bias). S’ils ne testent pas, cela peut être identifié lors du reviewing (avec ou sans refus de l’article) ou lors de la lecture critique de l’article publié ; deux options meilleures que la dissimulation.

Introduction

Résumé

Argumentaire détaillé

Laisser un commentaire

Annuler la réponse