Commentaire sur « Hydroxychloroquine and azithromycin as a treatment of COVID-19: results of an open-label non-randomized clinical trial » – Biostatistics: The Good, the Bad and the Ugly

Billet sur un sujet d’actualité : le virus SARS-CoV-2 responsable de l’épidémie de COVID-19. Le Pr Didier Raoult, virologue français, fait la promotion du traitement par hydroxychloroquine pour le COVID-19. Notre ministre de la santé a annoncé qu’un essai clinique plus vaste soit initié, ce qui me paraît raisonnable. Que peut-on dire de la qualité méthodologique et de la fiabilité des conclusions de l’essai clinique non randomisé Marseillais ?

https://doi.org/10.1016/j.ijantimicag.2020.105949

Si je dois faire bref : il s’agit d’un essai clinique de petite taille, de méthodologie très médiocre, plutôt mal conduit, comportant de nombreux biais et dont les conclusions doivent être pris avec des pincettes. La confirmation dans un essai clinique randomisé de grande taille, avec un critère de jugement clinique, me paraît indispensable.

Critère de jugement

Le critère de jugement, purement biologique (négativation de la PCR virale) est pertinent pour un essai clinique de petite taille mais sa corrélation à un meilleur résultat clinique est loin d’être sûre, d’autant qu’il y a trois passages en réanimation, un décès et une interruption de traitement pour effet indésirable sur 26 patients traités par hydroxychloroquine, soit 5/26 = 19% (IC95% : 6.6% à 39.4%) de résultats cliniquement non satisfaisants.

Il est à noter que le critère de jugement principal décrit dans l’article est la négativation de la PCR virale à J6 alors que le protocole EudraCT parle de détection virale à J1, J4, J7 et J14, sans hiérarchiser. En bref, cela suppose des tests multiples et une correction de multiplicité des tests, et en aucun cas une détection virale à J6.

Critères d’inclusion et biais de sélection

L’essai clinique n’est pas randomisé. Le groupe intervention est constitué de patients de Marseille ayant accepté la participation à l’essai clinique à Marseille et respectant les critères d’inclusion : patient hospitalisé d’âge supérieur ou égal à 12 ans et PCR SARS-CoV-2 sur échantillon naso-pharyngé positif à l’admission, quel que soit l’état clinique. Les femmes enceintes et les sujets ayant des contre-indications à l’hydroxychloroquine étaient exclus.

Jusque là, des critères plutôt classiques, assez larges mais pragmatiques (population d’inclusion proche de la population susceptible de bénéficer du traitement), permettant une inclusion rapide de patients.

L’échantillon contrôle est beaucoup plus douteux. C’est un mélange de patients ayant de Marseille refusé l’hydroxychloroquine (nombre non précisé) et de patients recrutés à Nice, Briançon et Avignon; centres dans lesquels aucun patient ne bénéficiait du traitement innovant. Il semble étonnant que le traitement ne soit pas proposé dans les autres centres et on peut craindre que les patients des autres centres aient été recrutés de manière assez chaotique, en dehors du cadre de la recherche. Que dit le protocole posté sur EudraCT. La section E.8 est assez claire : l’essai n’est pas contrôlé (E.8.1) et il est monocentrique (E.8.3). Le protocole prévoyait 25 sujets, ce qui est cohérent avec les 26 recrutés dans le bras expérimental de l’étude (20 analysés).

Les doutes quant à la qualité du groupe contrôle sont confirmés par les données brutes fournies en annexe. Elles montrent 2 données manquantes sur le dosage de la charge virale à l’admission (J0) dans le groupe contrôle. Ces 2 sujets bénéficient d’une première PCR à J2 et à J3 respectivement. Comment est-il possible de ne pas rechercher le virus à J0 alors que ça fait partie des critères d’inclusion ? On peut craindre que les patients aient été inclus dans l’étude a posteriori, après qu’une charge virale ait été mesurée à J2 ou J3 alors que le dosage n’avait pas été fait initialement. Ce problème aurait été évité si l’étude avait bénéficié d’un e-CRF centralisé avec inclusion des patients au fur et à mesure. On peut craindre un biais de sélection secondaire important du groupe contrôle. Durant le temps où Marseille est arrivé à inclure 26 patients, les trois autres centres sont arrivés, au maximum à recruter 16 patients, sans compter la partie recrutée à Marseille. On peut donc craindre que plus de patients que ça étaient éligibles mais que seuls 16 ont été sélectionnés selon des critères que nous ne connaissons pas.

Les données publiées permettent aussi de constater que deux patients du groupe contrôle ont 10 ans et donc, ne respectent pas les critères d’inclusion (âge >= 12 ans). On constate aussi sur ces données que le statut virologique n’est pas renseigné de la même manière chez tous les patients. Pour 6 patients contrôles sur 16, le nombre de cycles (CT) de PCR est précisé lorsqu’il est en dessous de 35 alors que pour les 10 autres, la donnée est binaire « positif » ou « négatif ». Sur les 20 patients du groupe hydroxychloroquine, tous ont des mesures quantitatives. Ce défaut de standardisation des données suggèrerait l’usage d’un tableur Excel (ou LibreOffice) plutôt qu’un e-CRF pour la gestion des données, avec le défaut de traçabilité et le risque de biais de sélection secondaire qu’on peut imaginer.

Exclusions

Sur les 26 patients ayant bénéficié de l’hydroxychloroquine, 6 ont été exclus des analyses. Cela a déjà été mentionné plus haut, mais exclure un sujet décédé, trois passages en réanimation, une interruption de traitement pour effet indésirable, pour évaluer la « guérison virale » est méthodologiquement inacceptable. Le seul patient pour lequel la question se pose, c’est le sujet sorti d’hospitalisation qui avait probablement un bon état clinique. Une analyse plus pertinente aurait été une analyse en intention de traiter, en considérant tout passage en réa ou décès comme un échec. Les autres patients, notamment l’interruption thérapeutique auraient dus être suivi virologiquement comme les autres et jugés comme les autres.

Il est à noter que le résultat de l’analyse principale reste significative même en considérant que tous ces patients sont des échecs (équivalent à une positivité virale à J6). Ainsi, la mauvaise méthodologie ne remet pas forcément en cause complètement les résultats.

Données manquantes

Il y a BEAUCOUP de données manquantes et leur fréquence diffère beaucoup selon le groupe : 7/140 (5%) dans le groupe hydroxychloroquine contre 43/112 (38.4%) dans le groupe contrôle, ce qui confirme encore la non-comparabilité des groupes. Par ailleurs, ces données manquantes sont aussi présentes au moment de l’évaluation du critère de jugement principal à J6 : 1/20 (5%) dans le groupe hydroxychloroquine vs 5/16 (31.2%) dans le groupe contrôle. Une imputation LOCF a été effectuée. Même si cette imputation n’est pas aberrante, cela affecte de manière non négligeable la précision statistique (surestimée avec l’imputation simple). Par ailleurs, cela désavantage le groupe avec le plus de données manquantes (groupe contrôle) car moins de temps est laissé au patient pour se négativer. Par exemple le patient 15 (groupe contrôle) a été inclus sur un dosage virologique à J3 (écart au protocole) et a seulement eu le droit à un second dosage à J5. Par principe, il ne lui a été donné que deux jours pour se négativer là où les sujets du groupe témoin avaient généralement 6 jours.

On remarquera aussi que les détection virales « clignotent ». Certains sujets positifs, se négativent à un moment puis se re-positivent plus tard. Ainsi, 4/16 sujets clignotent dans le groupe contrôle et 4/20 sujets clignotent dans le groupe hydroxychloroquine. Cela fait douter de la qualité des prélèvements ou de la fiabilité de la PCR. Cela pose aussi le problème de la fiabilité de l’imputation LOCF puisque le sujet du groupe hydroxychloroquine, négatif aux dernières nouvelles, pour lequel on n’a pas recherché le virus à J6 est avantagé par cette imputation (étant donné qu’il aurait pu se re-positiver) tandis que les 5 sujets du groupe contrôle ont été désavantagés par la non-mesure de la charge virale à J6 puisqu’ils étaient positifs aux dernières nouvelles.

On peut encore remarquer que le groupe contrôle se divise en deux : les sujets avec quantification (n=6) et les sujets sans quantification (n=10). Il est possible que ces sujets avec quantification corresponde aux sujets de Marseille (ce ne serait pas étonnant, vu qu’il y a 4 enfants asymptomatiques sur six patients, pour lesquels on peut comprendre que les parents aient refusé la participation à un essai clinique sur un traitement innovant alors que tout allait bien pour leur petit bout de chou) ou alors il s’agit au moins de sujets suivis avec une « quantification précise » de la PCR. Considérons donc le groupe contrôle. Sur les 6 sujets avec quantification précise, 5 ont au moins une virologie négative à un moment où à un autre contre 0 sur les 10 sujets sans quantification précise (p=0.0014 selon un test exact de Fisher). Comme il s’agit d’une analyse post hoc, ce résultat est à prendre avec des pincettes (au même sens que l’analyse très douteuse sur l’Azithromycine). Une partie de la différence est explicable par le nombre de données manquantes extrêmement grand chez les sujets sans suivi rigoureux (38/70=54%) baissant les chances d’avoir un prélèvement négatif dans le long. Néanmoins, on peut douter de la comparabilité des prélèvements des patients sans quantification précise : le nombre de cycles de PCR était-il le même ? Les conditions de prélèvement étaient-elles les mêmes ?

Réanalyse avec nouvelle gestion des données manquantes

D’abord, les six sujets du groupe hydroxychloroquine exclus ont été réintroduits avec l’imputation suivante : le décédé et les sujets passés en réa ont été considérés comme d’évolution favorable (positif à J6). Les deux autres sujets (effet indésirable et sortie d’hospitalisation) ont été analysés sur la base des données disponibles, les prélèvements ultérieurs étant considérés comme « non faits ».

La première ré-analyse a été faite avec une imputation multiple par équations chaînées selon la méthode du package mice. Les variables utilisées pour l’imputation étaient : le groupe de traitement et chacun des dosages binaires (positif ou négatif) de D0 à D6. Chaque variable était imputée dans un modèle de régression logistique expliqué par toutes les autres variables. Un total de 500 jeux d’imputation a été réalisé. Une régression logistique bivariée expliquant la positivité à J6 selon le groupe de traitmeent était estimé par le maximum de vraisemblance pour chaque jeu d’imputation. Les log-odds-ratio ont été poolés avec la méthode de Rubin, c’est-à-dire, globalement en additionnant la variance intra à la variance inter. La méthode de Wald, prenant en compte le nombre de degrés de liberté a été finalement utilisé pour estimer le degré de significativité de la statistique poolée ainsi que son intervalle de confiance.

La fraction d’information manquante (FMI) était estimée à 0.26. L’odds ratio de l’effet du traitement était estimé à 0.143 (IC95% : 0.023 à 0.884, p=0.037). Cette estimation est très fragile car les conditions de validité asymptotiques des méthodes utilisées ne sont pas atteintes.

Une autre méthode de calcul, c’est simplement un test exact de Fisher en excluant les sujets avec une évaluation manquante à J6. On obtient alors un odds ratio à 0.18 (IC95% : 0.016 à 1.15, p=0.064).

Il semble donc que la tendance statistique persiste avec ces analyses de sensibilité. Néanmoins, la fiabilité de résultats en présence d’une mauvaise qualité de données reste toujours sujette à caution.

Deuxième ré-analyse : comparaison à des données historiques

Problème de multiplicité des tests

La comparaison entre les groupes est répétée tous les jours de J1 à J6, soit six tests pour la comparaison hydroxychloroquine vs contrôle. Cela peut paraître beaucoup mais ne me préoccupe pas tant que ça. D’abord, l’analyse principale est annoncée comme la comparaison à J6. C’est néanmoins douteux car ça ne correspond pas au protocole EudraCT. On peut alors craindre un choix a posteriori du critère de jugement principal et donc craindre du P-hacking. Sans préjuger d’autres formes de P-hacking, la sémiologie du P-hacking par multiplicité des tests n’est pas retrouvée. Cette sémiologie correspond à un résultat à la limite de la significativité statistique (p entre 0.01 et 0.05), sans cohérence globale telle qu’une différence qui aurait un p=0.03 à J4 mais un p=0.30 à J3 et un p=0.40 à J5. Dans cette étude, les différences entre les deux groupes sont retrouvées de manière cohérente avec un écart progressivement croissant et une forte significativité. Le bémol, c’est que les écarts se resserrent dans les analyses de sensibilité que j’ai réalisées. C’est donc moins robuste qu’il paraît.

Par contre, l’analyse en sous-groupe sur l’Azithromycine+Hydroxychloroquine est très douteuse. Elle n’était absolument pas planifiée dans le protocole EudraCT et pourtant se retrouve dans le titre de l’article, correspond à un sous-groupe minuscule (n=6). Déjà, le test statistique employé est incorrect. C’est un test global sur les trois groupes, répondant à la question : y a-t-il un au moins des trois groupes dont le pourcentage de négativation à J6 diffère des autres ? Pour conclure au bénéfice de l’Azithromycine en addition à l’Hydroxychloroquine et en considérant que cette dernière a déjà fait preuve de son efficacité (avec tous les bémols mentionnés au dessus), alors il faudrait comparer le groupe Hydroxychloroquine seul à Azithromycine+Hydroxychloroquine. Avec le test exact de Fisher, le taux de succès à J6 de 8/14 n’est pas significativement différent de 6/6 (p=0.115). Par ailleurs, d’autres analyses en sous-groupes étaient possibles : par exemple Azithromycine seule vs contrôle ou Azithromycine±Hydroxychloroquine vs Autre. Il aurait pu aussi y avoir d’autres analyses en sous-groupes sur la prise en charge… On ne peut pas savoir combien ont été faites étant donné qu’aucun protocole publié ne fournit d’information dessus.

D’une manière générale, on évite les analyses post hoc en sous-groupes dans les essais cliniques, mais c’est encore plus vrai lorsqu’ils sont de toute petite taille, car la puissance est proche du risque alpha, conduisant à un risque de fausse découverte très élevé.

Ajustements statistiques ?

Les effectifs sont tellement petits qu’il est difficile de faire une comparaison statistique des caractéristiques des patients. Ces comparaisons ont tendance à être non significatives alors que des différences majeures existent entre les groupes. Ces différences peuvent être expliquées par les fluctuations d’échantillonnage, ou être expliquées par une sélection différente des patients, mais faire la part des choses est très difficile. On a quand même quelques indices pour penser que la population traitée a une sévérité de la maladie un plus élevée : trois passages en réanimation et un décès sur 26 patients (versus zéro sur 16 ?). Une moyenne d’âge plus élevée (52.1±18.7 vs 37.3±24 ans, p=0.06) chez les sujets non exclus. La différence aurait peut-être été encore plus forte si on avait inclus les patients passés en réa et décédés puisque ces risques touchent quand même nettement plus les personnes âgées. Archétype de la variable impossible à comparer : la proportion d’infections respiratoires basses (LRTI) est de 30% dans le groupe hydroxychloroquine vs 12.5% dans le groupe contrôle, mais le nombre de sujets est tellement bas que ça peut être complètement expliqué par le hasard (p=0.30).

Certains pourraient proposer des ajustements statistiques. C’est difficile avec des effectifs aussi faibles. On peut juste se demander dans quel sens va le biais. La charge virale semble plutôt positivement corrélée à la sévérité (https://doi.org/10.1016/S1473-3099(20)30232-2) et la clairance semble être plus lente dans les formes sévères. Ainsi, le groupe hydroxychloroquine est a priori désavantagé par ce biais de sélection différentiel des formes plutôt sévères. Cela ne remet donc pas en cause les résultats.

Nombre de sujets nécessaires

L’article comporte un calcul de nombre de sujets nécessaires comme si l’étude avait été planifiée avec un groupe contrôle dès le départ. Cela semble être un calcul a posteriori. Je n’ai pas de preuve absolue mais le fait que le protocole EudraCT soit clairement conçu comme un essai à un seul bras et est un premier indice. Le second indice est le fait que le groupe contrôle soit construit d’une manière très étrange, mélangeant des refus de participation à l’étude (j’espère qu’ils ont quand même signé un consentement pour avoir des PCR tous les jours, sinon le CPP pourrait ne pas approuver) et des patients des centres non Marseillais pour lesquels le traitement n’était pas une option. L’inclusion de ce dernier groupe de patients non Marseillais paraîtrait éthiquement douteux si les patients avaient des prélèvements sanguins de PCR spécifiquement pour la recherche sans avoir la possibilité de bénéficier du traitement innovant ; mais il paraît possible qu’ils aient simplement été inclus comme une série de cas rétrospective à partir des dossiers médicaux et qu’en conséquence ils n’aient eu aucun examen ou traitement en dehors de la routine.

Au total

Le biais le plus préoccupant de cette étude, à mon avis, provient du suivi et surtout de la sélection des contrôles en dehors de Marseille. Certains de ces sujets n’ont pas eu de PCR à baseline mais ont quand même été inclus. De très nombreuses données manquent sur leur PCR virales. Leur PCR est considérée comme « positive » ou « négative » sans quantification, pour la plupart. On peut se permettre de douter du fait que les prélèvements ont été réalisés, cultivés et analysés de la même manière qu’à Marseille. Mais le pire, c’est qu’on ne sait pas quels sujets étaient éligibles dans le groupe contrôle mais n’ont pas été inclus dans l’étude.

Sans ce problème de groupe contrôle, le résultat principal à J6 aurait une certaine robustesse malgré les données manquantes et la multiplicité potentielle des tests (puisque le CJP n’est pas celui du protocole). Du fait de ce groupe contrôle douteux, j’émets des réserves quand à la reproductibilité de l’analyse principale.

Cela ne veut pas dire que le traitement est inefficace ou que l’article n’apporte rien. Le résultat est très fragile mais fournit quand même une piste intéressante, à mon avis. Je me range du côté de la communauté scientifique qui propose de réaliser un essai clinique randomisé de grande ampleur afin de statuer sur l’efficacité clinique de l’hydroxychloroquine avec une méthodologie robuste.

Ajout post hoc : comparaison à des données historiques

Comme décrit avant, la fragilité principale de l’étude provient de la sélection du groupe contrôle sans dosage quantitatif précis (c’est-à-dire avec juste POSITIF ou NEGATIF comme résultat de la PCR). On peut craindre qu’il s’agisse de données de routine rétrospectivement collectées, avec un biais de sélection. On peut notamment craindre qu’il y ait eu l’exigence de la présence d’un prélèvement à J5 ou J6 pour inclure le patient. Cela risque d’exclure les patients ayant eu une négativation précoce pour lesquels il n’y a plus de raison de continuer les prélèvements au delà d’un ou deux résultats négatifs.

C’est pourquoi il est encore préférable de comparer l’échantillon hydroxychloroquine à un échantillon indépendant, de données historiques, dont la rigueur de recueil est meilleure. Prenons comme référence l’article Viral dynamics in mild and severe cases of COVID-19. L’article ne présente que les différences de Ct par rapport au prélèvement initial (delta(Ct)). On peut néanmoins comprendre, de la figure, que les sujets n’ont plus de prélèvements une fois négatifs. Dans les formes légères la majorité des sujets est négatif à J8. À J6, il y a nettement plus de positifs : environ la moitié des patients ayant une forme légères. Les formes sévères (dont 23/30=77% sont passés en unité de soins intensifs) par contre, nécessitent nettement plus de temps (> 15 jours pour la négativation). Si on considère l’échantillon des 20 patients dont les cas réanimatoires a été exclu, la majorité doit ne pas être sévère. Un taux de 50% de négativation à J6 paraît plausible. Le taux observé est de 14/20=70% (IC95% : 46 à 88%), compatible avec le taux de 50% ; mais il y a une tendance statistique à un taux plus élevé.

La conclusion reste la même. Un effet biologique paraît plausible mais il y a un doute non négligeable. Le bénéfice clinique reste très douteux. Avant d’arroser la population d’hydroxychloroquine, je conseillerai d’inclure des patients dans l’essai clinique de grande taille ou d’en attendre le résultat.

Commentaire sur « Hydroxychloroquine and azithromycin as a treatment of COVID-19: results of an open-label non-randomized clinical trial »