Voici quelques exemples d’augmentation du risque alpha (encore appelé chance alpha) du fait de P-hacking sur les ajustements. L’analyse statistique est réalisée dans un modèle linéaire général avec petit p calculé selon une loi de Student à partir de la variance des coefficients estimée sur l’échantillon (méthode de Wald).
Le scénario consiste en une randomisation simple 1:1 de N=100 sujets (~50 par groupe) avec un outcome quantitative suivant une loi normale et 4 covariables suivant aussi des lois normales.
Le P-hacking est basé sur les libertés suivantes :
- Ne pas mettre la covariable du tout dans le modèle
- Mettre la covariable en effet quantitatif linéaire
- Mettre la covariable dichotomisée sur la médiane
- Découper la variable en tertiles, quartiles ou quintiles
- Et ce, séparément pour chaque variable
D’autres recodages auraient pu être envisagés, tels que le découpage à des seuils « conventionnels » (p.e. tranches de 10 ou 15 ans pour l’âge) ou l’usage de polynômes fractionnaires. Je suis resté simple. L’usage de trop de techniques n’est pas non plus habituel dans les essais cliniques randomisés.
Le P-hacking est obtenu par l’exécution de toutes les combinaisons possibles et la sélection du petit p minimal.
Dans le premier scenario, les covariables sont de réelles covariables pronostiques avec des effets beta=+1 (+1 écart-type d’outcome par écart-type de variable), beta=+0.50, beta=+0.25 et beta=+0.10 pour les 4 covariables, c’est-à-dire une covariable fortement pronostique, une moyennement pronostique et deux faiblement pronostiques. Pour un seuil de significativité bilatéral à 5%, dans ce scenario le risque (ou chance) alpha bilatéral monte à 24.7% (incertitude 24.2 à 25.2%). NB: cela correspond à une chance alpha unilatérale deux fois plus petite. C’est cette chance unilatérale qui intéresse généralement le P-hackeur.
Le second scenario est identique au premier à ceci près que le non-ajustement sur une covariable est interdit. Cela correspondait au respect d’un protocole précisant la liste des covariables d’ajustement sans en préciser le codage. La chance alpha bilatérale est à 20.9% (incertitude 20.5 à 21.4%).
Dans le troisième scenario, le non-ajustement sur une covariable est toujours interdit, mais en plus aucune des covariables n’est corrélée à l’outcome (les 4 effets sont nuls). La chance alpha redescend à 8.1% (incertitude 7.8 à 8.4%).
Le quatrième scenario est identique au troisième à ceci près que 200 sujets sont randomisés plutôt que 100. La chance alpha descend à 7.1% (incertitude 6.8 à 7.4%)
Le cinquième scenario est identique au second à ceci près que la taille d’échantillon est de 400 plutôt que 100. La chance alpha passe de 20.9% (pour N=100) à 19.8% (pour N=400, incertitude 19.4 à 20.2%).
Le sixième scenario est assez différent. Il est basé sur 20 covariables non corrélées à l’outcome. Ainsi, on compense l’absence de facteur pronostique par le nombre de variables testées. L’algorithme de P-hacking est très allégé car le nombre de combinaisons possibles est trop grand. On se contente alors de choisir en analyse trivariée (outcome ~ traitement+covariable) pour chaque covariable, le codage optimal (améliorant le petit p dans le sens de la supériorité du traitement innovant), y compris la suppression de la covariable. Une fois chacune des covariables analysée, on intègre toutes ces covariables codées comme il faut, dans le modèle le « meilleur ». Ce sixième scenario est réalisé avec N=100 et la liberté de supprimer des covariables, comme vous l’aurez compris. La chance alpha bilatérale montait à 37.4% (incertitude 36.6% à 38.2%).
Ainsi, il semblerait que le P-hacking soit efficace, même lorsque les covariables d’ajustement sont précisées dans le protocole (mais pas leur codage), mais son efficacité dépend beaucoup du degré de corrélation entre les variables pronostiques et l’outcome. Si elles sont fortement corrélées à l’outcome, alors les corrélations négatives qui peuvent aléatoirement apparaître entre le traitement innovant et le facteur pronostique vont booster le petit p d’une manière dépendante de la force pronostique. Cette force pronostique est la somme d’une partie fixe (pour les vrais facteurs pronostiques) et d’une partie aléatoire d’autant plus grande que l’échantillon est petit. C’est pourquoi, si on veut maximiser sa chance alpha, il faut rechercher de vrais facteurs pronostiques lorsque l’échantillon est grand. Pour les petits échantillons, on peut se concentrer sur de multiples variables peu ou pas corrélées à l’outcome.
Je n’ai pas analysé la chance alpha induite par l’imputation des données manquantes. Cela n’est pas évident de sélectionner des scenarii plausibles.
Il serait possible de réaliser ce travail de simulations avec une étude réelle, de telle sorte que les facteurs pronostiques aient des corrélations « de la vraie vie » avec l’outcome.