Tout l’objet de ce billet de blog est de tracer un parallèle entre la manière d’analyser les biais statistiques et celle d’analyser les biais méthodologiques.
Cas des biais statistiques
Face à des biais statistiques purs, tels que l’approximation de la loi binomiale à la loi normale, les propriétés mathématiques sont analysables. De manière très schématique on peut séparer les biais statistiques en trois catégories:
- Ceux qui décroissent avec la taille d’échantillon (p.e. approximation normale du test de Student)
- Ceux qui restent stables quelle que soit la taille d’échantillon (p.e. écart à l’approximation d’homoscédasticité du test de Student avec des groupes de taille inégale)
- Ceux qui croissent avec la taille d’échantillon (p.e. test de Mann-Whitney lorsqu’il est interprété comme un test de comparaison de médianes alors que les distributions ne sont pas superposées mais ont la même médiane)
Les premiers ne sont préoccupants que sur de petits échantillons, les seconds doivent être supprimés s’il est facile de le faire et doivent être évalués plus ou moins subjectivement, et les troisièmes doivent être absolument évités ou fortement discutés s’ils sont inévitables. Les exemples de biais mentionnés ci-dessus concernent la distribution des petits p, mais on peut aussi définir les biais sur des estimateurs ponctuels ou sur les estimateurs de variance.
Cas des biais méthodologiques
Les biais méthodologiques suivent eux aussi des lois et n’ont pas le même impact selon la taille d’échantillon.
Les biais de mesure typiques vont généralement biaiser l’estimation ponctuelle d’une manière indépendante de la taille d’échantillon, et vont biaiser les petits p d’une manière croissante avec la taille d’échantillon.
Le biais de publication peut être décrit par un modèle de probabilité de publication dépendante de la significativité des résultats mais aussi potentiellement dépendante de la taille de l’étude et de sa qualité méthodologique, puisqu’une grande étude bien menée, même négative reste tentante et facile à publier. Dans ces conditions, le petit p aura un biais légèrement décroissant avec la taille d’échantillon et l’estimateur ponctuel aura un biais très décroissant avec la taille d’échantillon.
De même, le p-hacking consistant à faire varier divers paramètres jusqu’à obtenir un p inférieur à 0.05 conduit généralement à un petit p compris entre 0.01 et 0.05 de manière indépendante de la taille d’échantillon, avec toujours un estimateur ponctuel d’autant plus biaisé que l’échantillon est petit. Dans des études observationnelles, certaines formes de p-hacking portant sur des choix influencant les résultats de manière non complètement aléatoire (p.e. choix des variables d’ajustement) peuvent cependant avoir un biais de l’estimateur ponctuel moins dépendant de la taille d’échantillon.