Robuste ou pas ?

Vous connaissez peut-être le test de Brown-Forsythe publié par Brown et Forsythe et décrit par les auteurs comme un test d’égalité des variances robuste aux écarts à la normalité. Le test est très simple à comprendre : il s’agit d’une ANOVA comparant la moyenne des écarts à la médiane. S’il y a seulement deux groupes, c’est équivalent à un test de Student sur la variable z égale aux écarts à la médiane du groupe.

Il y a un problème avec la manière de présenter les choses. De deux choses l’une:

  1. Soit, c’est un test de comparaison des écarts moyens à la médiane. Auquel cas, il est assez robuste aux écarts à la normalité.
  2. Soit, c’est un test de comparaison de variances, extrêmement fragile, reposant sur certaines hypothèses douteuses et dont le risque alpha peut facilement frôler les 100%

Considérons le cas de figure suivant: considérons comme première distribution une loi exponentielle de paramètre lambda=1. Cette loi exponentielle a une variance et une moyenne toutes deux égales à 1. Considérons comme seconde distribution une loi normale centrée-réduite de moyenne 0 et de variance 1. Ces deux distributions ont exactement la même variance et correspondent donc à l’hypothèse nulle d’égalité des variances du test. Pourtant, dès que les échantillons sont de taille non négligeable, le test va rejeter cette hypothèse nulle avec une probabilité très forte:

Le code R ci-dessous illustre le problème :

library(lawstat)
set.seed(2021)
pvalues=replicate(1000, {
	N=1e4
	y=c(rnorm(N), rexp(N))
	group=rep(c(0,1), c(N, N))
	lawstat::levene.test(y, group, location="median")$p.value
})
max(pvalues) # renvoie 8e-14

Ainsi, bien qu’on soit sous l’hypothèse nulle, sur 1000 tests, on observe 1000 tests significatifs, soit un risque alpha supérieur à 99%. Pourquoi ce résultat aussi lamentable ? Parce que le test de Brown-Forsythe rejette en réalité l’égalité de l’écart moyen à la médiane : soit environ 0,80 pour la loi normale centrée-réduite et 0,69 pour la loi epxonentielle. Dans la même idée, on peut aussi avoir une puissance à 5% si les variances sont inégales mais que les écarts moyens à la médiane sont égaux.

Le test de Brown-Forsythe est un test de comparaison de variances valide sous une hypothèse très forte, c’est-à-dire, une hypothèse qui, si elle n’est pas vérifiée, rend très probable une inflation du risque alpha frôlant les 100% : la forme des distributions doit être totalement identique et seule la variance doit différer entre les deux distributions. C’est-à-dire, que si X et Y sont deux variables aléatoires suivant respectivement les deux lois dont ont compare les variances, et s’il existe deux constantes a et b tels que distribution(X)=distribution(a*Y+b), alors le test de Brown-Forsythe contrôle le risque alpha. On repose donc sur une hypothèse « shift in location and scale ». Cette hypothèse est suffisante à la validité du Brown-Forsythe, mais au sens strict, n’est pas tout à fait nécessaire, puisqu’il suffit que la famille de distributions soit choisie telle que l’égalité des écarts moyens soit équivalente à l’égalité des variances. En pratique, l’hypothèse « shift in location and scale » est une bonne approximation de la condition de validité du Brown-Forsythe, qui devient alors un test extrêmement fragile.

On peut argumenter que ce n’est pas grave : le test compare les « dispersions » et pas les variances au sens strict. Seulement, ce n’est pas présenté comme ça par les auteurs et la distinction a de l’importance. Par exemple, le test de Student repose sur l’hypothèse d’égalité des variances, pas d’égalité des écarts moyens à la médiane. La vérification de l’hypothèse d’homoscédasticité du test de Student par un test d’égalité des variances pose plus de problèmes qu’elle n’en résout, mais c’est une autre histoire.

Mann-Whitney

Dans le même ordre d’idée, le test de Mann-Whitney est souvent interprété, à tort, comme un test de comparaison de médianes. Il n’est valide, interprété ainsi, qu’en condition d’hypothèse de shift-in-location, c’est-à-dire qu’une distribution doit être simplement décalée d’une constante par rapport à l’autre : distribution(X)=distribution(a+Y). Sur un gros échantillon, le test de Mann-Whitney tendra vers un risque alpha à 100% pour la comparaison de la distribution exponentielle avec lambda=log(2) dont la médiane est à 1, et la loi normale de moyenne (et médiane) égale à 1 et de variance égale à 1. Sous l’hypothèse « shift-in-location », l’égalité des moyennes est strictement équivalente à l’égalité des médianes, et le test de Mann-Whitney est autant un test d’égalité des médianes qu’un test d’égalité des moyennes. Ci-dessous l’exemple:

wilcox.test(rexp(1e4,rate=log(2)), 1+rnorm(1e4))

Wilcoxon sur séries appariées

Le test de Wilcoxon sur séries appariées n’est pas non plus un vrai test d’égalité des médianes, sauf sous l’hypothèse shift-in-location : il s’agirait plutôt d’un test de comparaison de la pseudo-médiane des différences appariées à la valeur zéro. Ci-dessous l’exemple illustrant le propos, avec un risque alpha proche de 100%:

wilcox.test(rexp(1e4,rate=log(2)),  1+rnorm(1e4), paired=TRUE)

Théorisation de la problématique

On peut grossièrement catégoriser les biais des tests statistiques et estimateurs statistiques en trois catégories, en cas d’écart à leurs hypothèses :

  1. Ceux qui tendent à diminuer avec la taille d’échantillon et finissent par s’annuler (asymptotiquement non biaisé)
  2. Ceux qui sont indépendants de la taille d’échantillon (ou presque)
  3. Ceux qui tendent à croitre avec la taille d’échantillon pour se rapprocher du biais maximal théoriquement imaginable (p.e. risque alpha à 100%)

En théorie, toute relation est possible entre les biais et la taille d’échantillon, mais en pratique, vous devriez presque toujours rencontrer des biais rentrant dans ces catégories si vous utilisez des outils de conception pas trop tirée par les cheveux.

Les biais engendrés par l’hétéroscédasticité pour le test de Student sur des échantillons de taille inégale, rentrent dans la catégorie N°2. Le biais engendré par les écarts à la normalité de la distribution, mais avec homoscédasticité, pour le test de Student, rentre dans la catégorie N°1. Comme précédemment présenté, en cas d’écarts aux hypothèses shift-in-location du test de Wilcoxon sur séries appariées ou Mann-Whitney, lorsque ces tests sont interprétés comme des tests de comparaison de médianes, les biais engendrés rentreront généralement dans la catégorie N°3.

Étant donné que toutes les hypothèses faites en biostatistiques sont plus ou moins fausses, je n’accepte jamais les biais de la catégorie N°3. C’est-à-dire, qu’il vaut mieux changer d’estimateur que d’accepter l’inacceptable. Avec certaines méthodes très génériques comme le boostrap, on peut totalement éliminer les biais des catégories N°1 et N°2 de toute façon.

Les biais de la catégorie N°1 peuvent être préoccupants sur de petits échantillons mais rarement sur de grands échantillons. Par exemple, pour le test de Student sur une variable écartée de la loi normale mais restant dans un intervalle borné, il n’y a pas de souci à se faire dès qu’on dépasse les quelques centaines d’observations dans chaque groupe. Enfin, les biais de la catégorie N°2 doivent faire l’objet d’une grande prudence. Ils peuvent être acceptables lorsqu’on sait que les déviations aux hypothèses sont modestes, mais si on a un doute, mieux vaut employer un estimateur asymptotiquement correct comme le boostrap, c’est-à-dire, dont tous les biais vont tendre vers zéro sur de grands échantillons.

C’est une des raisons pour lesquelles je suis friand de bootstrap, avec ses autres propriétés séduisantes : le boostrap est une méthode très générale d’estimation, fonctionnant sur toute statistique customisée, reposant sur très peu d’hypothèses (juste des observations indépendantes et identiquement distribuées), présentant des biais asymptotiquement nuls, sauf exception, et présentant des outils de diagnostics pertinents. Par ailleurs, il oblige à conceptualiser la méthodologie d’échantillonnage qui est souvent ignorée. Bref, le boostrap, mangez-en ! C’est bon ! Enfin, faut-il encore le faire correctement, parce faire du boostrap avec de la stepwise regression mais appliquer le bootsrap après la sélection des variables, c’est du grand n’importe-quoi mais ça se voit souvent.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *