Que faire d’un paramètre de nuisance ?

Le problème d’estimation d’un simple pourcentage est relativement simple. En effet, on dispose généralement de deux données : un numérateur et un dénominateur du pourcentage. La distribution du numérateur suit une loi binomiale qui est parfaitement déterminée pour toute proportion théorique définie. Les fluctuations d’échantillonnages sont ainsi facilement identifiables et, par inversion de tests binomiaux, on peut aisément construire un intervalle de confiance d’un pourcentage. Il y a des subtilités liées à l’aspect discret de la loi binomiale qui rend impossible le calcul d’un intervalle de confiance exact, mais globalement, ça reste encore simple.

Le problème d’estimation d’une différence de deux pourcentages est nettement plus complexe car les fluctuations d’échantillonnages de la différence des deux pourcentages ne peut pas être déterminé par cette différence seule. Par exemple une différence de 10% entre deux pourcentages peut exister pour deux proportions théoriques π1=0.10 et π2=0.20 aussi bien que pour π1=0.50 et π2=0.60. Dans le premier cas, l’estimateur empirique de la différence aura une variance beaucoup plus faible que dans le second cas, car les deux proportions théoriques ont chacune une variance moindre. Lorsque la distribution du paramètre que l’on souhaite estimer n’est pas seulement dépendante du paramètre lui-même mais dépend d’autres paramètres, inconnus, ces autres paramètres inconnus sont nommés paramètres de nuisance. Comment peut-on alors évaluer l’incertitude sur l’estimation d’un paramètre en présence d’un ou plusieurs paramètres de nuisance ?

Deux stratégies classiques existent, mais j’utilise parfois une troisième :

  1. Le conditionnement sur le paramètre de nuisance observé
  2. L’usage de la pire valeur théoriquement possible du paramètre de nuisance
  3. Une approche mixte bayésienne-fréquentiste prenant en compte la distribution bayésienne a posteriori du paramètre de nuisance, compte-tenu de l’échantillon, pour un prior non informatif.

Exemple

L’exemple de l’estimation de la différence de deux pourcentages sera utilisée pour la suite de ce billet de blog. On note n1 et n2 les tailles de deux échantillons (dénominateurs des pourcentages). On note x1 et x2 les numérateurs observés des pourcentages. On note π1 et π2 les vraies proportions dans la population alors que p1=x1/n1 et p2=x2/n2 sont les proportions observées sur les échantillons. Les échantillons sont supposés être constitués par tirage au sort d’observations indépendantes et identiquement distribuées dans chacun des deux échantillons.

On souhaite estimer π1 – π2 et le paramètre de nuisance est (π1 + π2)/2, la moyenne des deux vraies proportions. Enfin, on note X1, X2, P1 et P2 les variables aléatoires dont les réalisations sont x1, x2, p1 et p2.

Conditionnement

Cette approche consiste à supposer que le paramètre de nuisance réel est égal au paramètre de nuisance estimé sur l’échantillon. Dans l’exemple, on va donc supposer que (π1 + π2)/2 est strictement égal à (p1 +p2)/2 sans incertitude.

Ceci est clairement une approximation, dont les conséquences vont être un biais statistique plus ou moins important.

Toujours sur le même exemple, la variance de la différence des deux pourcentages sera maximale dans le cas où π1 et π2 sont tous deux égaux à 0.50. Ainsi, d’une manière générale, la variance de P1-P2, sera plus grande pour (π1 + π2)/2=0.50 que pour les autres valeurs. Or, même si (π1 + π2)/2=0,50, la valeur de (p1 + p2)/2 sera différente et correspondra à une variance plus faible de P1-P2 . C’est ainsi qu’on sous-estimera systématiquement la variance de P1-P2; cela biaisera les intervalles de confiance et petits p.

Dans la plupart des cas, les sous-estimations ou surestimations du paramètre de nuisance ont tendance à compenser les biais, en moyenne, et le conditionnement sur le paramètre de nuisance n’est pas forcément associé à un gros biais. Les choses sont généralement plutôt biaisées lorsqu’il existe une covariance importante entre le paramètre que l’on souhaite estimer et le paramètre de nuisance.

La méthode du conditionnement est extrêmement fréquemment utilisée, valable sur des échantillons moyens ou grands, mais souvent biaisée sur de petits ou très petits échantillons.

On notera que certaines méthodes se vantant d’être « exactes » comme la méthode de régression logistique exacte d’Hirji (https://doi.org/10.2307/2289388) s’avèrent en réalité être conditionnelles aux paramètres de nuisance; les autres coefficients du modèle pour la méthode d’Hirji.

Pire valeur théoriquement possible

Un certain nombre de méthodes se vantant d’être « exactes » résolvent le problème du paramètre de nuisance en se basant sur la valeur du paramètre pour laquelle l’incertitude du paramètre estimé est la plus grande. Avec cette stratégie du « pire des cas », la méthode est forcément conservative, c’est-à-dire, que les niveaux de confiance réels des intervalles de confiance sont supérieurs ou égaux au niveau nominal et les risques alpha réels sont inférieurs au risque nominal.

L’archétype de cette stratégie est illustrée par la méthode exacte de Santner et Snell (https://doi.org/10.1080/01621459.1980.10477482) pour l’estimation de la différence de deux pourcentages ou le rapport de deux pourcentages. Cette méthode est un bon exemple des effets pervers de cette stratégie. Les intervalles de confiance de Santner et Snell sont extraordinairement conservateurs. Quand je dis extraordinairement, c’est, par exemple, que le rapport de la proportion 20/40 avec la proportion 20/40, fournit l’intervalle de confiance à 95% [0 à +infini]. Je n’ai pas vérifié avec un logiciel (en raison du temps de calcul trop long), mais je crois que même avec 50000/100000 dans chacun des deux échantillons, l’intervalle de confiance serait [0 à +infini].

Pourquoi la méthode de Santner & Snell en arrive-t-elle a une telle aberration ? C’est parce qu’elle considère que même si le paramètre de nuisance observé est de 50% pour ce cas là, le paramètre de nuisance théorique le pire est à peu près à (π1 + π2)/2 =1/40. En effet, pour une telle valeur du paramètre de nuisance, les fluctuations d’échantillonnage sont absolument énormes puisque le nombre d’événements attendu dans chacun des groupes est égal à 1, avec une haute probabilité de division par zéro, qui conduit à un risque relatif infini. Le problème de l’approche de Santner & Snell, c’est qu’elle va s’intéresser à un paramètre de nuisance totalement extrême mais pas du tout plausible compte-tenu de l’échantillon. Cela conduit à un conservatisme extrême qui rend la méthode totalement inutile et non pertinente.

La plupart du temps, on ne tombe pas dans ces extrémités, mais je voudrais néanmoins argumenter en défaveur des approches conservatrices. En effet, un fréquentiste conservateur aura tendance à considérer que, si le niveau de confiance réel d’un intervalle de confiance peut, selon un paramètre inconnu, valoir 98% ou 92%, alors on peut considérer qu’il s’agit d’un intervalle de confiance à 92%. De mon point de vue, si on peut raisonnablement parier (point de vue bayésien) qu’il y a une chance sur deux que le niveau de confiance soit de 98% et une chance sur deux que le niveau de confiance soit 92%, alors le niveau de confiance est de 95%. Pour caricaturer encore le propos, imaginons qu’on tire à pile ou face pour déterminer si on va calculer un intervalle de confiance à 92% ou à 98%. La procédure complète, du tirage au sort, suivi du calcul, correspond, de mon point de vue, à la construction d’un intervalle de confiance à 95%.

Cela permet d’introduire la troisième approche, qui vise justement à prendre en compte la distribution bayésienne du paramètre de nuisance.

Approche mixte bayésienne-fréquentiste

Cette approche consiste à considérer l’ensemble des valeurs plausibles du paramètre de nuisance, associées à leurs probabilités. Même si cela combine de manière non rigoureuse la théorie fréquentiste et bayésienne, les méthodes produites sont tout à fait analysables et interprétables de manière fréquentistes pures; on peut dire que l’aspect bayésien n’est qu’un détail de construction. La procédure est la suivante:

  1. Estimer la distribution bayésienne du paramètre de nuisance, compte-tenu de l’information de l’échantillon, pour un prior non informatif; cela peut se faire de manière purement fréquentiste, par l’usage d’une distribution de confiance.
  2. Approximer cette distribution du paramètre de nuisance éventuellement continue, à une distribution discrète de valeurs très rapprochées et nombreuses : par exemple, par une distribution discrète à 1024 valeurs.
  3. Pour chacune des 1024 valeurs possibles du paramètre de nuisance, estimer le paramètre d’intérêt, conditionnellement à cette valeur du paramètre de nuisance, soit par une distribution de confiance, soit, si on est paresseux, par les bornes d’un intervalle de confiance à 95%
  4. Calculer la moyenne des 1024 estimations du paramètre d’intérêt pondérée par la probabilité de présence de la valeur du paramètre de nuisance

Cette approche est bien plus fine que la méthode du conditionnement car elle prend en compte l’incertitude sur l’estimation du paramètre de nuisance, avec une probabilité maximale à proximité de l’estimation ponctuelle. Le conditionnement considère que le paramètre de nuisance réel est égal à son estimation ponctuelle sans la moindre incertitude. L’usage de la pire valeur, quant à elle, se base sur des valeurs non plausibles du paramètre de nuisance, et est excessivement conservatrice.

Cette approche a quand même quelques défauts : elle est plus élaborée que le conditionnement, est beaucoup plus lourde en temps de calcul sur ordinateur, puisqu’on va typiquement multiplier les par 1024 par rapport à une approche purement conditionnelle. Elle fournit néanmoins des « diagnostics » intéressants parce qu’elle permet de voir à quel point, sur l’espace des valeurs plausibles du paramètre de nuisance, la valeur de ce paramètre de nuisance influence les résultats. Cela aide à voir à quel point le paramètre de nuisance perturbe les résultats et à quel point on peut craindre que les résultats sont biaisés. Si tout se passe bien, on verra que l’estimation du paramètre d’intérêt est faiblement dépendant du paramètre de nuisance, sur la zone plausible de ce paramètre. Néanmoins, ce type d’approche reste intéressant lorsque la dépendance est assez forte, puisqu’on peut espérer qu’elle soit moins biaisée que le conditionnement classique.

Il est aussi souhaitable, si on développe ce type d’estimateur, de le valider à partir de simulations, idéalement les plus proches possibles du cas de figure auquel on fait face.

Conclusion

WordPress m’a fait perdre 30 minutes de travail en bousillant une sauvegarde de ce billet de blog; c’est vraiment ennuyeux de devoir retaper de mémoire ce qu’on avait écrit la première fois.

Au total, je considère que l’approche mixte bayésienne-fréquentiste est théoriquement intéressante et très générale. Elle me paraît particulièrement pertinente sur de petits échantillons lorsqu’on craint qu’un paramètre de nuisance biaise fortement les statistiques. Elle peut parfois être un peu délicate à mettre en oeuvre, mais c’est aussi un exercice intéressant.

Enfin, cerise sur le gâteau, avec ce type d’approche, vous allez vous faire de nombreux ennemis dans les deux principales religions statistiques : fréquentiste et bayésienne. Avec un peu de chance, au 22ème siècle, les églises seront unifiées et plus personne ne se tapera sur la figure. Peut-être aurez-vous un peu contribué, en votre temps, à la grande unification; même si le martyre reste l’événement le plus probable.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *