Conditions de validité des estimateurs

J’avais vivement critiqué l’usage des tests de normalité dans un billet précédent, mais je n’avais pas insisté sur les bonnes manières de faire du cas de mésusage le plus fréquent des tests de normalité : s’assurer de la validité des estimateurs statistiques reposant sur la normalité asymptotique, tel que le test de Student sur séries appariées. Le test de normalité, dans ce contexte, fait exactement le contraire de ce qu’il faut, puisqu’il a une chance d’autant plus grande de conclure à la non normalité que l’échantillon est grand alors que la moyenne s’approche d’autant plus d’une loi normale. Ici, ce qui nous intéresse, c’est le biais d’estimation, exprimable par :

  1. Les risques de sous-estimation et surestimation de la statistique d’intérêt par l’intervalle de confiance
  2. Le risque alpha réel, qui doit s’approcher autant que possible du risque alpha nominal (généralement 5%)

Enjeu du choix d’un estimateur

Un point important est de bien distinguer l’estimateur du paramètre de la population qu’il estime. L’estimateur est une procédure qui, à partir d’un échantillon, fournit une estimation du paramètre, plus ou moins proche de cette cible. Dans les estimateurs, on distingue aussi:

  1. Les estimateurs ponctuels, qui fournissent une seule valeur, que l’on espère être aussi proche que possible du paramètre
  2. Les estimateurs d’intervalles de confiance, qui fournissent un intervalle qui doit avoir une chance élevée (p.e. 95%) de contenir le paramètre

Dans un projet de recherche on voudra généralement estimer un paramètre précis, mais le statisticien aura la liberté de choisir les estimateurs (p.e. ponctuel et intervalle de confiance) qui lui conviennent dans le paragraphe statistique du protocole de recherche. Par exemple, on voudra estimer la différence de moyennes entre deux groupes, mais le statisticien pourra calculer l’intervalle de confiance de cette différence de moyennes par:

  1. Test de Student sur séries indépendantes, avec hypothèse de variances égales
  2. Test d’Aspin-Welch qui est la variante à « variances inégales » du test de Student sur séries indépendantes
  3. Bootstrap non paramétrique, avec ses variantes : percentile, BCa, avec approximation normale, etc.
  4. Encore d’autres méthodes sont possibles, notamment dans des situations où on a des informations supplémentaires sur les distributions de ces moyennes, telles que le fait qu’elles suivent des lois binomiales ou de Poisson

Tous ces estimateurs estiment la même chose : différence de deux moyennes. Ils répondent à la même question de recherche et leur choix doit être guidé principalement par deux choses : les biais et l’efficacité. L’estimateur d’intervalle de confiance à 95% idéal conduira à une faible largeur d’intervalle de confiance tout en contrôlant parfaitement les risques de sous-estimation et surestimation à 2,5% chacun.

Choisir un estimateur ou un paramètre ?

Il faut bien distinguer le choix d’estimateur du choix du paramètre de la population à estimer. Le choix du paramètre de la population à estimer doit se faire en premier et il doit être guidé par la question de recherche. Le choix de l’estimateur doit se faire sur les biais et l’efficacité. Dans certaines situtations, le paramètre d’intérêt n’est tout simplement pas estimable car l’échantillon est trop petit (ou pour d’autres raisons). Au pire, il faut complètement remettre en cause la faisabilité de l’étude ; changer complètement de méthodologie, voire renoncer complètement à répondre à la question de recherche plutôt que de répondre de manière correcte à une question hors sujet.

Je vais donner un exemple caricatural qui permet de comprendre l’enjeu. Considérons une assurance souhaitant calculer la rentabilité d’une assurance portant sur des satellites artificiels face au risque de défaillance du lanceur. La rentabilité de l’assurance repose sur le fait que les primes, en moyenne, sont plus grandes que le coût des sinistres assurés plus les frais de fonctionnement. L’incertitude principale concerne la fréquence des sinistres. Si l’échantillon ne contient qu’une centaine d’événements assurés et aucun sinistre, il est impossible d’évaluer la rentabilité de l’assurance de manière empirique directe. Le paramètre à estimer est une différence de moyennes. Certains pourraient être tentés d’estimer une rentabilité médiane plutôt que moyenne, mais celle-ci serait hors sujet. Il est certain que moins de 50% des assurés auront un sinistre. Une prime d’assurance égale aux frais de gestion du dossier plus trois dollars aura l’air alors rentable.

Il va falloir parfois estimer la fréquence et le coût des sinistres de manière indirecte, en se basant sur des statistiques générales de taux de défaillance des lanceurs.

Validité a posteriori ou a priori

Pour commencer, il faut distinguer deux approches distinctes à la validité : approche a priori et approche a posteriori. L’approche bien trop souvent choisie est purement a posteriori dans laquelle les données observées sur un échantillon servent à calculer une ou plusieurs statistiques de validité. Si toutes les statistiques de validité sont satisfaisantes, selon des seuils prédéfinis ou selon une évaluation subjective, alors, l’estimateur statistique (p.e. Student) est considéré comme valide. Sinon, l’estimateur est considéré comme invalide et un autre estimateur statistique est utilisé, voire dans le pire des cas, le statisticien renonce à fournir une estimation.

Cette approche a posteriori est particulièrement problématique par rapport à la théorie fréquentiste qui doit juger de la procédure statistique dans son ensemble. Considérons par exemple, la procédure statistique suivante:

  1. Réaliser un test d’égalité des variances entre deux groupes
  2. Si les variances sont significativement différentes, alors réaliser estimer la différence de moyennes par Aspin-Welch
  3. Sinon, estimer la différence de moyennes par Student

Cette procédure statistique devient un nouvel estimateur dont on doit étudier les propriétés statistiques dans l’ensemble. Si vous étudiez cet estimateur sur des simulations, vous devriez constater qu’il est fortement biaisé en cas d’hétéroscédasticité forte sur de petits échantillons de taille déséquilibrée, parce que le test d’égalité des variances sera de puissance insuffisante, conduisant à une procédure proche d’un Student systématique.

Renoncer à fournir une statistique en raison d’une invalidité statistique fait aussi partie de la procédure dans son ensemble et engendre un selective reporting biais. Je pense notamment aux odds ratio dans une étude cas-témoin dont l’estimateur semble d’autant moins valide que l’odds ratio observé est éloigné de un. Ainsi, il existera une covariance entre l’odds ratio observé et ses chances de publication. Par exemple, considérons une étude cas-témoin avec 100 cas, 100 témoins et 20 exposés. Si on observe 10 exposés chez les cas et 10 exposés chez les témoins (odds ratio = 1), beaucoup de procédures considérerons que l’estimation de l’odds ratio est valide. Si on observe les 19 exposés chez les cas et 1 exposé chez les témoins, on peut craindre une mauvaise fiabilité de l’estimateur de Wald de l’intervalle de confiance dans une régression logistique. Si on rennonce à fournir cet odds ratio, cela est alors entièrement dû à la valeur observée trop forte de cet odds ratio ; en faisant ainsi, on biaise la méta-analyse, vers une sous-estimation de l’odds ratio réel.

On peut limiter ce problème en particulier, en basant le seuil décisionnel sur le nombre total de cas exposés (ici 20 exposés) plutôt que sur le nombre d’exposés dans les groupes de cas (n=19) et de témoins (n=1) ; cela évite que le selective reporting ait une covariance avec l’odds ratio observé et engendre un biais important dans la méta-analyse. Néanmoins, ça ne résoud pas complètement le problème de validité si jamais on obtient 19 exposés dans un groupe et 1 dans l’autre. Pour cela, la solution est d’anticiper autant que possible et de reposer au maximum sur la validité a priori. C’est-à-dire, que si on pense que l’odds ratio réel est très fort, alors on aura anticipé ce problème et on calculera le nombre de sujets nécessaires afin d’avoir suffisamment d’exposés dans les deux groupes.

Approche combinée

L’approche que je conseille combine et hiérarchise les deux méthodes : a priori et a posteriori. Idéalement, il faut anticiper au maximum la validité statistique, en se mettant de bonnes marges de sécurité. On n’est néanmoins jamais à l’abri de résultats très écartés de ce qu’on avait anticipé. La vérification a posteriori de la validité est avant tout un filet de sécurité : sa présence est importante, mais il doit servir le plus rarement possible. C’est ce que les anglo-saxons appelleraient un sanity check. En cas de chute dans la filet de sécurité, je ne donnerai pas de règle quant aux analyses à réaliser. Une ou plusieurs choses se sont complètement écartées de ce qu’on anticipait. D’un côté, toute analyse que l’on réalisera sera biaisée puisque le schéma fréquentiste global, supposant que la procédure de l’analyse est parfaitement prédéfinie, sera violé. D’un autre côté, c’est aussi une opportunité d’avancer vraiment dans la connaissance sur le sujet. Les échecs sont au moins aussi importants que les succès en recherche. Le processus de publication, obligeant tous les articles à être les plus lisses et prévisibles possibles ne facilite malheureusement pas la publication de ces résultats pourtant nécessaires à l’avancée de la recherche.

On remarquera que l’anticipation, bien que parfois délicate, facilite beaucoup l’identification des situations où les résultats sont écartés de ce qu’on avait anticipé. Cela limite le HARKing (Hypothesis After Results are Known) et permet de vraiment apprendre des résultats.

Méthode générale a posteriori

Les dysfonctionnements pouvant conduire à une invalidité statistique détectable a posteriori sont:

  1. Hypothèses erronées sur la population : prévalences, incidences, distributions ou paramètres fortement différents de ce qui avait été anticipé
  2. Mauvaise connaissance de l’estimateur, qui, même dans des conditions a priori bonnes, s’avère être biaisé

Il existe une méthode très générale de validation a posteriori qui permet de limiter beaucoup ce second risque : le bootstrap.

Par exemple, pour évaluer la validité de l’intervalle de confiance de Student, on crée des rééchantillonnages de l’échantillon de taille N, par tirage au sort de N observations avec remise parmi les N observations. On calcule l’intervalle de confiance de Student dans chacun des N rééchantillonnages puis on estime la proportion des intervalles de confiance entièrement en dessous et au-dessus de la différence de moyennes observée sur l’échantillon initial. On compare ces proportions empiriques aux proportions nominales : généralement 2,5% de risque de sous-estimation et 2,5% de risque de surestimation.

Cette méthode est aussi adaptée aux estimateurs plus complexes, par exemple, dans des situations où un score de propension ou un modèle multivarié est impliqué. Dans ces situations il est important de bootstrapper la procédure dans son ensemble : par exemple, pour un ajustement sur le score de propension, il faut recalculer le score de propension sur chaque échantillon.

Un bénéfice secondaire majeur de cette stratégie est la progressive est l’acquisition de la connaissance du comportement des estimateurs que vous acquerrez progresivement durant votre pratique statistique. Cela facilitera l’anticipation de la validité. Il est aussi possible de faire des variantes, par exemple, en changeant les tailles des rééchantillonnages tout en rééchantillonnant toujours depuis le même échantillon initial. Cela vous permettra d’identifier des « limites » de validité. Il est aussi possible de déformer les distributions.

C’est ainsi que vous verrez que les tests de normalité n’ont aucune pertinence pour la méthode de Student : (1) si les deux groupes sont de taille peu différentes, la méthode est particulièrement robuste (2) la méthode est très résistante aux distributions discrètes, platykurtiques ou même leptokurtiques tant que ces distributions restent symétriques et bornées (3) en présence d’outliers, c’est cette fréquence d’outlier qui est importante à connaître : on peut considérer que la validité devient superposable à celle d’un estimateur de différences de pourcentages d’outliers. Nécessité d’une quarantaine d’outliers s’ils sont tous situés dans le même groupe, mais d’un bien plus petit nombre si les deux groupes sont de taille proche et la fréquence est peu différente entre les deux groupes.

Il est aussi possible, pour sa culture personnelle, de comparer plusieurs estimateurs afin de mieux les connaître.

Limites de la méthode

Cette méthode d’estimation empirique de la validité de l’estimateur par rééchantillonnage souffre d’une limite principale : le rééchantillonnage est réalisé à partir de l’échantillon plutôt que de la population. Si on est largement dans les conditions de validité, l’échantillon devrait être suffisament grand pour que les différences population-échantillon n’aient pas une influence majeure sur les résultats, et confirment alors la validité. Si on est largement en dehors des conditions de validité, l’échantillon pourra différer de la population, mais il est probable que des problèmes de validité restent manifestement visibles par les rééchantillonnages, même s’il existe des exceptions dont nous discuterons. Le problème surviendra généralement lorsqu’on est proches des limites de validité. On pourra alors surestimer ou sous-estimer la validité de l’estimateur selon que l’échantillon est malchanceux ou chanceux. Si on applique le principe « better safe than sorry« , il faut donc se mettre une certaine marge de sécurité, en ayant un niveau d’exigence assez élevé sur l’inflation ou la déflation des risques de sous-estimation et surestimation par intervalles de confiance. On peut aussi artificiellement baisser la taille des rééchantillonnages pour se mettre en situation défavorable.

Nous allons maintenant décrire les situations d’incapacité totale de la méthode du bootstrap à identifier un problème majeur de validité. La première situation est celle des outliers cachés. En reprenant l’exemple de l’assurance des satellites, si la base de données ne contient aucune défaillance de lanceur, on n’observera aucun problème de validité et on conclura, à tort, que la méthode de Student est tout à fait valide. C’est pourquoi, ce ne sera que par connaissance a priori du problème qu’on saura qu’on est largement en dehors des conditions de validité. Par contre, si on observe un ou quelques outliers, on devrait prendre conscience du problème même si on aura du mal à l’évaluer précisément. En effet, considérant l’indépendance entre les observations, si on observe trois outliers, on pourra considérer que l’espérance du nombre d’outliers (paramètre lambda d’une loi de Poisson) est compris entre 0,24 et 7,2 (intervalle de confiance de Garwood, cas limite d’un Clopper-Pearson avec dénominateur infini). Dans les deux scenarii extrêmes, on reste en dehors des conditions de validité.

La seconde situation est la présence de discontinuités dans l’estimateur. Par exemple, un estimateur d’effet avec des ajustements réalisés ou pas selon leur degré de significativité (p.e. inclusion des variables pas à pas) aura des fluctuations d’échantillonnage complètement différentes sur des rééchantillonnages que si on répétait l’expérience depuis la population, en raison de la non reproductibilité des petits p. Par exemple, si la puissance statistique pour une covariable est à 30%, et que cette covariable est fortement liée à l’exposition d’intérêt, il est possible que les fluctuations soient cahotiques et les approximations normales complètement invalides. Sur l’échantillon, cette covariable a 20% de risque de faire un petit p bilatéral supérieur ou égal à 0.78 (calcul : pnorm(-(qnorm(0.975)+qnorm(0.20)+ qnorm(0.20)))*2) ce qui conduirait à une fréquence d’inclusion de 5,9% (calcul : pnorm(qnorm(0.20)+ qnorm(0.20)) + 1-pnorm(qnorm(0.20)+ qnorm(0.20)+2*qnorm(0.975))) ce qui va très fortement sous-estimer les fluctuations discrètes engendrées par l’inclusion aléatoire de cette covariable dans le modèle.

De toute façon, il est préférable d’utiliser des estimateurs ne présentant que des fluctuations continues, mais ce n’est pas toujours évitable à 100%, notamment lorsqu’on manipule des lois binomiales ou de Poisson dans des cas limites.

La réalité des choses : pressions extérieures

Au final, on peut être obligé de calculer des statistiques sur des résultats secondaires, en sachant, dès l’élaboration du protocole, qu’on fonce droit dans le mur, parce que les investigateurs ou évaluateurs du projet insistent sur la nécessité d’utiliser un critère de jugement. Par exemple, on m’a imposé de comparer un incidence ratio à la valeur 1, sachant, qu’en étant optimiste, il était tout au plus à 1,20. Le nombre d’événements attendu, les deux groupes réunis, était inférieur à 2. Il faudrait des centaines d’événements si on voulait une puissance acceptable. Ma stratégie, dans ces situations, est de planifier l’échec, en imposant un critère statistique conditionnant le calcul à une statistique sur l’échantillon. Par exemple, je rédigerai « en dessous de 20 événements au total, aucune comparaison ne sera faite. » dans un contexte ou je sais très bien qu’on n’atteindra pas les 20 événements. Si j’avais tort, cela me placerait dans la même situation qu’un échec inattendu : celle d’un résultat extraordinaire qui mérite publication.

Apprentissage

J’ai déjà mentionné qu’en évaluant a posteriori la validité des estimateurs on apprenait à les connaître. J’insiste là-dessus. De mon point de vue un bon statisticien connaît les outils qu’il utilise. La formation continue, à partir de ses propres analyses lui permet d’acquérir cette connaissance, concernant à la fois les estimateurs, mais aussi les distributions univariées et multivariées du domaine qu’il analyse. C’est ainsi qu’il pourra anticiper un maximum de choses lors de l’élaboration du protocole. Contrairement à la plupart des formations initiales et continues qui restent trop générales, cette formation sur le tas permet l’acquisition d’une quantification fine et intuitive des distributions les plus courantes ainsi que du comportements des estimateurs.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *