Pondération d’un modèle à effets mixtes

Les modèles à effets mixtes sont très largement utilisés, mais la statistique qu’ils estiment n’est pas forcément correctement interprétée. Alors que tous les statisticiens connaissent l’interprétation de la médiane ou la moyenne, on parlera plutôt d’effet dans un modèle à effets mixtes sans forcément savoir ce que ça représente.

Pour aider à l’interprétation et au choix des statistiques, je vous propose de partir de deux exemples de mesures répétées très simples.

1er exemple : paires de jumeaux

Supposons qu’on souhaite évaluer les conséquences de la grande prématurité (< 32 semaines d’aménorrhée) sur le développement psychomoteur de l’enfant. On comparerait alors, certains outcomes de développement psychomoteur, entre enfants prématurés et non prématurés.

Plusieurs problèmes statistiques apparaissent:

  1. L’exposition (prématurité ou non) des jumeaux est parfaitement corrélée (R=1) puisque le terme de naissance est la même pour les deux jumeaux d’une paire (sauf rare exception)
  2. Le devenir des jumeaux est aussi corrélé, car ils partagent très fortement leur environnement pré-natal et post-natal et partagent plus ou moins fortement leur génôme
  3. Il existe une corrélation forte entre la gémellarité et la prématurité; c’est-à-dire, qu’un plus grand nombre de jumeaux sera retrouvé dans le groupe prématuré
  4. À prématurité égale, le devenir psychomoteur moyen d’un enfant pourrait différer selon que la grossesse soit gémellaire ou pas. Une prématurité à 31 SA chez des jumeaux peut être principalement attribuable à la gémellarité alors qu’elle sera plus souvent due à d’autres comorbidités (p.e. macrosomie, RCIU, anomalies congénitales) dans des grossesses simples. Ainsi, il existe potentiellement une corrélation entre la taille du cluster et son devenir.

Néanmoins, avant de nous concentrer sur tous ces problèmes, considérons que nous souhaitons répondre à la question : quelle est la valeur moyenne de l’échelle de développement psychomoteur à l’âge corrigé de deux ans chez les prématurés ?

Pour répondre à cette question, on doit se demander : est-ce que la moyenne porte sur les enfants, avec une paire de jumeaux qui compte pour deux enfants, ou est-ce que la moyenne porte sur les grossesses, avec une paire de jumeaux qui ne compte que pour un ? Dans le premier cas, on ferait la moyenne brute des résultats de tous les enfants, sans prendre en compte le fait que deux enfants peuvent appartenir à une paire de jumeaux. Dans le second cas, on commencerait par faire la moyenne dans chacune des paires de jumeaux, afin de n’obtenir qu’une seule valeur par paire, avant de faire la moyenne de tous les clusters. On peut aussi considérer que, dans le premier cas, on fait la moyenne non pondérée de tous les résultats de tous les enfants, alors que dans le second cas, on fait la moyenne pondérée par l’inverse du nombre d’enfants dans la grossesse.

On peut donc résumer la question à : est-ce que les deux jumeaux d’une même grossesse comptent pour deux ou ne comptent que pour un ?

Même si la réponse à cette question peut sembler difficile au premier abord, elle ne fait pas de doute pour moi. Que des séquelles graves soient retrouvées chez deux singletons issus de deux grossesses différentes ou alors qu’elles soient retrouvées chez deux jumeaux issus d’une même grossesse, le handicap populationnel conséquent est le même. Les deux jumeaux sont deux individus distincts dont la valeur de la vie compte tout autant que celle de deux individus différents. La pondération par un-demi des jumeaux supposerait que la valeur de la vie des jumeaux est deux fois moins importante que celle des singletons. La réponse, pour moi est claire: deux jumeaux comptent pour deux.

Cette distinction entre les deux moyennes revêt une grande importance à cause des problèmes N°3 et N°4 évoqués ci-dessus. En effet, à cause de ces problèmes, l’espérance d’une moyenne ou d’une diffférence de moyennes diffère selon le choix de la pondération.

2ème exemple : calendrier de symptômes

Je pars d’un exemple réel. Un essai clinique randomisé sur un traitement de l’incontinence fécale. L’objectif étant d’obtenir une diminution de la fréquence des épisodes d’incontinence de selles et d’impériosités, le critère de jugement principal est basé sur le remplissage d’un calendrier, rempli quotidiennement sur 21 jours consécutifs après trois mois de traitement. Avec 21 mesures par sujet, on atténue la variance intra-sujet. On peut raisonnablement supposer que sur la période de mesure, l’état des patients sera en moyenne stable. Néanmoins, on peut craindre que certains patients ne remplissent qu’à moitié le calendrier (pe. les 10 premiers jours de la période d’évaluation), parce que le remplissage est répétitif et ennuyeux. On peut aussi craindre que ce remplissage partiel soit corrélé à la fréquence et la sévérité des symptômes.

On retrouve donc jusqu’à 21 données par patient, corrélées les unes avec les autres. La même question que pour le premier exemple se pose : un patient qui a rempli 7 jours de calendrier doit-il compter trois fois moins qu’un patient qui a rempli correctement les 21 jours ? De mon point de vue, la réponse, cette fois-ci est inversée par rapport au premier cas. Il n’y a pas de raison de donner un plus grand poids aux patients ayant entièrement complété le questionnaire qu’aux autres. On peut craindre que leur donner un plus grand poids biaise les résultats si le taux de remplissage est corrélé au contenu du questionnaire. À l’opposé, on peut espérer qu’un remplissage de bonne qualité sur les 7 premiers jours soit déjà représentatif de la période entière, et que finalement, la corrélation entre la durée de remplissage et la valeur moyenne n’ait pas d’impact sur les résultats si on commence par calculer une unique valeur moyenne par sujet avant d’en faire la moyenne sur l’ensemble des sujets.

Synthèse des deux exemples

Nous avons vu que selon la situation, le poids donné aux mesures répétées ne devrait pas être le même. Dans le premier exemple, les clusters de deux jumeaux doivent compter double par rapport aux clusters d’un singleton. Dans le second exemple, les clusters de 21 mesures (1 seul patient) devraient compter le même poids que les clusters de 7 mesures (1 seul patient) plutôt que de compter triple. Dans le second cas, le choix est absolument critique car il est susceptible d’influencer le signe de la différence entre les deux groupes dans le cadre d’un essai clinique randomisé.

Et le modèle linéaire à effets mixtes ?

Comment le modèle linéaire à effets mixtes, avec un intercept cluster aléatoire, se comporte-t-il dans les deux exemples ci-dessus ? Pour simplifier l’exemple, considérons même que l’on ne s’intéresse qu’à calculer la moyenne d’un seul groupe avec un modèle à effets mixtes sans covariable (intercept seul).

Est-ce qu’un cluster deux fois plus grand compte double ? Ou alors, chaque cluster aurait le même poids ?

La réponse est entre les deux. Ce modèle va être interprétable comme une moyenne pondérée. Un cluster de taille deux comptera plus fortement qu’un cluter de taille un, mais ce ne sera pas le double. Ce sera une valeur intermédiaire entre 1 et 2. Cette valeur intermédiaire dépendra de la force de la corrélation intra-cluster. Si les observations d’un même cluster sont très fortement corrélées, alors le poids sera proche de 1, c’est-à-dire que le poids total d’un cluster sera presque indépendant de sa taille. À l’opposé, si les observations d’un même cluster sont très faiblement corrélées, alors le poids total d’un cluster sera proche du nombre d’observations du cluster.

Reprenons l’exemple des jumeaux (exemple 1). Le modèle à effets mixtes considèrera que la valeur de la vie de deux jumeaux est d’autant plus grande que leur devenir est divergent, faiblement corrélé. À l’opposé, si les deux jumeaux partagent leur évolution, alors leur vie ne compte que pour un. Comme si la valeur d’une vie était proportionnelle à son imprévisibilité. C’est l’aléatoire d’une vie qui en ferait la valeur ! C’est ce qu’elle a d’unique. Je vous avoue que je ne suis pas branché par ce concept de snowflake, mais c’est ce que le modèle à effets mixtes fait dans votre dos quand vous lui faites confiance.

Pour aller plus loin : quels poids donne réellement le modèle à effets mixtes

Pour pousser les choses plus loin encore, dans le premier exemple des singletons/jumeaux (clusters de taille 1 ou 2), l’estimation de moyenne du devenir des enfants prématurés par le modèle à effets mixtes est extrêmement proche de l’estimation que l’on obtient par la procédure suivante:

  1. Calculer la moyenne M1 et son erreur type dans le groupe des jumeaux prématurés (pour que l’erreur type ne soit pas biaisée, on commence par moyenner les deux jumeaux de chaque paire)
  2. Calculer la moyenne M2 et son erreur type dans le groupe des singletons prématurés
  3. Calculer la moyenne de M1 et M2 pondérée par l’inverse de la variance de M1 et de M2 (inverse du carré des erreurs types)

Sur de grands échantillons, la procédure du modèle à effets mixtes converge vers celle de la moyenne pondérée par l’inverse de la variance. J’ai fait quelques simulations pour vérifier ma théorie, et on peut, en première intention, considérer les procédures comme équivalentes tant elles convergent vite.

On comprend alors l’intérêt du modèle à effets mixtes : cette pondération par l’inverse de la variance est la procédure la plus efficace statistiquement (faible variance de l’estimateur) pour faire la moyenne de M1 et M2 sous l’hypothèse que les deux moyennes de la population µ1 et µ2 sont identiques. C’est-à-dire que si la moyenne de la mesure d’un cluster est indépendante de la taille du cluster, la procédure du modèle à effets mixtes est équivalente aux autres procédures en moyenne, tout en étant plus précise statistiquement. Mais dès qu’on s’écarte de cette hypothèse, ça perd toute sa pertinence.

Pour aller plus loin : calculs d’incertitude

Jusqu’à maintenant, je n’ai pas parlé du problème de calcul des intervalles de confiance et petits p. Je me suis concentré sur l’espérance de l’estimateur ponctuel, c’est-à-dire, la statistique qui est vraiment estimée par le modèle. Je me suis concentré là-dessus, parce que je considère que c’est la clé du choix statistique. Malheureusement, je crains que le modèle à effets mixtes soit souvent utilisé en faisant le raisonnement foireux ci-dessous:

  1. La méthode de Student repose sur l’indépendance entre les observations
  2. À cause de la corrélation des mesures, Student sous-estime la variance et fournit une inférence biaisée
  3. Les modèles à effets mixtes prennent en compte cette corrélation et donc, fournissent une inférence non biaisée
  4. Donc je vais utiliser ces modèles magiques

La faille du raisonnement, c’est que la statistique du modèle à effets mixtes diffère de la statistique de moyenne simple qu’on voulait estimer. On infère sans biais, mais sur la mauvaise cible.

Les calculs d’incertitudes, sont un détail secondaire qu’on résout généralement assez simplement. D’abord, on peut faire du boostrap sur les clusters eux-mêmes. C’est une procédure extrêmement solide, adéquate notamment lorsque les corrélations intra-clusters sont extrêmement complexes. Par exemple, le modèle à effets mixtes à intercept seul fournira des résultats biaisés dans le second exemple (calendrier des symptômes) car il ne prendra pas en compte l’auto-corrélation intra-sujet, c’est-à-dire, le fait que deux jours successifs se ressemblent plus que deux jours distants. On peut aussi utiliser un estimateur sandwich sur un modèle linéaire général pondéré. Enfin, on peut estimer les variances dans les sous-groupes (pe. clusters de taille 1 et 2) puis utiliser les formules VAR(cX)=c²VAR(X) et VAR(X+Y) = VAR(X) + VAR(Y) + 2×COV(X,Y) pour calculer la variance de la moyenne des deux sous-groupes, correctement pondérée.

Conclusion

Je pense qu’au lieu de se concentrer sur des modèles, c’est-à-dire, un ensemble d’hyptohèses sur les processus de génération des données et la forme des relations, on devrait raisonner en termes de statistique : quelle valeur synthétique représente le mieux ce qui m’intéresse. Ce n’est qu’après avoir défini cette statistique que les problématiques d’échantillon fini doivent être considérés : rectification des biais d’estimateur ponctuel et calcul des incertitudes.

Il est parfois nécessaire de reposer sur des modèles, mais les conséquences de la violation des hypothèses sous-jacentes, qui est systématique, doit être connue afin de pouvoir interpréter correctement les résultats.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *