Conditions de validité du coefficient de corrélation de Pearson et de la régression linéaire

Pour faire court, la seule condition de validité pour le calcul d’un coefficient de corrélation de Pearson ou l’estimation d’une régression linéaire, est l’existence d’une variance non-nulle sur chacune des deux variables, sous peine de division par zéro. Tous les autres éléments ne sont que des « précautions d’interprétation ».

La régression linéaire, estimée par les moindres carrés a des propriétés générales très intéressantes, parce l’estimateur des moindres carrés, c’est celui de la moyenne. Cela garantit une espérance d’erreur nulle, là où la plupart des estimateurs de modèle n’ont pas cette propriété extrêmement utile, voire indispensable dans certaines situations.

Le coefficient de corrélation de Pearson peut avoir une interprétation conjointe à la régression linéaire simple (son carré étant la variance expliquée par la régression) mais bénéficie aussi de propriétés propres très intéressantes.

Ce billet lance une réflexion sur l’usage de ces statistiques afin d’aller au-delà des algorithmes automatiques tournées autour de l’hypothèse de normalité ; cette dernière étant aussi plausible que l’existence du monstre du Loch Ness comme le montre cet algorithme.

Définition du coefficient de corrélation de Pearson

Le coefficient de corrélation de Pearson entre deux variables est égal à l’espérance du produit des variables préalablement centrées-réduites. C’est aussi égal à la covariance de ces deux variables centrées-réduites.

Cette définition, n’implique absolument pas d’hypothèse de normalité, de linéarité, d’homoscédasticité ou quoi que ce soit du genre. C’est juste un calcul mathématique, qui lui confère quelques propriétés générales très précieuses.

Propriétés générales du coefficient de corrélation de Pearson

Considérant deux variables A et B, de lois quelconques, dépendantes ou pas, alors

COV(A,B)=COR(A,B)×sqrt(VAR(A)×VAR(B))

Où VAR représente la variance, COV la covariance et COR, la corrélation de Pearson.

Ainsi, connaissant, l’écart-type (ou la variance) de A et de B, on peut calculer la variance de la somme de A et B ou de la différence, en s’aidant des deux formules

VAR(A+B) = VAR(A)+VAR(B)+2×COV(A,B)

VAR(A-B) = VAR(A)+VAR(B)-2×COV(A,B)

Ces propriétés mathématiques ne sont pas asymptotiques, elles sont exactes, même sur un échantillon fini. Même avec n=3 observations. Il n’y a aucune approximation et aucune hypothèse distributionnelle.

C’est une conséquence directe de la décomposition de la formule (a+b)²=a²+b²+2×a×b.

Ces propriétés sont très utiles pour les méta-analyses et/ou l’extraction de données d’un article.

Considérons la situation assez fréquente dans laquelle on souhaite connaître la variance intra-sujet d’une mesure afin de calculer le nombre de sujets nécessaires dans une étude en cross-over. À partir d’un article fournissant la moyenne et l’écart-type de la mesure d’intérêt, dans la population d’intérêt, à deux temps différents, et fournissant le petit p d’un Student sur séries appariées, on peut remonter du petit p à la statistique t de Student, pour en déduire la variance de la différence. On peut aussi aller plus loin, en utilisant la variance de la différence et la variance à chaque temps pour en déduire la covariance entre les deux temps ainsi que le coefficient de corrélation de Pearson. Cela fonctionne sans hypothèse de normalité. Quand bien même le petit p du Student sur séries appariées a une validité dépendant d’une hypothèse de normalité asymptotique, le calcul réalisé pour remonter au coefficient de corrélation reste vrai même si l’hypothèse est fortement fausse.

Si les auteurs omettent le test de Student sur séries appariées mais fournissent un coefficient de corrélation de Pearson, alors grâce aux moyennes et aux écarts-types, on peut calculer la variance d’une différence appariée, ainsi que faire le test de Student sur séries appariées. En bref, variance, covariance, corrélation de Pearson ont des propriétés mathématiques les rendant complémentaires, permettant l’extraction de données et la vérification de cohérence. Soit dit en passant, cela fonctionne tout aussi bien avec des variables binaires qu’avec des variables quantitatives continues ou discrètes.

Sur la population, le coefficient de corrélation de Pearson entre deux variables X et Y est égal au coefficient de corrélation de Pearson entre deux moyennes Mx et My d’échantillons de taille n d’observations indépendantes et identiquement distribuées, et ce pour tout n. Cela se démontre, en passant par la covariance:

COR(Mx, My) = COV(Mx, My)/sqrt(VAR(Mx)×VAR(My)) = (COV(X,Y)/n)/sqrt(VAR(X)/n × VAR(Y)/n) = COV(X,Y)/sqrt(VAR(X)×VAR(Y)) = COR(X,Y)

Au fond, c’est cette propriété qui permet d’estimer une différence de moyennes appariée en connaissant seulement de la moyenne et l’écart-type estimés sur chaque série de données ainsi que d’une estimation du coefficient de corrélation entre les deux variables.

Le code suivant montre qu’en présence d’un effet non-linéaire, le coefficient de corrélation de Pearson vérifie bien cette propriété alors que le coefficient de corrélation de Spearman entre les moyennes est dix fois plus fort (R=0.70) qu’entre les variables X et Y (R=0.07).

set.seed(2020)
a=rexp(1e6)
b=2*(a-1)^2+rexp(1e6)
cor.test(a,b, method="spearman") # Spearman's r=0.07
cor.test(a,b, method="pearson") # Pearson's r=0.70

m=sapply(1:1e6, function(x) {
	a=rexp(100)
	b=2*(a-1)^2+rexp(100)
	c(mean(a), mean(b))
})

cor.test(m[1,], m[2,], method="spearman") # Spearman's r=0.70
cor.test(m[1,], m[2,], method="pearson") # Pearson's r=0.70

Malheureusement, un coefficient de corrélation de Spearman entre les variables X et Y ne permet absolument pas d’estimer la corrélation de Spearman entre les variables Mx et My sauf si on fait des hypothèses distributionnelles fortes (p.e. relation linéaire et résidus normaux), et même ainsi, la relation n’est pas une simple égalité.

Définition théorique de la régression linéaire

Le modèle de régression linéaire simple sur un échantillon de taille n comportant des variables (X1, …, Xn) et (Y1, …, Yn) est généralement noté :

Yi=beta0+beta1×Xi+Epsilon_i

Pour i=1, …, n

où beta0 et beta1 sont des constantes.

On suppose que les Epsilon_i suivent tous une loi normale, de même variance et que tous les Epsilon_i sont indépendants. On associe généralement à ce modèle, l’estimateur des moindre carrés.

Que faire lorsqu’on sait qu’aucune loi du vivant ne suit une loi normale, comme décrit dans ce billet ? Cela rend-il impossible d’utiliser ce modèle ?

Ma réponse, c’est qu’en redéfinissant ce modèle, il apparaît que ces conditions ne sont pas nécessaires.

Redéfinition de la régression linéaire

Cette section est un peu technique et pas nécessaire à la compréhension globale du billet. N’hésitez pas à passer à la section « propriétés de la régression linéaire » si vous ne comprenez rien. Elle me permet juste de répondre aux puristes qui diraient que l’homoscédasticité, la linéarité et la normalité des résidus font partie, par définition, du modèle linéaire et qu’en conséquence tout ce que je dis n’est qu’un tas d’ineptie puisque je remets en cause une définition. Je suis peut-être hérétique en remettant en cause ~~un dogm~~e une définition.

L’estimateur des moindres carrés de la régression linéaire est applicable à n’importe quel échantillon (sauf division par zéro dans des cas exceptionnels). Il permet d’estimer des coefficients beta0 et beta1 ainsi que des prédictions comme des combinaisons linéaires de beta0 et beta1. Ce sont des statistiques, soumises à des fluctuations d’échantillonnage.

À partir d’une statistique calculable sur un échantillon, on peut toujours définir une statistique dans une population infinie, comme la limite, quand n tend vers l’infini, de l’espérance de la statistique sur un échantillon aléatoire de taille n, d’observations indépendantes et identiquement distribuées issues de la population considérée. Il est théoriquement possible que cette limite n’existe pas, comme avec la loi de Cauchy, mais dans les cas usuels en biologie et médecine où les distributions sont bornées, et avec la régression linéaire qui a des bonnes propriétés de stabilisation asymptotique, elle devrait toujours exister.

Ainsi, en transformant l’estimateur en statistique dans la population, je définis les coefficients (beta0 et beta1) et prédictions d’un modèle linéaire de manière totalement indépendante de la moindre hypothèse de linéarité, homoscédasticité ou normalité. La seule hypothèse est l’existence d’une limite à ces coefficients. Cela me permet alors d’analyser les propriétés de ces statistiques dans le cas ordinaire de non-respect des hypothèses théoriques de validité.

Propriétés de la régression linéaire

La moyenne est une statistique directement liée à l’estimateur des moindres carrés. En effet, c’est la statistique qui minimise les carrés des écarts à cette statistique.

Vous pouvez le vérifier par vous-même sous le logiciel R:

v=c(1,30,50)
mean(v) # vaut 27
optimize(function(position) {sum((v - position)^2)}, interval=range(v)) # vaut 27
coef(lm(v ~ 1)) # vaut 27

La régression linéaire est aussi habituellement estimée par les moindres carrés. Cela lui confère des propriétés intéressantes, sans hypothèse de normalité, homoscédasticité ni linéarité.

Sur un échantillon fini, aussi petit soit-il, la moyenne des résidus d’une régression linéaire estimée par les moindres carrés est nulle. Les résidus positifs sont compensés par les résidus négatifs. Cela est toujours vrai, sans la moindre hypothèse (même pas l’indépendance des observations). Le code R suivant permet de le vérifier:

x=rexp(3)
y=x^(1/3)+rexp(3)
mean(resid(lm(y ~ x))) # zéro, aux erreurs d'arrondi des nombres à virgule flottante près

Si on considère une régression linéaire des moindres carrés dont les coefficients sont connus exactement (ou estimés sur un très grand échantillon représentatif de la population), l’espérance des erreurs de prédiction de ce modèle est nulle sur cette même population, sous l’hypothèse d’observations indépendantes et identiquement distribuées. Les erreurs positives compensent exactement les erreurs négatives. Cela est faux avec d’autres modèles linéaires tel que le modèle linéaire identité-binomial estimé par le maximum de vraisemblance. Vous pouvez vérifier cette propriété avec le code R suivant:

set.seed(2020)
x=rexp(1e7) # distribution non normale
population=data.frame(x=x, y=x^(1/3)+rexp(1e7)) # relation non linéaire
model = lm(data=population, y ~ x) # coefficient presque exactement connus
x=rexp(1e6)
bigsample=data.frame(x=x, y=x^(1/3)+rexp(1e6))
mean(predict(model, newdata=bigsample) - bigsample$y) # erreur de prédiction moyenne presque nulle

Prenons l’exemple d’une mutuelle santé à but non lucratif voulant calculer les coûts de cotisation en adaptant le coût de cotisation à l’âge, qui est une variable reflétant la consommation de soins. Pour chaque cotisant, on peut calculer un coût de consommation précis (en euros). Les frais de gestion sont éventuellement ventilés proportionnellement au coût de cotisation, de telle sorte qu’on puisse calculer un « coût » de chaque cotisant de telle sorte que les dépenses totales de la structure sont égale à la somme de tous les coûts de tous les cotisants. L’échantillon exhaustif des cotisants sur les trois années précédentes sert ensuite à estimer les paramètres d’une régression linéaire des moindres carrés expliquant le coût par l’âge, permettant de calculer les cotisations mensuelles, adaptées à l’âge, pour l’année suivante. À moins que la pyramide des âges ou le profil de consommation selon l’âge évolue beaucoup l’année suivante, cette méthode garantit l’équilibre budgétaire, quand bien même la relation entre la consommation et l’âge n’est pas linéaire. On peut noter que la mutuelle peut aussi préférer un système plus solidaire, avec une cotisation indépendante de l’âge, en supprimant l’âge du modèle, conduisant alors à une cotisation égale à la moyenne des coûts des cotisants. Cette moyenne conserve aussi la propriété d’équilibre budgétaire. L’usage de modèles « robustes », excluant par exemple, le pourcent de consommateurs les plus forts, ne garantirait pas l’équilibre budgétaire.

Même si l’exemple fourni est basé sur une régression linéaire simple, cette bonne propriété d’espérance d’erreur nulle est applicable au modèle linéaire général, et donc à des modèles multivariés prenant en compte plusieurs paramètres pour le calcul des cotisations. Même en présence d’interactions, cette propriété est conservée.

Relation entre régression linéaire et coefficient de corrélation de Pearson

La régression linéaire des moindres carrés minimise la variance résiduelle. La variance expliquée, ou R², est égale à un moins le rapport entre la variance résiduelle et la variance totale. Pour une régression linéaire simple, le coefficient de corrélation de Pearson élevé au carré est égal à ce R². Cela est toujours vrai sur un échantillon, encore une fois, sans hypothèse particulière.

Propriétés spécifiques du modèle linéaire

Hypothèse de linéarité respectée

Définissons l’existence d’une relation linéaire entre une variable Y et une variable X par l’existence d’un modèle linéaire tel que l’espérance de la variable Y conditionnelle à une valeur de X est égale à la prédiction de Y par X. L’estimateur des moindres carrés est capable de trouver les bons coefficients, garantissant cette propriété, quand bien même il y a une hétéroscédasticité et les distributions de Y conditionnelles à chaque valeur de X diffèrent en forme les unes des autres ! On repose seulement sur l’hypothèse d’observations indépendantes et identiquement distribuées dans la distribution bivariée (X,Y). Le code R suivant illustre cette propriété:

set.seed(2020)
x=rep(c(1,2,3), c(1e5, 2e6, 1e6))
y=c(2+rnorm(1e5), # résidu normal de faible variance
4+(rexp(2e6)-1)*3, # résidu selon loi exponentielle d'écart-type égal à 3
6+(runif(1e6)-0.5)*10 # résidu selon loi uniforme, de très forte variance
)

predict(lm(y ~ x), newdata=data.frame(x=1:3)) # prédit bien 2, 4, 6

Ainsi, avec des coefficients estimés par l’estimateur des moindres carrés sur un grand échantillon, l’erreur de prédiction de Y conditionnelle à n’importe quelle valeur de X, est nulle. Cela garantit notamment que l’espérance de l’erreur de prédiction reste nulle quand bien même la distribution de X change.

On remarquera que l’estimateur des moindres carrés avec une quelconque pondération aura la même espérance des coefficients. Par exemple, une pondération ayant pour objectif de « rectifier » les problèmes d’hétéroscédasticité, sera asymptotiquement équivalent à la version non pondérée.

Hypothèse d’indépendance entre les résidus et la variable X respectée

De manière équivalente, on peut dire que la distribution de la différence entre la prédiction et l’observation est indépendante de X, c’est-à-dire, la distribution de cette différence conditionnelle à une valeur de X a la même distribution quelle que soit la valeur de X.

Si cette propriété est vérifiée, alors, non seulement on garantit que conditionnellement à chaque valeur de X, l’espérance de l’erreur est nulle, mais on peut même prédire la distribution de cette erreur. On peut empiriquement déterminer cette distribution comme la distribution des résidus observés. Il est possible de lisser, ou non, la distribution empirique de ces résidus par une estimation par noyau. En s’aidant de la distribution empirique de X estimée par noyau, on peut fournir une estimation de la distribution jointe (X,Y) avec densité de probabilité bivariée. Néanmoins, je déconseille fortement ce type de modélisation car cette hypothèse est généralement (toujours?) fausse. On peut souvent utiliser directement la distribution bivariée (X,Y) empirique, plus ou moins lissée si nécessaire. C’est néanmoins plus intéressant lorsqu’on s’intéresse à la distribution de Y conditionnelle à une valeur précise de X puisque dans ce cas, la distribution de Y conditionnelle à X est susceptible de n’être estimable qu’avec zéro ou une valeur si on souhaite une estimation empirique sans hypothèse de modélisation.

Hypothèse de normalité des résidus

Si cette hypothèse est vérifiée (ce qui n’arrive jamais ?), alors… elle est vérifiée et on peut reposer dessus. Cela veut dire, par exemple, qu’on peut estimer la variance résiduelle empiriquement, puis utiliser cette variance résiduelle comme paramètre d’une distribution normale afin de connaître la distribution de l’erreur résiduelle conditionnelle à n’importe quelle valeur de X. Par rapport à l’hypothèse précédente, on peut gagner un peu en précision sur l’estimation de cette distribution conditionnelle sur des échantillons de taille modeste. Reposer sur cette propriété engendre un biais mais est susceptible de réduire l’erreur sur de petits échantillons, lorsque l’écart à la normalité est modeste, par rapport à l’estimation empirique de la distribution des résidus. C’est alors un choix guidé par le rapport biais/erreur.

Normalité asymptotique

Si vous avez déjà essayé d’estimer des paramètres de régression Passing BaBlok par bootstrap non paramétrique sur un échantillon de taille modeste, vous avez dû remarquer que les fluctuations d’échantillonnages du Passing BaBlok sont discrètes. C’est dû au fait que la distribution empirique est discrète sur un échantillon de taille modeste. Le Passing BaBlok a des fluctuations d’échantillonnages chaotiques lorsque X ou Y suivent des lois discrètes. Ce problème n’existe pas avec la régression linéaire des moindres carrés dont les estimateurs de coefficients suivent asymptotiquement une loi normale multivariée quelque soient les distributions de X et Y à condition que l’échantillon soit constitué d’observations indépendantes identiquement distribuées. Cette normalité asymptotique s’applique aussi au coefficient de corrélation de Pearson. Il n’y a pas à reposer sur une hypothèse d’homoscédasticité ou de normalité des résidus.

Intervalles de confiance et petits p

Sur des échantillons de taille suffisante, alors, le boostrap permet de fournir des intervalles de confiance asymptotiquement corrects aussi bien pour la régression linéaire que pour le coefficient de corrélation de Pearson. Les estimateurs d’intervalles de confiance classiques peuvent par contre être biaisés. La transformation z de Fisher et l’approximation à une loi normale du coefficient de corrélation de Pearson sont asymptotiquement corrects mais l’estimateur de sa variance comme égal à 1/(n-3) est parfois asymptotiquement biaisé. Cette approximation est asymptotiquement correcte lorsque le vrai coefficient de corrélation nul, mais d’une manière générale elle est susceptible d’être asymptotiquement biaisée. De même, l’intervalle de confiance de Wald sur les coefficients d’une régression linéaire est susceptible d’être asymptotiquement biaisé. Si on a des résidus normalement distribués, indépendants et identiquement distribués, alors les approximations sont correctes. C’est pourquoi je recommande l’usage du boostrap dans le cas général.

Sensibilité aux outliers

L’estimateur des moindres carrés et fortement influencé par les valeurs atypiques (outliers) et donc la régression linéaire comme le coefficient de corrélation de Pearson le sont aussi. Selon les cas, cela peut-être souhaitable ou pas. Reprenons l’exemple d’une mutuelle santé qui s’intéresse au coûts de ses prestations. Si on s’intéresse aux rentrées d’argent associés à chaque adhérent, exprimées comme la somme des cotisations moins les dépenses associées aux remboursements, alors la majorité des adhérents fourniront une rentrée d’argent positive alors que quelques rares adhérents coûteront des dizaines de milliers d’euros en frais d’hospitalisation. Un adhérent qui coûte 70 000 €, pèse 700 fois plus sur le budget, qu’un adhérent qui coûte 100 €, et cela doit forcément être pris en compte si on souhaite l’équilibre budgétaire. En conséquence, si on veut garantir l’équilibre budgétaire, il faut une estimation précise de la proprotion de sujets qui coûtent 70 000 €. Vous comprenez bien que ce n’est pas avec 30 observations qu’on pourra estimer une moyenne correcte ! La règle selon laquelle la méthode de Student fonctionne dès que n>= 30 est ridicule puisque ça dépend fondamentalement de la fréquence et le degré d’atypie des valeurs atypiques. Ce phénomène est encore plus marqué pour les assurances qui remboursent des frais en cas d’accident très onéreux et très rare. La distribution des risques doit être alors estimés par des modèles bien plus complexes qu’un échantillon avec n=30. Il est bien évident que l’espérance reste le paramètre clé. Il ne faut surtout exclure ces outliers ou se baser sur la médiane. La sensibilité aux outliers est une nécessité; ce sont eux qui contiennent l’information.

Les choses sont très différentes si on s’intéresse, par exemple, à la corrélation entre la vitesse de sédimentation (VS) et la C Reactive Protein (CRP). L’espérance n’a plus d’importance et on s’intéressera plutôt à l’idée de seuils de positivité ou à des seuils pathologiques. Il paraîtra toujours pertinent de considérer qu’une valeur de CRP à 300 est supérieure à une valeur à 50, mais le ratio 300/50=6 ne revêtira pas de pertinence en pathogenèse. Devant cette situation, la corrélation sera mieux appréciée par un tau de Kendall ou un coefficient de corrélation de Spearman que par un coefficient de corrélation de Pearson. La régression linéaire posera des problèmes de stabilité d’estimateur sur des échantillons de taille modeste, mais manquera aussi de pertinence dans la description des relations. Le fait de perdre en performance prédictive sur les valeurs typiques pour améliorer la description des outliers, pourrait être contre-productif. Cela dépend néanmoins de l’usage de cette relation. Un meilleur exemple pourrait être la description de la relation entre deux techniques de dosage des anticorps ciblant un même antigène. Une modèle linéaire ou non-linéaire avec un estimateur robuste aux outliers pourrait être utilisé pour convertir un dosage en l’autre et établir ainsi une équivalence.

Résistance aux distributions discrètes

Juste en passant, le coefficient de corrélation de Spearman n’est pas spécialement adapté aux distributions discrètes. Le coefficient de corrélation de Pearson est parfaitement calculable avec des distributions discrètes, voire binaires, et ne souffre pas d’instabilité parce qu’il n’y a généralement pas d’outliers dans ce contexte.

Au contraire, le coefficient de corrélation de Spearman, avec sa transformation des rangs, va créer des écarts entre deux valeurs successives, d’autant plus grandes que la valeur est fréquente, rendant plus délicate l’interprétation du coefficient, sans compter les problèmes d’estimation de sa variance. On peut toujours s’en tirer avec du bootstrap si l’échantillon est de taille suffisante.

La régression linéaire est tout à fait pertinente sur des variables binaires. Si Y et X sont toutes deux binaires, la pente de la régression linéaire s’interprète comme la différence de proportions de Y=1 entre le groupe où X=0 et le groupe où X=1. L’ordonnée à l’origine (intercept) s’interprète comme la proportion de Y=1 dans le groupe où X=0.

Limites d’interprétation

En cas de relation non linéaire, il peut exister une corrélation très forte entre deux variables, mais le coefficient de corrélation de Pearson peut-être nul (ou très faible) et la régression linéaire peut avoir une pente nulle (ou très faible) et une très faible variance expliquée:

a=rnorm(1e4)
b=a^2
cor(a,b) # corrélation de Pearson nulle
coef(lm(b~a)) # pente nulle
plot(a,b)

Dans ces conditions, des modèles non linéaires permettent de prédire la valeur d’une variable en fonction de l’autre alors que le modèle linéaire n’a pas plus de pertinence que de fournir une moyenne générale. Le coefficient de corrélation de Pearson garde toutes ses propriétés intéressantes, mais ne peut pas être interprété comme une force d’association entre les deux variables. Il peut toujours s’interpréter comme la racine carrée de la variance expliquée par le modèle linéaire, qui est alors presque nul.

En cas d’hétéroscédasticité, le modèle linéaire reste toujours pertinent mais on peut espérer une meilleure stabilité des estimations en pondérant les résidus afin de rectifier l’homoscédasticité. Le modèle a toujours une erreur de prédiction moyenne nulle, voire une erreur de prédiction moyenne nulle conditionnellement à toute valeur de X, si la relation est linéaire, mais la distribution exacte des résidus diffère selon la valeur de X et ne peut pas être juste calculée comme la distribution empirique des résidus.

En cas de non linéarité, le modèle linéaire garde toujours la propriété d’erreur moyenne nulle, mais la variance résiduelle est susceptible d’être bien plus élevée que dans un modèle linéaire, de telle sorte qu’on peut dire qu’il a une performance prédictive médiocre. On perd aussi la propriété d’espérance nulle de l’erreur conditionnelle à toute valeur de X. Enfin, un changement de distribution de X, n’affectant pourtant pas la relation, peut faire apparaître un biais d’estimation, c’est-à-dire, une espérance d’erreur non nulle.

Conclusion

Beaucoup de modèles reposent sur une structure et des hypothèses manifestement fausses. On n’utilise jamais vraiment ces modèles (heureusement car ils sont faux) mais seulement leurs estimateurs. Il me paraît important d’étudier le bon ou mauvais comportement de ces estimateurs dans les cas usuels, en ne faisant qu’un minimum d’hypothèses. J’ai montré ainsi que l’estimateur des moindres carrés du modèle linéaire a des propriétés générales très intéressantes.

Le coefficient de corrélation de Pearson n’est pas un modèle mais une statistique, ayant de nombreuses propriétés intéressantes, comme j’ai montré plus haut. Il n’a pas vraiment de condition de validité mais seulement des limites d’interprétation dans certaines situations.