Qu'est-ce que le coefficient de corrélation de Pearson ?

13 septembre, 2020
En principe, le coefficient Spearman est simplement un cas particulier du coefficient de Pearson. Dans ce document, les données sont converties en pages avant de calculer le coefficient.

La corrélation entre deux variables nous permet d’avoir une idée du degré d’association ou de covariation qui existe entre ces deux variables. Ainsi, les coefficients de corrélation sont une sorte de représentation numérique de la relation entre les 2 variables (1). Mais quel est le coefficient de corrélation de Pearson ?

En 1846, Bravais a déjà fait une approximation de ce que nous connaissons aujourd’hui sous le nom de coefficient de corrélation de Pearson. Cependant, c’est Karl Pearson qui a décrit pour la première fois, en 1896, la méthode standard de calcul et qui a démontré qu’elle était la meilleure possible.

Pearson a également fait quelques commentaires sur une extension de l’idée de Galton. Ce sont ces derniers qu’il a appliqué aux données anthropométriques. Pearson a appelé cette méthode la méthode des “moments produits” (ou la fonction de Galton pour le coefficient de corrélation r).

Le coefficient de corrélation de Pearson est associé à l’ajustement de modèles statistiques très courants, tels que l’analyse de régression, avec son carré – coefficient de détermination – fonctionnant comme un indicateur de la qualité de l’ajustement.

Ainsi, Pearson (1896) lui-même nous a parlé de la nécessité des variables analysées (corrélées, analysées) de remplir certaines hypothèses, telles que la normalité.

Deux personnes calculant le coefficient de Pearson.

Coefficient de corrélation de Spearman et sa fonction

Le coefficient de corrélation de Spearman est une statistique de plage non paramétrique (sans distribution de probabilité associée). Il a été proposé comme mesure de la force de l’association entre deux variables. Il s’agit d’une mesure d’une association monotone que l’on utilise lorsque la distribution des données rend le coefficient de corrélation de Pearson trompeur.

Le coefficient de Spearman n’est pas une mesure de la relation linéaire entre deux variables, comme l’indiquent certaines “statistiques”. Il évalue dans quelle mesure une fonction monotone arbitraire peut décrire la relation entre deux variables.

Contrairement au coefficient de corrélation de Pearson, il ne suppose pas que la relation entre les variables est linéaire. Il n’exige pas non plus que les variables soient mesurées sur des échelles d’intervalle ; on peut aussi l’utiliser pour des variables mesurées au niveau ordinal.

En principe, le coefficient Spearman est simplement un cas spécial du coefficient Pearson. Dans ce document, les données sont converties en plages avant de calculer le coefficient.

Hypothèses sous-jacentes au coefficient de corrélation

Les hypothèses sous-jacentes au coefficient de corrélation de Pearson sont les suivantes (2) :

  • La distribution conjointe des variables (X, Y) doit être normale bivariée
  • Concrètement, pour valider cette hypothèse, il faut noter que chaque variable est normalement distribuée. Si une seule variable s’écarte de la normalité, la distribution conjointe n’est pas non plus normale
  • Il doit exister une relation linéaire entre les variables (X, Y)
  • Pour chaque valeur de X, il existe une sous-population de valeurs Y normalement distribuées
  • Les sous-populations de valeurs Y ont une variance constante
  • Les moyennes des sous-populations de Y se situent sur la même ligne droite
  • Les sous-populations de X ont une variance constante
  • Les moyennes des sous-populations de X se trouvent sur la même ligne droite
  • Pour chaque valeur Y, il existe une sous-interpolation des valeurs X qui sont normalement distribuées
Une femme en train de calculer le coefficient de corrélation de Pearson.

Conclusion

Ainsi, en analysant à la fois les coefficients de Pearson et de Spearman, on pourrait s’attendre à ce que le sens de l’un implique le sens de l’autre. D’un autre côté, une implication inverse ne semble pas nécessairement être logiquement vraie. Ainsi, l’importance de la corrélation de Spearman peut conduire à l’importance ou à la non-importance du coefficient de corrélation de Pearson. Cela se produit même pour les grands ensembles de données (1).

D’un autre côté, il est préférable de ne pas utiliser le coefficient de corrélation de rang de Spearman comme mesure de concordance, comme celle dont nous pourrions avoir besoin pour calibrer un instrument. En revanche, c’est une mesure très utile lorsque nous avons de nombreuses valeurs extrêmes (l’hypothèse de normalité est violée).

 

  1. Müller, R., & Büttner, P. (1994). A critical discussion of intraclass correlation coefficients. Statistics in medicine, 13(23‐24), 2465-2476.
  2. Restrepo, L. F., & González, J. (2007). From pearson to Spearman. Revista Colombiana de Ciencias Pecuarias, 20(2), 183-192.
  3. Altman, D. G. (1990). Practical statistics for medical research. CRC press.