mardi 17 juin 2008

Corrélation semi-partielle

La régression linéaire multiple vise à expliquer les valeurs d’une variable dépendante (Y) à l’aide d’une série de variables indépendantes ou explicatives (Z1, …, Zp). La corrélation semi-partielle quantifie le pouvoir explicatif additionnel d’une variable supplémentaire (X), une fois que nous lui avons retranché les informations déjà portées par les variables (Z1,…,Zp). Une manière simple de la calculer est de réaliser les 2 régressions, avec et sans la présence de X, l’écart entre les deux coefficients de détermination des régressions correspond au carré de la corrélation semi-partielle.

Une autre manière de la produire est de calculer les résidus de la régression de X sur (Z1, …, Zp). Ils correspondent à la fraction de X non expliquée par les variables indépendantes. La corrélation semi-partielle est obtenue en calculant le coefficient de corrélation de Pearson entre Y et la variable résiduelle. La nature asymétrique du processus apparaît clairement, l’appellation « corrélation semi-partielle » est pertinente de ce point de vue. On peut faire le parallèle avec la corrélation partielle qui, elle, est symétrique. En effet la corrélation est calculée sur les résidus de X/Z1,…,Zp et Y/Z1,…, Zp dans ce cas.

Dans ce didacticiel, nous montrons les différentes manières de produire la corrélation semi-partielle. Nous comparons les résultats avec le composant dédié de TANAGRA (SEMI-PARTIAL CORRELATION).

Les aspects théoriques en relation avec ce didacticiel sont disponibles dans un support de cours accessible en ligne (voir références, chapitre 5). Nous reprenons d’ailleurs l’exemple illustratif qui y est développé.

Nous cherchons à expliquer la consommation des véhicules à partir de la puissance, la cylindrée et le poids. L’objectif est de déterminer l’apport d’information de "puissance" par rapport aux autres variables explicatives.

Mots clés : corrélation, corrélation de Pearson, corrélation semi-partielle, régression linéaire multiple
Composants : LINEAR CORRELATION, MULTIPLE LINEAR REGRESSION, SEMI-PARTIAL CORRELATION
Lien : fr_Tanagra_Semi_Partial_Correlation.pdf
Données : cars_semi_partial_correlation.xls
Références :
R. Rakotomalala, « Analyse de corrélation – Etudes des dépendances, variables quantitatives », Chapitre 5, Analyse_de_Correlation.pdf
R. Rakotomalala, « Cours économétrie - Supports de cours L3 IDS », Université Lyon 2
M. Brannick, « Partial and Semipartial Correlation », University of South Florida

Corrélation partielle

Le coefficient de corrélation est une mesure statistique destinée à quantifier l’intensité d’un lien (linéaire) entre 2 variables. Il est possible de mettre en place un test de significativité qui cherche à établir l’existence de la relation dans la population.

Le coefficient de corrélation est un instrument très populaire. Mais comme tout outil numérique, il a ses faiblesses. La plus criante étant certainement la corrélation factice : 2 variables semblent fortement liées, on se rend compte après coup que la liaison repose sur l’intervention d’une troisième variable. Par exemple, la corrélation entre la longueur des jambes et la longueur des avant-bras est très forte. Elle repose en réalité sur la taille des personnes : les grands ont tendance à avoir des jambes et des avant-bras longs, inversement chez les petits.

La corrélation partielle corrige cet inconvénient. Elle mesure la liaison en annulant l’effet de la troisième variable, dite variable de contrôle. Dans notre exemple, il s’agit de mesurer, à taille de personne égale, la relation entre les longueurs des jambes et des bras. Nous pouvons faire intervenir plusieurs variables de contrôle.

Dans ce didacticiel, nous montrons comment mettre en œuvre le composant PARTIAL CORRELATION dans Tanagra. Nous reprenons un exemple décrit sur un excellent site de cours en ligne (voir références). Outre une présentation théorique de la technique, le détail des calculs est disponible. Nous pouvons retracer les étapes de construction de la mesure, le test de significativité et l’élaboration des intervalles de confiance. Nous pouvons aussi nous comparer avec les résultats établis à l’aide d’autres logiciels de statistique.

Les données proviennent d’un test d’intelligence (QI) basé sur la méthode WAIS (Wechsler Adult Intelligence Scale). Nous disposons de 37 observations mesurées sur 4 dimensions : « Information », le degré de connaissance associée à la culture ; « Similarities », la capacité d’abstraction verbale ; « Arithmetic », le calcul mental ; « Picture.Completion », la capacité à percevoir les détails visuel. Nous cherchons à caractériser la liaison entre INFORMATION et SIMILARITIES, les variables de contrôle seront ARITHMETIC et PICTURE.COMPLETION.

Mots clés : corrélation, corrélation de Pearson, corrélation de rangs, rho de Spearman, corrélation partielle
Composants : LINEAR CORRELATION, SPEARMAN’S RHO, PARTIAL CORRELATION
Lien : fr_Tanagra_Partial_Correlation.pdf
Données : wechsler_adult_intelligence_scale.xls
Références :
R. Rakotomalala, « Analyse de corrélation – Etudes des dépendances, variables quantitatives », Analyse_de_Correlation.pdf
S. Rathbun, A. Wiesner, « STAT 505 – Applied Multivariate Statistical Analysis », The Pennsylvania State University, Lesson 7 : Partial Correlations