vendredi 4 avril 2008

Coefficient de corrélation linéaire

Calculer un indicateur et trier selon cet indicateur fait partie des tâches récurrentes de la fouille de données. Dans ce didacticiel, nous montrons comment mettre en place rapidement le calcul du coefficient de corrélation linéaire (1) d’une variable de référence avec une liste de variables, dans le cadre de la sélection de variables explicatives d’une régression par exemple ; (2) croisé entre plusieurs variables, cela peut être utilisé pour détecter les colinéarités entre variables explicatives d’une régression.

Dans une deuxième partie, nous abordons le calcul de la corrélation partielle sur un grand nombre de variables. Pour rappel, la corrélation partielle Y,X/Z correspond au lien entre Y et X en contrôlant l’effet de Z c.-à-d. à valeur de Z constant, nous mesurons la liaison entre Y et X. Z joue le rôle de variable de contrôle, il peut y en avoir plusieurs.

La stratégie mise en avant dans Tanagra est de produire les résidus des régressions Y/Z et X/Z, puis de calculer la corrélation brute sur ces résidus. Cela nous permet de mieux organiser le diagramme de traitements. Un petit bémol cependant, une attention particulière doit être portée aux degrés de libertés du test de significativité dès lors que l’on fait intervenir une ou plusieurs variables de contrôle dans le calcul de la corrélation.

Mots clés : corrélation linéaire, corrélation partielle
Composants : Linear correlation, Residual scores
Lien : fr_Tanagra_Linear_Correlation.pdf
Données : cars_acceleration.xls
Références :
D. Garson, « Correlation », in Statnotes : Topics in Multivariate Analysis.
D. Garson, « Partial correlation », in Statnotes : Topics in Multivariate Analysis.