samedi 16 juin 2012

ACP sur corrélations partielles (suite)

Dans certains cas, les résultats de l’analyse en composantes principales  propose des résultats guère décisifs, parce qu’évidents. C’est le cas lorsque l’étude est dominée par l’influence de quelques variables qui pèsent exagérément sur toutes les autres. On parle « d’effet taille ». Il est alors généralement conseillé d’ignorer la première composante pour se concentrer sur l’étude des suivantes. Mais ce n’est pas aussi simple car nous sommes alors confrontés à d’autres problèmes. Par exemple, les guides usuels (règle de Kaiser, scree plot, etc) pour la détection du nombre adéquat de facteurs deviennent inopérants. En effet, mis à part le premier, les axes sont portés par des valeurs propres très faibles, laissant à penser qu’ils correspondent à des informations résiduelles, négligeables. Bien malin celui qui pourrait dès lors déterminer les facteurs « intéressant » pour l’interprétation.

Dans un ancien document, nous analysions les mensurations des différentes parties du corps. L’idée était de détecter les concomitances (ex. celui qui a de gros genoux a-t-il aussi de grosses chevilles). Très rapidement, nous nous sommes rendu compte que la taille, le poids et le genre pesaient fortement sur toutes les autres, masquant les relations pouvant exister entre les variables. Pour dépasser cette contrariété, j’avais proposé de réaliser l’ACP, non pas à partir de la matrice des corrélations brutes, mais à partir des corrélations partielles, en contrôlant l’impact des trois variables ci-dessus (cf. Saporta, 2006 ; page 197). Le diagramme de traitements était un peu complexe, mais les résultats en valaient la peine. Nous retrouvions bien les similitudes qu’il pouvait y avoir selon les différentes régions du corps.

Très récemment, je me suis rendu compte que ce type d’analyse est proposé de manière native par la proc factor du logiciel SAS. Je me suis jeté dessus pour vérifier que l’on retrouvait bien les mêmes résultats, ce qui est le cas, c’est toujours rassurant. C’est ce nouveau traitement qui vient compléter ce tutoriel (Section 7).

Enfin, puisque la procédure est somme toute assez simple, je l’ai également programmée sous R en exploitant princomp( ). La difficulté réside dans une préparation adéquate des données (Section 8). Bien évidemment, quel que soit le logiciel utilisé, nous avons exactement les mêmes résultats.

Mots clés : corrélation partielle, analyse en composantes principales, acp, sas, proc factor, partial, logiciel R, princomp, varimax
Composants : Principal Component Analysis, Scatterplot, 0_1_Binarize, Residual Scores, VARHCA, Parallel Analysis, Factor Rotation
Lien : fr_Tanagra_PartialCorrelation_PCA_continued.pdf 
Données : body.xls ; body_sas.zip
Références :
Tutoriel Tanagra, "Travailler sur les corrélations partielles"
Tutoriel Tanagra, "ACP avec Tanagra - Nouveaux outils"