mardi 25 septembre 2012

Analyse en facteurs principaux

On parle souvent de l'analyse en facteur principaux (AFP) en contrepoint à l'analyse en composantes principales (ACP) dans la littérature anglo-saxonne. Qu’est ce qui les distingue, qu’est-ce qui les réunit ?  Ce sont des techniques factorielles, raison pour laquelle on les confond bien souvent. Mais l’ACP cherche à résumer de manière la plus efficace possible l’information disponible en s’intéressant à la variabilité totale portée par chaque variable de la base. Il s’agit donc d’une technique de compression, intéressante surtout lorsque l’on cherche à exploiter les facteurs dans des études subséquentes (ex. analyse discriminante sur facteurs). En revanche, l’AFP cherche à structurer l’information en s’intéressant à la variabilité commune aux variables. L’idée est de mettre en avant des facteurs sous-jacents (variables latentes) qui associent deux ou plusieurs colonnes des données. L’influence des variables qui font cavalier seul, indépendantes des autres, devrait être écartée.

Elles sont donc différentes de par la nature des informations qu’elles exploitent. Mais la nuance n’est pas évidente. D’autant plus qu’elles sont souvent regroupées dans le même outil dans certains logiciels, que les tableaux de résultats sont identiques, et que les interprétations sont finalement très proches.

Dans ce tutoriel, nous décrirons trois techniques d’analyse factorielle pour variables quantitatives (Principal Component Analysis - ACP, Principal Factor Analysis, Harris Component Analysis). Nous nous en tiendrons aux algorithmes non itératifs pour les deux dernières. L’ACP, maintes fois présentée, servira surtout de repère pour les deux suivantes. Nous les distinguerons en détaillant la matrice (de corrélation pour l’ACP) qui sera présentée à l’algorithme de diagonalisation. Ce prisme permet de comprendre le type d’information que les méthodes mettent en avant à l’issue des calculs. Pour appuyer l’exposé, nous préciserons chaque étape des opérations sous le logiciel R en mettant en miroir les résultats fournis par SAS (PROC FACTOR). Par la suite, nous décrirons leur mise en œuvre sous les logiciels Tanagra 1.4.47, R avec le package PSYCH et SPSS 12.0.1.

Mots clés : ACP normée, analyse en facteurs principaux, analyse de Harris, corrélation reproduite, corrélation résiduelle, corrélation partielle, rotation varimax, logiciel R, package psych, principal( ), fa( ), proc factor, SAS, SPSS
Composants : PRINCIPAL COMPONENT ANALYSIS, PRINCIPAL FACTOR ANALYSYS, HARRIS COMPONENT ANALYSIS, FACTOR ROTATION
Lien : fr_Tanagra_Principal_Factor_Analysis.pdf
Données : beer_rnd.zip
Références :
D. Suhr, "Principal Component Analysis vs. Exploratory Factor Analysis".