mardi 25 septembre 2012

Analyse en facteurs principaux

On parle souvent de l'analyse en facteur principaux (AFP) en contrepoint à l'analyse en composantes principales (ACP) dans la littérature anglo-saxonne. Qu’est ce qui les distingue, qu’est-ce qui les réunit ?  Ce sont des techniques factorielles, raison pour laquelle on les confond bien souvent. Mais l’ACP cherche à résumer de manière la plus efficace possible l’information disponible en s’intéressant à la variabilité totale portée par chaque variable de la base. Il s’agit donc d’une technique de compression, intéressante surtout lorsque l’on cherche à exploiter les facteurs dans des études subséquentes (ex. analyse discriminante sur facteurs). En revanche, l’AFP cherche à structurer l’information en s’intéressant à la variabilité commune aux variables. L’idée est de mettre en avant des facteurs sous-jacents (variables latentes) qui associent deux ou plusieurs colonnes des données. L’influence des variables qui font cavalier seul, indépendantes des autres, devrait être écartée.

Elles sont donc différentes de par la nature des informations qu’elles exploitent. Mais la nuance n’est pas évidente. D’autant plus qu’elles sont souvent regroupées dans le même outil dans certains logiciels, que les tableaux de résultats sont identiques, et que les interprétations sont finalement très proches.

Dans ce tutoriel, nous décrirons trois techniques d’analyse factorielle pour variables quantitatives (Principal Component Analysis - ACP, Principal Factor Analysis, Harris Component Analysis). Nous nous en tiendrons aux algorithmes non itératifs pour les deux dernières. L’ACP, maintes fois présentée, servira surtout de repère pour les deux suivantes. Nous les distinguerons en détaillant la matrice (de corrélation pour l’ACP) qui sera présentée à l’algorithme de diagonalisation. Ce prisme permet de comprendre le type d’information que les méthodes mettent en avant à l’issue des calculs. Pour appuyer l’exposé, nous préciserons chaque étape des opérations sous le logiciel R en mettant en miroir les résultats fournis par SAS (PROC FACTOR). Par la suite, nous décrirons leur mise en œuvre sous les logiciels Tanagra 1.4.47, R avec le package PSYCH et SPSS 12.0.1.

Mots clés : ACP normée, analyse en facteurs principaux, analyse de Harris, corrélation reproduite, corrélation résiduelle, corrélation partielle, rotation varimax, logiciel R, package psych, principal( ), fa( ), proc factor, SAS, SPSS
Composants : PRINCIPAL COMPONENT ANALYSIS, PRINCIPAL FACTOR ANALYSYS, HARRIS COMPONENT ANALYSIS, FACTOR ROTATION
Lien : fr_Tanagra_Principal_Factor_Analysis.pdf
Données : beer_rnd.zip
Références :
D. Suhr, "Principal Component Analysis vs. Exploratory Factor Analysis".

lundi 24 septembre 2012

Tanagra - Version 1.4.47

Non iterative Principal Factor Analysis (PFA). Analyse en facteurs principaux est une technique factorielle qui cherche à mettre en évidence les variables latentes qui lient deux ou plusieurs variables actives de la base de données. A ce titre, à la différence de l’analyse en composante principales (ACP), elle s’intéresse uniquement à la variabilité partagée entre les variables. Dans les faits, elle travaille à partir d’une variante de la matrice des corrélations où pour chaque variable, sur la diagonale principale, nous remplaçons la valeur 1 par sa proportion de variance expliquée par les autres variables.

Harris Component Analysis. C’est une technique factorielle qui s’intéresse à la variabilité partagée entre les variables. Elle travaille sur une seconde variante de la matrice des corrélations où les liaisons entre deux variables sont accentuées lorsqu’elles (l’une des deux ou les deux) présentent une relation forte avec les autres variables de la base. Seule l’approche non itérative a été implémentée.

Analyse en composantes principales (ACP). L’outil est complété avec la reconstitution de la matrice de corrélation. Il est aussi réorganisé en interne afin que la structure puisse couvrir les différentes variantes de techniques factorielles pour variables quantitatives ou mixtes.

Ces trois techniques peuvent être couplées avec la rotation orthogonale des axes (FACTOR ROTATION).

Elles peuvent également être couplées avec les composants d’aide à la détection du nombre adéquat d’axes : PARALLEL ANALYSIS et BOOTSTRAP EIGENVALUES.

Page de téléchargement : setup

lundi 3 septembre 2012

Analyse factorielle de données mixtes

Habituellement, on utilise l’analyse en composantes principales (ACP) lorsque toutes les variables actives sont quantitatives, l’analyse des correspondances multiples (ACM ou AFCM) lorsqu’elles sont toutes catégorielles. Mais que faire lorsque nous avons un mix des deux types de variables ?

L’analyse factorielle des données mixtes (AFDM) de Jérôme Pagès (Pagès, 2004) s'appuie le codage disjonctif complet des variables qualitatives. Mais elle introduit une subtilité supplémentaire. A l’instar de l’ACP normée où l’on réduit les variables (c’est une forme de recodage) pour uniformiser leurs influences, il propose de substituer au codage 0/1 des variables qualitatives un codage 0/x où « x » est savamment calculé à partir des fréquences des modalités. On peut dès lors utiliser un programme usuel d’ACP pour mener l’analyse (Pagès, 2004 ; page 102). Les calculs donc bien maîtrisés. L’interprétation des résultats requiert en revanche un effort supplémentaire puisqu’elle sera différente selon que l’on étudie le rôle d’une variable quantitative ou qualitative.

Dans ce tutoriel, nous montrons la mise en œuvre de l’AFDM avec les logiciels Tanagra 1.4.46 et R 2.15.1 (package FactoMineR). Nous mettrons l’accent sur la lecture des résultats. Il faut pouvoir analyser simultanément l’impact des variables quantitatives et qualitatives lors de l’interprétation des facteurs. Les outils graphiques sont très précieux dans cette perspective.

Mots clés : ACP, ACM, AFCM, AFDM, corrélation linéaire, rapport de corrélation, package FactoMineR, logiciel R
Composants : AFDM, SCATTERPLOT WITH LABEL, CORRELATION SCATTERPLOT, VIEW MULTIPLE SCATTERPLOT
Lien : fr_Tanagra_AFDM.pdf
Données : AUTOS2005AFDM.txt
Références :
Jérôme Pagès, « Analyse Factorielle de Données Mixtes », Revue de Statistique Appliquée, tome 52, n°4, 2004 ; pages 93-111.

samedi 1 septembre 2012

Tanagra - Version 1.4.46

AFDM (Analyse factorielle des données mixtes). Etend l’analyse en composantes principales (ACP) aux données comportant un mélange de variables quantitatives et qualitatives. La méthode est due à Pagès (2004). Un tutoriel viendra décrire la mise en œuvre de la méthode et la lecture des résultats.

Page de téléchargement : setup