dimanche 3 juin 2012

ACP avec R - Détection du nombre d'axes

L’analyse en composantes principales (ACP) est une technique exploratoire très populaire. Il s’agit de résumer l’information contenue dans un fichier en un certain nombre de variables synthétiques, combinaisons linéaires des variables originelles. On les appelle « composantes principales », ou « axes factoriels », ou tout simplement « facteurs ». Nous devons les interpréter pour comprendre les principales idées forces que recèlent les données.

Le choix du nombre de facteurs est très important. L’enjeu est de distinguer d’une part l’information pertinente (le « signal »), véhiculée par les axes que l’on choisit de retenir ; et d’autre part, l’information résiduelle – le « bruit » issu des fluctuations d’échantillonnage – traduite par les derniers facteurs que l’on choisit de négliger.

Dans ce tutoriel, nous présentons plusieurs méthodes de détermination du nombre adéquat de facteurs. Nous nous concentrerons tout d’abord sur les procédures simples, facilement opérationnelles. Les techniques de ré-échantillonnage, efficaces certes, mais gourmandes en ressources surtout lorsque la taille des fichiers augmente, feront l’objet d’une description à part. Nous détaillerons les calculs à partir des résultats d’une ACP normée menée sur une base relativement réduite. Nous travaillerons dans un premier temps avec le couple TANAGRA + tableur Excel puis, dans un second temps, nous décrirons la même analyse menée à l’aide de la fonction PRINCOMP du logiciel R. Ce document a été inspiré par plusieurs articles référencés en bibliographie.

Mots clés : analyse en composantes principales, acp, princomp, test de sphéricité de Bartlett, xslx package, logiciel R, scree plot, cattell, règle de kaiser, règle de karlis, test des bâtons brisés, analyse parallèle, randomisation, bootstrap, corrélation, corrélation partielle
Composants : PRINCIPAL COMPONENT ANALYSIS, LINEAR CORRELATION, PARTIAL CORRELATION
Lien : fr_Tanagra_Nb_Components_PCA.pdf
Données : crime_dataset_pca.zip
Références :
D. Jackson, “Stopping Rules in Principal Components Analysis: A Comparison of Heuristical and Statistical Approaches”, in Ecology, 74(8), pp. 2204-2214, 1993.
P. Neto, D. Jackson, K. Somers, “How Many Principal Components? Stopping Rules for Determining the Number of non-trivial Axes Revisited”, in Computational Statistics & Data Analysis, 49(2005), pp. 974-997, 2004.
Tutoriel Tanagra - "ACP – Description de véhicules"
Tutoriel Tanagra - "Analyse en Composantes principales avec R"
Tutoriel Tanagra - "ACP sous R - Indice KMO et test de Bartlett"