samedi 26 mai 2012

ACP sous R - Indice KMO et test de Bartlett

L’analyse en composantes principales (ACP) est une technique exploratoire très populaire. Il y a différentes manières de l’appréhender, en voici une très simplifiée : « partant d’une base de données à ‘’n’’ observations et ‘’p’’ variables, toute quantitatives, on cherche à résumer l’information disponible à l’aide de quelques variables synthétiques qu’on appelle facteurs ». Leur nombre n’est pas défini à l’avance, sa détermination est d’ailleurs un enjeu fort dans le processus. Généralement, on en prend au moins deux afin de disposer d’une représentation graphique des individus et des variables dans le plan.

Nous avons présenté maintes fois l’ACP auparavant, tant pour le logiciel R que pour Tanagra. Dans ce tutoriel, nous décrivons deux indicateurs de qualité de l’analyse qui sont directement proposés dans des logiciels commerciaux célèbres (SPSS et SAS pour ne pas les citer), mais que l’on retrouve peu ou prou dans les logiciels libres. On notera qu’ils ne sont pas non plus repris dans les ouvrages qui font référence en français. Il s’agit du test de sphéricité de Bartlett et de l’indice KMO (Kaiser – Mayer – Olkin) mesurant l’adéquation de l’échantillon. Plusieurs internautes m’ayant posé la question sur la manière des le obtenir sous R, je me suis dit qu’il y a avait là quelque chose à faire.

Dans ce qui suit, nous présentons succinctement les formules de calcul, nous leur associons un programme écrit en R, et nous montrons leur mise en œuvre sur un fichier de données. Nous comparons nos sorties avec celles du logiciel SAS.

Mots clés : analyse en composantes principales, acp, spss, sas, proc factor, princomp, indice kmo, msa index, test de sphéricité de Bartlett, xslx package, psych package, logiciel R
Composants : VARHCA, PRINCIPAL COMPONENT ANALYSIS
Lien : fr_Tanagra_KMO_Bartlett.pdf
Données : socioeconomics.zip
Références :
Tutoriel Tanagra - "ACP – Description de véhicules"
Tutoriel Tanagra - "Analyse en Composantes principales avec R"
SPSS - "Factor algorithms"
SAS - "The Factor procedure"