mardi 1 avril 2008

Rotation VARIMAX en ACP

L’ACP (analyse en composante principale) est, entre autres, une technique descriptive qui vise à projeter un nuage de points dans un espace à plus faible dimension tout en préservant la proximité des individus.

Un aspect essentiel de la méthode est l’interprétation des résultats. Pourquoi la proximité entre tel ou tel groupe d’individus dans les plans factoriels ?

Pour ce faire, nous devons interpréter les nouvelles variables, les facteurs (axes factoriels), produites par l’ACP. Il s’agit de combinaisons linéaires des variables initiales. Chaque variable apporte une certaine contribution dans l’élaboration des facteurs. Plus elle est élevée, plus elle sera déterminante dans l’interprétation.

Le cercle de corrélations est un outil privilégié pour identifier le rôle des variables dans l’élaboration des axes. C’est à ce stade souvent qu’apparaissent les principales déceptions. En effet, il n’est pas rare que les variables soient plus ou moins fortement liées avec 2 ou 3 facteurs, empêchant une association tranchée « axe-facteur » propice à l’interprétation.

Pour dépasser cet écueil, il existe des techniques de rotation d’axes. Nous avons implémenté les méthodes VARIMAX et QUARTIMAX dans Tanagra. L’idée est simple : on choisit les x premiers axes à modifier, on les fait tourner de manière à ce que les corrélations entre les variables et les axes soient le plus tranchés possibles c.-à-d. proche de +/-1 ou proche de 0. Deux contraintes fortes doivent guider les calculs : (1) l’orthogonalité des axes est conservée avec ces techniques (il existe par ailleurs des techniques qui n’intègrent pas cette contrainte) ; (2) le pourcentage d’inertie porté par les x à axes à pivoter doit être préservé.

Mots clés : analyse en composantes principales, rotation VARIMAX, rotation QUARTIMAX
Composants : Principal Component Analysis, Factor Rotation
Lien : fr_Tanagra_Pca_Varimax.pdf
Données : crime_dataset_from_DASL.xls