lundi 29 juillet 2013

Analyse en composantes principales - Diapos

Mon premier contact avec l’analyse en composantes principales, technique populaire s’il en est, a été l’excellent ouvrage (pour l'économétrie) de Christian Labrousse (« Introduction à l’économétrie », édition de 1983, chapitre 7). J’avoue que ça a été un vrai désastre. Le féru d’économétrie que j’étais, qui ne carburait qu’à la somme des carrés des résidus et au maximum de vraisemblance,  a été complètement dérouté par cette histoire de régression sans variable endogène, où les erreurs seraient comptées orthogonalement. Il faut dire aussi que l’auteur n’a pas été très tendre en présentant l’ACP sans aucun exemple illustratif, et en expliquant en conclusion du chapitre qu’elle s’avérait souvent décevante car : soit elle ne proposait que des solutions évidentes ; soit la lecture des résultats reposait quasi entièrement sur les connaissances du domaine, exogènes aux données.

J’en étais resté à ces idées plutôt négatives lorsque j’ai fait une double découverte qui m’a ouvert les yeux, et m’a emmené à considérer sous un tout autre angle les techniques factorielles en général. J’ai eu accès à la bibliothèque aux extraordinaires ouvrages d’Escofier - Pagès (1988) et de Volle (1985) qui présentent l’ACP sous un angle autrement plus sympathique. Et, dans le même temps, j’ai découvert les logiciels SPAD.N, CHADOC, et STATITCF dans les salles de libre accès de l’Université. Enfin, je pouvais toucher du doigt ce qu’on pouvait obtenir de l’analyse en composantes principales en la mettant en œuvre sur des vrais fichiers de données. Et ça a été une vraie révélation. Depuis, je n’ai eu cesse d’explorer le domaine, en lisant d’autres ouvrages (pour changer, les meilleurs sont en français, voir la bibliographie), en testant d’autres logiciels, en écrivant mes propres implémentations. Par exemple, je me suis ainsi rendu compte qu’il y avait plusieurs manières de programmer l’ACP en étudiant les différences entre princomp() et prcomp() de R. Je trouve tout ça passionnant, aujourd’hui et pour longtemps encore j’imagine.

Il fallait bien que je me lance à un moment ou un autre. J’ai décidé d’écrire un support sur l’ACP bien qu’elle ne fasse pas partie de mes cours attitrés. Un support de plus serait-on tenté de dire, faites « analyse en composantes principales » dans Google pour voir.  Ce document essaie surtout de faire la synthèse des nombreux tutoriels que j’ai écrits sur les différents aspects de l’ACP, disponibles sur ce site. Il est un peu verbeux pour des diapos car, à terme, il servira de base pour l’écriture d’un fascicule de cours dédié à la pratique de l’analyse factorielle.

Mots clés : analyse en composantes principales, ACP, logiciel R, package ade4, package ca, package factominer, package psych, princomp, prcomp, sas, proc factor, spad, analyse en facteurs principaux, analyse de harris, rotation varimax
Composants : PRINCIPAL COMPONENT ANALYSIS, FACTOR ROTATION, PRINCIPAL FACTOR ANALYSIS
Lien : ACP.pdf
Données : autos-acp-diapos.xls
Références :
B. Escofier, J. Pagès, "Analyses factorielles simples et multiples. Objectifs, méthodes et interprétation", Dunod, 1988.
M. Volle, "Analyse des données", Economica, 1985.