lundi 29 juillet 2013

Analyse en composantes principales - Diapos

Mon premier contact avec l’analyse en composantes principales, technique populaire s’il en est, a été l’excellent ouvrage (pour l'économétrie) de Christian Labrousse (« Introduction à l’économétrie », édition de 1983, chapitre 7). J’avoue que ça a été un vrai désastre. Le féru d’économétrie que j’étais, qui ne carburait qu’à la somme des carrés des résidus et au maximum de vraisemblance,  a été complètement dérouté par cette histoire de régression sans variable endogène, où les erreurs seraient comptées orthogonalement. Il faut dire aussi que l’auteur n’a pas été très tendre en présentant l’ACP sans aucun exemple illustratif, et en expliquant en conclusion du chapitre qu’elle s’avérait souvent décevante car : soit elle ne proposait que des solutions évidentes ; soit la lecture des résultats reposait quasi entièrement sur les connaissances du domaine, exogènes aux données.

J’en étais resté à ces idées plutôt négatives lorsque j’ai fait une double découverte qui m’a ouvert les yeux, et m’a emmené à considérer sous un tout autre angle les techniques factorielles en général. J’ai eu accès à la bibliothèque aux extraordinaires ouvrages d’Escofier - Pagès (1988) et de Volle (1985) qui présentent l’ACP sous un angle autrement plus sympathique. Et, dans le même temps, j’ai découvert les logiciels SPAD.N, CHADOC, et STATITCF dans les salles de libre accès de l’Université. Enfin, je pouvais toucher du doigt ce qu’on pouvait obtenir de l’analyse en composantes principales en la mettant en œuvre sur des vrais fichiers de données. Et ça a été une vraie révélation. Depuis, je n’ai eu cesse d’explorer le domaine, en lisant d’autres ouvrages (pour changer, les meilleurs sont en français, voir la bibliographie), en testant d’autres logiciels, en écrivant mes propres implémentations. Par exemple, je me suis ainsi rendu compte qu’il y avait plusieurs manières de programmer l’ACP en étudiant les différences entre princomp() et prcomp() de R. Je trouve tout ça passionnant, aujourd’hui et pour longtemps encore j’imagine.

Il fallait bien que je me lance à un moment ou un autre. J’ai décidé d’écrire un support sur l’ACP bien qu’elle ne fasse pas partie de mes cours attitrés. Un support de plus serait-on tenté de dire, faites « analyse en composantes principales » dans Google pour voir.  Ce document essaie surtout de faire la synthèse des nombreux tutoriels que j’ai écrits sur les différents aspects de l’ACP, disponibles sur ce site. Il est un peu verbeux pour des diapos car, à terme, il servira de base pour l’écriture d’un fascicule de cours dédié à la pratique de l’analyse factorielle.

Mots clés : analyse en composantes principales, ACP, logiciel R, package ade4, package ca, package factominer, package psych, princomp, prcomp, sas, proc factor, spad, analyse en facteurs principaux, analyse de harris, rotation varimax
Composants : PRINCIPAL COMPONENT ANALYSIS, FACTOR ROTATION, PRINCIPAL FACTOR ANALYSIS
Lien : ACP.pdf
Données : autos-acp-diapos.xls
Références :
B. Escofier, J. Pagès, "Analyses factorielles simples et multiples. Objectifs, méthodes et interprétation", Dunod, 1988.
M. Volle, "Analyse des données", Economica, 1985.

samedi 13 juillet 2013

Analyse des correspondances discriminante - Diapos

L’analyse des correspondances discriminante (ACD) est le pendant de l’analyse factorielle discriminante pour les variables descriptives qualitatives. Les observations sont regroupées en classes, et sont décrites par un ensemble de descripteurs.  L’objectif est de construire des facteurs, combinaisons linéaires des indicatrices de ces descripteurs, qui permettent de discerner au mieux les classes.

Dans ce diaporama, nous explicitons les fondements de la méthode. Nous montrons sa mise en œuvre et la lecture des résultats. Le tutoriel dédié à l’ACD (cf. références) est un bon complément à ce diaporama. Les données exemples sont traitées avec Tanagra et R.

Mots clés : analyse factorielle discriminante, ACD, discriminant correspondence analysis, DCA, analyse discriminante descriptive, analyse des correspondances, logiciel R, package ca
Composants : DISCRIMINANT CORRESPONDENCE ANALYSIS
Lien : ACD.pdf
Données : ACDMaterial.zip
Références :
H. Abdi, « Discriminant correspondence analysis », In N.J. Salkind (Ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks (CA): Sage. pp. 270-275, 2007.
Tanagra, "Analyse des correspondances discriminante - Tutoriel".

lundi 1 juillet 2013

Analyse factorielle des correspondances - Diapos

L’analyse des correspondances simples (AFC pour analyse factorielle des correspondances) est une technique factorielle qui vise à présenter de manière synthétique et graphiquement les informations contenues dans les grands tableaux croisés. L’objectif est d’une part d’identifier les similitudes et différences entre les profils lignes (entre les profils colonnes), d’autre part de mettre en évidence les attractions / répulsions entre les modalités lignes et colonnes. Elle s’applique principalement aux tableaux de contingence. Mais elle peut également s’étendre à tous tableaux croisés de valeurs positives, pourvu que les notions de marges et de profils soient licites.

Dans ce support de cours (sous forme de diaporama), nous présentons l’AFC en plusieurs étapes. Nous partons tout d’abord de la notion de distance entre profils (lignes et colonnes), puis nous montrons comment calculer l’association les modalités lignes et colonnes via la statistique du test du KHI-2 d’indépendance. Nous constatons que ces analyses sont autant des points de vue différents de l’information contenue dans le tableau de données. Nous présentons alors l’AFC à travers la décomposition en valeurs singulières du tableau des résidus standardisés. Par rapport à l’école française qui montre plutôt l’AFC comme une double analyse en composante principale (ACP), ce mode de présentation - que l’on retrouve dans les ouvrages en langue anglaise  - a l’avantage de mettre en évidence la simultanéité de l’analyse en ligne et en colonne du tableau.

Un exemple est traité à l’aide des logiciels SPAD, SAS, TANAGRA et R. Les données et codes sources associés sont accessible via le lien ci-dessous. Nous mettons également en référence plusieurs tutoriels où nous avions montré la mise en œuvre de la méthode sur d’autres jeux de données, à l’aide d’autres logiciels.

Mots clés : analyse factorielle des corresponsances, AFC, analyse des correspondances simples, logiciel R, package ade4, package ca, package FactoMineR
Composants : CANONICAL DISCRIMINANT ANALYSIS
Lien : AFC.pdf
Données : AFCMaterial.zip
Références :
Tanagra, "AFC - Association médias et professions".
Tanagra, "Analyse des correspondances - Comparaisons".
Tanagra, "Analyse factorielle des correspondances avec R".