samedi 24 août 2013

Analyse Factorielle de Données Mixtes - Diapos

Voici le dernier opus de l’été 2013 consacré aux supports de cours sur les techniques factorielles. Nous détaillons l’analyse factorielle de données mixtes (AFDM) c.-à-d. capable de traiter simultanément les variables actives quantitatives et qualitatives. Curieusement, contrairement aux autres méthodes pour lesquelles il existe pléthore d’écrits, on trouve peu de documents dédiés à l’AFDM sur le net. Pourtant elle couvre une situation que l’on rencontre fréquemment dans les problèmes réels. Et, de plus, elle généralise de manière élégante l’analyse en composantes principales et l’analyse des correspondances multiples que l’on retrouve lorsque les variables sont exclusivement quantitatives ou qualitatives.

Ce document repose sur l’article de Pagès (2004) que j’ai découvert par hasard lors de mes pérégrinations sur le site NUMDAM (extraordinaire portail que je conseille à tout le monde, vous y trouverez des vraies pépites !). L’approche présentée est programmée dans le package FactoMineR pour le logiciel R. Je l’ai également développée dans Tanagra, comme je le fais habituellement lorsque je cherche à appréhender précisément les contours d’une méthode.

En préparant ce support, j’ai creusé un peu plus le domaine. Je me suis rendu compte que l’AFDM, sous différentes appellations, était présente dans d’autres packages pour R (ade4, pcamixdata), qui font état d’autres références bibliographiques. Bien évidemment, je me suis précipité pour comparer les implémentations. Elles produisent des résultats identiques. Le fondement et l’expression des techniques sont bien les mêmes. Le contraire eut été passablement ennuyeux. Des approches censées traiter le même problème proposant des résultats divergents est toujours déroutant pour les praticiens de l’analyse de données.

Ce support est accompagné du fichier utilisé pour illustrer la méthode. Le programme R permettant d’obtenir tous les résultats intermédiaires est également fourni.

Mots clés : analyse factorielle de données mixtes, AFDM, logiciel R, package ade4, package factominer, package pcamixdata
Composants : AFDM
Lien : AFDM.pdf
Données : AFDMMaterial.zip
Références :
Pagès, J., "Analyse factorielle de données mixtes", Revue de Statistique Appliquée, vol. 52, no. 4, pp. 93-111, 2004.
Tutoriel Tanagra, "Analyse factorielle de données mixtes".

lundi 12 août 2013

Analyse des correspondances multiples - Diapos

L’analyse des correspondances multiples (ACM) ou analyse factorielle des correspondances multiples (AFCM) est le pendant de l’analyse en composantes principales lorsque toutes les variables actives sont qualitatives. Elle répond donc à la même problématique mais en se plaçant dans un cadre différent : elle substitue la distance du KHI-2 à la distance euclidienne pour mesurer les proximités entre les individus ; elle utilise le PHI-2 à la place de la corrélation pour quantifier les liaisons entre les variables.

L’approche est séduisante parce que, peut être plus que les autres méthodes factorielles, elle se prête à une multitude de points de vue. Il est possible de la mettre en œuvre avec un programme d’analyse des correspondances simples ou d’analyse en composantes principales. Le tout est de préparer les données à bon escient, préparations qui constituent d’autant de prismes sur les mêmes données.

Ce support de cours décrit les tenants et aboutissants de l’ACM. Il met l’accent sur la lecture des résultats. Les sorties des principaux logiciels d’analyse de données (SPAD, SAS, R et Tanagra) sont mis en parallèle. Bien évidemment, on retrouve exactement les mêmes résultats. Seule la présentation diffère.

Mots clés : analyse factorielle des correspondances multiples, AFCM, analyse des correspondances multiples, ACM, logiciel R, package ade4, SAS, proc corresp, SPAD
Composants : MULTIPLE CORRESPONDENCE ANALYSIS
Lien : ACM.pdf
Données : ACMMaterial.zip
Références :
Tanagra, "Analyse des correspondances multiples - Outils".