lundi 24 décembre 2012

Analyse des correspondances multiples - Outils

L’analyse des correspondances multiples (ACM) est une technique factorielle qui s’applique aux tableaux « individus - variables », ces dernières étant exclusivement catégorielles. On peut la voir comme une variante de l’analyse en composantes principales (il y a de nombreuses manières de la voir en réalité). D’ailleurs, lorsque les descripteurs sont tous binaires, les deux approches se rejoignent. A la sortie, nous obtenons une description synthétique des données qui préserve les proximités entre les individus, met en évidence les liaisons entre les variables et, éventuellement, permettre de situer des groupes d’observations partageant les mêmes caractéristiques. Je n’en dirai pas plus, il existe de très nombreux supports de qualité sur internet qui permettent de situer relativement simplement les tenants et aboutissants de cette méthode.

Nous avons décrit la mise en œuvre de l’ACM dans plusieurs tutoriels, notamment sous Tanagra et sous R avec le package FactoMiner. Les sorties du composant « MULTIPLE CORRESPONDENCE ANALYSIS » ayant été complétées dans la version 1.4.48 de Tanagra, je me suis dit que la meilleure manière de situer les avancées est de comparer les tableaux de résultats fournis par Tanagra avec ceux des autres logiciels. Ce travail permet aux étudiants de se dégager de l’autocratie des logiciels : comprendre la méthode est  le plus important, qu’importent les outils, tous – normalement, si ce n’est pas le cas il faut comprendre pourquoi – fourniront en définitive les mêmes résultats.

Dans un premier temps, nous décrirons la mise en œuvre de Tanagra sur une base de données comportant 8403 individus décrits par 23 variables. Nous mettrons en parallèle les sorties de SAS 9.3 (PROC CORRESP). Par la suite, nous mènerons la même étude avec R via le package « ade4 », puis avec STATISTICA. Nous constaterons que si les solutions numériques sont identiques, la manière de les présenter peut différer d’un logiciel à l’autre.

Mots clés : analyse des correspondances multiples, ACM, analyse factorielle des correspondances multiples, AFCM, logiciel R, package ade4, statistica, sas, proc corresp, détection du nombre de facteurs
Composants : MULTIPLE CORRESPONDENCE ANALYSIS, PARALLEL ANALYSIS
Lien : Tutoriel ACM
Données : mca_loisirs.zip
Références :
H. Abdi, D. Valentin, « Multiple correpondence analysis », In N.J. Salkind (Ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks (CA): Sage, 2007.

samedi 15 décembre 2012

Analyse des correspondances discriminante

L’analyse factorielle discriminante ou analyse discriminante descriptive vise à décrire et à expliquer l’appartenance des observations à des groupes prédéfinis à partir d’un ensemble de variables explicatives (variables prédictives, descripteurs). Etant basée sur la décomposition de la variance, elle ne s’applique qu’aux variables explicatives quantitatives. La solution n’est pas directement transposable aux variables catégorielles (qualitatives).

J’ai découvert récemment un article d’Hervé Abdi (2007). Il propose d’exploiter les propriétés de l’analyse factorielle des correspondances (AFC) pour résoudre le problème de l’analyse discriminante descriptive sur variables catégorielles. L’approche, appelée « discriminant correspondence analysis » traduite librement par « analyse des correspondances discriminante », repose sur une transformation ingénieuse des données « individus x variables » en un tableau de contingence un peu particulier. A la sortie nous obtenons des résultats qui décrivent les relations entre les modalités de la variable cible (qui définissent l’appartenance aux groupes) et celles des variables explicatives qualitatives. Il est même possible d’obtenir une représentation graphique révélant les attractions et répulsions.

Dans ce tutoriel, nous montrons la mise en œuvre de la méthode dans Tanagra 1.4.48. Nous reprendrons l’exemple de l’article de référence de la méthode. Il s’agit de caractériser la provenance des vins à partir de leurs propriétés. Notre objectif est d’expliquer pas à pas l’approche en associant les résultats de Tanagra à chaque étape de l’article. Par la suite, nous reproduisons les calculs à l’aide d’un programme écrit pour le logiciel R.

Mots clés : analyse factorielle discriminante, ACD, discriminant correspondence analysis, DCA, analyse discriminante descriptive, analyse des correspondances, logiciel R, package xlsx, package ca
Composants : DISCRIMINANT CORRESPONDENCE ANALYSIS
Lien : Tutoriel DCA
Données : french_wine_dca.zip
Références :
H. Abdi, « Discriminant correspondence analysis », In N.J. Salkind (Ed.): Encyclopedia of Measurement and Statistics. Thousand Oaks (CA): Sage. pp. 270-275, 2007.

mercredi 12 décembre 2012

Analyse des correspondances - Comparaisons

L’analyse des correspondances est une méthode statistique de réduction de dimension. Elle propose une vision synthétique de l’information intéressante d’un tableau de contingence. Son pouvoir de séduction repose en grande partie sur les représentations graphiques qu’elle propose. Elles nous permettent de situer facilement (beaucoup le pensent en tous cas) les similarités (dissimilarités) et les attractions (répulsions) entre les modalités. L’AFC est bien une technique factorielle. Les facteurs – les variables latentes – qui en sont issus sont des combinaisons linéaires des points modalités (lignes ou colonnes) exprimés par des profils (lignes ou colonnes).

Dans ce tutoriel, nous décrivons la mise en œuvre de l’AFC dans plusieurs logiciels : la version 1.4.48 de Tanagra qui intègre des nouveautés destinées à améliorer la lecture des résultats ; le logiciel R avec les packages « ca » et « ade4 » ; le logiciel OpenStat ; et le logiciel SAS qui servira de référence. Nous constaterons – comme toujours – que tous ces logiciels produisent exactement les mêmes résultats numériques (heureusement !). Les différences se situent essentiellement au niveau de la mise en valeur des sorties.

Mots clés : afc, analyse factorielle des correspondances, représentation quasi-barycentrique, logiciel R, package ca, package ade4, openstat, sas
Composants : CORRESPONDENCE ANALYSIS
Lien : fr_Tanagra_Correspondence_Analysis.pdf
Données : statements_foods.zip
Références :
M. Bendixen, « A practical guide to the use of the correspondence analysis in marketing research », Marketing Research On-Line, 1 (1), pp. 16-38, 1996.
Tutoriel Tanagra, "AFC - Association médias et professions".

samedi 1 décembre 2012

Tanagra - Version 1.4.48

De nouveaux composants ont été implémentés.

K-Means Strengthening. Ce composant m’a été suggéré par Mme Claire Gauzente. Il s’agit de « confirmer » une partition existante (ex. issue d’une CAH – Classification ascendante hiérarchique) à l’aide de plusieurs passes de l’algorithme des centres mobiles. Une comparaison des partitions avant et après optimisation est proposée, indiquant l’efficacité de la post-optimisation. Dans Tanagra, l’approche peut intervenir après toute technique de clustering. Merci à Claire pour cette idée très intéressante.

Discriminant Correspondence Analysis. Analyse factorielle discriminante pour les variables qualitatives (Hervé Abdi, 2007). Elle vise à caractériser l’appartenance des individus à des groupes (définies par une variable cible) à l’aide d’un ensemble de variables descriptives qualitatives. La méthode s’appuie sur une transformation du tableau de données attribut-valeur en un tableau de contingence qui permet l’application d’une analyse factorielle des correspondances. Nous retrouvons dès lors le mode de lecture habituel des résultats de cette dernière (coordonnées factorielles, contributions, qualité de représentation).

D’autres composants ont été améliorés.

HAC. Après le choix du nombre de classes dans le dendrogramme dans la classification ascendante hiérarchique, une dernière passe sur les données est effectuée, affectant chaque individu de l’échantillon d’apprentissage au centre de classes qui leur est le plus proche. La même approche est mise en œuvre lorsqu’il s’agit de déployer le modèle de classification aux individus supplémentaires. De fait, il peut y avoir incohérence entre le nombre d’observations affiché sur les nœuds du dendrogramme et le nombre d’individus dans les classes. Tanagra fournit à présent les deux informations. Seule la seconde est utilisée pour le déploiement et le calcul des statistiques descriptives subséquentes (moyennes conditionnelles pour la comparaison des groupes, etc.).

Correspondence Analysis. Tanagra fournit maintenant les coefficients  des fonctions de projection pour les lignes et colonnes supplémentaires dans l’analyse factorielle des correspondances (AFC). Il sera ainsi possible de calculer facilement les coordonnées factorielles d’un nouveau point décrit par un profil ligne ou colonne. Enfin, les tableaux de résultats peuvent être triés suivant les contributions aux axes des lignes et des colonnes.

Multiple correspondence analysis. Plusieurs améliorations ont été apportées à l’analyse factorielle des correspondances multiples (AFCM) : le composant sait prendre en compte les variables supplémentaires quantitatives et qualitatives ; les variables peuvent être triées selon leur contribution aux axes ; tous les indicateurs d’évaluation peuvent être réunis dans un seul grand tableau pour une vision synthétique des résultats, cette fonctionnalité est surtout intéressante si  on s’en tient à un faible nombre de facteurs ; les fonctions de score sont fournies, elles permettent de calculer facilement les coordonnées factorielles des individus supplémentaires en dehors de Tanagra.

Des tutoriels viendront décrire la mise en œuvre de ces composants dans des études de cas réalistes.

Page de téléchargement : setup