mercredi 12 novembre 2014

Clustering de variables qualitatives - Diapos

La classification de variables qualitatives vise à regrouper les variables en groupes homogènes. Les variables situées dans un même groupe sont fortement liées entre elles, celles situées dans des groupes différents le sont faiblement. Deux approches sont décrites. La première exploite le v de Cramer, la matrice de dissimilarités qui en est déduite permet de lancer une classification ascendante hiérarchique (CAH) avec les stratégies d’agrégation usuelles (lien minimum, lien maximum, méthode de Ward, etc.). La seconde repose sur la notion de variable latente, une « moyenne » résumant l’information portée par un groupe de variables. Le barycentre d’un ensemble de variables étant ainsi défini, il est possible de s’appuyer sur les algorithmes bien connus de classification (CAH, mais aussi les algorithmes de type k-means, etc.).

La classification de variables donne une indication sur les liaisons et les redondances, mais elle ne permet pas d’identifier la nature des relations entre les variables c.-à-d. les associations entre les modalités. A partir de ce constat, nous introduisons la classification de modalités de variables qualitatives. Deux pistes sont explorées. La première, tout comme pour la classification de variables, prend pour point de départ la définition la similarité entre modalités. Le processus de classification (CAH) s’appuie sur la matrice des dissimilarités qui en découle. La seconde est de type « tandem analysis » (tandem clustering). Dans une première étape, une analyse des correspondances multiples (ACM) permet de projeter les modalités dans un nouvel espace de représentation. La typologie est réalisée à partir des coordonnées factorielles des modalités qui font figure d’individus dans la seconde étape.

Le jeu de données et le programme R qui ont servi à illustrer ce document sont téléchargeables.

Mots clés : classification automatique, typologie, clustering, classification de variables qualitatives, acm, analyse des correspondances multiples, afcm, tandem analysis, tandem clustering, package clustofvar, hclustvar, package hmisc, varclus, classification ascendante hiérarchique, CAH, indice de dice, logiciel R
Composants : CATVARHCA
Lien : Classification de variables qualitatives
Données : catvarclus.zip
Références :
Tutoriel Tanagra, "Classification de variables qualitatives", décembre 2013.