samedi 21 décembre 2013

Classification de variables qualitatives

La classification automatique vise à regrouper les objets en paquets. Les objets similaires sont classés dans un même groupe ; ceux qui sont différents sont classés dans des groupes différents.

Dans ce tutoriel, nous décrivons une technique de classification ascendante hiérarchique (CAH) des modalités de variables qualitatives nominales due à Abdallah et Saporta (1998). Nous montrons sa mise en oeuvre à l’aide du composant CATVARHCA introduit dans la version 1.4.50 de Tanagra. Ce dernier intègre la possibilité d’utiliser des variables illustratives, permettant ainsi d’enrichir l’interprétation des résultats. Dans un second temps, pour bien cerner les tenants et aboutissants de l’approche, nous détaillons les différentes étapes des calculs sous le logiciel R 3.0.1.

Enfin, dans une troisième et dernière partie, nous présenterons des approches alternatives de catégorisation des modalités des variables qualitatives. L’une, implémentée dans le package "Hmisc", s’appuie sur une autre mesure de dissimilarité. L’autre, de type "tandem analysis", procède par une CAH sur les coordonnées factorielles des modalités issues d’une ACM. Nous comparerons les résultats obtenus avec ceux de CATVARHCA. Nous constaterons que ces approches sont tout à fait valables et proposent des résultats exploitables.

Mots clés : classification automatique, typologie, clustering, classification de variables qualitatives, acm, analyse des correspondances multiples, tandem analysis, package clustofvar, hclustvar, package hmisc, varclus, classification ascendante hiérarchique, CAH, indice de dice, détection du nombre de groupes
Composants : CATVARHCA
Lien : fr_Tanagra_Cat_Variable_Clustering.pdf
Données : vote_catvarclus.zip
Références :
H. Abdallah, G. Saporta, « Classification d’un ensemble de variables qualitatives », in Revue de Statistique Appliquée, Tome 46, N°4, pp. 5-26, 1998.
M. Chavent, V. Kuentz, B. Liquet, J. Saracco, « Classification de variables : le package ClustOfVar », in Actes des 43èmes journées de Statistique (SFDS), Tunisie, 2011.
F.E. Harrel Jr., "Hmisc : Harrel Miscellaneous - 3.13-0".
Tutoriel Tanagra, "Classification de variables", Mars 2008.