mardi 14 octobre 2008

Traitement de gros volumes – CAH Mixte

La CAH (classification ascendante hiérarchique) est une technique de classification automatique (clustering en anglais). Elle vise à produire un regroupement des individus de manière à ce que les individus du même groupe soient semblables, des individus dans des groupes différents soient dissemblables.

Le succès de la CAH repose sur sa capacité à produire des partitions emboîtées. Au lieu de fournir une solution clé en main, irréversible, elle donne la possibilité de choisir, parmi les regroupements proposés, celui qui correspond au mieux aux contraintes de l’étude et aux objectifs de l’analyste. Cet avantage s’accompagne d’une représentation graphique, le dendrogramme. Il nous suggère, dans le continuum des solutions envisageables, celles qui semblent les plus pertinentes.

Son principal défaut est le temps de calcul. Il devient vite rédhibitoire dès que le nombre d’observations est élevé. Pour dépasser cet écueil, on procède alors à la CAH Mixte. Elle consiste à faire précéder la CAH proprement dite par une phase de pré-regroupement, en utilisant un algorithme des nuées dynamiques par exemple, la CAH prend alors comme point de départ ces pré-classes. De fait, avec cette stratégie, il devient possible de traiter de très grands fichiers tout en bénéficiant des avantages de la CAH.

Cette approche a déjà été largement abordée dans un de nos anciens didacticiels (voir CAH Mixte – Le fichier IRIS de Fisher). La méthode est par ailleurs longuement décrite dans l’ouvrage de Lebart et al. (2000). Conformément à ce qui est préconisé par les auteurs, nous réalisons la classification sur les axes factoriels de l’ACP (analyse en composantes principales). L’idée est de « lisser » les informations exploitées en évacuant les fluctuations aléatoires.

L’enjeu dans ce didacticiel est de mettre en œuvre cette stratégie sur un fichier de taille relativement considérable, avec 500.000 observations et 68 variables. Nous utiliserons Tanagra 1.4.27 et R 2.7.2. Nous nous en tenons à ces deux logiciels. En effet, il n’est pas possible d’implémenter la CAH Mixte avec les autres logiciels libres (Weka, Orange, Knime, Rapidminer). Et lancer directement la CAH standard sur un tel fichier n’est pas raisonnable.

Mots clés : clustering, classification automatique, typologie, CAH, k-means, nuées dynamiques, ACP, classification sur facteurs
Composants : PRINCIPAL COMPONENT ANALYSIS, K-MEANS, HAC, GROUP CHARACTERIZATION, EXPORT DATASET
Lien : fr_Tanagra_CAH_Mixte_Gros_Volumes.pdf
Données : sample-census.zip
Références :
L. Lebart, A. Morineau, M. Piron, « Statistique Exploratoire Multidimensionnelle », Dunod, 2000 ; chapitre 2, sections 2.3 et 2.4.