dimanche 9 mars 2008

CAH Mixte - Le fichier Iris de Fisher

La CAH (classification ascendante hiérarchique) est une technique de classification automatique. Elle vise à produire un regroupement des individus de manière à ce que les individus dans un même groupes soient similaires, les individus dans des groupes différents soient dissemblables.

La CAH a de particulier qu'elle propose une série de partitionnement emboîtés, avec une représentation graphique, le dendrogramme, qui donne des indications sur les solutions alternatives à évaluer. La détermination du bon nombre de groupes est un problème récurent en typologie, le nombre de solutions à étudier est ainsi réduit.

La CAH pose problème dès que la taille de la base augmente. L'obligation de calculer les distances entre les individus deux à deux est très vite rédhibitoire. Dans un contexte où les bases contiennent plusieurs milliers d'individus, il est inepte de vouloir construire le dendrogramme en partant directement des observations. Même si le calcul était possible, la lecture des parties basses de l'arbre est impossible, et de toute manière inutile.

LA CAH - MIXTE permet de dépasser élégamment cet écueil en effectuant un pré regroupement des individus, assez fruste, avec une méthode de réallocation par exemple, de manière à ce que ce premier partitionnement soit le point de départ de la création du dendrogramme.

Le premier regroupement en un nombre assez important de classes (une vingtaine) a peu d'intérêt en tant que tel. Sa lecture et son interprétation n'ont pas de sens. En revanche, elle permet de réduire considérablement les calculs lorsque l'on met en œuvre par la suite une construction de l'arbre selon la méthode de Ward. Il n'est pas nécessaire de recalculer les distances entre les couples d'individus, le calcul de proche en proche des centres de gravité des groupes suffit.

Ce didacticiel décrit le traitement du fameux fichier IRIS (Fisher, 1936). On cherche à produire un regroupement en 3 classes des iris à partir de leur morphologie. On confrontera par la suite les classes obtenues avec l'espèce, connue, de la fleur. On parle dans ce cas de validation externe. On connaît une classe d'appartenance a priori. On regarde si les classes produites " en aveugle ", sur la base uniquement des descripteurs, sont concordantes.

Mots clés : classification, typologie, CAH, nuées dynamiques, K-Means, validation externe
Composants : HAC , K-Means, Group characterization
Lien : HAC_IRIS.pdf
Données : iris_hac.bdm
Référence : L. Lebart, A. Morineau, M. Piron, " Statistique exploratoire multidimensionnelle ", Dunod, 2000 ; pages 177 à 184.