samedi 23 novembre 2013

Classification automatique sur données mixtes

La classification automatique ou typologie (clustering en anglais) vise à regrouper les observations en classes : les individus ayant des caractéristiques similaires sont réunis dans la même catégorie ; les individus présentant des caractéristiques dissemblables sont situés dans des catégories distinctes. La notion de proximité est primordiale dans ce processus. Elle est quantifiée différemment selon le type des variables. La distance euclidienne est souvent utilisée (normalisée ou non) lorsqu’elles sont quantitatives, la distance du khi-2 lorsqu’elles sont qualitatives (les individus qui possèdent souvent les mêmes modalités sont réputées proches).

L’affaire se corse lorsque nous sommes en présence d’un mix de variables quantitatives et qualitatives. Certes il est toujours possible de définir une distance prenant en compte simultanément les deux types de variables (ex. la distance HEOM). Mais le problème de la normalisation est posé. Telle ou telle variable ne doit pas avoir une influence exagérée uniquement de par sa nature.

Précédemment, nous avons présenté l’analyse factorielle de données mixtes (AFDM) . Il s’agit de projeter les observations dans un repère factoriel élaboré à partir d’un mélange de variables actives qualitatives et quantitatives. On montre que l’approche est équivalente à l’ACP normée (analyse en composantes principales) lorsque les variables sont toutes quantitatives, à l’ACM (analyse des correspondances multiples) lorsqu’elles sont toutes qualitatives.

Nous proposons dans ce tutoriel de réaliser la classification sur données mixtes en deux étapes : [1] nous procédons tout d’abord à une AFDM pour produire une représentation intermédiaire des données ; [2] puis, nous effectuons une classification ascendante hiérarchique (CAH) à partir des facteurs « représentatifs » de l’AFDM. Cette analyse en deux temps est couramment utilisée même lorsque les variables sont exclusivement quantitatives (on passe par l’ACP) ou qualitatives (ACM). L’idée est de procéder à un nettoyage des données – une sorte de régularisation – en éliminant les derniers facteurs qui correspondent à du bruit spécifique à l’échantillon que nous utilisons c.-à-d. des informations qui correspondent aux fluctuations d’échantillonnage ne reflétant en rien un phénomène réel dans la population. Les résultats sont ainsi plus stables.

Nous utiliserons les logiciels Tanagra 1.4.49 et R (package ade4) dans ce tutoriel.

Mots clés : AFDM, analyse factorielle des données mixtes, classification automatique, typologie, cah, classification ascendante hiérarchique, logiciel R, package ade4, dudi.mix, dist, hclust, cutree, logiciel R, description des groupes
Composants : AFDM, HAC, GROUP CHARACTERIZATION, SCATTERPLOT
Lien : fr_Tanagra_Clustering_Mixed_Data.pdf
Données : bank_clustering.zip
Références :
Jérôme Pagès, « Analyse Factorielle de Données Mixtes », Revue de Statistique Appliquée, tome 52, n°4, 2004 ; pages 93-111.
Tutoriel Tanagra, "Analyse factorielle de données mixtes - Diapos", Août 2013.