lundi 31 mars 2008

Classification de variables

Dans la majorité des ouvrages, la classification de variables est décrite très sommairement. Les auteurs se contentent le plus souvent de la présenter comme un cas particulier de la typologie où le coefficient de corrélation r est utilisé pour mesurer la proximité entre les variables, (1- r) étant alors un indice de dissimilarité naturel.

Pourtant, la classification de variables peut être très utile dans la recherche des structures sous-jacentes dans les données. Elle permet de repérer les groupes de variables redondantes, emmenant le même type d’information ; de distinguer les groupes de variables orthogonales, rapportant des informations complémentaires. Nous disposons ainsi de précieuses indications sur l’architecture des données.

Cette méthode peut également être mise en œuvre dans une stratégie de réduction/sélection des variables. Pour chaque groupe de variables, une variable « moyenne » unique pourra être produite et utilisée dans les analyses ultérieures, en tant que variable prédictive présentée aux méthodes supervisées par exemple, réduisant considérablement la dimensionnalité.

Avec la version 1.4.16, nous introduisons dans TANAGRA plusieurs techniques de classification de variables inspirées par la lecture de l’ouvrage de Nakache et Confais (2005). Nous nous sommes plus particulièrement penchés sur les techniques de classification autour de composantes latentes basées sur les travaux de Vigneau et Qannari (2003), à l’origine notamment de la fameuse procédure VARCLUS (Variable Clustering) implémentée dans le logiciel SAS.

Dans ce didacticiel, nous présentons 3 méthodes de classification de variables, toutes basées sur le principe du regroupement autour des variables latentes. La première VARHCA est algorithme ascendant hiérarchique. Elle est intéressante dans la mesure où nous disposons d’un dendrogramme qui permet de visualiser l’évolution de l’agrégation, et par là de détecter ce qui serait le bon nombre de groupes. La seconde VARKMEANS est une méthode de réallocation. Avec les avantages et inconvénients qui s’y rattachent. La troisième VARCLUS est une méthode descendante, particulière adaptée lorsque le nombre de variables à traiter est important.

Une large partie du tutoriel est consacrée à la l’interprétation. Les outils sont nombreux, il importe de bien comprendre les informations que nous procurent les tableaux de résultats.

Mots clés : classification automatique de variables, variable clustering, composantes latentes
Composants : VARHCA, VARKMeans, VARCLUS
Lien : fr_Tanagra_VarClus.pdf
Données : crime_dataset_from_DASL.xls
Références :
E. Vigneau et E. Qannari, « Clustering of variables around latent components », Simulation and Computation, 32(4), 1131-1150, 2003.
J.P. Nakache et J. Confais, « Approche Pragmatique de la Classification », TECHNIP, 2005, chapitre 9, pages 219 à 239.
SAS OnlineDoc – Version 8, « The VARCLUS Procedure ».