dimanche 30 mars 2008

Stepdisc – Analyse discriminante

La sélection de variables est un processus très important en apprentissage supervisé. Nous disposons d’une série de variables candidates, nous cherchons les variables les plus pertinentes pour expliquer et prédire les valeurs prises par la variable à prédire. Les objectifs sont bien souvent multiples : nous réduisons le nombre de variables à recueillir pour le déploiement du système ; nous améliorons notre connaissance du phénomène de causalité entre les descripteurs et la variable à prédire, ce qui est fondamental si nous voulons interpréter les résultats pour en assurer la reproductibilité ; enfin, mais pas toujours, nous améliorons la qualité de la prédiction, le ratio nombre d’observations / dimension de représentation étant plus favorable.

Dans ce tutoriel, nous présentons la méthode STEPDISC (Stepwise Discriminant Analysis). Elle repose le critère du LAMBDA de WILKS. Géométriquement, il s’agit de trouver le sous-espace de représentation qui permet un écartement maximal entre les barycentres des nuages de points conditionnels c.-à-d. les nuages de points associés à chaque valeur de la variable à prédire. Elle est donc particulièrement bien adaptée à l’analyse discriminante linéaire qui utilise également le même critère, d’où son appellation. Elles sont systématiquement associées dans les logiciels.

TANAGRA implémente deux stratégies. L’approche FORWARD consiste à partir de l’ensemble vide, choisir la variable induisant la meilleure amélioration du LAMBDA, et la sélectionner si amélioration est statistiquement significative ; nous procédons itérativement en ajoutant unes à unes les variables jusqu’à ce que l’adjonction d’une variable n’apporte plus d’amélioration. A l’inverse, l’approche BACKWARD, part de l’ensemble des variables candidates, recherche la variable dont le retrait entraînerait la dégradation la plus faible du LAMBDA, et la retire effectivement si cette dégradation n’est pas statistiquement significative.

Dans notre exemple, nous partons de 60 descripteurs candidats pour arriver à un modèle à 7 variables, tout en conservant le même niveau de performances. Autre résultat important, les procédures FORWARD et BACKWARD peuvent aboutir à des sous-ensembles différents. La stratégie d’exploration n’étant pas la même, il ne faut pas s’en émouvoir. Ces techniques fournissent avant tout des scénarios de résultats. Charge à nous, en accord avec les connaissances du domaine, de déterminer la solution la plus adaptée.

Mots clés : stepdisc, sélection de variables, analyse discriminante prédictive
Composants : Supervised Learning, Linear discriminant analysis, Bootstrap, Stepdisc
Lien : fr_Tanagra_Stepdisc.pdf
Données : sonar_for_stepdisc.xls
Référence : SAS/STAT User’s Guide, « The STEPDISC Procedure »