mercredi 14 mai 2008

Analyse Discriminante PLS – Etude comparative

La régression PLS est une technique de régression qui vise à prédire les valeurs prises par un groupe de variables Y (variables à prédire, variables cibles, variables expliquées) à partir d’une série de variables X (variables prédictives, les descripteurs, variables explicatives). Définie à l’origine pour le traitement des variables cibles continues, la Régression PLS peut être transposée à la prédiction d’une variable qualitative, de différentes manières, on parle « d’analyse discriminante PLS ». Elle fait alors preuve des qualités qu’on lui connaît habituellement, essentiellement la capacité à traiter un espace de représentation à très forte dimensionnalité, avec un grand nombre de descripteurs bruités et/ou redondants.

Ce document fait suite à un précédent didacticiel où nous présentions différentes méthodes supervisées basées sur la Régression PLS. L’objectif est de montrer le comportement de l’une d’entre elles, PLS-LDA, dans un contexte où le nombre de descripteurs est élevé par rapport au nombre d’observations. Le ratio reste « raisonnable » (278 variables prédictives pour 232 observations en apprentissage). Nous pouvons néanmoins voir se dessiner dans cette expérimentation les principaux traits du traitement de ce type de données où, finalement, la maîtrise de la variance du classifieur est l’enjeu majeur. Pour confirmer cette idée, nous opposerons PLS-LDA à des méthodes éprouvées telles que les SVM (Support Vector Machine, Librairie LIBSVM, Fan et al., 2005), les Random Forest (Breiman, 2001), ou… l’analyse discriminante linéaire (Fisher, 1936 - combinée avec une sélection de variables judicieuse, cette dernière se révèle être une compétitrice redoutable dans notre étude).

Nous reproduisons dans ce didacticiel le schéma de comparaison de classifieurs déjà mis en avant dans un de nos didacticiels. Nous forçons un peu le trait en intégrant un plus grand nombre de descripteurs. Les méthodes réputées stables devraient plus se démarquer. Nous intégrons de plus de nouvelles méthodes dans le comparatif, notamment les méthodes dérivées de la Régression PLS, peu connues en apprentissage automatique.

Mots clés : régression pls, analyse discriminante linéaire, apprentissage supervisé, support vector machine, SVM, random forest, forêts aléatoires, méthode des plus proches voisins, nearest neighbor
Composants : K-NN, PLS-LDA, BAGGING, RND TREE, C-SVC, TEST, DISCRETE SELECT EXAMPLES, REMOVE CONSTANT
Lien : fr_Tanagra_PLS_DA_Comparaison.pdf
Données : arrhytmia.bdm
Références :
S. Chevallier, D. Bertrand, A. Kohler, P. Courcoux, « Application of PLS-DA in multivariate image analysis », in J. Chemometrics, 20 : 221-229, 2006.
M. Tenenhaus, « La régression PLS – Théorie et Pratique », Technip, 1998.
Garson, « Partial Least Squares Regression (PLS) », http://www2.chass.ncsu.edu/garson/PA765/pls.htm