jeudi 8 mai 2008

Analyse Discriminante PLS

La régression PLS est une technique de régression qui vise à prédire les valeurs prises par un groupe de variables Y à partir d’une série de variables X. La régression PLS a été définie à l’origine pour les problèmes de prédictions sur des variables cibles quantitatives. Il aurait été dommage de ne pas exploiter ses qualités, notamment sa capacité à appréhender des dimensionnalités très élevées, en apprentissage supervisé où, rappelons le, la variable cible est catégorielle.

Dans ce didacticiel, nous présentons plusieurs variantes de la régression PLS dédiées à la prédiction d’une variable catégorielle. Elles sont regroupées sous l’appellation générique de « Analyse Discriminante PLS ». Elles reposent sur le même principe : dans un premier temps, nous codons la variable à prédire catégorielle à l’aide d’une série d’indicatrices correspondant à ses modalités (codage disjonctif complet) ; dans un second temps, nous présentons le tableau de données, Y composé des indicatrices, X des descripteurs, à l’algorithme PLS. Les variantes diffèrent (1) par le type de codage et la valeur des codes utilisés lors de la constitution du tableau Y ; (2) par l’exploitation des résultats de la régression PLS lors de la phase de classement.

Ce didacticiel vise avant tout à présenter les techniques et à donner les repères de lecture des résultats. Nous utiliserons donc un jeu de données très simple pour faciliter la lecture. Dans un prochain document, nous utiliserons des données autrement plus difficiles à appréhender, avec une dimensionnalité élevée au regard du nombre d’observations. Nous constaterons alors l’excellent comportement de l’Analyse Discriminante PLS qui soutient la comparaison face à des méthodes fortement régularisées telles que les SVM (Support Vector Machine).

Mots clés : régression pls, analyse discriminante, apprentissage supervisé
Composants : C-PLS, PLS-DA, PLS-LDA
Lien : fr_Tanagra_PLS_DA.pdf
Données : breast-cancer-pls-da.xls
Références :
S. Chevallier, D. Bertrand, A. Kohler, P. Courcoux, « Application of PLS-DA in multivariate image analysis », in J. Chemometrics, 20 : 221-229, 2006.
M. Tenenhaus, « La régression PLS – Théorie et Pratique », Technip, 1998.
Garson, « Partial Least Squares Regression (PLS) », http://www2.chass.ncsu.edu/garson/PA765/pls.htm