dimanche 25 mai 2008

Régression PLS – Comparaison de logiciels

Se comparer aux autres est toujours une bonne manière de faire avancer un logiciel.

Pour valider les implémentations. C’est un point essentiel. Bien que l’on s’appuie sur les mêmes références bibliographiques, que l’on met en place les mêmes algorithmes, les choix de programmation ne sont pas anodins (la gestion des conditions de convergence par exemple). Une manière simple de valider l’implémentation est, outre la documentation des algorithmes utilisés et la publication du code, de voir ce qui se passe avec les autres outils.

Pour améliorer la présentation de résultats. Il y a certains standards à respecter dans la production des rapports, consensus initié par les ouvrages de référence et/ou le(s) logiciel(s) leader(s) dans le domaine. Les utilisateurs ont besoin de repères.

Notre implémentation de la Régression PLS repose essentiellement sur l’ouvrage de M. Tenenhaus (1998) qui, lui même, fait beaucoup référence au logiciel SIMCA-P. Profitant de l’accès à une version gratuite sur le site de l’éditeur (version 11 - limitée dans le temps), nous avons voulu comparer nos résultats sur un jeu de données. Nous avons étendu cette comparaison à d’autres logiciels (SAS avec la PROC PLS, SPAD avec le composant PLS, le logiciel R avec le package PLS).

Cette étude nous a emmené à introduire un nouveau composant dans Tanagra 1.4.24 (PLSR). Il intègre dans un cadre unique les composants PLS FACTORIAL, qui produit les scores factoriels, et PLS REGRESSION, qui effectue les prédictions. De plus, le mode de présentation des résultats, les noms des tableaux entre autres, est aligné sur les références anglo-saxonnes. Pour cela, nous nous sommes beaucoup appuyés sur les documents disponibles sur le site web de SIMCA-P (manuel de référence et tutoriel), et sur la description de D. Garson qui, inlassablement, produit toujours des documents d’une qualité extraordinaire.

Enfin, ce didacticiel permet d’approfondir la lecture et l’interprétation des résultats de la régression PLS. Le précédent était peut être un peu trop laconique. On se rend compte, dans ce nouveau document, de la richesse de l'approche qui constitue aussi une méthode factorielle : les observations sont projetés dans un nouvel espace qui permet de mieux expliciter les relations entre les variables, de mieux situer les proximités entre les individus.

Mots clés : régression pls, comparaison de logiciels
Composants : PLSR, VIEW DATASET, CORRELATION SCATTERPLOT, SCATTERPLOT WITH LABEL
Lien : fr_Tanagra_PLSR_Software_Comparison.pdf
Données : cars_pls_regression.xls
Références :
M. Tenenhaus, « La régression PLS – Théorie et pratique », Technip, 1998.
D. Garson, « Partial Least Squares Regression », from Statnotes: Topics in Multivariate Analysis. Retrieved 05/18/2008.
UMETRICS. SIMCA-P for Multivariate Data Analysis.

samedi 24 mai 2008

Détection (univariée) des points aberrants

Dans le processus Data Mining, la détection et le traitement des points aberrants sont incontournables lors de la préparation des données, ou même après coup, pour analyser et valider les résultats.

On parle de point aberrant (point atypique) lorsque qu’un individu prend une valeur exceptionnelle sur une variable (ex. un client d’une banque aurait 158 ans) ou sur des combinaisons de variables (ex. un athlète de 12 ans aurait effectué le 100 m en 10 secondes). Ces points sont problématiques car ils peuvent biaiser les résultats, notamment pour les méthodes basées sur des distances entre individus, ou plus dramatiquement encore, des distances par rapport à des barycentres. Il importe donc d’identifier ces individus et de les considérer attentivement.

Dans ce didacticiel, nous présentons le composant UNIVARIATE OUTLIER DETECTION destiné à détecter les points atypiques sur chacune des variables, prises individuellement.

Les techniques intégrées dans ce composant sont largement inspirées du texte sur le site de NIST. Nous essayerons de les combiner au mieux avec les statistiques descriptives dans ce document. On se rendra vite compte que des stratégies simples, notamment les approches graphiques, sont au moins aussi intéressantes finalement. Les techniques numériques ne sont réellement décisives que dans le cadre du traitement automatisé de fichiers comportant de très nombreuses colonnes. Dans ce cas, leurs indications nous permettent de nous orienter rapidement vers les variables à problèmes.

Enfin, notre composant choisit d’exclure les observations atypiques. C’est une solution possible mais ce n’est certainement pas la panacée. Il y a d’autres stratégies : la transformation des données, en rendant symétrique la distribution, on atténue l’écartement des queues de distribution ; une transformation plus radicale encore, le passage au rangs ; l’utilisation de techniques appropriées, peu sensibles aux points aberrants (ex. dans le data mining, plutôt qu’une analyse discriminante, on préfèrera les arbres de décision s’il y a profusion de points atypiques)...

Mots clés : point aberrant, point atypique
Composants : MORE UNIVARIATE CONT STAT, SCATTERPLOT WITH LABEL, UNIVARIATE OUTLIER DETECTION, UNIVARIATE CONT STAT
Lien : fr_Tanagra_Outliers_Detection.pdf
Données : body_mass_index.xls
Référence :
NIST/SEMATECH, « e-Handbook of Statistical Methods », Section 7.1.6, « What are outliers in the data ? »
R. High, "Dealing with 'Outliers': How to Maintain Your Data's Integrity"

mercredi 14 mai 2008

Analyse Discriminante PLS – Etude comparative

La régression PLS est une technique de régression qui vise à prédire les valeurs prises par un groupe de variables Y (variables à prédire, variables cibles, variables expliquées) à partir d’une série de variables X (variables prédictives, les descripteurs, variables explicatives). Définie à l’origine pour le traitement des variables cibles continues, la Régression PLS peut être transposée à la prédiction d’une variable qualitative, de différentes manières, on parle « d’analyse discriminante PLS ». Elle fait alors preuve des qualités qu’on lui connaît habituellement, essentiellement la capacité à traiter un espace de représentation à très forte dimensionnalité, avec un grand nombre de descripteurs bruités et/ou redondants.

Ce document fait suite à un précédent didacticiel où nous présentions différentes méthodes supervisées basées sur la Régression PLS. L’objectif est de montrer le comportement de l’une d’entre elles, PLS-LDA, dans un contexte où le nombre de descripteurs est élevé par rapport au nombre d’observations. Le ratio reste « raisonnable » (278 variables prédictives pour 232 observations en apprentissage). Nous pouvons néanmoins voir se dessiner dans cette expérimentation les principaux traits du traitement de ce type de données où, finalement, la maîtrise de la variance du classifieur est l’enjeu majeur. Pour confirmer cette idée, nous opposerons PLS-LDA à des méthodes éprouvées telles que les SVM (Support Vector Machine, Librairie LIBSVM, Fan et al., 2005), les Random Forest (Breiman, 2001), ou… l’analyse discriminante linéaire (Fisher, 1936 - combinée avec une sélection de variables judicieuse, cette dernière se révèle être une compétitrice redoutable dans notre étude).

Nous reproduisons dans ce didacticiel le schéma de comparaison de classifieurs déjà mis en avant dans un de nos didacticiels. Nous forçons un peu le trait en intégrant un plus grand nombre de descripteurs. Les méthodes réputées stables devraient plus se démarquer. Nous intégrons de plus de nouvelles méthodes dans le comparatif, notamment les méthodes dérivées de la Régression PLS, peu connues en apprentissage automatique.

Mots clés : régression pls, analyse discriminante linéaire, apprentissage supervisé, support vector machine, SVM, random forest, forêts aléatoires, méthode des plus proches voisins, nearest neighbor
Composants : K-NN, PLS-LDA, BAGGING, RND TREE, C-SVC, TEST, DISCRETE SELECT EXAMPLES, REMOVE CONSTANT
Lien : fr_Tanagra_PLS_DA_Comparaison.pdf
Données : arrhytmia.bdm
Références :
S. Chevallier, D. Bertrand, A. Kohler, P. Courcoux, « Application of PLS-DA in multivariate image analysis », in J. Chemometrics, 20 : 221-229, 2006.
M. Tenenhaus, « La régression PLS – Théorie et Pratique », Technip, 1998.
Garson, « Partial Least Squares Regression (PLS) », http://www2.chass.ncsu.edu/garson/PA765/pls.htm

jeudi 8 mai 2008

Analyse Discriminante PLS

La régression PLS est une technique de régression qui vise à prédire les valeurs prises par un groupe de variables Y à partir d’une série de variables X. La régression PLS a été définie à l’origine pour les problèmes de prédictions sur des variables cibles quantitatives. Il aurait été dommage de ne pas exploiter ses qualités, notamment sa capacité à appréhender des dimensionnalités très élevées, en apprentissage supervisé où, rappelons le, la variable cible est catégorielle.

Dans ce didacticiel, nous présentons plusieurs variantes de la régression PLS dédiées à la prédiction d’une variable catégorielle. Elles sont regroupées sous l’appellation générique de « Analyse Discriminante PLS ». Elles reposent sur le même principe : dans un premier temps, nous codons la variable à prédire catégorielle à l’aide d’une série d’indicatrices correspondant à ses modalités (codage disjonctif complet) ; dans un second temps, nous présentons le tableau de données, Y composé des indicatrices, X des descripteurs, à l’algorithme PLS. Les variantes diffèrent (1) par le type de codage et la valeur des codes utilisés lors de la constitution du tableau Y ; (2) par l’exploitation des résultats de la régression PLS lors de la phase de classement.

Ce didacticiel vise avant tout à présenter les techniques et à donner les repères de lecture des résultats. Nous utiliserons donc un jeu de données très simple pour faciliter la lecture. Dans un prochain document, nous utiliserons des données autrement plus difficiles à appréhender, avec une dimensionnalité élevée au regard du nombre d’observations. Nous constaterons alors l’excellent comportement de l’Analyse Discriminante PLS qui soutient la comparaison face à des méthodes fortement régularisées telles que les SVM (Support Vector Machine).

Mots clés : régression pls, analyse discriminante, apprentissage supervisé
Composants : C-PLS, PLS-DA, PLS-LDA
Lien : fr_Tanagra_PLS_DA.pdf
Données : breast-cancer-pls-da.xls
Références :
S. Chevallier, D. Bertrand, A. Kohler, P. Courcoux, « Application of PLS-DA in multivariate image analysis », in J. Chemometrics, 20 : 221-229, 2006.
M. Tenenhaus, « La régression PLS – Théorie et Pratique », Technip, 1998.
Garson, « Partial Least Squares Regression (PLS) », http://www2.chass.ncsu.edu/garson/PA765/pls.htm