dimanche 25 mai 2008

Régression PLS – Comparaison de logiciels

Se comparer aux autres est toujours une bonne manière de faire avancer un logiciel.

Pour valider les implémentations. C’est un point essentiel. Bien que l’on s’appuie sur les mêmes références bibliographiques, que l’on met en place les mêmes algorithmes, les choix de programmation ne sont pas anodins (la gestion des conditions de convergence par exemple). Une manière simple de valider l’implémentation est, outre la documentation des algorithmes utilisés et la publication du code, de voir ce qui se passe avec les autres outils.

Pour améliorer la présentation de résultats. Il y a certains standards à respecter dans la production des rapports, consensus initié par les ouvrages de référence et/ou le(s) logiciel(s) leader(s) dans le domaine. Les utilisateurs ont besoin de repères.

Notre implémentation de la Régression PLS repose essentiellement sur l’ouvrage de M. Tenenhaus (1998) qui, lui même, fait beaucoup référence au logiciel SIMCA-P. Profitant de l’accès à une version gratuite sur le site de l’éditeur (version 11 - limitée dans le temps), nous avons voulu comparer nos résultats sur un jeu de données. Nous avons étendu cette comparaison à d’autres logiciels (SAS avec la PROC PLS, SPAD avec le composant PLS, le logiciel R avec le package PLS).

Cette étude nous a emmené à introduire un nouveau composant dans Tanagra 1.4.24 (PLSR). Il intègre dans un cadre unique les composants PLS FACTORIAL, qui produit les scores factoriels, et PLS REGRESSION, qui effectue les prédictions. De plus, le mode de présentation des résultats, les noms des tableaux entre autres, est aligné sur les références anglo-saxonnes. Pour cela, nous nous sommes beaucoup appuyés sur les documents disponibles sur le site web de SIMCA-P (manuel de référence et tutoriel), et sur la description de D. Garson qui, inlassablement, produit toujours des documents d’une qualité extraordinaire.

Enfin, ce didacticiel permet d’approfondir la lecture et l’interprétation des résultats de la régression PLS. Le précédent était peut être un peu trop laconique. On se rend compte, dans ce nouveau document, de la richesse de l'approche qui constitue aussi une méthode factorielle : les observations sont projetés dans un nouvel espace qui permet de mieux expliciter les relations entre les variables, de mieux situer les proximités entre les individus.

Mots clés : régression pls, comparaison de logiciels
Composants : PLSR, VIEW DATASET, CORRELATION SCATTERPLOT, SCATTERPLOT WITH LABEL
Lien : fr_Tanagra_PLSR_Software_Comparison.pdf
Données : cars_pls_regression.xls
Références :
M. Tenenhaus, « La régression PLS – Théorie et pratique », Technip, 1998.
D. Garson, « Partial Least Squares Regression », from Statnotes: Topics in Multivariate Analysis. Retrieved 05/18/2008.
UMETRICS. SIMCA-P for Multivariate Data Analysis.