vendredi 4 avril 2008

Régression PLS – Sélection du nombre d’axes

La sélection du nombre d’axes est un problème difficile dans la régression PLS. Ne disposant pas des outils de la statistique inférentielle, nous devons nous tourner vers les techniques de ré échantillonnage. Tanagra utilise la validation croisée pour optimiser les critères de prédiction.

Nous avons donc introduit deux approches pour la détection de la solution optimale : la première est toujours fondée sur le Q2 conformément (strictement) au descriptif dans l’ouvrage de Tenenhaus (1998) ; la seconde est une variante qui teste si la réduction du PRESS (l’erreur quadratique en validation croisée pour chaque variable TARGET) est supérieure ou non à un seuil choisi par l’utilisateur. Le seuil de 20% permet de définir un comportement raisonnable sur les données que nous avons pu étudier. Tout cela est à améliorer bien sûr, l’accès au code source vous permettra d’apporter les améliorations souhaitées.

La procédure est intégrée dans le composant PLS SELECTION de Tanagra. Il a la particularité de ne pouvoir se brancher que sur les composants PLS dans le diagramme de traitements.

Mots clés : régression pls, analyse factorielle
Composants : PLS Factorial, PLS Selection
Lien : fr_Tanagra_PLS_Selecting_Factors.pdf
Données : protien.txt
Référence :
M. Tenenhaus, « La régression PLS – Théorie et pratique », Technip, 1998 ; page 83.