jeudi 27 mars 2008

Construction de variables avec NIPALS

Nous avons déjà parlé par ailleurs de la régularisation en apprentissage supervisé. L’idée est de réduire la dimensionnalité tout en préservant l’information utile dans les données. L’apprentissage supervisé subséquent ne peut qu’en bénéficier.

Nous voulons mettre en œuvre la méthode des plus proches voisins (K-PPV) dans un problème de prédiction où nous disposons d’une centaine d’observations, et… plusieurs milliers de descripteurs. Avant même de lancer les calculs, nous savons que ça ne donnera rien de bon, surtout pour cette méthode. Les estimations locales des probabilités, dans le voisinage des points à classer, sont très mauvaises. Les performances en classement seront désastreuses.

Nous voulons réduire la dimensionnalité, en utilisant l'analyse en composantes principales par exemple. L’ACP permet de projeter les individus dans un sous-espace, tout en préservant les proximités entre eux. Si l’idée est bonne, elle est impraticable. En effet, calculer une matrice de variance covariance de taille 6740 x 6740 n’est déjà pas très malin (au mieux, on utilise 173 Mo de mémoire vive en double précision). Tenter de la diagonaliser relève d’un optimisme forcené.

La méthode NIPALS paraît tout indiquée dans ce contexte. Elle permet de retrouver les axes factoriels de l’ACP, avec une précision moindre certes, sans avoir à former explicitement la matrice de variance covariance. L’avantage est double : moindre occupation mémoire et temps de calculs autrement plus accessibles. L’inconvénient, infime au regard des avantages, est que nous devons fixer à l’avance le nombre de facteurs à retenir.

Dans ce didacticiel, nous montrons comment élaborer les facteurs avec la méthode NIPALS, puis les présenter aux K-PPV. Le gain de temps est énorme. Il s’accompagne de surcroît d’une amélioration des performances en prédiction. L’amélioration du rapport entre le nombre d’observations et le nombre de variables est primordiale dans ce contexte.

Le taux d’erreur est mesuré par bootstrap.

Mots clés : NIPALS, analyse en composantes principales, ACP, méthode des plus proches voisins, K-PPV, K-NN, méthodes de ré échantillonnage, bootstrap
Composants : Supervised Learning, NIPALS, K-NN, Bootstrap
Lien : fr_Tanagra_NIPALS.pdf
Données : Tanagra_Nipals.zip
Références :
M. Tenenhaus, « La régression PLS – Théorie et pratique », Technip, 1998 ; Chapitre 6, « L’algorithme NIPALS », pages 61 à 73.
R. Rakotomalala, « Autres méthodes supervisées extrapolées du schéma bayesien – La méthode des plus proches voisins »