mercredi 26 mars 2008

Validation croisée, bootstrap, leave one out

L’évaluation des classifieurs est une question récurrente en apprentissage supervisé. Parmi les différents indicateurs existants, la performance en prédiction calculée à l’aide du taux d’erreur (ou son complémentaire à 1, le taux de bon classement) est un critère privilégié. Du moins dans les publications scientifiques car, dans les études réelles, d’autres considérations sont au moins aussi importantes : l’évaluation des performances en intégrant les coûts de mauvaise affectation, l’interprétation des résultats, les possibilités de mise en production, etc.

Le taux d’erreur théorique est défini comme la probabilité de mal classer un individu dans la population. Bien entendu, il est impossible de le calculer directement, essentiellement parce qu’il n’est pas possible d’accéder à toute la population. Nous devons produire une estimation. Qui dit estimation dit utilisation d’un échantillon, un estimateur de bonne qualité doit être le moins biaisé possible (en moyenne, on tombe sur la bonne valeur du taux d’erreur théorique), et le plus précis possible (la variabilité autour de la vraie valeur est petite).

Dans la pratique, on recommande de subdiviser l’échantillon en 2 parties : la première, dite échantillon d’apprentissage pour créer le classifieur ; la seconde, dite échantillon test, pour calculer la proportion des erreurs en classement (voir Comparaison de classifieurs). L’erreur ainsi mesurée est non biaisée.Lorsque la base initiale de petite taille, cette démarche n’est plus adaptée. Il faut réserver toutes les données disponibles pour la construction du modèle. Comment alors évaluer les performances du classifieur ainsi produit ?

Les techniques de ré échantillonnage permettent de répondre à cette question. Nous étudierons plus particulièrement la validation croisée, le leave one out, et le bootstrap. Il s’agit de répéter plusieurs fois, sous des configurations pré définies, le schéma apprentissage test. Attention, il s’agit bien d’une estimation de l’erreur du modèle construit sur l’ensemble des données. Les modèles intermédiaires, élaborés lors des apprentissages répétés, servent uniquement à l’évaluation de l’erreur. Ils ne sont pas accessibles à l’utilisateur, ils n’ont pas d’utilité intrinsèque.

Ce didacticiel vise à compléter le cours décrivant les techniques de ré échantillonnage accessible en ligne (voir Référence). L’idée est la suivante : sur des données synthétiques, nous comparons l'erreur évaluée à l'aide des techniques de ré échantillonnage avec le cas, hypothétique, où nous disposons d’un échantillon test de taille virtuellement infinie. Nous pourrons ainsi situer le comportement et la précision des différentes techniques.

Nous utiliserons l’analyse discriminante linéaire (LDA) et les arbres de décision (C4.5) pour illustrer notre propos.

Mots clés : méthodes de ré échantillonnage, évaluation de l’erreur, validation croisée, bootstrap, leave one out, analyse discriminante linéaire
Composants : Supervised Learning, Cross-validation, Bootstrap, Test, Leave-one-out, Linear discriminant analysis, C4.5
Lien : fr_Tanagra_Resampling_Error_Estimation.pdf
Données : wave_ab_err_rate.zip
Référence : R. Rakotomalala, "Estimation de l'erreur de prédiction - Les techniques de ré échantillonnage"