jeudi 12 février 2015

Validation croisée, Bootstrap - Diapos

En apprentissage supervisé, Il est couramment admis qu’il ne faut pas utiliser les mêmes données pour construire un modèle prédictif et estimer son taux d’erreur. L’erreur obtenue dans ces conditions est (très souvent) trop optimiste, laissant à croire que le modèle présentera d’excellentes performances en prédiction.

Un schéma type consiste  à subdiviser les données en 2 parties (holdout approach) : un premier échantillon, dit d’apprentissage sert à élaborer le modèle ; en second échantillon, dit de test, sert à en mesurer les performances. Les indicateurs reflètent alors honnêtement le comportement du modèle en déploiement. Hélas, sur des petites bases, cette approche pose problème. En réduisant le volume de données présenté à l’algorithme d’apprentissage, nous prenons le risque de ne pas saisir toutes les subtilités de la relation entre la variable cible et les prédictives. Dans le même temps, la partie dévolue au test reste réduite, l’estimation de l’erreur est empreint d’une forte variabilité.

Dans ce support, je présente les techniques de ré-echantillonnage (validation croisée, leave-one-out et bootstrap) destinées à estimer l’erreur du modèle élaboré à partir de la totalité des données disponibles. Une étude sur données simulées (les «ondes» de Breiman et al., 1984) permet d'analyser le comportement des approches en les croisant avec différents algorithmes d’apprentissage (arbres de décision, analyse discriminante linéaire, réseaux de neurones [perceptron multi-couches]).

Mots clés : méthodes de ré-échantillonnage, évaluation de l’erreur, validation croisée, bootstrap, leave one out, resampling error estimate, holdoutn schéma apprentissage-test
Composants : CROSS-VALIDATION, BOOTSTRAP, TEST, LEAVE-ONE-OUT
Lien : resampling_evaluation.pdf
Références :
A. Molinaro, R. Simon, R. Pfeiffer, « Prediction error estimation: a comparison of resampling methods », in Bioinformatics, 21(15), pages 3301-3307, 2005.
Tutoriel Tanagra, "Validation croisée, bootstrap, leave-one-out", mars 2008.