mercredi 26 mars 2008

Comparaison de classifieurs – Validation croisée

Comparer les performances en prédiction est souvent mis en avant pour sélectionner le modèle le plus intéressant en apprentissage supervisé. Pour cela, il nous faut donc produire une mesure du taux d’erreur fiable, non biaisée.

Dans la majorité des cas, on subdivise l’échantillon en 2 parties : la première, dite échantillon d’apprentissage pour créer le classifieur ; la seconde, dite échantillon test, pour calculer la proportion des erreurs en classement (voir Comparaison de classifieurs)

Lorsque la base initiale est de petite taille, cette démarche n’est plus adaptée. Il faut réserver toutes les données disponibles pour la construction du modèle. Comment alors évaluer les performances du classifieur ainsi produit ?

Les méthodes de ré échantillonnage apportent une réponse à ce problème. Par une série d’apprentissages-tests répétés sur des fractions de l’échantillon global, elles produisent une estimation de l’erreur en classement du modèle construit sur la totalité des données. Il faut bien entendu que cette estimation soit le moins biaisé possible, et avec une variance faible.

Dans ce didacticiel, nous montrons comment comparer les performances de deux algorithmes d’apprentissage supervisé (K-NN et ID3) à l’aide de l’erreur calculée en validation croisée.

Mots clés : validation croisée, méthodes de ré échantillonnage, comparaison de classifieurs, méthode des plus proches voisins, k-ppv, k-nn, arbres de décision, id3
Composants : Supervised Learning, K-NN, Cross-validation
Lien : dr_comparer_spv_learning.pdf
Données : dr_heart.bdm
Référence : R. Rakotomalala, "Estimation de l'erreur de prédiction - Les techniques de ré échantillonnage"