dimanche 9 mars 2008

Comparaison de classifieurs

Pour évaluer un algorithme d'apprentissage supervisé, on conseille souvent de subdiviser les données en deux sous-ensembles disjoints : l'ensemble d'apprentissage (learning set) qui sert à élaborer le modèle de prédiction ; l'ensemble test (test set) qui sert à en mesurer les performances. TANAGRA dispose d'outils permettant de construire automatiquement ces sous-ensembles à partir d'un échantillonnage. Mais, dans certains cas, l'utilisateur peut vouloir procéder lui-même à cette subdivision afin d'utiliser les mêmes ensembles d'apprentissage et de test pour comparer les algorithmes d'apprentissage.

Dans ce didacticiel, nous utiliserons un fichier de données dans lequel nous avons introduit une colonne supplémentaire permettant de désigner les individus à utiliser pour l'apprentissage et ceux à utiliser lors de l'évaluation. Nous montrerons alors quels composants utiliser pour désigner les observations qui vont servir à construire les modèles de prédiction, nous utiliserons un autre composant pour comparer leurs performances sur l'ensemble test.

Mots clés : apprentissage supervisé, comparaison de classifieurs, schéma apprentissage test, taux d'erreur, matrice de confusion, analyse discriminante linéaire, support vector machine, algorithme des plus proches voisins
Composants : Select examples, Supervised learning, Linear discriminant analysis, SVM, K-NN
Lien : fr_Tanagra_Compare_Algorithms_On_Predefined_Test_Set.pdf
Données : sonar_with_test_set.xls
Références :
R. Rakotomalala, " Apprentissage supervisé "
R. Rakotomalala, " Estimation de l'erreur de prédiction - Les techniques de ré échantillonnage "