mercredi 2 avril 2008

Apprentissage-test avec ORANGE, TANAGRA et WEKA

Très souvent, pour résoudre un problème d’apprentissage supervisé, nous sommes emmenés à choisir entre plusieurs algorithmes d’apprentissage. Parmi les critères d’évaluation figurent la précision des méthodes sur un échantillon test. Pour une expérimentation rigoureuse, il est fortement conseillé d’utiliser les mêmes échantillons d’apprentissage et de test, ainsi les méthodes seront directement comparables deux à deux, il est même possible de caractériser leur manière de classer, cela peut être intéressant lorsque les coûts de mauvais classement ne sont pas symétriques.

Dans ce didacticiel, nous montrons le détail des opérations sur les logiciels ORANGE, WEKA et TANAGRA. Nous verrons qu’ils procèdent avec une philosophie très différente, notamment dans la préparation des fichiers, mais au final nous obtenons des résultats similaires.

Nous avons choisi de mettre en compétition trois méthodes d’apprentissage pour illustrer notre propos : un SVM linéaire (Support Vector Machine), la régression logistique et un arbre de décision.

Nous utilisons le fichier BREAST (UCI IRVINE). Il comporte un attribut classe binaire (tumeur bénigne ou maligne), 9 descripteurs, tous continus, et 699 exemples.

Nous avons sélectionné 499 observations pour l’apprentissage, 200 pour le test. Nous utilisons la même subdivision pour nos trois logiciels, les résultats sont ainsi comparables d'un logiciel à l'autre.

Mots clés : apprentissage supervisé, arbres de décision, svm, régression logistique, évaluation des classifieurs, subdivision apprentissage test, Weka, Orange, comparaison de classifieurs
Composants : Select examples, Supervised learning, Binary logistic regression, C-RT, C-SVC, Test
Lien : fr_Tanagra_TOW_Predefined_Test_Set.pdf
Données : breast_tow.zip
Références :
R. Rakotomalala, « Méthodes de ré échantillonnage pour l’évaluation des performances ».