mercredi 7 octobre 2009

Evaluation des classifieurs - Quelques courbes

L’évaluation des classifieurs est une étape incontournable de l’apprentissage supervisé. Nous avons construit un modèle de prédiction, nous devons en mesurer les. D’un côté, nous avons la matrice de confusion et les indicateurs afférents, très populaire dans la recherche en apprentissage automatique (ah… les fameux grands tableaux avec des moyennes de taux d’erreur sur des bases de données qui n’ont rien à voir entre elles…) ; de l’autre, dans les applications, on privilégie les courbes qui semblent mystérieuses si l’on n’est pas du domaine (courbe ROC en épidémiologie, entre autres ; courbe de gain en marketing ; courbe rappel – précision en recherche d’information).

Dans ce didacticiel, nous montrons dans un premier temps comment construire ces courbes en détaillant les calculs dans un tableur. Puis, dans un deuxième temps, nous utilisons les logiciels Tanagra 1.4.33 et R 2.9.2 pour les obtenir. Nous comparerons les performances de la régression logistique et des SVM (support vector machine, noyau RBF) sur notre fichier de données.

Mots-clés : courbe ROC, courbe de gain, courbe lift, courbe rappel précision, échantillon d'apprentissage, échantillon test, régression logistique, svm, noyau RBF, librairie libsvm, logiciel R, glm, package e1071
Composants : DISCRETE SELECT EXAMPLES, BINARY LOGISTIC REGRESSION, SCORING, C-SVC, ROC CURVE, LIFT CURVE, PRECISION-RECALL CURVE
Lien : fr_Tanagra_Spv_Learning_Curves.pdf
Données : heart_disease_for_curves.zip