jeudi 6 novembre 2008

Validation croisée - Comparaison de logiciels (suite)

Ce didacticiel reprend un de nos anciens articles consacrés à la mise en œuvre de la validation croisée pour l’évaluation des performances des arbres de décision (voir Arbres de décision avec Orange, Tanagra et Weka). Nous comparions la démarche à suivre et la lecture des résultats pour Tanagra, Orange et Weka.

Dans ce document, nous étendons le descriptif aux logiciels R 2.7.2, Knime 1.3.51 et RapidMiner Community Edition.

Les objectifs et le cheminement sont les mêmes. Le lecteur peut se reporter à notre précédent didacticiel s’il souhaite avoir des précisions sur ces éléments. Nous utilisons le fichier HEART.TXT (UCI). L’objectif est de prédire l’occurrence des maladies cardio-vasculaires (COEUR). Le fichier a été nettoyé, le nombre de descripteurs a été réduit (12 variables prédictives), il en est de même pour les observations (270 individus).

Mots clés : apprentissage supervisé, arbres de décision, évaluation des classifieurs, méthode de ré échantillonnage, validation croisée, RapidMiner, Knime, logiciel R, package rpart
Lien : fr_Tanagra_Validation_Croisee_Suite.pdf
Données : heart.zip
Références :
R. Rakotomalala, "Estimation de l'erreur de prédiction - Les techniques de ré échantillonnage"
R. Rakotomalala, " Arbres de décision ", Revue Modulad, 33, 163-187, 2005 (tutoriel_arbre_revue_modulad_33.pdf)
UCI Machine Learning Repository, "Heart Disease Data set"