mercredi 14 mars 2012

Introduction à R - Arbre de décision

Dans la même veine que le précédent consacré à la régression logistique, ce tutoriel présente l’induction des arbres de décision sous le logiciel R sans entrer dans les arcanes de la programmation. Un minimum est fait sur les structures de données (data.frame, vecteurs, matrices).

Finalement, on s’en sort plutôt bien. Il est possible de mener une étude complète avec le peu de choses mises en avant dans ce document : construction d’un modèle sur un échantillon d’apprentissage, prédiction sur un échantillon test, élaboration de la matrice de confusion, calcul du taux de mauvais classement.

Nous utilisons en priorité la procédure rpart du package du même nom. Par la suite, nous montrons qu’il est possible de mener les mêmes analyses avec les procédures incluses dans les packages tree et party.

Ces deux derniers tutoriels récents s’inscrivent dans un de mes cours de data mining où je souhaite faire découvrir le logiciel R aux étudiants sans entrer dans les détails de la programmation sous R.

Mots-clés : logiciel R, arbres de décision, matrice de confusion, taux d’erreur, package xlsx, fichier excel
Lien : introduction_arbre_de_decision_avec_r.pdf
Fichier : intro_arbres_avec_r.zip
Références :
R Project,"The R Project for Statistical Computing"
R. Rakotomalala, « Arbres de décision », Revue Modulad, N°33, 2005.