mercredi 2 avril 2008

Arbres de régression

La régression consiste à produire un modèle qui permet de prédire ou d’expliquer les valeurs d’une variable à prédire continue (endogène) à partir des valeurs d’une série de variables prédictives (exogènes), continues ou discrètes. La régression linéaire multiple est certainement l’approche la plus connue, mais d’autres méthodes, moins connues en économétrie mais plus populaire dans la communauté de l’apprentissage automatique, permettent de remplir cette tâche.

Dans ce didacticiel nous présentons la méthode de régression par arbres de TANAGRA. La méthode implémentée est directement inspirée de CART (Breiman et al., 1984), dans sa partie régression (chapitre 8). L’arbre est élaboré en deux temps : une première phase d’expansion, pour construire l’arbre maximal ; une seconde phase de post élagage, destiné à réduire la taille de l’arbre, sans en diminuer la précision lorsqu’on la déploiera sur la population. Notre implémentation diffère légèrement dans la détection de l’arbre final. La préférence à la simplicité s’appuie sur une analyse de la courbe de la somme des carrés des résidus.

Petite particularité de ce didacticiel, nous traitons directement un fichier de données au format Weka (arff).

Mots clés : arbres de régression, arbres de décision, CART, post élagage
Composants : Regression tree
Lien : fr_Tanagra_Regression_Tree.pdf
Données : housign.arff
Référence : L. Breiman, J. Friedman, R. Olsen, C. Stone, « Classification and Regression Trees », Wadsworth International, 1984.