mercredi 2 avril 2008

Arbres de décision avec ORANGE, TANAGRA et WEKA

La très grande majorité des logiciels de data mining libre intègrent au moins un algorithme d’induction des arbres de décision. Pour la simple raison que c’est une technique très populaire et, somme toute, elle est relativement facile à programmer. On aurait tort de s’en priver.

S’agissant de l’induction d’un arbre de décision, quel que soit le logiciel utilisé, nous devons impérativement passer par les étapes suivantes :

+ Importer les données dans le logiciel ;
+ Définir le problème à résoudre, c.-à-d. choisir la variable à prédire (l’attribut « classe ») et les descripteurs ;
+ Sélectionner la méthode d’induction d’arbres de décision, selon les logiciels et selon les implémentations, les résultats peuvent être différents ;
+ Lancer l’apprentissage et visualiser l’arbre ;
+ Utiliser la validation croisée pour évaluer la qualité du modèle induit.

Dans ce didacticiel, nous montrons que malgré les différences, la trame reste la même. Cela confirme l’idée qu’un bon data miner ne doit pas être dépendant de l’outil. Le plus important est de se fixer une démarche générique. La mise en œuvre d’un traitement ou d’une séquence de traitements doit obéir à des codes que l’on retrouve dans tout logiciel. Si on ne les retrouve pas, c’est le logiciel qu’il faut remettre en cause, pas l’utilisateur.

Mots clés : apprentissage supervisé, arbres de décision, évaluation des classifieurs, méthode de ré échantillonnage, validation croisée, Weka, Orange
Composants : Supervised learning, C-RT, Cross validation
Lien : fr_Tanagra_TOW_Decision_Tree.pdf
Données : heart.txt
Références :
R. Rakotomalala, " Arbres de décision ", Revue Modulad, 33, 163-187, 2005 (tutoriel_arbre_revue_modulad_33.pdf)