dimanche 9 mars 2008

Arbres de décision - ID3 sur Breast Cancer

Les arbres de décision font partie des techniques les plus populaires du data mining. Dans ce didacticiel, nous montrons comment (1) implémenter la méthode ID3 sur un problème de prédiction de type de cellules (cancéreuse ou non) à partir de leurs caractéristiques (forme, taille, etc.) ; (2) lire les résultats produits par TANAGRA (matrice de confusion, lecture de l'arbre, déduction des règles).

Plusieurs techniques sont disponibles dans TANAGRA, entre autres ID3 (Quinlan, 1979 ; Quinlan, 1986), C4.5 (Quinlan, 1993) et CART (Breiman et al., 1984). L'induction est totalement automatisée. Nous pouvons modifier les paramètres avant les calculs. En revanche, il n'est pas possible de manipuler interactivement l'arbre. Si on désire pouvoir intervenir dans la construction de l'arbre, choix des variables de segmentation, élagage manuel, mieux vaut se tourner vers le logiciel SIPINA. Les didacticiels sont disponibles dans la catégorie associée.

Mots clés : arbres de décision, ID3, apprentissage supervisé
Composants : Supervised Learning, ID3
Lien : DecisionTree.pdf
Données : breast.bdm
Références :
R. Quinlan, " Induction of Decision Trees ", Machine Learning, 1, 81-106, 1986.
R. Rakotomalala, " Arbres de décision ", Revue Modulad, 33, 163-187, 2005 (tutoriel_arbre_revue_modulad_33.pdf)