jeudi 18 décembre 2014

Introduction aux arbres de décision - Diapos

Au milieu des années 90, « faire du data mining » était assimilé à construire des arbres de décision. Le raccourci était bien évidemment trop simpliste, même si les arbres constituent effectivement une des méthodes phares du data mining (on dirait data science aujourd’hui).

Mes diapos sur les arbres ont été parmi les premiers que j’aie rédigés pour mes cours de data mining à l’Université. Ils avaient très peu évolué depuis parce que, entres autres, la méthode – la construction d’un arbre unique à partir d’un échantillon d’apprentissage - est bien établie et a connu peu de bouleversements fondamentaux depuis la fin des années 80. Il n’en reste pas moins qu’au fil des années, mon discours a évolué. Notamment parce que les outils actuels proposent des fonctionnalités de plus en plus performantes pour l’exploration interactive, pour l’appréhension de la volumétrie, etc. Je le disais verbalement. Je me suis dit qu’il était temps de matérialisé cela sur le support que j’utilise pour mes présentations. Je l’ai également complété en insérant les références sur les nombreux tutoriels récents que j’ai pu écrire sur l’induction des arbres à l’aide de différents logiciels.

Mots clés : arbres de décision, arbres de segmentation, chaid, c4.5, cart, sipina, logiciel R, spad, package rpart, tree, party, arbres interactifs
Composants Tanagra : C4.5, C-RT, CS-CRT, CS-MC4, ID3
Lien : Introduction aux arbres de décision
Références :
R. Rakotomalala, "Arbres de décision", Revue MODULAD, n°33, pp. 163-187, 2005.