mardi 1 avril 2008

Arbres de classification

La classification consiste à construire des groupes homogènes d’observations, des classes, du point de vue d’une série de descripteurs de telle sorte que les observations dans les mêmes classes soient le plus similaires possible, et que les observations dans des classes différentes soient le plus dissemblables possible.

Une fois les groupes construits, il nous faut d’une part pouvoir les interpréter c.-à-d. savoir sur quelles caractéristiques les individus d’un même groupe ont été placés ensemble, qu’est-ce que différencient les groupes ; d’autre part, disposer d’une procédure d’affectation qui nous permettra de classer rapidement un nouvel individu dans un des groupes.

Les arbres de classification permettent de répondre très simplement à ces deux exigences. Le modèle de classement est représenté par un arbre de décision, chaque groupe est décrit par une règle logique, l’algorithme détecte automatiquement les variables pertinentes dans leur élaboration, l’interprétation est immédiate. L’affectation à un groupe peut être réalisée simplement en appliquant le système logique sur les descripteurs de l’observation à classer.

Cette technique est peu connue, les principales références sont à ce jour les articles de Chavent (1998) et Blockeel (1998).

Nous travaillerons sur le fichier ZOO (UCI). Il s’agit de regrouper des animaux selon leurs caractéristiques. Ils sont par ailleurs classés en 7 familles par des spécialistes. Nous vérifierons si notre classification concorde peu ou prou avec cette typologie proposée par les biologistes. Nous vérifierons également si notre classification, qui intègre quand même une contrainte forte, la construction d’un arbre logique pour représenter les classes, concorde avec les résultats produits par les méthodes classiques telles que les K-MEANS.

Mots clés : classification automatique, clustering, arbres de classification, interprétation des classes, clustering tree
Composants : Multiple Correspodance Analysis, CTP, Contingency Chi-Square, K-Means
Lien : fr_Tanagra_Clustering_Tree.pdf
Données : zoo.xls
Références :
R. Rakotomalala, « Arbres de classification ».
M. Chavent (1998), « A monothetic clustering method », Pattern Recognition Letters, 19, 989—996.
H. Blockeel, L. De Raedt, J. Ramon (1998), « Top-Down Induction of Clustering Trees », ICML, 55—63.