mercredi 11 février 2015

Arbres de classification - Théorie et pratique

La classification automatique ou analyse typologique (« clustering » en anglais) vise les regrouper les individus en paquets homogènes. Les individus qui ont des caractéristiques similaires (proches) sont réunis dans un même groupe (cluster, classe) ; les individus présentant des caractéristiques dissemblables (éloignées) sont associés à des groupes différents.

Nous présentons dans ce tutoriel les arbres de classification. La démarche s’intègre dans un cadre cohérent par rapport aux arbres de décision et régression, bien connus en data mining. La différence réside dans la mise en place d’un critère multivarié pour quantifier la pertinence des segmentations durant la construction de l’arbre. Nous avions déjà présenté succinctement la méthode dans un précédent didacticiel (avril 2008). Mais nous nous étions focalisés sur les aspects opérationnels (manipulations dans Tanagra et lecture des résultats). Dans ce nouveau document, nous nous attardons sur les fondements théoriques de l’approche. Nous montrons que nous pouvons appréhender de manière indifférenciée les bases comportant des variables actives quantitatives ou qualitatives, ou un mix des deux.

Par la suite, nous détaillons la mise en œuvre de la méthode à l’aide de plusieurs logiciels dont SPAD qui, à ma connaissance, est le seul à proposer une interface graphique interactive pour la construction des arbres de classification.

Mots clés : classification automatique, clustering, arbres de classification, interprétation des classes, clustering tree, valeur test, spad, ict, logiciel R, package party
Composants : MULTIPLE CORRESPONDENCE ANALYSIS, CTP, CT, GROUP CHARACTERIZATION
Lien : fr_Tanagra_Clustering_Tree.pdf
Données : tutorial_clustering_tree.zip
Références :
R. Rakotomalala, « Arbres de classification ».
Tutoriel Tanagra, "Arbres de classification",  avril 2008.