dimanche 9 mars 2008

La complémentarité CAH et ACP

L'appréhension d'un problème de fouille de données est rarement monolithique. Certes, nous identifions rapidement si nous devons mettre en œuvre des techniques descriptives, des techniques de classification ou des techniques de prédiction pour répondre au cahier de charges d'une étude. Il n'en reste pas moins que dans la grande majorité des cas, nous devons faire coopérer ces approches pour obtenir des résultats performants et interprétables.

Dans ce didacticiel, nous cherchons à regrouper des véhicules à partir de leurs caractéristiques (poids, consommation, etc.). La combinaison d'une technique de visualisation, l'analyse en composantes principale, avec une technique de typologie, la classification ascendante hiérarchique, amplifie la portée des résultats. Il faut dire que l'exemple s'y prête bien. L'interprétation des groupes produits par la classification automatique est un problème crucial, souvent malaisé. Bénéficier des lumières d'une technique de visualisation nous permet de mieux délimiter ce que nous produisons.

L'exemple nous montre qu'il faut se méfier des résultats automatisés, basés uniquement par des procédures numériques. L'interprétation des résultats, l'expertise que nous pouvons apporter par ailleurs, nous permet de guider les résultats vers des solutions plus en harmonie avec les connaissances du domaine.

Mots clés : CAH, classification automatique, ACP, analyse factorielle, techniques de visualisation
Composants : HAC, Group characterization, Principal component analysis, correlation scatterplot, scatterplot
Lien : fr_Tanagra_hac_pca.pdf
Données : cars.xls
Références :
M. Gettler-Summa, C. Pardoux, " La classification automatique " -- Classification.pdf
A. Baccini, P. Besse, " Data Mining I - Exploration Statistique " -- Explo_stat.pdf