dimanche 26 octobre 2008

K-Means – Comparaison de logiciels

La méthode des K-Means (méthode des centres mobiles) est une technique de classification automatique (clustering en anglais). Elle vise à produire un regroupement de manière à ce que les individus du même groupe soient semblables, les individus dans des groupes différents soient dissemblables.

Nous l’avons déjà décrite (faire recherche sur le mot clé k-means ou voir la section classification-clustering) par ailleurs. Notre idée dans ce didacticiel est de montrer sa mise en oeuvre dans différents logiciels libres de Data Mining. Nous souhaitons utiliser la démarche suivante :

  • Importer les données ;
  • Réaliser quelques statistiques descriptives sur les variables actives ;
  • Centrer et réduire les variables ;
  • Réaliser la classification automatique via les K-Means sur les variables transformées, en décidant nous même du nombre de classes ;
  • Visualiser les données avec la nouvelle colonne représentant la classe d’appartenance des individus ;
  • Illustrer les classes à l’aide des variables actives, via des statistiques descriptives comparatives et des graphiques judicieusement choisis ;
  • Croiser la partition obtenue avec une variable catégorielle illustrative ;
  • Exporter les données, avec la colonne additionnelle, dans un fichier.

Ces étapes sont usuelles lors de la construction d’une typologie. L’intérêt de ce didacticiel est de montrer qu’elles sont pour la plupart, sous des formes parfois diverses certes, réalisables avec les logiciels libres de Data Mining. Il faut simplement trouver les bons composants et le bon enchaînement.

Nous étudierons les logiciels suivants : Tanagra 1.4.28 ; R 2.7.2 (sans package additionnel spécifique) ; Knime 1.3.5 ; Orange 1.0b2 et RapidMiner Community Edition.

Nous utilisons la méthode des centres mobiles dans ce tutoriel. Il est possible de suivre la même démarche globale en lui substituant n’importer quelle autre technique de classification automatique (la classification ascendante hiérarchique, les cartes de Kohonen, etc.).

Bien évidemment, je ne peux prétendre maîtriser complètement les différents logiciels. Il se peut que des fonctionnalités m’échappent pour certains d’entre eux. Il faut surtout voir les grandes lignes et le parallèle entre les outils, les experts pourront compléter les opérations à leur guise.

Mots clés : clustering, classification automatique, typologie, k-means, méthode des centres mobiles, méthode des nuées dynamiques, ACP, interprétation des classes
Composants : PRINCIPAL COMPONENT ANALYSIS, K-MEANS, GROUP CHARACTERIZATION, EXPORT DATASET
Lien : fr_Tanagra_et_les_autres_KMeans.pdf
Données : cars_dataset.zip
Références :
Wikipedia (en), « K-Means algorithm ».