lundi 21 juillet 2008

Les cartes de Kohonen

Les cartes de Kohonen sont des réseaux de neurones artificiels orientés, constitués de 2 couches. Dans la couche d’entrée, les neurones correspondent aux variables décrivant les observations. La couche de sortie, elle, est le plus souvent organisée sous forme de grille (de carte) de neurones à 2 dimensions. Chaque neurone représente un groupe d’observations similaires.

Le réseau de Kohonen est donc une technique de classification automatique (clustering, apprentissage non supervisé). L’objectif est de produire un regroupement de manière à ce que les individus situés dans la même case soient semblables, les individus situés dans des cases différentes soient différents. En y regardant de plus près, on se rend compte d’ailleurs que l’algorithme d’apprentissage est une version sophistiquée de la méthode des K-Means (on parle de « nuées dynamiques » en français, bien que cette dernière intègre elle aussi d’autres types d’améliorations par rapport aux K-Means de Forgy [1965]).

Les cartes de Kohonen constituent également une technique de visualisation. En effet, les neurones de la couche de sortie sont organisés de manière à ce que deux cellules adjacentes dans la grille correspondent à des groupes d’observations proches dans l’espace de représentation initial. On parle de cartes auto organisatrices (SOM : Self Organisation Map). De ce point de vue, le réseau de Kohonen se positionne par rapport aux techniques factorielles de réduction de dimensionnalité. A la différence que la projection est non linéaire.

Dans ce didacticiel, nous montrons comment mettre en œuvre l’algorithme de Kohonen dans Tanagra. Nous visualiserons graphiquement les résultats. L’idée est de vérifier cette fameuse proximité entre les cellules de la grille dans l’espace de représentation. Puis, nous comparons les groupes obtenus avec ceux de la méthode des K-Means, très largement répandue au sein de la communauté de l’apprentissage automatique. Enfin, nous montrons comment nous pouvons affiner les résultats en lançant une classification ascendante hiérarchique (CAH) à partir des cellules de la carte. Cette stratégie est une approche alternative de la classification mixte (K-MEANS + CAH ; Lebart et al., 2000). Elle est particulièrement recommandée pour les fichiers comportant un grand nombre d’observations.

Mots clés : cartes de Kohonen, self organization map, SOM, classification automatique, clustering, réduction de dimensionnalité, k-means, nuées dynamiques, cah, classification ascendante hiérarchique, classification mixte
Composants : UNIVARIATE CONTINUOUS STAT, UNIVARIATE OUTLIER DETECTION, KOHONEN-SOM, PRINCIPAL COMPONENT ANALYSIS, SCATTERPLOT, K-MEANS, CONTINGENCY CHI-SQUARE, HAC
Lien : fr_Tanagra_Kohonen_SOM.pdf
Données : waveform_unsupervised.xls
Références :
Tutoriel Tanagra, "Les cartes auto-organisatrices de Kohonen - Diapos", juillet 2016.
Wikipedia, « Self organizing map », http://en.wikipedia.org/wiki/Self-organizing_map