dimanche 31 juillet 2016

Les cartes auto-organisatrices de Kohonen - Diapos

Les cartes de Kohonen (en anglais, SOM : self organizing maps) sont des réseaux de neurones orientés à deux couches : l’entrée correspond à la description des données, la sortie est organisée sous forme de grille (le plus souvent) et symbolise une organisation des données. Les cartes servent à la fois pour la réduction de dimensionnalité (d’un espace à p dimensions, nous nous projetons dans un espace 2D), pour la visualisation (les proximités sur la grille correspondent à une proximité dans l’espace initial), et la classification automatique (on peut procéder à des regroupements des neurones de la couche de sortie).

Ce support de cours décrit dans les grandes lignes les mécanismes sous-jacents aux cartes de Kohonen. L’accent est mis sur la visualisation qui est un de ses atouts forts.  La mise en œuvre sous R (package kohonen) et Tanagra (KOHONEN-SOM) est également présentée. J’ai déjà écrit un tutoriel sur le sujet il y a fort longtemps (2008), un autre viendra incessamment où j’essaierai de mettre l’accent sur la visualisation et la robustesse de la méthode.

Mots-clés : som, self organizing maps, kohonen, technique de visualisation, réduction de dimensionnalité, classification automatique, clustering, cah, classification mixte, logiciel R, package kohonen
Composants : KOHONEN-SOM
Document : Kohonen SOM - Diapos
Références :
Tutoriel Tanagra, "Les cartes de Kohonen", Juillet 2008.
Tutoriel Tanagra, "Les cartes de Kohonen avec R", Août 2016.

jeudi 28 juillet 2016

Master SISE - Remise à niveau - Introduction à R

R est multiple : il représente un langage de programmation doté des attributs principaux d’un langage (type de données, structures algorithmiques, organisation des programmes en fonctions et modules) ; il correspond à un logiciel de statistique et de data mining, doté d’une bibliothèque de fonctions extensibles à l’infini grâce au système des packages, particulièrement ingénieux je trouve, qui contribue largement à son succès ; il propose enfin des outils performants de management des données.

Mon cours en Master se focalise sur le premier aspect. Le second viendra au fur et à mesure de l’étude des techniques de data mining et machine learning. Ce programme de remise à niveau pour le Master SISE est donc principalement consacré au troisième thème, celui de la manipulation des données, de l’exploration des opérations de calculs intermédiaires (transformation de variables, recodage, statistiques récapitulatives, etc.), et des représentations graphiques.

Document principal : Introduction au logiciel R
Outils : R + RStudio (conseillé, non obligatoire)
Exercice 1 : Manipulation des data frame, données.
Exercice 2 : Calculs statistiques sur vecteurs, données.
Exercice 3 : Corrélation et régression avec R, données.

lundi 25 juillet 2016

Classification ascendante hiérarchique - Diapos

La CAH (classification ascendante hiérarchique) est une technique de classification (typologie, clustering, apprentissage non supervisé) très populaire. Son succès repose – entres autres – sur la nature de la solution qu’elle propose : nous disposons à l’issue des traitements d’une série de partitions emboîtées représentées graphiquement à l’aide d’un dendrogramme. Ainsi, au lieu d’une réponse unique, très possiblement arbitraire surtout s’agissant de regroupements sans a priori d’ensembles d’observations, nous disposons de scénarios de solutions qui nous permettent d’enrichir l’analyse que nous menons sur nos données.

Ce support de cours décrit dans les grandes lignes les mécanismes sous-jacents à l’algorithme d’apprentissage. La mise en œuvre sous R (hclust), Python (package scipy) et Tanagra (HAC) est également détaillée. Les nombreux tutoriels cités en bibliographie permettront aux lecteurs d’aller plus loin dans la pratique de la technique dans des problèmes réels.

Mots-clés : cah, classification ascendante hiérarchique, classification automatique, typologie, clustering, apprentissage non supervisé, tandem analysis, classification sur composantes principales, cah mixte, logiciel R, hclust, python, package scipy, distance euclidienne, stratégie d’agrégation, méthode ward, saut minimum, saut maximum, single linkage, complete linkage, classement d’un individu supplémentaire, inertie, inertie inter-classes, inertie intra-classes, théorème d’huygens
Composants : HAC, K-MEANS
Document : cah.pdf
Références :
Tutoriel Tanagra, "Classification automatique sous R", octobre 2015.
Tutoriel Tanagra, "Classification automatique sous Python", mars 2016.

lundi 18 juillet 2016

ANOVA à un et deux facteurs - Diapos

Je m’intéresse un peu à l’ANOVA (analyse de la variance ou analyse de variance) en ce moment. Ça m’a rappelé mes débuts dans l’enseignement. A l’époque, 2e moitié des années 90, on me proposait souvent des remplacements (ben oui, on est novice, on n’a pas trop le choix). Cela m’a amené à faire des grands écarts entre des cours de séries temporelles, d’ANOVA, …, de bases de données sous Paradox (qui s’en rappelle aujourd’hui ?), de programmation SQL sous Interbase (itou ?), etc. Avec le recul, je me rends compte que ces aventures auront été très formatrices.

A propos de l’ANOVA donc, j’ai jeté un coup d’œil sans trop y croire dans mes archives. J’étais moins organisé que maintenant il faut dire. Grande fut ma surprise de tomber sur un support relativement construit. Du coup, j’ai décidé de le mettre en ligne en le vérifiant entièrement, en le relookant très légèrement (j’ai ajouté des couleurs, le document initial était particulièrement austère), et en introduisant les traitements sous R.

Pour rappel, l’ANOVA consiste à vérifier que plusieurs échantillons proviennent de la même population en se basant sur la comparaison des moyennes. On peut également la considérer sous le prisme de l’étude de l’influence d’une ou plusieurs variables qualitatives sur une variable d’intérêt quantitative (Wikipédia).

Mots clés : anova, analyse de variance, tests post hoc, comparaisons multiples, logiciel R, aov, pairwise.t.test, correction de bonferroni, sidak, mesures répétées
Lien : ANOVA.pdf
Données : autos_anova.xlsx
Références :
Dagnelie P., "Statistique théorique et appliquée - Tome 2. Inférence statistique à une et à deux dimensions", De Boeck, 2011.
Guenther W., "Analysis of variance", Prentice-Hall, 1964.

mardi 12 juillet 2016

Master SISE - Remise à niveau - Statistique Descriptive

Voici le second opus (live is life, lalaa… lalala, toute ma jeunesse ça...) du programme de remise à niveau. Il concerne les statistiques descriptives sur tableur.

Pour les initiés, il n’y a aucune difficulté. Le principal enjeu est la réalisation des différentes tâches sous Excel. Il faut une certaine connaissance du tableur, d’où la nécessité du thème précédent.

Pour les non-initiés aux statistiques, il faut un peu de lecture pour comprendre les principaux concepts de la description des données. Certains sont relativement simples (caractéristiques de tendance centrale, fréquences absolues et relatives, …), d’autres demandent un peu plus d’attention (liaison statistique, …).

Des supports de qualité sont accessibles en ligne. Ils sont référencés dans le document principal.

Document principal
: Statistique descriptive
Outil : Excel (Libre ou Open Office Calc peuvent faire l’affaire)
Exercice 1 : Statistiques univariées et bivariées, données.
Exercice 2 : Choix des outils, données.
Exercice 3 : Corrélation et régression, données.

vendredi 8 juillet 2016

Master SISE - Programme de remise à niveau - Excel

Ce premier thème du programme de remise à niveau pour le master SISE concerne Excel. Je sais ce qu’en pensent certains de mes congénères. Il n’en reste pas moins qu’il arrive en bonne place dans le sondage annuel des KDnuggets (ex. en 2016). Il en est de même dans les offres d’emploi. Personne ne peut négliger cela. En réalité, il ne faut pas demander à Excel ce qu’il ne sait pas faire. Nativement, les fonctions statistiques sont un peu limitées, les fonctions de data mining sont inexistantes, dire le contraire serait mentir. Mais, d'un autre côté, Excel se révèle simple mais puissant pour le management de données, tant que la volumétrie reste modérée. Dans les faits, les utilisateurs tirent pleinement profit de ses capacités en le couplant avec un outil spécialisé de data mining, via le mécanisme des add-ins (macros complémentaires) par exemple.

Ce programme est consacré au traitement des listes sous Excel (réaliser les exercices à l'identique est possible sous Libre ou Open Office). Nous verrons ainsi tour à tour le filtre automatique, la mise en forme conditionnelle, le filtre avancé et l’outil tableau croisé dynamique.

Supports de référence : Excel - Traitement des listes.
Exercice 1 : Filtre automatique, données.
Exercice 2 : Mise en forme conditionnelle, données.
Exercice 3 : Filtre avancé, données.
Exercice 4 : Tableau croisé dynamique, données.