jeudi 27 novembre 2014

Azure Machine Learning

Microsoft Azure est la plateforme cloud de Microsoft. Elle offre un certain nombre de services pour le stockage, le calcul, le traitement et la transmission des données, la gestion des bases de données, le développement d’applications, etc . Azure Machine Learning (Azure ML) est un service dédié à l’analyse prédictive. Il propose les fonctionnalités nécessaires à la construction de modèles prédictifs, à leur évaluation, et à leur déploiement. Des algorithmes maisons, adossés à des méthodes reconnues, sont implémentées (régression logistique, forêts aléatoires, etc.). Nous pouvons démultiplier les analyses puisque Azure ML intègre le logiciel R et la grande majorité des packages associés. De fait, réaliser des traitements en ligne avec du code R est possible. Nous étudierons avec beaucoup de curiosité cette opportunité. Azure Machine Learning Studio (ML Studio) est un front end accessible via un navigateur web. Il permet de piloter des analyses via l’élaboration de diagrammes de traitements, à l’instar des outils bien connus de data mining. On parle souvent de programmation visuelle (cf. SPAD, SAS EM, IBM SPSS Modeler, etc.).

Le data science rentre de plain pied dans l’ère du "cloud computing" avec Azure ML. Les données sont stockées on ne sait où (les fameux "data centers") et les calculs sont effectués à distance sur des serveurs externalisés. Un simple navigateur suffit pour développer les analyses et réaliser les traitements. Ainsi, un client léger avec des capacités limitées ne nous pénalise en rien, tant en matière de volumétrie qu’en matière de temps de calcul.

Microsoft propose une tarification sophistiquée du service. Mais nous pouvons nous exercer gratuitement sur l’outil ML Studio via le site https://studio.azureml.net/, en nous connectant avec un compte e-mail Microsoft. J’ai utilisé mon compte "@live.fr" en ce qui me concerne. Dans ce tutoriel, je montre les principales fonctionnalités de l’outil en réalisant quelques traitements types d’analyse prédictive.

Mots clés : cloud computing, azure, machine learning, régression logistique, k-means, decision forest, random forest, courbe roc, auc
Composants Tanagra : SAMPLING, BINARY LOGISTIC REGRESSION, BAGGING + RND TREE, SCORING, ROC CURVE
Lien : Azure Machine Learning
Données : breast.txt
Références :
Microsoft Azure, http://azure.microsoft.com/fr-fr/
Azure Machine Learning, http://azure.microsoft.com/fr-fr/services/machine-learning/
R. Casteres, [Article en Français] "Predict Wine Quality with Azure Machine Learning", août 2014.

mercredi 12 novembre 2014

Clustering de variables qualitatives - Diapos

La classification de variables qualitatives vise à regrouper les variables en groupes homogènes. Les variables situées dans un même groupe sont fortement liées entre elles, celles situées dans des groupes différents le sont faiblement. Deux approches sont décrites. La première exploite le v de Cramer, la matrice de dissimilarités qui en est déduite permet de lancer une classification ascendante hiérarchique (CAH) avec les stratégies d’agrégation usuelles (lien minimum, lien maximum, méthode de Ward, etc.). La seconde repose sur la notion de variable latente, une « moyenne » résumant l’information portée par un groupe de variables. Le barycentre d’un ensemble de variables étant ainsi défini, il est possible de s’appuyer sur les algorithmes bien connus de classification (CAH, mais aussi les algorithmes de type k-means, etc.).

La classification de variables donne une indication sur les liaisons et les redondances, mais elle ne permet pas d’identifier la nature des relations entre les variables c.-à-d. les associations entre les modalités. A partir de ce constat, nous introduisons la classification de modalités de variables qualitatives. Deux pistes sont explorées. La première, tout comme pour la classification de variables, prend pour point de départ la définition la similarité entre modalités. Le processus de classification (CAH) s’appuie sur la matrice des dissimilarités qui en découle. La seconde est de type « tandem analysis » (tandem clustering). Dans une première étape, une analyse des correspondances multiples (ACM) permet de projeter les modalités dans un nouvel espace de représentation. La typologie est réalisée à partir des coordonnées factorielles des modalités qui font figure d’individus dans la seconde étape.

Le jeu de données et le programme R qui ont servi à illustrer ce document sont téléchargeables.

Mots clés : classification automatique, typologie, clustering, classification de variables qualitatives, acm, analyse des correspondances multiples, afcm, tandem analysis, tandem clustering, package clustofvar, hclustvar, package hmisc, varclus, classification ascendante hiérarchique, CAH, indice de dice, logiciel R
Composants : CATVARHCA
Lien : Classification de variables qualitatives
Données : catvarclus.zip
Références :
Tutoriel Tanagra, "Classification de variables qualitatives", décembre 2013.

jeudi 6 novembre 2014

La page Excel'Ense de Modulad

La revue MODULAD est consacrée aux statistiques et traitement de données. Elle est éditée depuis 1988. Elle met l’accent sur le bon usage des méthodes et des outils. En janvier 2005, la version papier est abandonnée au profit d’une diffusion sur le web. Tout un chacun peut accéder librement aux articles et aux ressources associées sans avoir à s’enregistrer.

Une des forces de la revue est d’avoir su trouver un équilibre entre les fondements théoriques, la pratique, et les outils. Elle ouvre la porte aux non-spécialistes, attachés aux aspects applicatifs, mais désireux de s’appuyer sur des références théoriques solides. La politique éditoriale de la revue évoque, bien avant l’heure, ce que l’on a coutume d’appeler aujourd’hui « data science » ou encore « big data analytics ».

La page Excel’Ense montre l’attachement de la revue au caractère pratique de l’analyse de données. Il s’agit d’un « cahier d’information et d’échanges, ciblé sur l’exploitation des données et l’enseignement de la statistique avec un tableur, le prototype étant Excel ». Concrètement, des classeurs types et macros-complémentaires (add-ins) adaptés à différents problèmes statistiques sont mis à disposition des lecteurs (ex. calcul des coefficients d’autocorrélation, construction de plans d’expériences factoriels complets, tests de Wilcoxon, tirage d’un échantillon stratifié, etc.). Nous pouvons les charger et appliquer les techniques proposées sur nos propres données via Excel.

Dans ce tutoriel, nous étudions l’add-in « Explore.xla » de Jacques Vaillé (2011). L’auteur met à notre disposition plusieurs outils et méthodes statistiques pour l’analyse exploratoire des données. Certains d’entre eux, très simples, sont pourtant particulièrement utiles. Une macro par exemple permet de réaliser un graphique nuage de points étiquetés à l’aide des labels des observations, chose impossible à faire avec les fonctions standards d’Excel. Une documentation accompagne la librairie. Nous nous en tiendrons aux techniques d’analyse factorielle dans notre présentation.

Mots clés : analyse en composantes principales, acp, analyse des correspondances binaires, analyse factorielle des correspondances, afc
Composants : PRINCIPAL COMPONENT ANALYSIS, CORRESPONDENCE ANALYSIS
Lien : fr_Tanagra_ExcelEnse.pdf
Données : excelense_explore.zip
Références :
Jacques Vaillé, « La statistique au service des données : quelques macros Excel pour faire de l’analyse exploratoire des données », La revue MODULAD, n°43, 2011.
La revue MODULAD, la page Excel’Ense : http://www.modulad.fr/excel.htm