jeudi 27 novembre 2014

Azure Machine Learning

Microsoft Azure est la plateforme cloud de Microsoft. Elle offre un certain nombre de services pour le stockage, le calcul, le traitement et la transmission des données, la gestion des bases de données, le développement d’applications, etc . Azure Machine Learning (Azure ML) est un service dédié à l’analyse prédictive. Il propose les fonctionnalités nécessaires à la construction de modèles prédictifs, à leur évaluation, et à leur déploiement. Des algorithmes maisons, adossés à des méthodes reconnues, sont implémentées (régression logistique, forêts aléatoires, etc.). Nous pouvons démultiplier les analyses puisque Azure ML intègre le logiciel R et la grande majorité des packages associés. De fait, réaliser des traitements en ligne avec du code R est possible. Nous étudierons avec beaucoup de curiosité cette opportunité. Azure Machine Learning Studio (ML Studio) est un front end accessible via un navigateur web. Il permet de piloter des analyses via l’élaboration de diagrammes de traitements, à l’instar des outils bien connus de data mining. On parle souvent de programmation visuelle (cf. SPAD, SAS EM, IBM SPSS Modeler, etc.).

Le data science rentre de plain pied dans l’ère du "cloud computing" avec Azure ML. Les données sont stockées on ne sait où (les fameux "data centers") et les calculs sont effectués à distance sur des serveurs externalisés. Un simple navigateur suffit pour développer les analyses et réaliser les traitements. Ainsi, un client léger avec des capacités limitées ne nous pénalise en rien, tant en matière de volumétrie qu’en matière de temps de calcul.

Microsoft propose une tarification sophistiquée du service. Mais nous pouvons nous exercer gratuitement sur l’outil ML Studio via le site https://studio.azureml.net/, en nous connectant avec un compte e-mail Microsoft. J’ai utilisé mon compte "@live.fr" en ce qui me concerne. Dans ce tutoriel, je montre les principales fonctionnalités de l’outil en réalisant quelques traitements types d’analyse prédictive.

Mots clés : cloud computing, azure, machine learning, régression logistique, k-means, decision forest, random forest, courbe roc, auc
Composants Tanagra : SAMPLING, BINARY LOGISTIC REGRESSION, BAGGING + RND TREE, SCORING, ROC CURVE
Lien : Azure Machine Learning
Données : breast.txt
Références :
Microsoft Azure, http://azure.microsoft.com/fr-fr/
Azure Machine Learning, http://azure.microsoft.com/fr-fr/services/machine-learning/
R. Casteres, [Article en Français] "Predict Wine Quality with Azure Machine Learning", août 2014.