mercredi 2 juillet 2014

SQL Server Data Mining Add-Ins

Excel – le tableur de manière général – est très populaire auprès des « data scientist » . Mais, s’il est effectivement performant pour la manipulation et la préparation des données, il est moyennement apprécié concernant les calculs statistiques, parce que moins précis et affublé d’une bibliothèque de fonctions limitée . Pour palier cette faiblesse, de nombreux add-ins (macro complémentaires) existent pour compléter ses capacités d’analyse.

Dans ce tutoriel, nous décrivons plusieurs cas d’utilisation des techniques de data mining fournies par l’add-in « SQL Server Data Mining Add-ins ». Plusieurs traits distinctifs apparaissent clairement a posteriori. L’outil couvre parfaitement la pratique usuelle du data mining (ex. le module d’apprentissage supervisé permet de construire différents modèles sur un échantillon d’apprentissage, d’en mesurer et comparer les performances sur un échantillon test, d’effectuer le déploiement sur des données non-étiquetées). Il mise sur une très grande simplicité d’utilisation. Les manipulations sont intuitives. Il n’est pas nécessaire de scruter des heures durant l’aide en ligne  pour réaliser une étude. Cette apparente simplicité ne doit pas masquer la complexité de certaines opérations. L’outil effectue automatiquement des choix (ex. discrétisation automatique des variables, sélection des variables pertinentes, etc.) dont on doit avoir conscience pour apprécier pleinement la pertinence des résultats présentés.

Mots clés : excel, tableur, analyse prédictive, arbres de décision, réseau de neurones, bayésien naïf, régression logistique, perceptron,classification automatique, clustering, k-means, règles d'association, scoring, courbe de gain, courbe lift, data mining client for excel
Lien : SSAS
Données : SSAS dataset, cover type
Références :
Microsoft, "SQL Server - Analysis Services Data Mining".