mercredi 9 juillet 2014

Tutoriels animés sur YouTube

Il y a tutoriels et tutoriels. On voit de plus en plus aujourd’hui des guides d’utilisation de logiciels de data mining sur la plate-forme youtube. Pour avoir moi-même exploré la réalisation de didacticiels en flash (ex. analyse discriminante, régression logistique, arbres de décision), je mesure parfaitement l’intérêt de ce type de média. Pourtant, j’ai finalement choisi de privilégié les textes rédigés avec des copies d’écran. Pour la principale raison que je peux ainsi, à tout moment, ouvrir des parenthèses : proposer un prisme différent par rapport à l’action qui est décrite, parler des autres logiciels proposant des fonctionnalités similaires, m’autoriser des digressions théoriques et méthodologiques, mettre en contrepoint les autres techniques de data mining, …

Il n’en reste pas moins que l’idée des tutoriels animés reste une piste très intéressante. J’ai découvert par hasard plusieurs  documents relatifs à Sipina et Tanagra sur youtube, élaborés par des utilisateurs que je remercie très chaleureusement ici (1, 2, 3, 4, 5).

De manière générale, je conseille souvent à mes étudiants d’explorer attentivement ce média pour se familiariser avec des outils dont nous ne disposons pas à l’Université. J’avoue passer moi-même beaucoup de temps à scruter le mode opératoire des différents logiciels. Les principaux éditeurs ont parfaitement compris l’intérêt de la chose et proposent aujourd’hui des démonstrations de très grande qualité. Il suffit d’effectuer quelques requêtes sur youtube pour s’en rendre compte (ex. Coheris Spad, Statistica, Spss, Sas, etc.)...

mercredi 2 juillet 2014

SQL Server Data Mining Add-Ins

Excel – le tableur de manière général – est très populaire auprès des « data scientist » . Mais, s’il est effectivement performant pour la manipulation et la préparation des données, il est moyennement apprécié concernant les calculs statistiques, parce que moins précis et affublé d’une bibliothèque de fonctions limitée . Pour palier cette faiblesse, de nombreux add-ins (macro complémentaires) existent pour compléter ses capacités d’analyse.

Dans ce tutoriel, nous décrivons plusieurs cas d’utilisation des techniques de data mining fournies par l’add-in « SQL Server Data Mining Add-ins ». Plusieurs traits distinctifs apparaissent clairement a posteriori. L’outil couvre parfaitement la pratique usuelle du data mining (ex. le module d’apprentissage supervisé permet de construire différents modèles sur un échantillon d’apprentissage, d’en mesurer et comparer les performances sur un échantillon test, d’effectuer le déploiement sur des données non-étiquetées). Il mise sur une très grande simplicité d’utilisation. Les manipulations sont intuitives. Il n’est pas nécessaire de scruter des heures durant l’aide en ligne  pour réaliser une étude. Cette apparente simplicité ne doit pas masquer la complexité de certaines opérations. L’outil effectue automatiquement des choix (ex. discrétisation automatique des variables, sélection des variables pertinentes, etc.) dont on doit avoir conscience pour apprécier pleinement la pertinence des résultats présentés.

Mots clés : excel, tableur, analyse prédictive, arbres de décision, réseau de neurones, bayésien naïf, régression logistique, perceptron,classification automatique, clustering, k-means, règles d'association, scoring, courbe de gain, courbe lift, data mining client for excel
Lien : SSAS
Données : SSAS dataset, cover type
Références :
Microsoft, "SQL Server - Analysis Services Data Mining".