dimanche 25 mai 2014

Le tableur Gnumeric

Le tableur est un outil privilégié des data scientist. C’est ce que nous révèle l’enquête annuelle du portail KDNuggets. Excel arrive régulièrement parmi les trois logiciels les plus utilisés ces cinq dernières années (enquêtes 2013, 2012, 2011, 2010, 2009). En France, cette popularité est largement confirmée par sa présence quasi-systématique dans les offres d’emploi relatives au traitement exploratoire des données (statistique, data mining, data science, big data / data analytics, etc.) accessibles sur le site de l’APEC (Association Pour l’Emploi des Cadres). Excel est nommément cité, mais il faut surtout y voir une reconnaissance des aptitudes et capacités de l’outil tableur. D’autres suites bureautiques, dont certaines sont libres, proposent un module équivalent (ex. CALC de la suite LibreOffice).

Ce tutoriel est consacré au tableur libre Gnumeric. Il présente des caractéristiques intéressantes : le setup et l’installation sont de taille réduite parce qu’il ne fait pas partie d’une suite bureautique ; il est rapide et léger ; il est dédié au calcul numérique et intègre de manière native un menu « Statistics » avec les procédures statistiques courantes (tests paramétriques, tests non paramétriques, régression, analyse en composantes principales, etc.) ; et, il semble plus précis que les tableurs de référence (McCullough, 2004 ; Keeling and Pavur, 2011). Ces deux derniers aspects ont attiré mon attention et m’ont convaincu de l’étudier plus en détail. Dans ce qui suit, nous effectuons un rapide tour d’horizon d’une sélection des procédures statistiques de Gnumeric. Pour certaines, nous comparons les résultats à ceux de Tanagra 1.4.50.

Mots clés : gnumeric, tableur, statistique descriptive, analyse en composantes principales, acp, régression linéaire multiple, test des rangs signés de wilcoxon, test de comparaison de moyenne - variances inégales, test de mann et whitney, analyse de variance, anova
Composants :  MORE UNIVARIATE CONT STAT, PRINCIPAL COMPONENT ANALYSIS, MULTIPLE LINEAR REGRESSION, WILCOXON SIGNED RANKS TEST, T-TEST UNEQUAL VARIANCE, MANN-WHITNEY COMPARISON, ONE-WAY ANOVA
Lien : fr_Tanagra_Gnumeric.pdf
Données : credit_approval.zip
Références :
Gnumeric, "The Gnumeric Manual, version 1.12".
K.B. Keeling, R. Pavur, « Statistical Accuracy of Spreadsheet Software », The Amercial Statistician, 65:4, 265-273, 2011.

lundi 19 mai 2014

Sipina - Version 3.12

Le transfert entre le tableur  Excel et Sipina a été fiabilisé sur les bases de taille modérée (sur les grandes bases, plusieurs centaines de milliers d’observations, mieux vaut toujours passer par l’importation directe de fichier au format texte .TXT). La gestion du point décimal a été améliorée. La transformation automatique est maintenant bien plus rapide qu’auparavant.

La précision des seuils numériques affichés dans un arbre de décision devient paramétrable. L’utilisateur y accède vient un nouvel item dans le menu « Tree Management ».

Site web : Sipina
Chargement : Fichier setup

dimanche 18 mai 2014

Du Data Mining au Big Data

Ces dernières années de nouveaux termes très « fashion » sont apparus dans le domaine de l’exploitation des données en vue de la prise de décision. On parle de « data science », du métier de « data scientist », de « big analytics », de « predictive analytics », « d’open data », de « social media mining », etc. On les place souvent dans le nouveau contexte du « big data ».

A bien y regarder dans les articles où il en est question, parmi les principaux enjeux figurent le stockage, le traitement, l’analyse et la valorisation des données massives (big data), le respect de la vie privée, la sécurisation des informations. Est-ce si nouveau que cela ? Est-ce que cela mérite autant d’effervescence ? Ou bien est-ce seulement un replâtrage par rapport à l’analyse de données et aux statistiques exploratoires, comme ont eu tendance à le dire les statisticiens lorsque le phénomène data mining est apparu à l’orée des années 90.

L’affaire est d’importance en ce qui concerne notre Département Informatique et Statistique. Notre offre de formation couvre entres autres la statistique et le data mining (SISE), l’informatique décisionnelle (business intelligence, IIDEE), la sécurité informatique (OPSIE). Domaines que l’on cite très souvent dans le contexte du « big data ».  Est-ce suffisant dans le futur ? Faut-il présenter un nouveau diplôme spécifiquement estampillé « big data » ? Ou bien doit-on veiller surtout à renouveler à bon escient nos maquettes comme nous le faisons tous les 5 ans lors des campagnes d’habilitation ? Est-ce qu’il y a matière à introduire de nouveaux enseignements dans cette perspective, des cours concrets avec un savoir et un savoir faire à prodiguer à nos étudiants, des compétences qu’ils pourront valoriser dans leur vie professionnelle ? Ou bien doit-on se contenter de présentations générales positionnant la nouvelle configuration de la gestion, du traitement et de l’exploitation des données ?

Il est difficile voire impossible d’avoir une position tranchée. Pour l’heure, je partage avec vous le fruit de mes réflexions que j’ai livrées lors d’une présentation récente. J’ai placé le big data dans la perspective d’une évolution du « knowldege discovery » (« data science » devrait-on dire alors ?) liée au progrès technologique, avec notamment l’impact considérable des nouvelles technologies et du web sur la circulation de l’information. Ce support vaut aussi pour les très nombreux liens internet que j’ai consultés durant la préparation de mon exposé. Il préfigure le prisme que j’utiliserai dans mon cours d’introduction au data mining (devrais-je dire désormais « introduction au big data » ?).

Mots clés : data mining, big data, data science, data scientist, big analytics, predictive analytics, open data
Lien : Du Data Mining au Big Data - Enjeux et opportunités
Références :
M.P. Hamel D. Marguerite, "Analyse des big data – Quels usages, quels défis", La note d’analyse, Commissariat Général à la Stratégie et à la Prospective, Département Questions Sociales, N°8, Novembre 2013.
Anne Lauvergeon et al., "Ambition 7 : La valorisation des données massives (Big Data)", in « Un principe et sept ambitions pour l’innovation - Rapport de la commission Innovation 2030 », Octobre 2013.