dimanche 25 mai 2014

Le tableur Gnumeric

Le tableur est un outil privilégié des data scientist. C’est ce que nous révèle l’enquête annuelle du portail KDNuggets. Excel arrive régulièrement parmi les trois logiciels les plus utilisés ces cinq dernières années (enquêtes 2013, 2012, 2011, 2010, 2009). En France, cette popularité est largement confirmée par sa présence quasi-systématique dans les offres d’emploi relatives au traitement exploratoire des données (statistique, data mining, data science, big data / data analytics, etc.) accessibles sur le site de l’APEC (Association Pour l’Emploi des Cadres). Excel est nommément cité, mais il faut surtout y voir une reconnaissance des aptitudes et capacités de l’outil tableur. D’autres suites bureautiques, dont certaines sont libres, proposent un module équivalent (ex. CALC de la suite LibreOffice).

Ce tutoriel est consacré au tableur libre Gnumeric. Il présente des caractéristiques intéressantes : le setup et l’installation sont de taille réduite parce qu’il ne fait pas partie d’une suite bureautique ; il est rapide et léger ; il est dédié au calcul numérique et intègre de manière native un menu « Statistics » avec les procédures statistiques courantes (tests paramétriques, tests non paramétriques, régression, analyse en composantes principales, etc.) ; et, il semble plus précis que les tableurs de référence (McCullough, 2004 ; Keeling and Pavur, 2011). Ces deux derniers aspects ont attiré mon attention et m’ont convaincu de l’étudier plus en détail. Dans ce qui suit, nous effectuons un rapide tour d’horizon d’une sélection des procédures statistiques de Gnumeric. Pour certaines, nous comparons les résultats à ceux de Tanagra 1.4.50.

Mots clés : gnumeric, tableur, statistique descriptive, analyse en composantes principales, acp, régression linéaire multiple, test des rangs signés de wilcoxon, test de comparaison de moyenne - variances inégales, test de mann et whitney, analyse de variance, anova
Composants :  MORE UNIVARIATE CONT STAT, PRINCIPAL COMPONENT ANALYSIS, MULTIPLE LINEAR REGRESSION, WILCOXON SIGNED RANKS TEST, T-TEST UNEQUAL VARIANCE, MANN-WHITNEY COMPARISON, ONE-WAY ANOVA
Lien : fr_Tanagra_Gnumeric.pdf
Données : credit_approval.zip
Références :
Gnumeric, "The Gnumeric Manual, version 1.12".
K.B. Keeling, R. Pavur, « Statistical Accuracy of Spreadsheet Software », The Amercial Statistician, 65:4, 265-273, 2011.