samedi 25 février 2012

PSPP, une alternative à SPSS

Tout le monde l’aura compris, je passe énormément de temps à analyser les logiciels de statistique et de data mining gratuits découverts ici ou là sur le web. Je suis toujours enthousiasmé à l’idée de découvrir les dispositifs imaginés par les uns et les autres pour proposer aux utilisateurs, nous, des solutions de traitement de données. Au fil des années, j’en suis arrivé à la conclusion qu’il n’existe pas de mauvais logiciels. Il y a simplement des outils plus ou moins adaptés à des contextes d’utilisation qu’il nous appartient de cerner, en tenant compte de nos objectifs, des caractéristiques de nos données, de notre mode opératoire, de nos affinités, etc. On ne gagnera jamais le Paris-Dakar avec une Formule Un ; Sébastien Loeb, aussi fort soit-il, ne peut pas gagner un rallye avec une semi-remorque (j’imagine hein, avec lui on ne sait jamais). C’est l’une des raisons pour lesquelles je parle énormément des autres logiciels, autres que ceux que je développe moi-même. Plus nous en verrons, plus nous saurons nous détacher de l’outil pour nous concentrer sur les finalités, les techniques, l’exploitation des résultats. C’est ce qui importe en définitive.

Dans ce tutoriel, nous décrivons le logiciel PSPP. Ses promoteurs la positionnent comme une alternative à SPSS (« PSPP is a program for statistical analysis of sampled data. It is a free replacement for the proprietary program SPSS, and appears very similar to it with a few exceptions. »). Plutôt que de procéder à une analyse exhaustive de ses fonctionnalités, ce qui est déjà très bien fait par ailleurs , avec en particulier le document en français de Julie Séguéla (« Introduction au logiciel PSPP – Version 0.4.0 », 2006 ; 119 pages ), nous préférons décrire quelques procédures statistiques en mettant en miroir les résultats fournis par Tanagra, R 2.13.2 et OpenStat (build 24/02/2012). C’est une manière de les valider mutuellement. Plus que les plantages, les erreurs de calculs sont la hantise des informaticiens. Obtenir des résultats identiques pour les mêmes traitements avec plusieurs logiciels n’est pas un gage d’exactitude. En revanche, en cas de disparités, il y a clairement un problème. L’affaire devient diablement compliquée lorsque ces disparités ne surviennent que dans des situations que l’on a du mal à identifier.

Mots-clés : pspp, logiciel R, openstat, spss, statistiques descriptives, comparaison de moyennes, test de student, welch test, comparaison de variances, test de levene, test du khi-2, tableau de contingence, analyse de variance, anova, régression linéaire multiple, courbe roc, critère auc, aire sous la courbe
Composants :  MORE UNIVARIATE CONT STAT, GROUP CHARACTERIZATION, CONTINGENCY CHI-SQUARE, LEVENE'S TEST, T-TEST, T-TEST UNEQUAL VARIANCE, PAIRED T-TEST, ONE-WAY ANOVA, MULTIPLE LINEAR REGRESSION, ROC CURVE
Lien : fr_Tanagra_PSPP.pdf
Fichier : autos_pspp.zip
Références :
GNU PSPP, http://www.gnu.org/software/pspp/
R Project for Statistical Computing, http://www.r-project.org/
OpenStat, http://www.statprograms4u.com/