samedi 25 février 2012

PSPP, une alternative à SPSS

Tout le monde l’aura compris, je passe énormément de temps à analyser les logiciels de statistique et de data mining gratuits découverts ici ou là sur le web. Je suis toujours enthousiasmé à l’idée de découvrir les dispositifs imaginés par les uns et les autres pour proposer aux utilisateurs, nous, des solutions de traitement de données. Au fil des années, j’en suis arrivé à la conclusion qu’il n’existe pas de mauvais logiciels. Il y a simplement des outils plus ou moins adaptés à des contextes d’utilisation qu’il nous appartient de cerner, en tenant compte de nos objectifs, des caractéristiques de nos données, de notre mode opératoire, de nos affinités, etc. On ne gagnera jamais le Paris-Dakar avec une Formule Un ; Sébastien Loeb, aussi fort soit-il, ne peut pas gagner un rallye avec une semi-remorque (j’imagine hein, avec lui on ne sait jamais). C’est l’une des raisons pour lesquelles je parle énormément des autres logiciels, autres que ceux que je développe moi-même. Plus nous en verrons, plus nous saurons nous détacher de l’outil pour nous concentrer sur les finalités, les techniques, l’exploitation des résultats. C’est ce qui importe en définitive.

Dans ce tutoriel, nous décrivons le logiciel PSPP. Ses promoteurs la positionnent comme une alternative à SPSS (« PSPP is a program for statistical analysis of sampled data. It is a free replacement for the proprietary program SPSS, and appears very similar to it with a few exceptions. »). Plutôt que de procéder à une analyse exhaustive de ses fonctionnalités, ce qui est déjà très bien fait par ailleurs , avec en particulier le document en français de Julie Séguéla (« Introduction au logiciel PSPP – Version 0.4.0 », 2006 ; 119 pages ), nous préférons décrire quelques procédures statistiques en mettant en miroir les résultats fournis par Tanagra, R 2.13.2 et OpenStat (build 24/02/2012). C’est une manière de les valider mutuellement. Plus que les plantages, les erreurs de calculs sont la hantise des informaticiens. Obtenir des résultats identiques pour les mêmes traitements avec plusieurs logiciels n’est pas un gage d’exactitude. En revanche, en cas de disparités, il y a clairement un problème. L’affaire devient diablement compliquée lorsque ces disparités ne surviennent que dans des situations que l’on a du mal à identifier.

Mots-clés : pspp, logiciel R, openstat, spss, statistiques descriptives, comparaison de moyennes, test de student, welch test, comparaison de variances, test de levene, test du khi-2, tableau de contingence, analyse de variance, anova, régression linéaire multiple, courbe roc, critère auc, aire sous la courbe
Composants :  MORE UNIVARIATE CONT STAT, GROUP CHARACTERIZATION, CONTINGENCY CHI-SQUARE, LEVENE'S TEST, T-TEST, T-TEST UNEQUAL VARIANCE, PAIRED T-TEST, ONE-WAY ANOVA, MULTIPLE LINEAR REGRESSION, ROC CURVE
Lien : fr_Tanagra_PSPP.pdf
Fichier : autos_pspp.zip
Références :
GNU PSPP, http://www.gnu.org/software/pspp/
R Project for Statistical Computing, http://www.r-project.org/
OpenStat, http://www.statprograms4u.com/

vendredi 17 février 2012

Tinn-R, un éditeur de code pour R

TINN-R est mon éditeur de code favori pour le logiciel R. Je l’utilise pour mes enseignements. Je me rends compte d’ailleurs que je ne suis pas le seul à l’apprécier. Ça ne veut pas dire qu’il est le meilleur (si tant est qu’il en existe). Je constate tout simplement qu’il présente des qualités intéressantes dans mon contexte : il est simple, léger, facile à manipuler, sans pour autant être limité face aux autres outils accessibles gratuitement. Il convient parfaitement pour la conception de petits scripts « .r ».

Dans ce didacticiel, nous décrivons succinctement les principales fonctionnalités de TINN-R. Nous mettrons l’accent sur les erreurs fréquemment rencontrées avec l’outil. Après plusieurs années de pratique, je commence à identifier les différents écueils qui laissent parfois perplexes les utilisateurs. Ce didacticiel ne sera jamais définitif, au fil des années il sera complété au fur et à mesure des problèmes rencontrés et, je l’espère, résolus.

Bien évidemment, pour pouvoir exploiter TINN-R, il faut que le logiciel R lui-même soit déjà installé sur notre machine.

Mots-clés : logiciel R, tinn-r, éditeur de code, EDI
Lien : fr_Tanagra_Tinn_R.pdf
Références :
Site du logiciel Tinn-R ; Site du logiciel R.
R. Rakotomalala, "Cours de programmation R".
KDNuggets Polls, « R GUIs you use frequently », Avril 2011.
Developpez.com, « Quel éditeur utilisez-vous pour R ? », Mars 2010.

dimanche 5 février 2012

Vérification des données manquantes - Tanagra

Jusqu’à la version 1.4.41, Tanagra ne gérait pas les données manquantes parce qu’il me semblait pédagogiquement intéressant que les étudiants, qui constituent quand même le principal public de Tanagra, réfléchissent et traitent explicitement en amont ce problème difficile. Le pire serait de s’en remettre aveuglément au logiciel c.-à-d. de le laisser choisir à notre place un traitement automatique inadapté au cadre de notre étude, aux caractéristiques de nos données, etc. Ainsi, Tanagra se contentait de tronquer le fichier à l’importation dès le premier obstacle rencontré. Ce traitement sans concessions déroutait souvent l’utilisateur, d’autant plus qu’aucun message d’erreur n’était envoyé. Il se demandait alors pourquoi, alors que toutes les conditions semblent réunies, les données n’étaient pas correctement chargées.

Avec la nouvelle version 1.4.42, l’importation des fichiers TXT (fichiers textes avec séparateur tabulation), des fichiers XLS (Excel 97-2003), et le transfert des données via les add-in pour Excel (jusqu’à Excel 2010) et LibreOffice 3.4/OpenOffice 3.3, ont été modifiés. Tanagra parcourt bien toutes les lignes de la base. Il se contente simplement de sauter les observations incomplètes et/ou comportant des incohérences (ex. une valeur non numérique pour un attribut initialement détecté quantitatif). Et, surtout, un message d’erreur explicite comptabilise le nombre de lignes ignorées. L’utilisateur est mieux informé. Cette approche très simpliste correspond à la stratégie « listwise deletion » . Ses faiblesses sont largement identifiées . Pour nous, il s’agit surtout d’alerter l’utilisateur sur les problèmes rencontrés lors de la lecture du fichier de données. Libre à lui de poursuivre directement si ce traitement par défaut lui convient. Ce qui n’est pas très conseillé quand même dans la plupart des cas. Les études que nous avons menées pour la régression logistique le montrent bien.

Dans ce tutoriel, nous montrons la gestion des données manquantes lors de l’envoi des données d’Excel vers Tanagra via la macro complémentaire Tanagra.xla. Certaines cellules du fichier Excel sont vides. Cet exemple illustre bien le nouveau comportement de Tanagra. Nous obtiendrions des résultats identiques si nous importions directement le fichier XLS ou si nous importions le fichier au format TXT correspondant.

Mots clés : données manquantes, données incohérentes, missing data, missing values, importation des fichiers textes, excel, macro complémentaire, tanagra.xla
Composants : DATASET, VIEW DATASET
Lien : fr_Tanagra_Missing_Data_Checking.pdf
Fichier : ronflement_with_missing_empty.zip
Références :
Wikipedia, "Listwise deletion".

samedi 4 février 2012

Tanagra - Version 1.4.42

La macro complémentaire Tanagra.xla est maintenant compatible avec les versions 64 bits d’Excel (en plus des versions 32 bits gérées auparavant).

Avec le gestionnaire de mémoire FastMM, Tanagra peut adresser 3 Go de RAM sur les versions 32 bits de Windows, et 4 Go sur les versions 64 bits. La capacité à traiter des très grands fichiers est largement améliorée.

L’importation des fichiers texte (séparateur tabulation) et xls (Excel 97-2003) a été sécurisée. Auparavant, lorsqu’une ligne invalide était rencontrée (valeur manquante ou incohérente), le chargement était interrompu et les données tronquées. Maintenant, Tanagra saute la ligne incriminée et poursuit le chargement pour les observations restantes. Le nombre de lignes ignorées sont indiquées dans le rapport d’importation.

Page de téléchargement : setup