jeudi 26 mai 2011

Tanagra - Version 1.4.39

Quelques corrections mineures pour la version 1.4.39 de Tanagra.

Pour le composant PCA (Analyse en Composantes Principales), lorsque l'utilisateur demande explicitement tous les axes factoriels, Tanagra n'en génère aucun. Signalée par Jérémy Roos.

La régression logistique multinomiale (Multinomial Logistic Regression) implémentée dans la version précédente plante. Il n'était pas possible notamment de reproduire le tutoriel qui était en ligne. Signalée par Nicole Jurado.

Il n'était pas possible de calculer les scores avec le composant PLS-DA (Régression PLS - Analyse discriminante) c.-à-d. mettre le composant SCORING à la suite de PLS-DA. Signalée par Carlos Serrano.

Toutes ces erreurs ont été corrigées dans cette version 1.4.39. Je ne le répéterai jamais assez. Merci infiniment à toutes les personnes qui par leurs commentaires et leurs indications me permettent d'améliorer Tanagra.

Page de téléchargement : setup

mercredi 25 mai 2011

Régression avec le logiciel LazStats (OpenStat)

LazStats est un logiciel de statistique programmé et diffusé par Bill Miller, le père du logiciel OpenStat, très connu des statisticiens depuis un certain nombre d'années. Ce sont des outils de très grande qualité, avec une rigueur de calcul appréciable. OpenStat fait partie des logiciels de statistique que je privilégie lorsque je souhaite valider mes propres implémentations.

Le logiciel LazStats, qui est une émanation de la première version en Delphi de OpenStat, est de très bonne facture si j'en juge sa stabilité face aux multiples tests que j'ai pu effectuer. J'ai choisi de présenter la version Windows parce que j'ai l'habitude de travailler sous cet environnement. Une version Linux est accessible sur le site de diffusion pour ceux qui le désirent. Il est également possible de télécharger des versions pour Mac OSX et Linux 64 bits.

L'autre véritable évolution ces dernières années est la mise à disposition d'une documentation de plus en plus riche sur le site web d'OpenStat. Un ouvrage décrit les méthodes statistiques, des tutoriels rédigés décrivent leur mise en œuvre et, pour enfoncer le clou, des tutoriels animés (fichiers .wmv) montrent les séquences de manipulations à réaliser pour mener les analyses. Le travail accompli est vraiment remarquable. Je m'y réfère souvent pour situer ce que je fais moi-même.

Dans ce tutoriel, nous décrivons les fonctionnalités de LazStats en matière de régression linéaire multiple.

Mots clés : économétrie, régression linéaire simple, régression linéaire multiple, sélection de variables, forward, backward, stepwise, régressions croisées
Lien : fr_Tanagra_Regression_LazStats.pdf
Données : conso_vehicules_lazstats.txt (attention au point décimal !)
Références :
LazStats - http://www.statprograms4u.com/

samedi 14 mai 2011

REGRESS dans la distribution SIPINA

Peu de personnes le savent. En réalité, plusieurs logiciels sont installés lorsque l'on récupère et que l'on exécute le SETUP de SIPINA (setup_stat_package.exe). Je n'en parle pas beaucoup parce que les autres techniques proposées (Régression Linéaire Multiple et Règles d'Association) sont déjà intégrées dans TANAGRA qui est très largement diffusé.

Pourquoi en parler aujourd'hui alors ? Tout simplement parce que, concernant REGRESS en tous les cas, je me suis rendu compte en préparant le fascicule de cours consacré à la régression linéaire simple et multiple (Econométrie - Régression Linéaire Simple et Multiple), que le relatif manque de puissance du logiciel - par rapport à TANAGRA - est largement compensé par une grande facilité d'utilisation. Pour les utilisateurs qui souhaitent manipuler un outil simple, sans fioritures, REGRESS peut encore rendre de grands services.

REGRESS a été recompilé en introduisant deux améliorations : il peut s'intégrer dans le tableur Excel via une macro-complémentaire maintenant, la même que celle de SIPINA (SIPINA.XLA), cela accroît grandement sa facilité d'utilisation ; j'ai revérifié les formules pour qu'elles soient complètement cohérentes avec celles obtenues par tableur décrites dans mes fascicules de cours.

Mots clés : logiciel regress, économétrie, régression linéaire simple, régression linéaire multiple, points aberrants, points atypiques, points influents, normalité des résidus, test de Jarque-Bera, droite de Henry, normal probability plot, q-q plot, macro complémentaire, sipina.xla, add-in
Lien : fr_sipina_regress.pdf
Données : ventes-regression.xls
Références :
R. Rakotomalala, "Econométrie - Régression Linéaire Simple et Multiple".

mardi 10 mai 2011

Régression linéaire simple et multiple

Ce document décrit les principes et techniques de la régression linéaire simple et multiple. Décomposé en deux parties : régression simple puis régression multiple, il aborde tous les points importants de la modélisation statistique. Les concepts sont explicités à l'aide d'exemples traités sur tableur. Tous les calculs sont très largement détaillés. Les fichiers associés sont accessibles en ligne.

Il correspond à un enseignement d'économétrie de niveau licence (L3). Il est d'ailleurs associé au cours que je dispense aux étudiants de la Licence IDS (Informatique décisionnelle et statistique) du Département Informatique et Statistique de l'Université Lyon 2 (http://dis.univ-lyon2.fr).

Il vient en complément du fascicule consacré à la " Pratique de la régression linéaire multiple " accessible en ligne depuis quelque temps déjà (dans l'agencement du cours, il le précède plutôt).

Enfin, la mise en œuvre et la lecture des résultats de la régression sur des logiciels de data mining et de statistique sont décrites dans un chapitre dédié (tanagra, logiciel r, sas, spad, spss, statistica).

Mots-clés : économétrie, régression linéaire simple, régression linéaire multiple, droitereg
Thèmes abordés : principes de la régression, estimation / estimateur des moindres carrés ordinaires, tableau d'analyse de variance, coefficient de détermination, test de significativité globale de la régression, test de significativité individuelle des coefficients, test de significativité d'un bloc de coefficients, intervalle de confiance des coefficients, test de conformité à un standard des coefficients, prédiction ponctuelle, prédiction par intervalle, comparaison des paramètres des régressions dans différentes sous-populations
Ouvrage : econometrie_regression.pdf
Fichiers : econometrie_regression_fichiers.zip