mercredi 28 mars 2012

Tanagra - Version 1.4.43

Quelques bugs ont été corrigés et quelques nouvelles fonctionnalités ajoutées.

Le calcul des contributions des individus dans l'ACP (PRINCIPAL COMPONENT ANALYSIS) ont été corrigées. Il était faussé lorsque nous travaillons sur un sous-échantillon de notre fichier de données. Cette erreur m'a été signalée par M. Gilbert Laffond.

La normalisation des facteurs après VARIMAX (FACTOR ROTATION) ont été corrigés de manière à ce que leur variance coïncide avec la somme des carrés des corrélations avec les axes, et donc avec la valeur propre associée à l'axe. Cette modification m'a été suggérée par M. Gilbert Laffond.

Dans le calcul de l'intervalle de confiance bootstrap de la Régression PLS (PLS CONF. INTERVAL), une erreur survenait lorsque le nombre d'axes demandé était supérieur au nombre de variables prédictives. Il est maintenant réduit d'autorité. Cette erreur m'a été signalée par M. Alain Morineau.

Dans certaines circonstances, une erreur peut survenir dans FISHER FILTERING, surtout lorsque Tanagra est exécuté via Wine sous Linux. Le composant a été sécurisé. Cette erreur m'a été signalée par M. Bastien Barchiési.

La vérification des données manquantes durant l'importation est maintenant optionnelle. La performance peut être privilégiée pour le traitement des très gros fichiers. Nous retrouvons les temps de traitement des versions 1.4.41 et précédentes.

Le menu «COMPONENT / COPY RESULTS » envoie des informations au format HTML qui sont maintenant compatibles avec le tableur Calc de la suite bureautique Libre Office (3.5.1). Il fonctionnait déjà avec le tableur Excel auparavant. Curieusement, la copie vers le tableur OOCalc d'Open Office  n'est pas possible à l'heure actuelle (Open Office 3.3.0).

Page de téléchargement : setup

vendredi 23 mars 2012

Sipina add-on pour OOCalc

La connexion entre les logiciels de data mining et un tableur est primordiale pour la popularité des premiers. Lorsqu’il s’agit de manipuler des bases de taille « raisonnable », avec plusieurs milliers d’observations et quelques dizaines de variables, le tableur est très pratique pour la gestion et le prétraitement des données (transformation, recodage, etc.). A l’issue de l’analyse, il constitue également un outil privilégié pour la mise en forme des résultats. Il n’est pas surprenant dès lors que des éditeurs de logiciels proposent des solutions de couplage fort sous forme de macro complémentaire pour Excel (ex. XLMiner). Particulièrement édifiant, des éditeurs tels que SAS s’y sont mis également. Notons enfin que Microsoft propose son propre add-in pour Excel basé sur le moteur « SQL Server Analysis Services ».

Tout ça est très bien. On notera simplement que si les solutions commerciales sont assez répandues pour Excel, les équivalents gratuits sont plutôt rares. Il y a bien sûr SIPINA et TANAGRA dont la macro complémentaire date de 2006 ; il y a RExcel qui permet d’établir connexion entre Excel et R  ; à force de chercher sur le net, j’ai réussi à en dénicher d’autres : XL-Statistics ; XL Toolbox ; etc.

Mais Excel lui-même n’est pas gratuit. Heureusement, il existe des alternatives crédibles avec le tableur des suites bureautiques gratuites Open Office et Libre Office. Véritable signe des temps, je constate qu’une bonne partie de mes étudiants préfèrent utiliser ces logiciels plutôt que de s’embarquer dans des copies plus ou moins piratées de la suite MS Office. Ce qui constitue une véritable avancée. D’où la question suivante : existe-t-il des add-on dédiés au calcul statistique qui s’intégreraient dans le tableur libre Calc ? Après quelques recherches, j’ai découvert, entres autres, quelques produits intéressants tels que Statistical Data Analyser for OOCalc, R4Calc. Nous les étudierons de manière approfondie dans un prochain tutoriel.

En ce qui nous concerne, l’add-on Tanagra pour Calc existe depuis 2006. En revanche, je n’ai jamais pris le temps de transposer l’idée à SIPINA alors que, par ailleurs, la macro-complémentaire « sipina.xla » pour Excel existe depuis plusieurs années. Cet oubli est réparé avec la version 3.9 de SIPINA (du 22 mars 2012). Nous montrons dans ce tutoriel l’installation et la mise en œuvre de l’add-on pour Open Office Calc 3.3.0. La transposition à Libre Office 3.5.1 est immédiate.

Mots-clés : calc, open office, libre office, oocalc, add-on, add-in, macro complémentaire, sipina
Lien : fr_sipina_calc_addon.pdf
Fichier : heart.xls
Références :
Tutoriel Tanagra - Connexion Excel - Sipina
Tutoriel Tanagra - Tanagra add-on pour Open Office Calc 3.3
Open Office - http://www.openoffice.org/fr/
Libre Office - http://fr.libreoffice.org/

jeudi 22 mars 2012

Sipina - Version 3.9

L'add-on « SipinaLibrary.oxt » a été rajouté à la distribution. A partir d'un menu additionnel intégrée au tableur CALC, il permet de lancer directement le logiciel SIPINA sur une sélection de données. L'add-on fonctionne pour les suites bureautiques Open Office (testée pour la version 3.3.0) et Libre Office (version 3.5.1).

Rappelons qu'un add-on, sous forme de macro-complémentaire (sipina.xla), permet également à SIPINA de s'intégrer dans le tableur Excel.

Site web : Sipina
Chargement : Fichier setup
Références :
Tutoriel Tanagra - Connexion Excel - Sipina
Open Office - http://www.openoffice.org/fr/
Libre Office - http://fr.libreoffice.org/

mercredi 14 mars 2012

Introduction à R - Arbre de décision

Dans la même veine que le précédent consacré à la régression logistique, ce tutoriel présente l’induction des arbres de décision sous le logiciel R sans entrer dans les arcanes de la programmation. Un minimum est fait sur les structures de données (data.frame, vecteurs, matrices).

Finalement, on s’en sort plutôt bien. Il est possible de mener une étude complète avec le peu de choses mises en avant dans ce document : construction d’un modèle sur un échantillon d’apprentissage, prédiction sur un échantillon test, élaboration de la matrice de confusion, calcul du taux de mauvais classement.

Nous utilisons en priorité la procédure rpart du package du même nom. Par la suite, nous montrons qu’il est possible de mener les mêmes analyses avec les procédures incluses dans les packages tree et party.

Ces deux derniers tutoriels récents s’inscrivent dans un de mes cours de data mining où je souhaite faire découvrir le logiciel R aux étudiants sans entrer dans les détails de la programmation sous R.

Mots-clés : logiciel R, arbres de décision, matrice de confusion, taux d’erreur, package xlsx, fichier excel
Lien : introduction_arbre_de_decision_avec_r.pdf
Fichier : intro_arbres_avec_r.zip
Références :
R Project,"The R Project for Statistical Computing"
R. Rakotomalala, « Arbres de décision », Revue Modulad, N°33, 2005.

vendredi 9 mars 2012

Introduction à R - Régression logistique

Est-il possible d’utiliser R sans savoir programmer ? C’est une question que je me suis longuement posée.

A priori, OUI. Il suffit de connaître les commandes adéquates, de savoir les entrer au clavier, de comprendre à peu près les structures internes des données manipulées par R (vecteurs, matrices, data frame), et savoir lire les résultats proposés.

Mais après réflexion, je trouve que c’est bien dommage parce que, dans ce cas, R se comporte comme n’importe quel logiciel lambda, avec la fastidieuse obligation de respecter les contraintes syntaxiques de l’interpréteur de commandes. Les autres outils, surtout ceux pilotés par diagramme, permettent de faire tout aussi bien – enchaîner les traitements – sans avoir à s’investir dans l’apprentissage des instructions adéquates pour telle ou telle manipulation.

Mais bon, on ne fait pas toujours ce qu’on veut dans la vie. Disposer d’heures supplémentaires pour enseigner le langage de programmation R préalablement à son utilisation dans les cours de statistique et de data mining est un luxe qui n’est pas toujours accessible. Nous sommes alors obligés d’exploiter R en faisant l’impasse sur énormément de choses. Au moins, nous obtenons les résultats souhaités.

Ce tutoriel sur la régression logistique sous R s’inscrit dans cette perspective. Je présente très succinctement R et la structure data.frame dans un premier temps, puis j’enchaîne directement sur la régression logistique dans un deuxième temps. Le principal avantage que je vois par rapport à tout autre logiciel, piloté par menu ou par diagramme, est que nous avons accès facilement aux résultats intermédiaires (aux champs des objets) pour réaliser des calculs complémentaires.

Mots-clés : logiciel R, régression logistique, prédiction, matrice de confusion, taux d'erreur, package xlsx, fichier excel
Fichier : demo_reglog.xls
Références :
R. Rakotomalala, "Pratique de la régression logistique - Régression logistique binaire et polytomique".