mercredi 15 avril 2009

Tanagra - Version 1.4.31

M. Thierry Leiber a amélioré l'add-on réalisant la connexion entre Tanagra et Open Office. Il est maintenant possible, sous Linux, d'installer la macro complémentaire sous Open Office et de lancer directement Tanagra après avoir sélectionné les données (voir le tutoriel associé). Merci beaucoup Thierry pour cette contribution qui élargit le panel des utilisateurs de Tanagra.

Suite à une suggestion de M. Laurent Bougrain, la matrice de confusion est ajoutée à la sauvegarde automatique des résultats lors des expérimentations à grande échelle (voir « Tanagra en Ligne de commande »). Merci à Laurent, et à tous ceux qui par leurs commentaires constructifs m'aident à aller dans le bon sens.

Par ailleurs deux composants de régression par la méthode des Machines à Vastes Marges (Support Vector Regression) ont été ajoutés : Epsilon-SVR et Nu-SVR. Un didacticiel présente ces méthodes et compare nos résultats avec ceux du logiciel R. Tanagra, comme R avec la package « e1071 », s'appuie sur la fameuse bibliothèque LIBSVM.

Support Vector Regression

Les SVM (séparateur à vaste marge, machines à vecteurs de support, support vector machine en anglais) sont des méthodes bien connues en apprentissage supervisé. Leur utilisation est en revanche moins répandue en régression. On parle de « Support Vector Regression » (SVR).

La méthode est peu diffusée auprès des statisticiens. Pourtant, elle cumule des qualités qui la positionnent favorablement par rapport aux techniques existantes. Elle se comporte admirablement bien lorsque le ratio nombre de variables sur le nombre d’observations devient très défavorable, avec des prédicteurs fortement corrélés. Encore faut-il bien entendu trouver le paramétrage adéquat, nous y reviendrons dans ce didacticiel. Autre atout, avec le principe des noyaux, il est possible de construire des modèles non linéaires sans avoir à produire explicitement de nouveaux descripteurs.

Le premier objectif de ce didacticiel est de montrer la mise en œuvre de deux nouveaux composants SVR de Tanagra 1.4.31 : espilon-SVR et nu-SVR. Ils sont issus de la bibliothèque LIBSVM que nous utilisons par ailleurs pour l’apprentissage supervisé (voir le composant C-SVC). Nous comparerons nos résultats avec ceux du logiciel R (version 2.8.0 - http://cran.r-project.org/). Nous utilisons pour ce dernier le package e1071 basée également sur la bibliothèque LIBSVM.

Le second objectif est de proposer un nouveau composant d’évaluation de la régression. Il est d’usage en apprentissage supervisé de scinder le fichier en deux parties, une pour la création du modèle, l’autre pour son évaluation, afin d’obtenir une estimation non biaisée des performances. Cette pratique est très peu répandue en régression. Pourtant, la procédure est nécessaire dès que nous sommes emmenés à comparer des prédicteurs de complexité différente. Nous constaterons ainsi dans ce didacticiel que les indicateurs usuels calculés sur les données d’apprentissage sont très trompeurs dans certaines situations.

Mots clés : support vector regression, support vector machine, régression, régression linéaire multiple, évaluation de la régression, logiciel R, package e1071
Composants : MULTIPLE LINEAR REGRESSION, EPSILON SVR, NU SVR, REGRESSION ASSESSMENT
Lien : fr_Tanagra_Support_Vector_Regression.pdf
Données : qsar.zip
Références :
C.C. Chang, C.J. Lin, "LIBSVM - A Library for Support Vector Machines".
S. Gunn, « Support Vector Machine for Classification and Regression », Technical Report of the University of Southampton, 1998.
A. Smola, B. Scholkopf, « A tutorial on Support Vector Regression », 2003.

Connexion Open Office Calc sous Linux

L'intégration de Tanagra dans un tableur, que ce soit Excel ou Open Office Calc (OOCalc), via le système des Add-Ons, est certainement un des principaux facteurs de diffusion du logiciel. Sans connaissances particulières concernant la manipulation de fichiers, un utilisateur peut envoyer directement ses données à partir d'un environnement auquel il est familiarisé, le tableur, vers un logiciel spécialisé de Data Mining.

Les macros ont été initialement développées pour l'environnement Windows. Je me suis intéressé depuis peu au fonctionnement de Tanagra sous Linux via Wine. Je me suis rendu compte que le logiciel était pleinement fonctionnel sans l'utilisateur n'ait besoin de procéder à des tripatouillages compliqués du système. Il ne restait plus qu'à établir une connexion entre le tableur phare sous Linux (OOCalc) et Tanagra.

M. Thierry Leiber a réalisé ce travail pour la version 1.4.31 de Tanagra. Il a étendu la macro complémentaire initialement destinée à la version d'Open Office sous Windows. En résumant un peu, le code consiste à tester le système en vigueur, de former la commande adéquate pour lancer Tanagra, et transférer à ce dernier les données via le presse papier. De fait, l'Add-On est maintenant opérationnel que ce soit sous Windows ou sous Linux. Il a été testé en tous les cas dans les configurations suivantes : Windows XP + Open Office 3.0.0 ; Windows Vista + Open Office 3.0.1 ; Ubuntu 8.10 + Open Office 2.4 ; Ubuntu 8.10 + Open Office 3.0.1.

Ce document reprend donc un de nos anciens tutoriels. La nouveauté ici est que nous travaillons sous Linux (distribution Ubuntu 8.10). Nous réaliserons une analyse en composantes principales pour illustrer notre propos. Mais notre principal objectif est bien de montrer le portage de la connexion sous Linux.

Mots clés : open office calc, add-on, analyse en composantes principales, ACP, cercle des corrélations, variable illustrative, linux, ubuntu 8.10 intrepid ibex
Composants : PRINCIPAL COMPONENT ANALYSIS, CORRELATION SCATTERPLOT
Lien : fr_Tanagra_OOCalc_under_Linux.pdf
Données : cereals.xls
Références :
Tutoriel Tanagra, « Connexion Open Office Calc »
Tutoriel Tanagra, « Tanagra sous Linux »
Tutoriel Tanagra, « Connexion Excel [Macro complémentaire] »