lundi 30 avril 2012

Revolution R Community 5.0

Le logiciel R est en train de bouleverser le panorama des logiciels de statistique et de data mining. Le système des packages est un de ses principaux atouts. Il peut être enrichi à l’infini. Toute méthode statistique est potentiellement disponible dans R.

Mais si les packages sont nombreux, rares sont les projets qui cherchent à améliorer le moteur même de R, l’application principale. J’ai découvert récemment les travaux de la société Revolution Analytics. Elle commercialise Revolution R Enterprise qui : améliore très significativement les performances de calculs de R, est capable de traiter les grandes bases de données, et propose un EDI (environnement de développement) évolué avec un débogueur intégré. Cette version étant payante, je n’ai pas pu la tester. En revanche, la société distribue également une version communautaire qui, elle, est en libre accès. Bien évidemment, je me suis précipité dessus pour voir ce qu’il en était.

Revolution R Community est une variante améliorée de R. Elle n’intègre pas les fonctionnalités additionnelles de la version Enterprise. L’effort porte essentiellement sur les performances. Deux aspects sont mis en avant : elle intègre la bibliothèque de calcul mathématique Intel ; elle est capable de titrer profit des processeurs multi-cœurs. Des comparatifs sont accessibles en ligne. Apparemment, le gain est spectaculaire pour les techniques de data mining s’appuyant sur des calculs matriciels.

Dans ce tutoriel, nous étendons le « benchmark » à d’autres méthodes de data mining. Nous étudions les performances de « Revolution R Community 5.0 – 64 bits » : pour la régression logistique (glm) ; l’analyse discriminante (lda du package MASS) ; l’induction des arbres de décision (rpart du package du même nom) ; de l’analyse en composantes principales (ACP) avec deux techniques : celle reposant sur le calcul des valeurs propres (princomp) et celle s’appuyant la décomposition en valeurs singulières (prcomp). Nous utilisons une variante binaire de la base « wave » (Breiman et al., 1984) pour mesurer les temps de calculs.

Mots-clés : logiciel R, script r, revolution analytics, revolution r community, régression logistique, glm, analyse discriminante linéaire, lda, analyse en composantes principales, acp, princomp, prcomp, calcul matriciel, valeurs propres, vecteurs propres, eigen, décomposition en valeurs singulières, svd, arbres de décision, cart, rpart
Lien : fr_Tanagra_Revolution_R_Community.pdf
Fichier : revolution_r_community.zip
Références :
Revolution Analytics, "Revolution R Community".

jeudi 26 avril 2012

La proc logistic de SAS 9.3

Un étudiant est venu me voir une fois pour me demander si je comptais décrire l’utilisation de la « proc logistic » de SAS durant mon cours de régression logistique (Master SISE) . Je lui ai dit qu’on utilisait suffisamment d’outils comme ça (R, SPAD, SIPINA, TANAGRA et le tableur EXCEL), je ne voyais pas trop l’intérêt de voir un logiciel supplémentaire. D’autant plus que le plus important finalement est de bien maîtriser la chaîne de traitements, de comprendre la finalité et les implications de chacune des étapes, et de savoir lire les résultats. Qu’importe l’outil, la démarche reste toujours la même. Et puis, tout à fait prosaïquement, les heures ne sont malheureusement pas extensibles à l’infini dans nos Universités. Je lui dis alors que SAS étant disponible dans nos salles informatiques, il ne tenait qu’à lui de s’exercer en récupérant les très nombreux tutoriels accessibles sur internet.

Après coup, je suis allé vérifier moi-même sur le web. Et je me suis rendu compte qu’ils ne sont pas si nombreux que ça finalement les tutoriels en français, avec des copies d’écran explicites, montrant de manière simple et didactique la chaîne complète de traitements allant de l’importation de données jusqu’à la récupération des résultats. Je me suis dit qu’il y avait là des choses à faire.

Dans ce tutoriel, nous décrivons l’utilisation de la « proc logistic » de SAS 9.3, sans et avec la sélection de variables. Nous en profiterons pour étudier ses performances (essentiellement la rapidité de calcul) sur une base de grande taille. Nous comparerons les valeurs obtenues avec celles de Tanagra 1.4.43.

Mots-clés : sas, proc logistic, régression logistique
Composants : BINARY LOGISTIC REGRESSION
Lien : fr_Tanagra_SAS_Proc_Logistic.pdf
Fichier : wave_proc_logistic.zip
Références :
SAS - "The LOGISTIC Procedure"
R. Rakotomalala, "Pratique de la régression logistique - Régression logistique binaire et polytomique", Version 2.0, Juin 2011.
Tutoriel Tanagra - "Régression logistique sur les grandes bases"

samedi 14 avril 2012

SAS Add-in 4.3 pour Excel

Le logiciel SAS est bien connu des statisticiens. Il est présent sur le marché des logiciels de statistique depuis un grand nombre d’années maintenant. Il jouit d’une excellente réputation. Son principal défaut, outre le fait qu’il n’est pas accessible gratuitement, est qu’il faut connaître les instructions SAS, et de manière plus générale le langage de macro-commandes, pour pouvoir réellement l’exploiter.

SAS propose plusieurs solutions pour dépasser cet écueil. Entres autres, il a développé une macro complémentaire (add-in en anglais) pour la suite Office de Microsoft . Je l’ai découvert très récemment sur les machines des salles informatiques de notre département (Département Informatique et Statistique – Université Lyon 2 – http://dis.univ-lyon2.fr/). Je me suis intéressé en particulier à l’add-in dévolue au tableur Excel. De fait, 3 tâches pas toujours évidentes à mettre en œuvre dans la version standard de SAS sont très largement facilitées : l’importation d’un fichier Excel dans SAS, le paramétrage et le lancement des techniques statistiques, la récupération des résultats dans le tableur aux fins de visualisation ou d’élaboration des rapports.

Dans ce tutoriel, nous décrivons le comportement de la macro complémentaire lors de la mise en œuvre des tests non paramétriques de comparaisons de populations et de la régression logistique avec sélection de variables. Nous mettrons en parallèle les résultats obtenus avec le logiciel Tanagra. L’idée est de comparer les calculs et le mode de présentation des résultats.

Mots-clés : excel, sas, add-on, add-in, macro complémentaire, régression logistique, tests non paramétriques
Composants : MANN-WHITNEY COMPARISON, KRUSKAL-WALLIS 1-WAY ANOVA, MEDIAN TEST, VAN DER WAERDEN 1-WAY ANOVA, ANSARI-BRADLEY SCALE TEST, KLOTZ SCALE TEST, MOOD SCALE TEST
Lien : fr_Tanagra_SAS_AddIn_4_3_for_Excel.pdf
Fichier : scoring_dataset.xls
Références :
SAS - http://www.sas.com/
SAS - "SAS Add-in for Microsoft Office"
Tutoriel Tanagra - "L'add-in Tanagra pour Excel 2007 et 2010"