lundi 30 avril 2012

Revolution R Community 5.0

Le logiciel R est en train de bouleverser le panorama des logiciels de statistique et de data mining. Le système des packages est un de ses principaux atouts. Il peut être enrichi à l’infini. Toute méthode statistique est potentiellement disponible dans R.

Mais si les packages sont nombreux, rares sont les projets qui cherchent à améliorer le moteur même de R, l’application principale. J’ai découvert récemment les travaux de la société Revolution Analytics. Elle commercialise Revolution R Enterprise qui : améliore très significativement les performances de calculs de R, est capable de traiter les grandes bases de données, et propose un EDI (environnement de développement) évolué avec un débogueur intégré. Cette version étant payante, je n’ai pas pu la tester. En revanche, la société distribue également une version communautaire qui, elle, est en libre accès. Bien évidemment, je me suis précipité dessus pour voir ce qu’il en était.

Revolution R Community est une variante améliorée de R. Elle n’intègre pas les fonctionnalités additionnelles de la version Enterprise. L’effort porte essentiellement sur les performances. Deux aspects sont mis en avant : elle intègre la bibliothèque de calcul mathématique Intel ; elle est capable de titrer profit des processeurs multi-cœurs. Des comparatifs sont accessibles en ligne. Apparemment, le gain est spectaculaire pour les techniques de data mining s’appuyant sur des calculs matriciels.

Dans ce tutoriel, nous étendons le « benchmark » à d’autres méthodes de data mining. Nous étudions les performances de « Revolution R Community 5.0 – 64 bits » : pour la régression logistique (glm) ; l’analyse discriminante (lda du package MASS) ; l’induction des arbres de décision (rpart du package du même nom) ; de l’analyse en composantes principales (ACP) avec deux techniques : celle reposant sur le calcul des valeurs propres (princomp) et celle s’appuyant la décomposition en valeurs singulières (prcomp). Nous utilisons une variante binaire de la base « wave » (Breiman et al., 1984) pour mesurer les temps de calculs.

Mots-clés : logiciel R, script r, revolution analytics, revolution r community, régression logistique, glm, analyse discriminante linéaire, lda, analyse en composantes principales, acp, princomp, prcomp, calcul matriciel, valeurs propres, vecteurs propres, eigen, décomposition en valeurs singulières, svd, arbres de décision, cart, rpart
Lien : fr_Tanagra_Revolution_R_Community.pdf
Fichier : revolution_r_community.zip
Références :
Revolution Analytics, "Revolution R Community".