vendredi 30 décembre 2011

Connexion entre R et Excel via RExcel

Le couplage entre un logiciel spécialisé de data mining et un tableur est un argument certain pour la praticabilité du premier. Quasiment tout le monde sait manipuler un tableur, ne serait-ce que pour ouvrir un fichier de données et en visualiser le contenu. De même, les opérations de vérification, les calculs statistiques simples, les transformations de données, sont très facilement réalisables dans un tableur. D’ailleurs, un signe qui ne trompe pas, outre les enquêtes du site KDNUGGETS qui montre la popularité d’Excel auprès des data miners, tous les logiciels dignes de ce nom savent importer directement les fichiers au format Excel.

Très récemment, un étudiant me demandait s’il était possible de réaliser des échanges de données à la volée entre R et Excel. L’enjeu n’est pas tant l’importation des données au format Excel, des packages s’en chargent très bien (le package xlsx par exemple), mais de disposer des fonctionnalités simplifiées de transfert entre Excel et R, que ce soit pour les data frame (ensemble de données) ou, plus généralement, pour tout vecteur et matrice de données. En cherchant un peu, très rapidement, la réponse a été oui. RExcel répond exactement à ce cahier des charges. En y regardant de plus près, je me suis même rendu compte que la solution proposée est de très grande qualité et va nettement au-delà du simple échange de vecteurs de valeurs.

Nous présentons donc la bibliothèque RExcel dans ce tutoriel. Nous nous contenterons de décrire le transfert des données. Nous ferrons un très rapide tour d’horizon des autres fonctionnalités dans la conclusion.

Mots clés : importation des données, fichier excel, xls, xlsx, connexion, macro complémentaire, addin, add-in, add-on, régression linéaire multiple, logiciel R
Composants : lm, stepAIC, predict
Lien : fr_Tanagra_RExcel.pdf
Donnéesventes_regression_rexcel.zip
Références :
T. Baier, E. Neuwirth, "Powerful data analysis from inside your favorite application"