vendredi 9 mars 2012

Introduction à R - Régression logistique

Est-il possible d’utiliser R sans savoir programmer ? C’est une question que je me suis longuement posée.

A priori, OUI. Il suffit de connaître les commandes adéquates, de savoir les entrer au clavier, de comprendre à peu près les structures internes des données manipulées par R (vecteurs, matrices, data frame), et savoir lire les résultats proposés.

Mais après réflexion, je trouve que c’est bien dommage parce que, dans ce cas, R se comporte comme n’importe quel logiciel lambda, avec la fastidieuse obligation de respecter les contraintes syntaxiques de l’interpréteur de commandes. Les autres outils, surtout ceux pilotés par diagramme, permettent de faire tout aussi bien – enchaîner les traitements – sans avoir à s’investir dans l’apprentissage des instructions adéquates pour telle ou telle manipulation.

Mais bon, on ne fait pas toujours ce qu’on veut dans la vie. Disposer d’heures supplémentaires pour enseigner le langage de programmation R préalablement à son utilisation dans les cours de statistique et de data mining est un luxe qui n’est pas toujours accessible. Nous sommes alors obligés d’exploiter R en faisant l’impasse sur énormément de choses. Au moins, nous obtenons les résultats souhaités.

Ce tutoriel sur la régression logistique sous R s’inscrit dans cette perspective. Je présente très succinctement R et la structure data.frame dans un premier temps, puis j’enchaîne directement sur la régression logistique dans un deuxième temps. Le principal avantage que je vois par rapport à tout autre logiciel, piloté par menu ou par diagramme, est que nous avons accès facilement aux résultats intermédiaires (aux champs des objets) pour réaliser des calculs complémentaires.

Mots-clés : logiciel R, régression logistique, prédiction, matrice de confusion, taux d'erreur, package xlsx, fichier excel
Fichier : demo_reglog.xls
Références :
R. Rakotomalala, "Pratique de la régression logistique - Régression logistique binaire et polytomique".