mardi 7 octobre 2008

Régression logistique - Comparaison de logiciels

La régression logistique est une technique prédictive, très populaire dans la communauté statistique. Je ne sais pas si elle est très utilisée parce que très enseignée, ou très enseignée parce que largement utilisée. En tous les cas, on ne peut pas passer à côté si on s’intéresse un tant soit peu au Scoring c.-à-d. aux configurations où l’on souhaite prédire ou expliquer les valeurs d’une variable discrète (nominale ou ordinale) à partir d’une série de descripteurs (de type quelconque).

Les raisons de cet engouement sont nombreuses. La régression logistique s’intègre dans un cadre théorique parfaitement identifié, celui de la régression linéaire généralisée. C’est une technique semi paramétrique. Son champ d’application est large. Par rapport aux techniques issues de l’apprentissage automatique, elle intègre les outils de la statistique inférentielle. Enfin, autre atout fort, la lecture des coefficients sous forme de surcroît de risque (les fameux « odds ratio ») donne aux utilisateurs un outil de choix pour comprendre l’essence de la relation entre les descripteurs et la variable à prédire.

La régression logistique est implémentée dans tous les logiciels de statistique commerciaux. Elle est plus rare en revanche dans les logiciels libres. En partie parce que la méthode est peu connue des informaticiens, ceux qui sont les plus enclins à programmer des outils. La situation change quand même un peu maintenant. Avec le label « data mining », il y a un certain brassage des cultures. On peut parler de « faire une régression » sans que certaines personnes ne s’imaginent que vous êtes en train de retomber en enfance.

Dans ce didacticiel, nous comparons la mise en œuvre de la régression logistique à l’aide de quelques logiciels libres : Tanagra 1.4.27, bien sûr, puisque je travaille dessus ; R 2.7.2 (procédure GLM), qui est incontournable dès que l’on souhaite utiliser des techniques d’obédience statistique ; Orange 1.0b2, qui l’intègre dans sa panoplie ; Weka 3.5.6, qui l’aborde exclusivement sous l’angle de l’optimisation, en faisant l’impasse sur la partie inférentielle ; et enfin, toujours Weka mais via le package RWeka 0.3-13 pour le logiciel R.

Au delà de la comparaison, ce didacticiel est aussi l’occasion de montrer la démarche à suivre pour réaliser la succession d’opérations suivantes sur ces différents logiciels : importer un fichier au format ARFF ; fractionner les données en apprentissage et test ; lancer la modélisation sur la fraction apprentissage ; évaluer les performances sur la partie test ; procéder à une sélection de variables en accord avec la régression logistique (et non pas basé sur des critères qui n’ont aucun rapport avec l’approche) ; évaluer de nouveau les performances du modèle simplifié.

Mots clés : régression logistique, scoring, apprentissage supervisé
Composants : BINARY LOGISTIC REGRESSION, SUPERVISED LEARNING, TEST, DISCRETE SELECT EXAMPLES
Lien : fr_Tanagra_Perfs_Reg_Logistique.pdf
Données : wave_2_classes_with_irrelevant_attributes.zip
Références :
Wikipédia (fr), « Régression logistique »