mercredi 29 avril 2015

Prédicteurs catégoriels en Rég. Logistique

La régression logistique vise à construire un modèle permettant de prédire une variable cible binaire à partir d’un ensemble de variables explicatives (descripteurs, prédicteurs, variables indépendantes) numériques et/ou catégorielles. Elles sont traitées telles quelles lorsque ces dernières sont numériques. Elles doivent être recodées lorsqu’elles sont catégorielles. Le codage en indicatrices 0/1 (dummy coding) est certainement la méthode la plus utilisée.

La situation se complique lorsque l’on procède à une sélection de variables. L’idée est de déterminer les prédicteurs qui contribuent significativement à l’explication de la variable cible. Il n’y a aucun problème quand nous considérons une variable numérique, elle est soit exclue soit conservée dans le modèle. Mais comment procéder lorsqu’on manipule une explicative catégorielle ? Devons-nous traiter les indicatrices associées à une variable comme un bloc indissociable ? Ou bien pouvons-nous les dissocier, en ne conservant que certaines d’entre elles ? Est-ce que cette stratégie est légitime ? Comment lire les coefficients dans ce cas.

Dans ce tutoriel, nous étudions les solutions proposées par les logiciels R 3.1.2, SAS 9.3, Tanagra 1.4.50 et SPAD 8.0. Nous verrons que les algorithmes de sélection de variables s’appuient sur des critères spécifiques selon les logiciels. Nous constaterons surtout qu’ils proposent des approches différentes lorsque nous sommes en présence des explicatives catégorielles. Cela n’est pas sans conséquence sur la qualité prédictive des modèles.

Mots-clés : régression logistique, sélection de variables, variables explicatives catégorielles, codage disjonctif complet, sas, proc logistic, logiciel R, stepaic, spad
Composants : BINARY LOGISTIC REGRESSION
Lien : fr_Tanagra_Categorical_Selection_Log_Reg.pdf
Fichier : heart-c.xlsx
Références :
R. Rakotomalala, "Pratique de la régression logistique - Régression logistique binaire et polytomique", Version 2.0, Juin 2011.
Tutoriel Tanagra, "Codage disjonctif complet", mars 2008.