dimanche 30 mars 2008

Régression logistique multinomiale

La régression logistique est très répandue pour les problèmes de prédiction ou d’explication d’une variable dépendante binaire (malade oui/non, défaillance oui/non, client potentiel oui/non, etc.) à partir d’une série de variables explicatives continues, binaires ou binarisées (dummy variables). On parle dans de cas de régression logistique binaire.

Lorsque la variable dépendante possède plusieurs catégories non ordonnées (K > 2), on parle de régression logistique multinomiale (on parle aussi de Régression logistique polytomique à variable dépendante nominale). Elle est peu (ou moins) connue, pourtant cette configuration est finalement assez courante. De plus, elle est directement traitée par les autres méthodes d’apprentissage telles que l’analyse discriminante prédictive, les arbres de décision, etc.

Grosso modo, la régression logistique multinomiale consiste à désigner une catégorie de référence, la dernière (Kème) par exemple pour fixer les idées, et à exprimer chaque logit (ou log-odds) des (K-1) modalités par rapport à cette référence à l’aide d’une combinaison linéaire des variables prédictives.

Dans ce didacticiel, nous montrons la mise en œuvre de la régression logistique multinomiale dans TANAGRA. Nous voulons expliquer, pour une série de produits de même catégorie, la marque (3 marques possibles) choisie par 735 consommateurs à partir de leur age et de leur sexe. Ces données ont déjà été traitées par ailleurs à l’aide du logiciel R. Les données et les résultats associés sont disponibles en ligne.

Mots clés : régression logistique multinomiale
Composants : Supervised Learning, Multinomial Logistic Regression
Lien : fr_Tanagra_Multinomial_Logistic_Regression.pdf
Données : brand_multinomial_logit_dataset.xls
Référence : A. Slavkovic, « Multinomial Logistic Regression Models – Baseline-Category Logit Model », in « STAT 504 – Analysis of Discrete Data », Pensylvania State University, 2007.