Rég. Logistique

La régression logistique est une technique de modélisation prédictive utilisée dans de nombreux domaines (épidémiologie, économétrie, scoring marketing, etc.). Ce n’est pas étonnant. Elle cumule les qualités : nous obtenons à l’issue des traitements un classifieur linéaire robuste et interprétable, la lecture des coefficients sous forme d’odds-ratio (surcroît de risque) est séduisante, les hypothèses statistiques sous-jacentes sont peu restrictives (la méthode est semi-paramétrique et couvre un large panel de lois statistiques), les estimateurs associés – estimateurs du maximum de vraisemblance – possèdent des propriétés avantageuses (asymptotiquement sans biais, variance minimale, normalité asymptotique), primordiales pour l’inférence statistique (tests d’hypothèses, intervalles de confiance).

Cette page réunit quelques-uns des très nombreux documents que j’ai pu écrire au sujet de la régression logistique.

Méthodes

Les documents à vocation méthodologiques sont réunis dans cette section. La principale référence est certainement l’ouvrage que j’utilise pour mes enseignements.

Pratique de la régression logistique – Ouvrage
Cet ouvrage détaille les différents aspects de la régression logistique. Il aborde à la fois les thèmes théoriques (principe de l’estimation par le maximum de vraisemblance, propriétés des estimateurs, etc.) et pratiques (tests de significativité du modèle, des coefficients pris individuellement, d’un groupe de coefficients, prédiction ponctuelle et fourchette de prédiction des scores, etc.). Table des matières : Partie I – Régression logistique binaire (Principe et estimation, évaluation de la régression, test de significativité des coefficients) ; Partie II – Pratique de la régression logistique (prédiction et intervalle de prédiction, lecture et interprétation des coefficients – les odds-ratio, l’analyse des interactions, la sélection de variables, le diagnostic de la régression logistique – analyse des résidus et non-linéarité, covariate pattern et statistiques associées, modifications de la règle d’affectation – redressement et intégration des coûts) ; Partie III – Régression logistique multinomiale (principe et estimation, évaluation des classifieurs pour une variable cible à plus de 2 modalités, tests et interprétation des coefficients) ; en annexes : la régression logistique avec les logiciels Tanagra et R.

Régression logistique binaire – Diapos
J’utilise ce support pour mes présentations. Il est calqué sur l’ouvrage ci-dessus c.-à-d. présentation de la régression logistique, estimation des coefficients, évaluation statistique des modèles, analyse de la pertinence des variables, interprétation des coefficients, etc.

Régression logistique polytomique - Diapos
Généralisation de la régression logistique au traitement des variables cibles à plus de deux modalités, nominales et ordinales. Lecture et interprétation des coefficients. Définition de la modalité de référence. Régression ordinale : les logits adjacents et les odds-ratio cumulatifs.

Courbe ROC - Diapos
La courbe ROC est un outil d’évaluation de la modélisation prédictive. Elle est souvent utilisée conjointement avec la régression logistique, peut-être parce que cette dernière fournit une bonne estimation des scores, qui reste valable (en tous les cas l’ordonnancement des individus selon le score – on s’appuie sur cet ordonnancement pour calculer les taux de faux positifs et de vrais positifs de la courbe ROC) même lorsque l’on travaille à partir d’un échantillon non représentatif.

Grille de score – Diapos
Génération d’une grille de score à partir des paramètres estimés de la régression logistique. Une grille de score est une sorte de tableau de points, il est calibré (ex. entre 0 et 100), il permet de calculer de manière très simple (en additionnant les « points ») la propension d’un individu à être positif (la modalité cible de la variable à prédire). La grille est utilisable à la fois pour l’interprétation et le déploiement.

Classifieurs linéaires
Etude de comportement de plusieurs classifieurs linéaires c.-à-d. des méthodes induisant une frontière linéaire dans l’espace de représentation pour discerner les classes d’appartenance des individus. Plusieurs méthodes, dont la régression logistique, sont analysées. Cette étude comparative apporte un éclairage intéressant (je l’espère) des techniques de data mining en fonction des présupposés qu’ils exploitent pour estimer les coefficients du modèle. Toute l’étude, incluant la génération des données artificielles, a été menée sous R. Elle a ensuite été reproduite sous Tanagra.

Tutoriels et études de cas

Ces documents montrent comment mener une étude relative à la régression logistique à l’aide des logiciels de statistique et de data mining.

Régression logistique binaire – Tutoriel animé
Un de mes très rares tutoriels animés. Les données sont transférés d’Excel vers Tanagra via la macro-complémentaire (add-in) « tanagra.xla ». Les étapes importantes sont ponctuées par des textes explicatifs permettant de comprendre la nature des opérations effectuées.

Introduction à R – Régression logistique
Ce tutoriel à succès réunit un maximum de suffrages. Il décrit la mise en œuvre de la régression logistique à l’aide de la procédure glm() de R. Les sorties et les attributs des objets sont détaillés. Le document inclut la sélection de variables à l’aide de la procédure stepAIC(). La procédure predict() permet de calculer les scores (propension à être positif) des individus de l’échantillon test ou des individus non-étiquetés (individus supplémentaires à classer). Ce document peut également servir pour une initiation au logiciel R, je l’utilise à cet effet dans certains de mes enseignements.

La proc logistic de SAS 9.3
Paramétrage de la procédure LOGISTIC de SAS. Estimation des paramètres du modèle à partir d’un échantillon de données, sélection de variables. Comparaison des résultats et des performances avec ceux de Tanagra. La proc logistic de SAS est utilisée dans de nombreuses études.

Prédicteurs catégoriels en régression logistique
La sélection de variables en régression logistique lorsqu’il y a des variables catégorielles parmi les explicatives. Description et comparaison des stratégies adoptées par les logiciels R (stepAIC), SAS (proc logistic), Tanagra (Binary Logistique Regression) et SPAD (Régression Logistique). Interprétation des résultats.

Diagnostic de la régression logistique
Outils d’évaluation et diagnostic de la régression logistique. Trame : estimation des paramètres de la régression, décryptage des sorties des logiciels, utilisation de la matrice de variance covariance des coefficients pour les tests de significativité, test de Hosmer et Lemeshow, diagramme de fiabilité, courbe ROC, analyse des résidus, détection des points atypiques et influents. Utilisation de Tanagra et R - procédure glm().

Scoring avec la régression logistique
Construction de la courbe de gain à partir des scores de la régression logistique. Comparaison des performances des modèles sans et avec sélection de variables (forward, backward).

Régression logistique – Comparaison de logiciels
Comparaison de la régression logistique de plusieurs logiciels (Tanagra, R avec glm, Orange, Weka, R avec RWeka) à partir de la même trame : importation d’un fichier de données, partitionnement de base en échantillons d’apprentissage et de test, construction du modèle sur l’échantillon d’apprentissage, prédiction et évaluation des performances sur l’échantillon test, sélection des variables, évaluation du modèle simplifié sur l’échantillon test, confrontation des performances.

Régression logistique sur les grandes bases
Comparaison des performances de plusieurs logiciels (Tanagra, R, Knime, Orange, Weka) lors du traitement d’une base comportant 300.000 observations et 121 variables prédictives, dont une très grande partie est non-pertinente. La sélection de variables est vitale dans ce contexte. Etude de l’occupation mémoire et du temps de calcul des logiciels.

Données manquantes – Régression logistique
Stratégies de gestion des données manquantes dans un contexte de modélisation via la régression logistique. Etude des solutions proposées par plusieurs logiciels (R, Orange, Knime, RapidMiner).

Traitement des classes déséquilibrées
Le problème du traitement des bases où la prévalence d’une des modalités de la variable est cible est très élevée (l’autre modalité est donc très rare). Solutions pour la régression logistique.

Régression logistique multinomiale
Traitement d’une variable cible nominale à plus de 2 modalités. Lectures des différentes sections des résultats : évaluation globale du modèle, lecture des coefficients des équations logits, évaluation de la contribution globale d’une variable dans la modélisation.

Régression logistique ordinale
Traitement d’une variable cible ordinale à plus de 2 modalités. Spécificité du problème. Utilisation du package VGAM sous R. Principe des logits adjacents, des logits adjacents parallèles, des logits cumulatifs – odds proportionnels. Lecture et interprétation des paramètres des équations logits. Comparaison des sorties de R (VGAM) avec ceux de SAS (proc logistic).