samedi 3 décembre 2011

Données manquantes - Régression logistique

L’appréhension des données manquantes est un problème difficile. Non pas à cause de sa gestion informatique qui est relativement simple, il suffit de signaler les valeurs manquantes par un code spécifique, mais plutôt à cause des conséquences de leur traitement (suppression des lignes ou des colonnes du fichier ; ou remplacement par une valeur calculée à partir de observations disponibles, on parle alors d’imputation) sur les caractéristiques des modèles élaborés.

Nous en avions parlé dans un précédent document. Il s’agissait alors d’étudier l’impact des différentes techniques de traitement de valeurs manquantes sur les arbres de décision construits avec la méthode C4.5 (Quinlan, 1993)  dans le logiciel Sipina. Aujourd’hui, nous réitérons l’analyse en étudiant leur influence sur les résultats de la régression logistique. Nous utiliserons principalement le logiciel R 2.13.2, avec la procédure glm(.). Par la suite, nous examinerons le comportement des outils proposés dans des logiciels tels qu’Orange 2.0b, Knime 2.4.2 et RapidMiner 5.1 placés dans un contexte identique.

Nous nous plaçons dans la configuration suivante dans ce tutoriel : (1) les valeurs manquantes sont MCAR, nous avons écrit un programme qui retire de manière complètement aléatoire les valeurs dans l’échantillon d’apprentissage ; (2) nous appliquons la régression logistique sur les données d’apprentissage post-traitées ; (3) nous évaluons les différentes techniques de traitement des données manquantes en observant le taux de bon classement (ou taux de succès) du modèle sur un échantillon test à part qui, lui, ne comporte aucune valeur manquante.

Mots clés : donnée manquante, données manquantes, valeurs manquantes, régression logistique, listwise deletion, imputation, missing values, missing data, logiciel R, glm
Lien : fr_Tanagra_Missing_Values_Imputation.pdf
Données et script R : md_experiments.zip
Références :
Howell, D.C., "Treatment of Missing Data".
Allison, P.D. (2001), « Missing Data ». Sage University Papers Series on Quantitative Applications in the Social Sciences, 07-136. Thousand Oaks, CA : Sage.
Little, R.J.A., Rubin, D.B. (2002), « Statistical Analysis with Missing Data », 2nd Edition, New York : John Wiley.