mercredi 14 octobre 2009

Sipina - Traitement des données manquantes

L’appréhension des données manquantes est un problème difficile. La gestion informatique en elle-même ne pose pas de problème, il suffit de signaler la valeur manquante par un code spécifique. En revanche, son traitement avant ou durant l’analyse des données est très compliqué.

Il faut prendre en considération deux aspects : (1) la nature de la valeur manquante (complètement aléatoire, partiellement aléatoire, non aléatoire) ; (2) la technique statistique que nous mettons en œuvre par la suite, en effet, certaines méthodes de traitement des données manquantes sont plus ou moins adaptées selon les techniques statistiques que nous utilisons.

L’objectif de ce tutoriel est de montrer la mise en œuvre des techniques implémentées dans le logiciel SIPINA et d’observer les conséquences des choix sur l’induction des arbres de décision avec la méthode C4.5 (Quinlan, 1993).

Mots clés : valeur manquante, donnée manquante, missing data, sipina, C4.5
Lien : fr_Sipina_Missing_Data.pdf
Données : ronflement_missing_data.zip
Références :
P.D. Allison, « Missing Data », in Quantitative Applications in the Social Sciences Series n°136, Sage University Paper, 2002.
J. Bernier, D. Haziza, K. Nobrega, P. Whitridge, « Handling Missing Data – Case Study », Statistical Society of Canada.