mercredi 19 mars 2008

Discrétisation contextuelle – La méthode MDLPC

La préparation des variables est une étape clé du Data Mining. De la qualité du travail réalisé durant cette phase dépend le succès de la modélisation entreprise par la suite.

La construction de variables nous sert avant tout à mettre en évidence les informations pertinentes dans les données. Mais dans certaines situations, le recodage est une nécessité. Lorsque, par exemple, la technique de fouille subséquente ne sait pas appréhender tel ou tel type de données, nous devons modifier la nature de la variable, en la passant d’un type quantitatif vers un type qualitatif, ou inversement, l’important étant de produire un codage efficace où les pertes d’informations, voire les injections de nouvelles informations, parfois intempestives, sont contrôlées.

Prenons l’exemple du modèle d’indépendance conditionnelle, le modèle bayesien naïf (Naive Bayes en anglais). La méthode s’applique naturellement pour des descripteurs discrets. Il en est autrement lors qu’ils sont continus. On pourrait la mettre en œuvre quand même, mais aux prix d’hypothèses sur les distributions conditionnelles, loi normale le plus souvent, qui peuvent s’avérer inappropriées. Un angle d’attaque simple serait plutôt de découper en intervalles les descripteurs continus. Ce type de recodage s’appelle discrétisation. Il existe un grand nombre de techniques. Dans notre cas, le découpage doit s’effectuer au regard du problème de prédiction que nous voulons résoudre, on parle de discrétisation contextuelle : on veut définir le nombre d’intervalles et les bornes de découpage de manière à ce que les individus situés dans un même intervalle portent majoritairement la même étiquette de la variable à prédire.

La méthode MDLPC de Fayyad et Irani (1993) est disponible dans TANAGRA. Elle est contextuelle, détermine automatiquement le nombre d’intervalles, fournit les bornes de découpages. Il y en a d’autres bien sûr, mais l’expérience montre que la notoriété de MDLPC n’est pas usurpée, elle est robuste et donne satisfaction dans la plupart des cas.

Dans ce didacticiel, nous montrons (1) comment intégrer dans le composant MDLPC dans le diagramme de traitements ; puis (2) comment exploiter les variables discrétisées ainsi produites dans les composants d’apprentissage supervisé qui lui succèdent. L’efficacité de la chaîne complète de traitements (discrétisation + apprentissage supervisé) est évaluée à l’aide d’une méthode de ré échantillonnage, la validation croisée.

Mots clés : discrétisation contextuelle, mdlpc, modèle d’indépendance conditionnelle, bayesien naïf, validation croisée
Composants : MDLPC, Supervised Learning, Naive bayes, Cross-validation
Lien : SupervisedDiscretisation.pdf
Données : breast.bdm
Références :
U. Fayyad et K. Irani, « Multi-interval discretization of continuous-valued attributes for classification learning », in Proc. of IJCAI, pp.1022-1027, 1993.
R. Rakotomalala, « Graphes d’Induction », Thèse de Doctorat Lyon 1, 1997 ; chapitre 9, pp.209-244.