jeudi 20 mars 2008

Sélection de variables – Bayesien naïf

La sélection de variables est une étape primordiale du Data Mining. Dans le cadre de l’apprentissage supervisé, parmi les objectifs de la fouille de données figure, en très bonne place, la recherche des causalités entre les variables prédictives et la variable à prédire. Plus le nombre de variables retenu est faible, meilleure sera la lisibilité du modèle prédictif. De plus, il est avéré qu’un modèle simple sera plus robuste lorsqu’il sera déployé dans la population.

Ce didacticiel décrit la mise en œuvre du composant MIFS (Battiti, 1994) dans l’apprentissage du modèle d’indépendance conditionnelle (Bayesien Naïf). Il est intéressant à double titre car cette phase de sélection est précédée d’un recodage où les descripteurs continus sont préalablement discrétisées avec la méthode MDLPC.

L’efficacité de la sélection est évaluée en comparant les performances en validation croisée du modèle avec et sans sélection de variables. Nous traitons le fameux fichier des IRIS de Fisher (1936).

Mots clés : sélection de variables, discrétisation, modèle d’indépendance conditionnelle
Composants : Supervised learning, Naive Bayes, MDLPC, MIFS filtering, Cross validation
Lien : Feature_Selection_For_Naive_Bayes.pdf
Données : iris.bdm
Référence : R. Battiti, « Using the mutual information for selecting in supervised neural net learning », IEEE Transactions on Neural Networks, 5, pp.537-550, 1994.