jeudi 2 octobre 2014

La discrétisation des variables quantitatives (slides)

La discrétisation est une opération de recodage. Elle consiste à transformer une variable quantitative en une qualitative ordinale. Elle procède par découpage en intervalles. Deux questions clés se posent alors durant le processus : (1) combien d’intervalles (de classes) faut-il produire ? (2) comment déterminer les seuils (les bornes) de découpage.

Cette opération rentre dans le cadre de la préparation des données. Elle rend possible l’utilisation des techniques statistiques qui ne traitent que les variables qualitatives (ex. induction de règles, construction des grilles de score…) ; elle permet d’harmoniser les bases lorsque nous faisons face à des tableaux hétérogènes (avec un mix de variables qualitatives et quantitatives) ; elle permet également de nettoyer les données en éliminant par exemple l’influence exagérée des données aberrantes.

Je décris dans ce support les enjeux et la démarche de discrétisation. Le point le plus important à retenir est qu’il faut absolument utiliser toute l’information disponible pour obtenir des résultats satisfaisants. Nous devons notamment exploiter pleinement la variable cible lorsque nous nous plaçons dans un schéma d’apprentissage supervisé.

Mots clés : discrétisation, chi-merge, mdlp, mdlpc, intervalles de fréquences égales, intervalles de largeurs égales, arbres de décision, arbres de régression, package discretization, logiciel R
Composants Tanagra :  EQFREQ DISC, EQWIDTH DISC, MDLPC
Lien : Discrétisation
Références :
Tutoriel Tanagra, "Discrétisation - Comparaison de logiciels", février 2010.
Tutoriel Tanagra, "Discrétisation contextuelle - La méthode MDLPC", mars 2008.