jeudi 20 mars 2008

Codage disjonctif complet

Ce didacticiel est le pendant de celui traitant de la discrétisation des variables continues. Il s’agit de transformer une variable catégorielle (qualitative) en variables numériques (indicatrices).

Lorsque les variables prédictives (variables indépendantes, exogènes, etc.) sont catégorielles, les méthodes d’apprentissage supervisé telles que la régression logistique et l’analyse discriminante ne peuvent pas être mises en oeuvre directement. Il est nécessaire de recoder les variables.

La technique la plus connue est certainement le codage disjonctif complet ou codage 0/1. Chaque modalité de la variable originelle devient une variable binaire qui prend la valeur 1 lorsque la modalité est présente pour un individu, 0 sinon. Puisque la somme de ces nouvelles variables est systématiquement égal à 1, il est d’usage d’omettre la dernière modalité qui peut être déduite des autres c.-à-d. si toutes les variables binaires prennent la valeur 0, on en déduit que l’individu porte la dernière valeur, elle devient la modalité de référence.

Attention, si la variable à recoder est ordinale, ce dispositif peut être utilisé toujours, mais dans ce cas nous perdons de l’information : la méthode d’apprentissage ne tient plus compte du caractère ordinal des modalités. Un codage 0/1 emboîté est plus indiqué si l’on veut la préserver.

Dans ce didacticiel, nous montrons comment utiliser le composant 0_1_ BINARIZE pour transformer une variable catégorielle en une série de variables binaires que nous introduisons dans une régression logistique.

Autre particularité de ce document, nous montrons comment, directement dans TANAGRA, subdiviser de manière aléatoire l’ensemble de données en 2 fractions : la première, l’échantillon d’apprentissage, sert à la construction du modèle ; la seconde, l’échantillon test, sert à son évaluation.

Mots clés : codage disjonctif complet, codage binaire 0/1, régression logistique, échantillon d’apprentissage, échantillon test
Composants : Sampling, 0_1_Binarize, Supervised Learning, Binary Logistic Regression, Test
Lien : fr_Tanagra_Dummy_Coding_for_Logistic_Regression.pdf
Données : categorical_heart.xls