vendredi 4 avril 2008

Mesures d’association – Variables nominales

Pour quantifier le lien existant entre deux variables continues, nous utilisons généralement le coefficient de corrélation. Cet indicateur est très largement répandu, ses défauts et ses qualités sont largement connus.

Lorsque nous voulons traiter deux variables catégorielles (variables nominales), les indicateurs sont moins répandus. Le point de départ est le tableau croisant les deux variables, le tableau de contingence, il recense les effectifs pour chaque combinaison de valeurs des variables.

A partir de ce tableau, plusieurs indicateurs peuvent être calculés. Ils permettent de caractériser, de différentes manières, les liens -- les associations -- existant entre les deux variables. Nous verrons dans ce didacticiel comment calculer ces différents indicateurs avec TANAGRA.

Les variables étant nominales, nous pouvons intervertir les lignes (les colonnes) du tableau sans modifier la valeur des indicateurs que nous présentons. En revanche, selon que la mesure est symétrique ou asymétrique, la transposition du tableau a une incidence sur le résultat.

Dans une première partie, nous présentons le test d’indépendance basé sur la statistique du KHI-2. Il permet de vérifier la significativité du lien, il est assez répandu. Le KHI-2 est plus riche qu’il n’y paraît, nous montrons comment le décomposer pour identifier les principales associations dans le tableau de contingence.

Dans la seconde partie, nous nous intéressons aux mesures asymétriques. Les variables ne jouent plus le même rôle dans ce cas, nous nous servons des valeurs prises par la première variable (en colonne par exemple) pour expliquer ou prédire les valeurs prises par la seconde variable (en ligne). L’idée est de mettre en avant la causalité.

Enfin, dans la troisième et dernière partie, nous présentons les mesures partielles. L’idée est de caractériser le lien entre deux variables Y et X en contrôlant les valeurs prises par une tierce variable Z c.-à-d. caractériser le lien entre Y et X conditionnellement aux valeurs prises par Z.

Mots clés : association entre variables nominales, tableau de contingence, test d’indépendance du khi-2, contributions au khi-2, t de tschuprow, v de cramer, association asymétrique, mesures pre (proportional reduction in error), tau de goodman et kruskal, u de theil, association partielle, u de theil partiel
Composants : Contingency Chi-Square, Goodman-Kruskal Tau, Theil U, Partial Theil U, Discrete select examples
Lien : fr_Tanagra_Measures_of_Association_Nominal_Variables.pdf
Données : fuel_consumption.xls
Référence : R. Rakotomalala, « Etude des dépendances, Variables qualitatives – Tableau de contingence et mesures d’association », Université Lumière Lyon 2.