jeudi 28 août 2008

Test de Kruskal-Wallis et comparaisons multiples

Les tests de comparaison de populations visent à déterminer si (K >= 2) échantillons proviennent de la même population au regard d’une variable d’intérêt (X). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

Les tests non paramétriques lorsque l’on ne fait pas d’hypothèse sur la distribution de X, on parle aussi de tests « distribution free ».

Dans ce didacticiel, nous nous intéressons plus particulièrement à la configuration où la variable d’intérêt prend stochastiquement des valeurs plus élevées (ou plus faibles, ou simplement différentes) dans une des sous populations. On suppose que la différenciation se fait sur un décalage entre les caractéristiques de tendance centrale des distributions conditionnelles. On parle de modèle de localisation. Le test de Kruskal-Wallis est certainement celui qui vient immédiatement à l’esprit pour traiter ce type de problèmes. Nous verrons dans ce didacticiel que d’autres tests existent. Nous comparerons les résultats obtenus. Nous complèterons l’étude en procédant à des comparaisons multiples, on souhaite détecter les groupes qui diffèrent significativement les uns des autres.

Les données proviennent du site de cours en ligne du Pr Richard Lowry du « Vassar College ». Nous traitons l’exemple utilisé pour illustrer le test de Kruskal-Wallis. On a demandé à n = 21 personnes d’évaluer 3 types de vins (A, B et C) : n1 = 8 ont noté le premier type de vin 1, n2 = 7 pour le second et, n3 = 6 pour le troisième. On souhaite savoir si les notes attribuées sont significativement différentes d’un groupe à l’autre.

Il y a une grosse feinte dans l’expérimentation. En réalité, le vin est exactement le même quel que soit le groupe. C’est l’entretien d’évaluation, débouchant sur l’attribution de la note, qui a été mené de différentes manières. Il est enthousiaste pour le groupe A, un peu moins dans le groupe B, il est neutre dans le groupe C.

La variable d’intérêt est RATING. Elle va de 1 à 10, meilleure sera l’appréciation, plus élevée sera la note. Un complément intéressant de ce tutoriel serait d’étudier le comportement des méthodes paramétriques (ANOVA à 1 Facteur et WELCH ANOVA) sur ces mêmes données.

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (voir références).

Mots clés : tests non paramétriques, test de Kruskal-Wallis, test de Van der Waerden, test de Fisher-Yates-Terry-Hoeffding, test des médianes, modèle de localisation
Composants : KRUSKAL-WALLIS 1-WAY ANOVA, MEDIAN TEST, VAN DER WAERDEN 1-WAY ANOVA, FYTH 1-WAY ANOVA
Lien : fr_Tanagra_Nonparametric_Test_KW_and_related.pdf
Données : wine_evaluation_nonparametric.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests non paramétriques », Université Lyon 2.
R. Lowry, « Concepts and Applications of Inferential Statistics », SubChapter 14a. The Kruskal-Wallis Test for 3 or More Independent Samples.