mercredi 27 août 2008

Tests non paramétriques de comparaison de 2 populations. Modèle de localisation.

Les tests de comparaison de populations visent à déterminer si (K >= 2) échantillons proviennent de la même population au regard d’une variable d’intérêt (X). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

Les tests non paramétriques lorsque l’on ne fait pas d’hypothèse sur la distribution de X, on parle aussi de tests « distribution free ».

De manière générique, le test de Kolmogorov-Smirnov consiste à comparer les fonctions de répartition empiriques (CDF : cumulative distribution function, en anglais). Dans ce cas, on cherche toute forme de différenciation entre les distributions.

On peut approfondir l’analyse en qualifiant la forme de la différenciation. Une approche très usitée consiste à déterminer si les valeurs de la variable d’intérêt sont stochastiquement plus élevés (plus faibles, ou tout simplement différents) dans un des sous échantillons. Le test de Wilcoxon-Mann-Whitney est certainement la technique la plus populaire, nous verrons dans ce didacticiel que d’autres tests non paramétriques peuvent être utilisés.

Les données proviennent du site de cours en ligne de l’Université Penn State de Pennsylvanie « STAT 500 – Applied Statistics ». Nous nous intéressons à la leçon n°10 qui traite de la comparaison de moyennes. Il s’agit d’évaluer les performances de 2 machines, une ancienne et une nouvelle, lors de l’empaquetage de cartons. La variable d’intérêt est la durée de l’opération.

Les données semblent compatibles avec une distribution normale, les tests paramétriques sont à privilégier dans ce cas. Le site d’ailleurs détaille les résultats du test de Student de comparaison de moyenne. La statistique du test est t = -3.40, l’écart est très significatif avec une probabilité critique (p-value) p = 0.0032 pour un test bilatéral.

Un aspect intéressant de ce tutoriel sera d’étudier le comportement les tests non paramétriques sur ces données, et de confronter les résultats avec celui du test de Student.

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (voir références).

Mots clés : tests non paramétriques, test de Kolmogorov-Smirnov, test de Wilcoxon-Mann-Whitney, test de Van der Waerden, test de Fisher-Yates-Terry-Hoeffding, test de la médiane, modèle de localisation
Composants : FYTH 1-WAY ANOVA, K-S 2-SAMPLE TEST, MANN-WHITNEY COMPARISON, MEDIAN TEST, VAN DER WAERDEN 1-WAY ANOVA
Lien : fr_Tanagra_Nonparametric_Test_MW_and_related.pdf
Données : machine_packs_cartons.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests non paramétriques », Université Lyon 2.
Wikipedia, « Non-parametric statistics ».