samedi 6 mai 2017

Comprendre la taille d'effet (effect size)

La taille d’effet est un indicateur permettant de rendre compte de l’intensité d’un phénomène statistique : l’écart entre des moyennes ou des proportions, les liaisons entre les variables, etc. Dans ce support, nous nous plaçons dans le cadre de l’interprétation des partitions issues d’un processus de classification automatique (clustering). Il s’agit d’identifier les caractéristiques sous-jacentes à la formation des groupes, à travers les comparaisons de moyennes pour les variables quantitatives, les comparaisons des fréquences des modalités pour les variables qualitatives. Pour faciliter la lecture, il est intéressant de pouvoir hiérarchiser les variables pour distinguer celles qui ont la plus forte influence. Un indicateur statistique simple à calculer et interprétable est nécessaire à cet égard.

La mesure « valeur test » se révèle particulièrement intéressante dans ce contexte. Elle est disponible dans des logiciels et packages de R. J’ai moi-même écrit un tutoriel sur ce sujet. Elle permet de trier les variables et désigner celles qui sont les plus qualifiantes. Elle présente néanmoins un défaut qui pose problème dans le traitement des données massives. En effet, sa valeur augmente mécaniquement avec l’effectif absolu des groupes, et non avec leur effectif relatif. De fait, sur les grandes bases de données, la hiérarchie des variables n’est certes pas remise en cause, mais elles paraissent toutes significatives au regard des seuils usuels des tests statistiques, laissant à penser qu’elles pèsent toutes notoirement dans la constitution des groupes. La taille d’effet, insensible à la taille des échantillons, permet de dépasser cet inconvénient.

A travers la notion de taille d’effet, nous proposons une analyse en deux temps pour l’interprétation des résultats d’un clustering : (1) une caractérisation de la partition à travers un indicateur exprimant la proportion de variance expliquée ; (2) une caractérisation des groupes via un indicateur basé sur la corrélation.

Mots-clés : taille d'effet, effect size, d de Cohen, g de Hedges, rapport de corrélation, coefficient de corrélation bisériale ponctuelle, h de Cohen, v de Cramer, khi-2, phi, clustering, classification automatique, k-means, cah
Document : Taille d'effet
Références :
Cohen J., "Statistical Power Analysis for the behavioral sciences", Psychology Press, 1988.
Morineau A., "Note sur la caractérisation statistique d’une classe et les valeurs-tests", in Bulletin Technique du Centre de Statistique et Informatique Appliquées, 2(1-2), pp. 20-27, 1984.
Tutoriel Tanagra, "Interpréter la valeur test", avril 2008.
Tutoriel Tanagra, "Clustering : caractérisation des classes", septembre 2016.