mardi 22 juillet 2008

Comparaison de populations - Tests paramétriques multivariés

Les tests de comparaison de populations visent à déterminer si K (K >= 2) échantillons proviennent de la même population au regard d’une groupe de variables d’intérêt (X1,…,Xp). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

On parle de tests paramétriques lorsque l’on fait l’hypothèse que X suit une distribution paramétrée. Dès lors comparer les distributions empiriques conditionnelles revient à comparer les paramètres : la moyenne et la variance lorsque l’on fait l’hypothèse de normalité en analyse univariée ; le vecteur moyenne et la matrice de variance covariance lorsque l’on considère que le groupe de variables est distribuée selon une loi normale multidimensionnelle en analyse multivariée.

Enfin, dans ce didacticiel, nous traitons les tests multivariés c.-à-d. nous étudions simultanément plusieurs variables d’intérêt.

Ce type de test peut servir à comparer effectivement des processus (ex. est-ce que deux machines produisent des boulons de même diamètre et qualité), mais il permet également d’éprouver la liaison qui peut exister entre une variable catégorielle et une variable quantitative (ex. est ce que les femmes conduisent en moyenne moins vite que les hommes, provoquent moins d’accidents et consomment moins ?).

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (Voir référence, Partie III). Les tests d’écrits dans ce didacticiel s’appliquent aux échantillons indépendants. Les procédures pour échantillons appariés feront l’objet d’autres didacticiels.

Mots clés : T2 de Hotelling, Lambda de Wilks, Box’s M test, test de Bartlett multivarié, vecteur des moyennes, barycentre, matrice de variance covariance, MANOVA
Composants : UNIVARIATE CONTINUOUS STAT, HOTELLING’S T2, HOTELLING’S T2 HETEROSCEDASTIC, BOX’S M TEST, ONE-WAY MANOVA
Lien : fr_Tanagra_Multivariate_Parametric_Tests.pdf
Données : credit_approval.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests paramétriques », Université Lyon 2.
S. Rathburn, A. Wiesner, "STAT 505: Applied Multivariate Statistical Analysis", The Pennsylvania State University.

Comparaison de populations - Tests paramétriques univariés

Les tests de comparaison de populations visent à déterminer si K (K >= 2) échantillons proviennent de la même population au regard d’une variable d’intérêt (X). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

On parle de tests paramétriques lorsque l’on fait l’hypothèse que la variable X suit une distribution paramétrée. Dès lors comparer les distributions empiriques conditionnelles revient à comparer les paramètres, soit la moyenne et la variance lorsque l’on fait l’hypothèse de normalité de X.

Enfin, dans ce didacticiel, nous traitons les tests univariés c.-à-d. nous étudions une seule variable d’intérêt. Lorsque nous traitons simultanément plusieurs variables, on parle de tests multivariés. Ce qui fera l’objet d’un autre didacticiel prochainement.

Ce type de test peut servir à comparer effectivement des processus (ex. est-ce que deux machines produisent des boulons de même diamètre), mais il permet également d’éprouver la liaison qui peut exister entre une variable catégorielle et une variable quantitative (ex. est ce que les femmes conduisent en moyenne moins vite que les hommes sur telle portion de route).

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (Voir référence, Parties I et II). Nous utiliserons les mêmes données et nous suivrons exactement la même trame pour que le lecteur puisse suivre le détail des formules mises en œuvre.

Mots clés : comparaison de moyennes, test de Student, comparaison de variances, test de Fisher, test de Bartlett, test de Levene, test de Brown-Forsythe, échantillons indépendants et échantillons appariés, ANOVA, ANOVA de Welch, blocs aléatoires complets, mesures répétées
Composants : MORE UNIVARIATE CONT STAT, NORMALITY TEST, T-TEST, T-TEST UNEQUAL VARIANCE, ONE-WAY ANOVA, WELCH ANOVA, FISHER’S TEST, BARTLETT’S TEST, LEVENE’S TEST, BROWN-FORSYTHE TEST, PAIRED T-TEST, PAIRED V-TEST, ANOVA RANDOMIZED BLOCKS
Lien : fr_Tanagra_Univariate_Parametric_Tests.pdf
Données : credit_approval.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests paramétriques », Université Lyon 2.
NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/ (Chapter 7, Product and Process Comparisons)

lundi 21 juillet 2008

Les cartes de Kohonen

Les cartes de Kohonen sont des réseaux de neurones artificiels orientés, constitués de 2 couches. Dans la couche d’entrée, les neurones correspondent aux variables décrivant les observations. La couche de sortie, elle, est le plus souvent organisée sous forme de grille (de carte) de neurones à 2 dimensions. Chaque neurone représente un groupe d’observations similaires.

Le réseau de Kohonen est donc une technique de classification automatique (clustering, apprentissage non supervisé). L’objectif est de produire un regroupement de manière à ce que les individus situés dans la même case soient semblables, les individus situés dans des cases différentes soient différents. En y regardant de plus près, on se rend compte d’ailleurs que l’algorithme d’apprentissage est une version sophistiquée de la méthode des K-Means (on parle de « nuées dynamiques » en français, bien que cette dernière intègre elle aussi d’autres types d’améliorations par rapport aux K-Means de Forgy [1965]).

Les cartes de Kohonen constituent également une technique de visualisation. En effet, les neurones de la couche de sortie sont organisés de manière à ce que deux cellules adjacentes dans la grille correspondent à des groupes d’observations proches dans l’espace de représentation initial. On parle de cartes auto organisatrices (SOM : Self Organisation Map). De ce point de vue, le réseau de Kohonen se positionne par rapport aux techniques factorielles de réduction de dimensionnalité. A la différence que la projection est non linéaire.

Dans ce didacticiel, nous montrons comment mettre en œuvre l’algorithme de Kohonen dans Tanagra. Nous visualiserons graphiquement les résultats. L’idée est de vérifier cette fameuse proximité entre les cellules de la grille dans l’espace de représentation. Puis, nous comparons les groupes obtenus avec ceux de la méthode des K-Means, très largement répandue au sein de la communauté de l’apprentissage automatique. Enfin, nous montrons comment nous pouvons affiner les résultats en lançant une classification ascendante hiérarchique (CAH) à partir des cellules de la carte. Cette stratégie est une approche alternative de la classification mixte (K-MEANS + CAH ; Lebart et al., 2000). Elle est particulièrement recommandée pour les fichiers comportant un grand nombre d’observations.

Mots clés : cartes de Kohonen, self organization map, SOM, classification automatique, clustering, réduction de dimensionnalité, k-means, nuées dynamiques, cah, classification ascendante hiérarchique, classification mixte
Composants : UNIVARIATE CONTINUOUS STAT, UNIVARIATE OUTLIER DETECTION, KOHONEN-SOM, PRINCIPAL COMPONENT ANALYSIS, SCATTERPLOT, K-MEANS, CONTINGENCY CHI-SQUARE, HAC
Lien : fr_Tanagra_Kohonen_SOM.pdf
Données : waveform_unsupervised.xls
Références :
Tutoriel Tanagra, "Les cartes auto-organisatrices de Kohonen - Diapos", juillet 2016.
Wikipedia, « Self organizing map », http://en.wikipedia.org/wiki/Self-organizing_map