mercredi 30 septembre 2009

Etude des dépendances - Variables qualitatives

Ce document décrit quelques mesures statistiques destinées à quantifier et tester la liaison entre 2 variables qualitatives. Elles exploitent le tableau de contingence formé à partir des variables. Le domaine étant très vaste et les mesures innombrables, nous ne pourrons certainement pas prétendre à l'exhaustivité. Nous mettrons l'accent sur l'interprétation, les formules associées et la lecture pratique des résultats.

Nous nous concentrons essentiellement sur la dépendance entre variables nominales. Le traitement des variables ordinales fera l'objet d'une partie distincte (Partie IV).

Mots-clés : tableau de contingence, khi-2, mesures PRE (proportional reduction in error), odds et odds-ratio, coefficient de concordance, mesures d'association, associations ordinales
Techniques décrites : statistique du khi-2, test d'indépendance du khi-2, contributions au khi-2, t de Tschuprow, v de Cramer, lambda de Goodman et Kruskal, tau de Goodman et Kruskal, U de Theil, coefficient phi, correction de continuité, Q de Yule, kappa de Cohen, kappa de Fleiss, gamma de Goodman et Kruskal, tau-b de Kendall, tau-c de Kendall, d de Sommers
Ouvrage : Etude des dépendances - Variables qualitatives - Tableau de contingence et mesures d'association

samedi 26 septembre 2009

Analyse de corrélation

Ce document décrit les méthodes statistiques destinées à quantifier et tester la liaison entre 2 variables quantitatives : on parle d’analyse de corrélation.

Il est subdivisé en 2 grandes parties. La première est consacrée à la corrélation brute : principalement le coefficient de corrélation de Pearson, mais aussi les coefficients non paramétriques de Spearman et Kendall. La seconde aborde la question des corrélations partielles et semi-partielles.

Pour chaque indicateur étudié, nous présentons la mise en place du test de significativité, et éventuellement le calcul des intervalles de confiance.

Mots-clés : corrélation brute, corrélation partielle, corrélation semi-partielle
Techniques décrites : r de Pearson, rho de Spearman, tau de Kendall, corrélation partielle d’ordre 1, corrélation partielle d’ordre p, rho de Spearman partiel, corrélation semi-partielle d’ordre 1 et d’odre p
Ouvrage : Analyse de corrélation – Etude des dépendances, Variables quantitatives

dimanche 20 septembre 2009

Probabilités et Statistique - Note de cours

Ce document est un support de cours pour les enseignements des probabilités et de la statistique. Il couvre l'analyse combinatoire, le calcul des probabilités, les lois de probabilités d'usage courant et les tests d'adéquation à une loi.

Il correspond approximativement aux enseignements en L2 de la filière Sciences Économiques et Gestion, Administration Économique et Sociale (AES).

Chapitres : Eléments d’analyse combinatoire, définition de la probabilité, axiome du calcul des probabilités, les schémas de tirages probabilistes, probabilité de bayes, les variables aléatoires, caractéristiques d’une variable aléatoire, les lois discrètes, les lois continues, test d’adéquation à une loi
Ouvrage : Probabilités et Statistique – Note de cours

Tests de conformité à la loi normale

Un test d'adéquation permet de statuer sur la compatibilité d'une distribution observée avec une distribution théorique associée à une loi de probabilité. Il s'agit de modélisation. Nous résumons une information brute, une série d'observations, à l'aide d'une fonction analytique paramétrée. L'estimation des valeurs des paramètres est souvent un préalable au test de conformité. Au delà de la simplification, le test permet de valider une appréhension du processus de formation des données, il permet de savoir si notre perception du réel est compatible avec ce que nous observons.

Parmi les tests d'adéquation, la conformité à la loi normale (loi gaussienne, loi de Laplace-Gauss) revêt une importance supplémentaire. En effet, l'hypothèse de normalité des distributions sous-tend souvent de nombreux tests paramétriques (ex. comparaison de moyennes, résidus de la régression, etc.).

Dans ce support, nous présenterons dans un premier chapitre les techniques descriptives, notamment le très populaire graphique Q-Q plot. Dans le second, nous détaillerons plusieurs tests statistiques reconnus et implémentés dans la plupart des logiciels de statistique. Dans le troisième, nous étudierons les tests de symétrie des distributions qui, à certains égards, peuvent être considérés comme des cas particuliers des tests de normalité. Enfin, dans un quatrième et dernier chapitre, nous décrivons les formules de Box-Cox destinées à transformer les variables afin qu’elles soient compatibles avec la distribution normale.

Mots-clés : test de conformité à la loi normale, test d’adéquation, test de symétrie, transformation de box-cox
Techniques décrites : graphique Q-Q plot, droite de henry, test de shapiro-wilk, test de lilliefors, test de anderson-darling, test de jarque-bera, test de wilcoxon, test de van der waerden
Ouvrage : Tests de normalité – Techniques empiriques et test statistiques

Pratique de la Régression Linéaire Multiple

Le véritable travail du statisticien commence après la première mise en oeuvre de la régression linéaire multiple sur un fichier de données. Après ces calculs, qu'on lance toujours "pour voir", il faut se poser la question de la pertinence des résultats, vérifier le rôle de chaque variable, interpréter les coefficients, etc.

En schématisant, la modélisation statistique passe par plusieurs étapes : proposer une solution (une configuration de l'équation de régression), estimer les paramètres, diagnostiquer, comprendre les résultats, réfléchir à une formulation concurrente.

Dans ce support, nous mettrons l'accent, sans se limiter à ces points, sur deux aspects de ce processus : le diagnostic de la régression à l'aide de l'analyse des résidus, il peut être réalisé avec des tests statistiques, mais aussi avec des outils graphiques simples ; l'amélioration du modèle à l'aide de la sélection de variables, elle permet entre autres de se dégager du piège de la colinéarité entre les variables exogènes.

Mots-clés : régression linéaire simple et multiple, étude des résidus, points aberrants et points influents, colinéarité et sélection de variables, variables exogènes qualitatives, rupture de structure
Techniques décrites : test de durbin-watson, test des séquences, qraphique qq-plot, test de symétrie des résidus, test de jarque-bera, résidu standardisé, résidu studentisé, dffits, distance de cook, dfbetas, covratio, sélection forward, backward, stepwise, codage centerd effect, codage cornered effect, test de chow
Ouvrage : Pratique de la régression linéaire multiple – Diagnostic et sélection de variables

jeudi 17 septembre 2009

Comparaison de populations - Tests paramétriques

Comparaison de populations. Stricto sensu, les tests de comparaisons de
populations cherchent à déterminer si K (K ¸ 2) échantillons proviennent de la même population relativement à la variable d'intérêt. Nous sommes dans le cadre de la statistique inférentielle : à partir d'échantillons, nous tirons des conclusions sur la population. Au delà de ces aspects purement théoriques, les applications pratiques sont nombreuses.

Paramétrique. On parle de tests paramétriques lorsque l'on fait l'hypothèse que les variables qui décrivent les individus suivent une distribution paramétrée. Dans ce support, nous analyserons principalement (mais pas seulement) le cas des variables continues gaussiennes. Les paramètres sont estimés à partir des échantillons et, dans ce cas, les tests reviennent simplement à les comparer puisqu'elles définissent de manière non ambiguë la distribution. Ainsi, concernant la distribution gaussienne, les tests porteront essentiellement sur la moyenne et l'écart type. L'hypothèse de normalité n'est pas aussi restrictive qu'on peut le penser, nous en discuterons de manière détaillée plus loin.

Ce fascicule de cours se veut avant tout opérationnel. Il se concentre sur les principales formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallèle avec les résultats fournis par les logiciels de statistique. Le bien-fondé des tests, la pertinence des hypothèses à opposer sont peu ou prou discutées. Nous invitons le lecteur désireux d'approfondir les bases de la statistique inférentielle, en particulier la théorie des tests, à consulter les ouvrages énumérés dans la bibliographie.

Mots-clés : test statistique, test paramétrique, comparaison de populations, tanagra, logiciel R
Techniques décrites : comparaison de moyennes, test de student, analyse de variance à 1 facteur, comparaison de variances, test de fisher, test de bartlett, test de cochran, test de hartley, test de levene, test de brown-forsythe, comparaison de proportions, test d'homogénéité du KHI-2 pour 2 populations, tests pour échantillons appariés, tests multivariés, T2 de hotelling, manova, lambda de wilks
Ouvrage : Comparaison de populations - Tests paramétriques

lundi 14 septembre 2009

Pratique de la régression logistique

Cet ouvrage décrit la pratique de la régression logistique. Il est pour l’instant centré sur la régression logistique binaire, il est amené à évoluer en intégrant la régression logistique polytomique dans un proche avenir.

Il aborde tous les grands thèmes du domaine : l’estimation des paramètres via la maximisation de la vraisemblance ; les intervalles de confiance et les tests de significativité ; l’interprétation des coefficients (sous la forme d’odds-ratio) ; l’évaluation de la régression ; la prédiction et les intervalles de prédiction ; le redressement sur les échantillons non représentatifs ; l’analyse des interactions ; le diagnostic de la régression via l’analyse des résidus ; etc. (15 chapitres).

L’ouvrage est très peu théorique. Il cherche à mettre en avant les aspects pratiques. Il est abondamment illustré à l’aide d’exemples traités à l’aide de logiciel libres (ou gratuits), principalement Tanagra et R. Souvent, les calculs sont également reproduits manuellement dans le tableur Excel pour que le lecteur puisse inspecter dans le détail les formules utilisées. Les données sont accessibles en ligne, tout un chacun pourra reproduire les exercices.

Mots clés : régression logistique, tanagra, R
Ouvrage : Pratique de la régression logistique – Régression logistique binaire et polytomique

lundi 7 septembre 2009

Tanagra - Séminaire au L3I

Un très sympathique séminaire au sein du laboratoire L3I (Laboratoire Informatique, Image et Interaction) de l’Université de la Rochelle a été l’occasion de faire le point sur Tanagra et de le positionner par rapport aux principaux outils libres. Un petit bilan numérique a été fait également. Sur la période 01-09-2008 au 31-08-2009 (une année), l’ensemble des sites web qui gravitent autour de Tanagra, comprenant le site du logiciel mais aussi les sites de tutoriels et de supports de cours, a enregistré 171.697 visites, soit 470 visites par jour. Une grande partie vient de France (77.117) ; puis vient le Maghreb (11.603 – Algérie, 10.855 – Maroc et 7543 – Tunisie)... (voir le pdf pour plus de précisions). Je suis très content que ce travail contribue à la diffusion de la connaissance.

Voici le résumé de l’exposé.

Titre : Tanagra - logiciels libres, spécificités et applications
Auteur : Ricco Rakotomalala, Laboratoire ERIC, Université Lyon 2

Avec internet, les logiciels libres (gratuits) connaissent un essor sans précédent. Dans le domaine du Data Mining et de l'apprentissage automatique, les outils développés par les chercheurs dans les laboratoires, uniquement connus des initiés, sont maintenant mondialement diffusés à moindre coût. Ce succès croissant introduit des contraintes. De nouvelles exigences en matière de qualité apparaissent. Il est impensable de mettre à la disposition d'autres chercheurs ou d'utilisateurs néophytes, un outil totalement abscons ou, plus grave encore, qui n'effectue pas les calculs correctement. Finalement, ces dernières années, les logiciels libres à grande diffusion intégrant tout le cycle du Data Mining (accès aux données, préparation et sélection de variables, apprentissage automatique, validation et déploiement) sont assez rares. Ces outils partagent une particularité essentielle en recherche : le code source est accessible, tout le monde a la possibilité de vérifier ce qui est réellement codé.

Dans notre exposé, nous présenterons le logiciel Tanagra que nous avons développé. Dans un premier temps, nous essaierons de mettre en avant les spécifications qui ont conduit à son élaboration, son évolution au fil du temps, et les éléments périphériques qui accompagnent sa diffusion. Dans un deuxième temps, nous le comparerons aux principaux logiciels libres, largement reconnus dans notre communauté : Orange, Knime, R, RapidMiner, Weka. Nous nous baserons principalement sur les étapes clés du Data Mining pour évaluer les solutions qui ont été mises en place par les différents outils. Des petits exemples didactiques permettront de juger de leur comportement réel. Enfin, dans un troisième temps, pour donner un tour concret à notre exposé, nous détaillerons l'utilisation de notre outil lors d'une collaboration avec un laboratoire externe, non spécialiste du Data Mining, où l'objectif initial était de classer automatiquement des planctons à partir d'images. Nous constaterons qu'au delà de la simple application des algorithmes, l'utilisation d'une plate-forme complète permet d'élargir l'horizon d'analyse et de mieux préciser les objectifs d'une étude.

Mots clés : data mining, logiciel libre, Tanagra, applications
PDF du séminaire : Tanagra