vendredi 29 mai 2009

Statistiques descriptives (suite)

La statistique descriptive vise à résumer l’information portée par un tableau de données. « Trop d’informations tue l’information » a-t-on coutume de dire. Il est illusoire d’inspecter un tableau contenant des centaines, voire des milliers, d’observations et d’en déduire des tendances.

L’objectif de la statistique descriptive est de nous fournir une image simplifiée de la réalité, en mettant en exergue des caractéristiques qui ne sont pas discernables de prime abord. Elle emmène un nouvel éclairage sur les données. Elle s’appuie pour cela sur des indicateurs et des représentations graphiques qui, pour simples qu’elles soient, sont très souvent pertinentes pour une bonne compréhension de la structure des données.

Ce thème a déjà été abordé dans un de nos précédents didactciels (voir référence). Nous l'abordons de manière plus approfondie ici en le présentant selon deux axes. Tout d’abord nous ferons la distinction « techniques univariées », qui étudient les variables individuellement, et « techniques bivariées », qui étudient les relations entre 2 variables. Le second axe repose sur la distinction entre les variables catégorielles (qualitatives nominales) et les variables continues (quantitatives).

Mots clés : descriptive statistics, statistique univariée, statistique bivariée
Composants : UNIVARIATE DISCRETE STAT, CONTINGENCY CHI-SQUARE, UNIVARIATE CONTINUOUS STAT, SCATTERPLOT, LINEAR CORRELATION, GROUP CHARACTERIZATION
Lien : fr_Tanagra_Descriptive_Statistics.pdf
Données : enquete_satisfaction_femmes_1953.xls
Références :
Tutoriel Tanagra, "Statistiques descriptives"

vendredi 15 mai 2009

Stratégie « wrapper » pour la sélection de variables

La sélection de variables est un aspect essentiel de l’apprentissage supervisé. Nous devons déterminer les variables pertinentes pour la prédiction des valeurs de la variable à prédire, pour différentes raisons : un modèle plus simple sera plus facile à comprendre et à interpréter ; le déploiement sera facilité, nous aurons besoin de moins d’informations à recueillir pour la prédiction ; enfin, un modèle simple se révèle souvent plus robuste en généralisation c.-à-d. lorsqu’il est appliqué sur la population.

Trois familles d’approches sont mises en avant dans la littérature. Les approches FILTRE consistent à introduire les procédures de sélection préalablement et indépendamment de l’algorithme d’apprentissage mise en oeuvre par la suite. Pour les approches INTEGREES, le processus de sélection fait partie de l’apprentissage. Les algorithmes d’induction d'arbres de décision illustrent parfaitement cette méthode. Enfin, l’approche WRAPPER cherche à optimiser un critère de performance en présentant à la méthode d’apprentissage des scénarios de solutions. Le plus souvent, il s’agit du taux d’erreur. Mais en réalité, tout critère peut convenir.

Dans ce didacticiel, nous mettrons en œuvre la méthode WRAPPER couplée avec le modèle bayesien naïf (modèle d’indépendance conditionnelle). Nous utilisons les logiciels SIPINA et R. Pour ce dernier, le code écrit est le plus générique possible afin que le lecteur puisse comprendre chaque étape du processus de sélection et adapter le programme à d’autres données, et à d’autres méthodes d’apprentissage supervisé.

La stratégie WRAPPER est a priori la meilleure puisqu’elle optimise explicitement le critère de performance. Nous vérifierions cela en comparant les résultats avec ceux fournis par l’approche FILTRE (méthode FCBF) proposée dans TANAGRA. Nous verrons que les conclusions ne sont pas aussi tranchées qu’on pourrait le croire.

Mots clés : sélection de variables, apprentissage supervisé, classifieur bayesien naïf, wrapper, fcbf, sipina, logiciel R, package RWeka,
Composants : DISCRETE SELECT EXAMPLES, FCBF FILTERING, NAIVE BAYES, TEST
Lien : fr_Tanagra_Sipina_Wrapper.pdf
Données : mushroom_wrapper.zip
Références :
JMLR Special Issue on Variable and Feature Selection - 2003
R Kohavi, G. John, « The wrapper approach », 1997.

samedi 9 mai 2009

Analyse factorielle des correspondances avec R

Ce tutoriel reproduit sous le logiciel R, l’analyse factorielle des correspondances (AFC) décrite dans l’ouvrage de Lebart et al., pages 103 à 107. Les justifications théoriques et les formules sont disponibles dans le même ouvrage, pages 67 à 103.

Ces calculs ont été reproduits dans Tanagra dans un de nos anciens didacticiels (AFC - Association médias et professions) [Note de mise à jour (01/07/2013) : un support de cours dédié à l'AFC est maintenant disponible]. Nous pouvons ainsi comparer les sorties. Si le mode de présentation est un peu différent, les résultats sont strictement les mêmes. Ils sont également identiques à ceux de notre ouvrage de référence. Heureusement.

Plusieurs packages de R peuvent mener une AFC, nous avons choisi FactorMineR pour sa simplicité et son adéquation avec les sorties usuelles des logiciels reconnus.

Mots clés : logiciel R, analyse factorielle des correspondances multiples, AFC, représentation simultanée
Composants : CA, FactoMineR
Lien : afc_avec_r.pdf
Données : afc_avec_r.zip
Références :
L. Lebart, A. Morineau, M. Piron, "Statistique Exploratoire Multidimensionnelle", Dunod, 2000 ; pages 67 à 103, partie théorique ; pages 103 à 107, pour l’exemple que nous traitons.
Tutoriel Tanagra, "Analyse Factorielle des Correspondances - Support de cours"
Tutoriel Tanagra, "AFC - Association médias et professions"
Tutoriel Tanagra, "Analyse des correspondances - Comparaison de logiciels"
Husson, Le, Josse, Mazet, « FactoMineR »

mercredi 6 mai 2009

Analyse des Corresponsances Multiples avec R

Ce tutoriel reproduit sous le logiciel R, l’analyse des correspondances multiples (ACM) décrite dans l’ouvrage de Tenenhaus, pages 266 à 276. Les justifications théoriques et les formules sont disponibles dans le même ouvrage, pages 253 à 264.

Ces calculs ont été reproduits dans Tanagra dans un de nos anciens didacticiels (AFCM - Races canines). Nous pouvons ainsi comparer les sorties. Si le mode de présentation est un peu différent, les résultats sont strictement les mêmes. Ils sont également identiques à ceux de notre ouvrage de référence. Heureusement.

Plusieurs packages de R peuvent mener une ACM (ou AFCM – Analyse factorielle des correspondances multiples), nous avons choisi FactorMineR pour sa simplicité et son adéquation avec les sorties usuelles des logiciels reconnus.

Mots clés : logiciel R, analyse des correspondances multiples, ACM, analyse factorielle de correspondances multiples, AFCM, représentation pseudo-barycentrique, représentation barycentrique
Composants : MCA, FactoMineR
Lien : afcm_avec_r.pdf
Données : afcm_avec_r.zip
Références :
M. Tenenhaus, « Statistique – Méthodes pour décrire, expliquer et prévoir », Dunod, 2006 ; pages 253 à 264, partie théorique ; pages 266 à 276, pour l’exemple que nous traitons.
Tutoriel Tanagra, "AFCM - Comparaison de logiciels"
Tutoriel Tanagra, "AFCM - Races canines"
Husson, Le, Josse, Mazet, « FactoMineR »

mardi 5 mai 2009

Installation des packages sous R

R est à la fois un langage de programmation et un logiciel statistique, c’est le point de vue de la majorité des utilisateurs et il est tout à fait justifié.

Une autre manière de voir les choses serait de dire que R est un langage de programmation où l’objet de base est un vecteur. Il est ainsi particulièrement adapté au traitement statistique. Ce qui explique sa spécialisation dans ce domaine d’ailleurs, bien qu’en réalité son champ d’application soit plus large.

Cette spécialisation est d’autant plus marquée que R dispose d’une multitude de fonctions statistiques, extensibles à l’infini avec le système des packages.

L’idée est simple. Tout un chacun peut écrire une bibliothèque externe qu’il peut plugger dans R, sans avoir à modifier ou à recompiler le programme appelant. La procédure semble simple pourvu qu’on se conforme aux spécifications. Les avantages sont incommensurables. Pour le chercheur, il peut se consacrer aux méthodes qu’il développe en s’intégrant dans un environnement bien défini, en bénéficiant des fonctionnalités de gestion de données de R, et avec la possibilité d’utiliser des méthodes développées par ailleurs. Pour les praticiens, c’est l’assurance de disposer des techniques de pointe dans tous les domaines du traitement des données (statistique, analyse de données, data mining). Les mises à jour et les addenda sont quasi-journaliers.

Mots clés : logiciel R, package, arbres de décision
Composants : library, rpart
Lien : installation et gestion des packages.pdf
Références :
R Team, « The R Project for Statistical Computing ».
R. Rakotomalala, « Cours Programmation R ».

Diagnostic de la régression avec R

Ce didacticiel illustre les concepts présentés dans la deuxième partie de mon cours d’économétrie. Il s’agit de diagnostiquer une régression linéaire multiple à l’aide des graphiques des résidus (entre autres, le graphique quantile-quantile plot, etc.), de l’analyse des points atypiques, de la détection de la colinéarité.

Un processus de sélection automatique de variables est mis en place à l’aide de la procédure stepAIC (package MASS).

Les procédures et les résultats peuvent être mis en parallèle avec ceux proposés par Tanagra, présentés par ailleurs dans une série de didacticiels : Régresison – Expliquer la consommation de véhicules ; Sélection forward – Crime Dataset ; Colinéarité et régression ; Points aberrants et influents dans la régression.

Mots clés : logiciel R, régression linéaire multiple, économétrie, diagnostic, résidus, points atypiques, points aberrants, points influents, colinéarité, critère VIF, sélection de variables
Composants : lm, influence.measures, res.standard, res.student, stepAIC
Lien : regression - detection des donnees aberrantes - selection de variables.pdf
Données : automobiles_pour_regression.txt
Références :
R. Rakotomalala, "Cours Econométrie", Université Lumière Lyon 2.
R. Rakotomalala, "Pratique de la régression linéaire multiple – Diagnostic et sélection de variables", Université Lumière Lyon 2.

lundi 4 mai 2009

Analyse en Composantes Principales avec R

Ce didacticiel reproduit un exemple traité dans l’ouvrage de Saporta (2006), à la différence que l’analyse a été menée entièrement dans R à l’aide de la procédure princomp(.) (package stats, installé et chargé automatiquement).

Les mêmes calculs ont été réalisés sous Tanagra (ACP - Description de véhicules) (Note de mise à jour : d'autres outils sont disponibles - "ACP avec Tanagra - Nouveaux outils" [15/06/2012]). Nous pouvons donc comparer les résultats fournis par le livre, ceux de Tanagra et ceux rapportés dans ce document. Bonne nouvelle, ils sont strictement identiques.

L’analyse couvre les sujets suivants : construction du cercle des corrélations, projection des individus dans le plan factoriel, traitement des variables illustratives (supplémentaires) qualitatives et quantitatives, traitement des individus illustratifs (supplémentaires).

Le sujet peut être complété par la lecture du didacticiel dédié à la détection du nombre d'axes en analyse en composantes principales.Un support de cours consacré à l'ACP est aujourd'hui [29/07/2013] disponible.

Mots clés : logiciel R, analyse en composantes principales, ACP, cercle de corrélation, variables illustratives, individus illustratifs
Composants : princomp
Lien : acp_avec_r.pdf 
Données : acp_avec_r.zip
Références :
G. Saporta, « Probabilités, analyse des données et statistique », Dunod, 2006 ; pages 155 à 179.
Tutoriel Tanagra, "Analyse en composantes principales - Support de cours"
Tutoriel Tanagra, "ACP - Description de véhicules"
Tutoriel Tanagra, "ACP avec R - Détection du nombre d'axes"