lundi 17 novembre 2008

Règles d’association – Comparaison de logiciels

Ce document reprend un précédent tutoriel dédié à la comparaison des implémentations libres des règles d’association. Nous avions étudié Tanagra, Orange, et Weka. Nous étendons le comparatif aux logiciels R (package arules), RapidMiner et Knime.

Nos données se présentent sous la forme d’un tableau générique « attribut – valeur », avec les individus en ligne et les variables en colonne. Ce n’est pas le format usuel pour les règles d’association où l’on traite plutôt des bases transactionnelles : chaque ligne est une transaction, pour chaque transaction nous disposons de la liste des items observés.

Nous verrons dans ce didacticiel que certains logiciels savent traiter le format tableau en réalisant automatiquement en interne le recodage. Pour d’autres en revanche, il nous faudra procéder explicitement au recodage. Il importe alors de trouver les bons outils et la bonne séquence de traitements pour produire le format propice à l’extraction des règles d’association. Les manipulations ne sont pas toujours évidentes selon les logiciels.

Tous les logiciels étudiés implémentent une version plus ou moins élaborée de l’algorithme A PRIORI (Agrawal et Srikant, 1994). Pour être tout à fait précis, et afin que tout un chacun puisse reproduire exactement les opérations, nous avons mis à contribution les versions suivantes dans ce comparatif : Tanagra 1.4.28 ; R 2.7.2 (package arules 0.6-6) ; Orange 1.0b2 ; RapidMiner Community Edition ; Knime 1.3.5 et Weka 3.5.6.

Tous chargent la totalité des données et effectuent les calculs en mémoire vive. Lorsque la taille de la base augmente, le véritable goulot d’étranglement est donc la mémoire disponible sur notre machine.

Mots clés : règles d’association
Composants : A PRIORI, A PRIORI PT
Lien : fr_Tanagra_Assoc_Rules_Comparison.pdf
Données : credit-german.zip
Références :
R. Rakotomalala, « Règles d’association »

jeudi 6 novembre 2008

Validation croisée - Comparaison de logiciels (suite)

Ce didacticiel reprend un de nos anciens articles consacrés à la mise en œuvre de la validation croisée pour l’évaluation des performances des arbres de décision (voir Arbres de décision avec Orange, Tanagra et Weka). Nous comparions la démarche à suivre et la lecture des résultats pour Tanagra, Orange et Weka.

Dans ce document, nous étendons le descriptif aux logiciels R 2.7.2, Knime 1.3.51 et RapidMiner Community Edition.

Les objectifs et le cheminement sont les mêmes. Le lecteur peut se reporter à notre précédent didacticiel s’il souhaite avoir des précisions sur ces éléments. Nous utilisons le fichier HEART.TXT (UCI). L’objectif est de prédire l’occurrence des maladies cardio-vasculaires (COEUR). Le fichier a été nettoyé, le nombre de descripteurs a été réduit (12 variables prédictives), il en est de même pour les observations (270 individus).

Mots clés : apprentissage supervisé, arbres de décision, évaluation des classifieurs, méthode de ré échantillonnage, validation croisée, RapidMiner, Knime, logiciel R, package rpart
Lien : fr_Tanagra_Validation_Croisee_Suite.pdf
Données : heart.zip
Références :
R. Rakotomalala, "Estimation de l'erreur de prédiction - Les techniques de ré échantillonnage"
R. Rakotomalala, " Arbres de décision ", Revue Modulad, 33, 163-187, 2005 (tutoriel_arbre_revue_modulad_33.pdf)
UCI Machine Learning Repository, "Heart Disease Data set"

jeudi 30 octobre 2008

Classification automatique - Déploiement de modèles

Le déploiement est une étape importante du Data Mining. Dans le cas d'une typologie, il s'agit, après la construction des classes à l'aide d'un algorithme de classification automatique, d'affecter les individus supplémentaires aux groupes.

Cette phase de catégorisation vient naturellement après le processus de modélisation. La construction et l'interprétation des groupes nous permettent de dégager des caractéristiques et des comportements types. Lorsque apparaît un nouvel individu (un nouveau client pour une banque, un nouveau patient pour un centre hospitalier, etc.), le positionner par rapport aux groupes permet d'anticiper sur son attitude.

Mais le traitement des individus supplémentaires peut aussi servir à renforcer les résultats. Lorsqu'une sous population est connue pour son comportement atypique, la classer par rapport aux groupes construits sur le reste de la population renforce à la fois l'interprétation des groupes et la connaissance que l'on peut avoir des ces " niches " d'observations. On parle plus volontiers d'individus illustratifs dans ce cas.

Dans ce didacticiel, nous construisons tout d'abord les groupes à l'aide de la méthode des K-Means (méthode des centres mobiles). Puis, nous associons chaque individu supplémentaire à la classe qui lui est la plus proche au sens de la distance aux centres de classes. La méthode est viable car la technique utilisée pour classer l'individu supplémentaire est en accord avec la démarche de constitution des groupes lors de l'apprentissage. Ce n'est pas toujours bien compris. Si nous avions utilisé une classification ascendante hiérarchique avec la méthode du saut minimum, classer un nouvel individu à partir de la distance aux centres de classes n'est pas approprié. La stratégie d'affectation doit être en adéquation avec la stratégie d'agrégation.

Notre fichier est composé exclusivement de variables qualitatives. Nous devons donc passer par une phase préalable de préparation des variables (voir aussi K-Means sur variables qualitatives).

Nous utilisons Tanagra 1.4.28 et R 2.7.2 (avec le package FactoMineR pour l'analyse des correspondances multiples). Dans ce didacticiel, nos objectifs sont : (1) montrer comment réaliser ce type de tâche avec ces deux logiciels ; (2) comparer les résultats ; (3) en détaillant les commandes dans R, nous donnons une meilleure visibilité sur les calculs réalisés par Tanagra.

Mots clés : clustering, classification automatique, typologie, k-means, méthode des centres mobiles, méthode des nuées dynamiques, ACM, AFCM, analyse factorielle des correspondances multiples, interprétation des classes, tableau de contingence, déploiement de modèles, classement d’individus supplémentaires, exportation des résultats
Composants : MULTIPLE CORRESPONDENCE ANALYSIS, K-MEANS, GROUP CHARACTERIZATION, CONTINGENCY CHI-SQUARE, EXPORT DATASET
Lien : fr_Tanagra_KMeans_Deploiement.pdf
Données : banque_classif_deploiement.zip
Références :
Wikipedia (en), « K-Means algorithm ».
F. Husson, S. Lê, J. Josse, J. Mazet, « FactoMineR – A package dedicated to Factor Analysis and Data Mining with R ».

dimanche 26 octobre 2008

K-Means – Comparaison de logiciels

La méthode des K-Means (méthode des centres mobiles) est une technique de classification automatique (clustering en anglais). Elle vise à produire un regroupement de manière à ce que les individus du même groupe soient semblables, les individus dans des groupes différents soient dissemblables.

Nous l’avons déjà décrite (faire recherche sur le mot clé k-means ou voir la section classification-clustering) par ailleurs. Notre idée dans ce didacticiel est de montrer sa mise en oeuvre dans différents logiciels libres de Data Mining. Nous souhaitons utiliser la démarche suivante :

  • Importer les données ;
  • Réaliser quelques statistiques descriptives sur les variables actives ;
  • Centrer et réduire les variables ;
  • Réaliser la classification automatique via les K-Means sur les variables transformées, en décidant nous même du nombre de classes ;
  • Visualiser les données avec la nouvelle colonne représentant la classe d’appartenance des individus ;
  • Illustrer les classes à l’aide des variables actives, via des statistiques descriptives comparatives et des graphiques judicieusement choisis ;
  • Croiser la partition obtenue avec une variable catégorielle illustrative ;
  • Exporter les données, avec la colonne additionnelle, dans un fichier.

Ces étapes sont usuelles lors de la construction d’une typologie. L’intérêt de ce didacticiel est de montrer qu’elles sont pour la plupart, sous des formes parfois diverses certes, réalisables avec les logiciels libres de Data Mining. Il faut simplement trouver les bons composants et le bon enchaînement.

Nous étudierons les logiciels suivants : Tanagra 1.4.28 ; R 2.7.2 (sans package additionnel spécifique) ; Knime 1.3.5 ; Orange 1.0b2 et RapidMiner Community Edition.

Nous utilisons la méthode des centres mobiles dans ce tutoriel. Il est possible de suivre la même démarche globale en lui substituant n’importer quelle autre technique de classification automatique (la classification ascendante hiérarchique, les cartes de Kohonen, etc.).

Bien évidemment, je ne peux prétendre maîtriser complètement les différents logiciels. Il se peut que des fonctionnalités m’échappent pour certains d’entre eux. Il faut surtout voir les grandes lignes et le parallèle entre les outils, les experts pourront compléter les opérations à leur guise.

Mots clés : clustering, classification automatique, typologie, k-means, méthode des centres mobiles, méthode des nuées dynamiques, ACP, interprétation des classes
Composants : PRINCIPAL COMPONENT ANALYSIS, K-MEANS, GROUP CHARACTERIZATION, EXPORT DATASET
Lien : fr_Tanagra_et_les_autres_KMeans.pdf
Données : cars_dataset.zip
Références :
Wikipedia (en), « K-Means algorithm ».

mardi 14 octobre 2008

Traitement de gros volumes – CAH Mixte

La CAH (classification ascendante hiérarchique) est une technique de classification automatique (clustering en anglais). Elle vise à produire un regroupement des individus de manière à ce que les individus du même groupe soient semblables, des individus dans des groupes différents soient dissemblables.

Le succès de la CAH repose sur sa capacité à produire des partitions emboîtées. Au lieu de fournir une solution clé en main, irréversible, elle donne la possibilité de choisir, parmi les regroupements proposés, celui qui correspond au mieux aux contraintes de l’étude et aux objectifs de l’analyste. Cet avantage s’accompagne d’une représentation graphique, le dendrogramme. Il nous suggère, dans le continuum des solutions envisageables, celles qui semblent les plus pertinentes.

Son principal défaut est le temps de calcul. Il devient vite rédhibitoire dès que le nombre d’observations est élevé. Pour dépasser cet écueil, on procède alors à la CAH Mixte. Elle consiste à faire précéder la CAH proprement dite par une phase de pré-regroupement, en utilisant un algorithme des nuées dynamiques par exemple, la CAH prend alors comme point de départ ces pré-classes. De fait, avec cette stratégie, il devient possible de traiter de très grands fichiers tout en bénéficiant des avantages de la CAH.

Cette approche a déjà été largement abordée dans un de nos anciens didacticiels (voir CAH Mixte – Le fichier IRIS de Fisher). La méthode est par ailleurs longuement décrite dans l’ouvrage de Lebart et al. (2000). Conformément à ce qui est préconisé par les auteurs, nous réalisons la classification sur les axes factoriels de l’ACP (analyse en composantes principales). L’idée est de « lisser » les informations exploitées en évacuant les fluctuations aléatoires.

L’enjeu dans ce didacticiel est de mettre en œuvre cette stratégie sur un fichier de taille relativement considérable, avec 500.000 observations et 68 variables. Nous utiliserons Tanagra 1.4.27 et R 2.7.2. Nous nous en tenons à ces deux logiciels. En effet, il n’est pas possible d’implémenter la CAH Mixte avec les autres logiciels libres (Weka, Orange, Knime, Rapidminer). Et lancer directement la CAH standard sur un tel fichier n’est pas raisonnable.

Mots clés : clustering, classification automatique, typologie, CAH, k-means, nuées dynamiques, ACP, classification sur facteurs
Composants : PRINCIPAL COMPONENT ANALYSIS, K-MEANS, HAC, GROUP CHARACTERIZATION, EXPORT DATASET
Lien : fr_Tanagra_CAH_Mixte_Gros_Volumes.pdf
Données : sample-census.zip
Références :
L. Lebart, A. Morineau, M. Piron, « Statistique Exploratoire Multidimensionnelle », Dunod, 2000 ; chapitre 2, sections 2.3 et 2.4.

mardi 7 octobre 2008

Régression logistique - Comparaison de logiciels

La régression logistique est une technique prédictive, très populaire dans la communauté statistique. Je ne sais pas si elle est très utilisée parce que très enseignée, ou très enseignée parce que largement utilisée. En tous les cas, on ne peut pas passer à côté si on s’intéresse un tant soit peu au Scoring c.-à-d. aux configurations où l’on souhaite prédire ou expliquer les valeurs d’une variable discrète (nominale ou ordinale) à partir d’une série de descripteurs (de type quelconque).

Les raisons de cet engouement sont nombreuses. La régression logistique s’intègre dans un cadre théorique parfaitement identifié, celui de la régression linéaire généralisée. C’est une technique semi paramétrique. Son champ d’application est large. Par rapport aux techniques issues de l’apprentissage automatique, elle intègre les outils de la statistique inférentielle. Enfin, autre atout fort, la lecture des coefficients sous forme de surcroît de risque (les fameux « odds ratio ») donne aux utilisateurs un outil de choix pour comprendre l’essence de la relation entre les descripteurs et la variable à prédire.

La régression logistique est implémentée dans tous les logiciels de statistique commerciaux. Elle est plus rare en revanche dans les logiciels libres. En partie parce que la méthode est peu connue des informaticiens, ceux qui sont les plus enclins à programmer des outils. La situation change quand même un peu maintenant. Avec le label « data mining », il y a un certain brassage des cultures. On peut parler de « faire une régression » sans que certaines personnes ne s’imaginent que vous êtes en train de retomber en enfance.

Dans ce didacticiel, nous comparons la mise en œuvre de la régression logistique à l’aide de quelques logiciels libres : Tanagra 1.4.27, bien sûr, puisque je travaille dessus ; R 2.7.2 (procédure GLM), qui est incontournable dès que l’on souhaite utiliser des techniques d’obédience statistique ; Orange 1.0b2, qui l’intègre dans sa panoplie ; Weka 3.5.6, qui l’aborde exclusivement sous l’angle de l’optimisation, en faisant l’impasse sur la partie inférentielle ; et enfin, toujours Weka mais via le package RWeka 0.3-13 pour le logiciel R.

Au delà de la comparaison, ce didacticiel est aussi l’occasion de montrer la démarche à suivre pour réaliser la succession d’opérations suivantes sur ces différents logiciels : importer un fichier au format ARFF ; fractionner les données en apprentissage et test ; lancer la modélisation sur la fraction apprentissage ; évaluer les performances sur la partie test ; procéder à une sélection de variables en accord avec la régression logistique (et non pas basé sur des critères qui n’ont aucun rapport avec l’approche) ; évaluer de nouveau les performances du modèle simplifié.

Mots clés : régression logistique, scoring, apprentissage supervisé
Composants : BINARY LOGISTIC REGRESSION, SUPERVISED LEARNING, TEST, DISCRETE SELECT EXAMPLES
Lien : fr_Tanagra_Perfs_Reg_Logistique.pdf
Données : wave_2_classes_with_irrelevant_attributes.zip
Références :
Wikipédia (fr), « Régression logistique »

vendredi 3 octobre 2008

SVM - Comparaison de logiciels

Les machines à vecteurs de support (ou séparateur à vaste marge) sont des techniques d’apprentissage supervisé qui s’appuient sur deux idées fortes : (1) le principe de la maximisation de la marge ; (2) lorsque les données ne sont pas linéairement séparables, il est possible, par le principe des noyaux, de se projeter dans un espace de plus grande dimension pour trouver la solution adéquate, sans avoir à former explicitement ce nouvel espace de représentation.

Nous nous plaçons dans un cadre particulièrement favorable aux SVM dans ce didacticiel. Nous souhaitons prédire la famille d’appartenance de séquences de protéines à partir de la présence - absence de suites de 4 acides aminées (4-grams). Nous traitons un problème à 2 classes, nous disposons de 135 observations et 31809 descripteurs. Notre objectif est de comparer le comportement de quelques implémentations libres des SVM. Ce document vient en complément d’autres comparaisons que nous avons réalisés dans des contextes différents.

Ce comparatif est intéressant à plus d’un titre. Tout d’abord, nous aurons la possibilité d’évaluer les différentes implémentations des SVM, tant en temps de calcul qu’en qualité de prédiction. L’optimisation reposant sur des heuristiques, il est normal que les temps de calcul soient différents, mais il se peut également que les performances en classement qui en résultent ne soient pas identiques. Pouvoir les situer est une démarche importante. Dans les publications utilisant les SVM, on devrait non seulement dire « nous avons utilisé les SVM, avec tel noyau », mais aussi préciser « quelle implémentation des SVM », tant parfois les résultats peuvent diverger d’un logiciel à l’autre.

Autre point important. A y regarder de plus près, nous sommes également confrontés à un problème de volumétrie ici. Même si le nombre d’observations est faible, le nombre de variables, lui, est élevé. Or, les logiciels évalués chargent la totalité des données en mémoire vive. De nouveau la mémoire disponible devient un goulot d’étranglement.

Les logiciels évalués dans ce didacticiel sont : ORANGE, RAPIDMINER, TANAGRA et WEKA.

Mots clés : svm, support vector machine, séparateur à vaste marge, machine à vecteurs de support
Composants : C-SVC, SVM, SUPERVISED LEARNING, CROSS-VALIDATION
Lien : fr_Tanagra_Perfs_Comp_SVM.pdf
Données : wide_protein_classification.zipRéférences :
Ricco Rakotomalala, "Support Vector Machine - Diapos", mai 2016.
Wikipédia (en), « Support vector machine »

dimanche 21 septembre 2008

Traitement de gros volumes – Comparaison de logiciels

La gestion de la volumétrie est une des pierres angulaires du Data Mining. Toute présentation du domaine passe par le sempiternel « depuis quelques années, les entreprises amassent une quantité considérable de données, l’enjeu n’est plus comment les stocker mais plutôt comment les exploiter pour en tirer de l’information », etc., etc. Ok, ok, n’en jetez plus, on est d’accord.

Si le traitement des grandes bases est un enjeu important, on est curieux de savoir comment se comportent les logiciels libres (gratuits) dans ce contexte. Ils sont nombreux dans le Data Mining. J’essaie de suivre un peu leur évolution. La capacité à analyser des grands fichiers est un critère que je regarde souvent pour situer mes propres implémentations. La plupart chargent l’ensemble de données en mémoire centrale. De fait, la différenciation en termes de performances repose essentiellement sur la technologie utilisée (compilé ou pseudo-compilé) et la programmation. Le goulot d’étranglement est la mémoire disponible.

Dans ce didacticiel, nous comparons les performances de plusieurs implémentations de l’algorithme C4.5 (Quinlan, 1993) lors du traitement d’un fichier comportant 500.000 observations et 22 variables. Un fichier somme toute assez raisonnable.

Les logiciels mis en compétition sont les suivants : KNIME, ORANGE, R (package RPART), RAPIDMINER (anciennement YALE), SIPINA, TANAGRA et WEKA.

Ce document vient un complément d’un ancien didacticiel où nous montrions les performances de ID3 de Tanagra sur un fichier encore plus volumineux. Nous retiendrons 2 critères pour comparer les logiciels : le temps de traitement et surtout l’occupation mémoire. Ils sont essentiels dans notre contexte.

On retiendra entre autres que tous les logiciels ont pu mener à bien les calculs dans cette expérimentation. Ce qui confirme, si besoin était, l’excellente tenue des logiciels libres en matière de performances.

Mots clés : c4.5, arbres de décision, grandes bases de données, comparaison de logiciels, knime, orange, r, rapidminer, sipina, tanagra, weka
Composants : SUPERVISED LEARNING, C4.5
Lien : fr_Tanagra_Perfs_Comp_Decision_Tree.pdf
Données : wave500k.zip
Références :
R. Quinlan, « C4.5 : Programs for Machine Learning », Morgan Kaufman, 1993.

vendredi 19 septembre 2008

Tanagra : Spécifications, Développement, Promotion

Un séminaire au sein de l'UMR Sensométrie et Chimiométrie (ENITIAA/INRA) à Nantes en avril 2008 a été l'occasion de faire un peu le bilan du projet Tanagra, 5 ans presque après son lancement.

L'objectif était de tracer les grandes lignes du projet en mettant en avant les différentes réflexions que nous avons eu à mener, les pistes qui ont permis d'élaborer un cahier des charges raisonnable.

Il fallait notamment : essayer de cerner les utilisateurs types ; définir les spécifications fonctionnelles, en nous situant par rapport aux outils que nous avions programmés auparavant et les logiciels existants ; définir les spécifications techniques, de manière entre autres à ce que la mise à jour ne devienne pas un parcours du combattant ; choisir le mode de documentation du logiciel, aspect crucial dès lors que l'on souhaite le diffuser à grande échelle, j'ai beaucoup pêché sur le sujet par le passé ; et enfin, poser la question de la promotion du logiciel auprès des utilisateurs. En effet, il s'agit d'un outil totalement libre, c'est entendu. Mais si je suis le seul à l'utiliser, l'intérêt est plutôt limité. Je pense que la documentation joue un rôle très important dans ce domaine.

C'est donc le support visuel de l'exposé qui est mis en ligne ici. Quelques transparents ont été réactualisés pour refléter les chiffres de la version 1.4.27 (fin août 2008).

Lien : R. Rakotomalala, "Tanagra : Spécifications, Développement et Promotion", Séminaire USC, ENITIAA/INRA, Nantes, Avril 2008.

mercredi 17 septembre 2008

La méthode CART dans Tanagra et R (package rpart)

CART (Breiman et al, 1984) est une méthode très populaire d’induction d’arbres de décision, peut-être la plus répandue, tout du moins au sein de la communauté francophone du Data Mining. A juste titre. CART intègre tous les bons ingrédients d’un apprentissage maîtrisé : arbitrage biais – variance via avec le post-élagage, le mécanisme de coût complexité permet de « lisser » l’exploration de l’espace des solutions, intégration de la préférence à la simplicité avec la règle de l’écart type, préférence que le praticien peut modifier en modulant les paramètres en fonction des objectifs de l’étude et des caractéristiques des données, etc.

La Société Salford Systems détient les droits d’utilisation du nom CART. De fait, même si la méthode est implantée dans de nombreux logiciels commerciaux, elle n’est jamais désignée nommément. Que cela ne nous induise pas en erreur, une lecture rapide de la documentation ne laisse généralement aucun doute quant à l’origine de la technique.

La situation est un peu différente en ce qui concerne les logiciels libres. Ils sont nettement plus rares à proposer CART, une grande majorité d’entre eux lui préférant ID3 ou C4.5, nettement plus faciles à programmer au demeurant.

Dans ce didacticiel, nous comparons deux implémentations libres de CART : le composant C-RT de Tanagra et le package RPART du Logiciel R. A la lecture de la documentation, ils s’appuient tous les deux sur les mêmes schémas génériques (Breiman et al, 1984 ; chapitres 3, 10 et 11). La principale différence apparaît lors du post-élagage. Tanagra ne propose que le post élagage basé sur un échantillon spécifique dit « échantillon d’élagage » (section 11.4). RPART lui s’appuie plus volontiers sur la validation croisée (section 11.5), bien qu’il soit possible d’utiliser également un échantillon d’élagage, au prix de manipulations (un peu beaucoup) compliquées il est vrai.

Pour mener la comparaison, nous utilisons les données artificielles WAVEFORM de Breiman (section 2.6.2). La variable à prédire (CLASS) comporte 3 modalités, les 21 variables prédictives (V1 à V21) sont toutes continues. Nous essayons de reproduire l’expérimentation décrite dans l’ouvrage de référence (pages 49 et 50), à savoir utiliser 300 individus en apprentissage et 5000 en test.

Mots clés : arbres de décision, méthode cart, apprentissage supervisé, comparaison de logiciels, logiciel R, package rpart
Composants : DISCRETE SELECT EXAMPLES, C-RT, SUPERVISED LEARNING, TEST
Lien : fr_Tanagra_R_CART_algorithm.pdf
Données : wave5300.xls
Références :
Breiman, J. Friedman, R. Olsen, C. Stone, Classification and Regression Trees, Chapman & Hall, 1984.
"The R project for Statistical Computing" - http://www.r-project.org/

lundi 15 septembre 2008

La méthode SIPINA

SIPINA est un logiciel. Mais c'est aussi une méthode d'apprentissage. Elle généralise les arbres en introduisant une opération supplémentaire, la fusion, lors de l'induction du modèle de prédiction. On parle de " Graphes d'Induction ".

L'idée de fusion des sommets existe déjà dans des méthodes telles que CART ou CHAID. Mais dans ce cas, il s'agit de procéder au regroupement des feuilles issues du même nœud père lors d'une segmentation. Pour une variable explicative discrète comportant K modalités, CART effectue des regroupements de manière à proposer 2 super modalités, l'arbre est binaire ; CHAID effectue un regroupement sélectif en comparant les profils des distributions, il y a bien regroupement mais l'arbre n'est pas forcément binaire. SIPINA généralise cette idée en permettant le regroupement de 2 feuilles quelconques de la structure. La fusion peut donc s'appliquer à deux feuilles géographiquement éloignées dans le graphe.

Schématiquement, à chaque étape du processus de construction du graphe, la méthode évalue et met en compétition la segmentation d'un nœud et la fusion de deux nœuds. Elle choisit l'opération qui améliore la mesure d'évaluation globale de la partition. Cela est possible car le critère pénalise les nœuds à faibles effectifs. Dans certaines situations, il peut être avantageux de fusionner des sommets avant de segmenter à nouveau. L'objectif est d'explorer plus finement des sous-groupes d'individus, sans tomber dans un des inconvénients récurrents des arbres de décision, la tendance au sur-apprentissage consécutive à l'éparpillement excessif des observations.

La méthode SIPINA n'est disponible que dans la version 2.5 du logiciel (SIPINA version 2.5). Ce dernier concentre bien des défauts. Mais c'est néanmoins le seul logiciel à proposer la méthode SIPINA telle qu'elle est décrite dans la littérature (voir Références). C'est la raison pour laquelle je le mets encore en ligne d'ailleurs. Sinon, si l'on veut utiliser d'autres algorithmes d'induction d'arbres (C4.5, CHAID, etc.), il est préférable de se tourner vers la " Version Recherche " , nettement plus performante et fiable.

Dans ce didacticiel, nous montrons la mise en œuvre de la méthode SIPINA dans le logiciel éponyme, version 2.5. Le problème traité est l'explication du faible poids de certains bébés à la naissance à partir des caractéristiques de la mère. L'interprétation des résultats est anecdotique dans notre contexte. On cherche surtout (1) à montrer la prise en main de cette version du logiciel qui est très peu documentée, (2) à mettre en avant les avantages de la méthode lorsque l'on traite des fichiers comportant peu d'observations.

Mots clés : arbres de décision, graphes d'induction
Lien : fr_sipina_method.pdf
Données : low_birth_weight_v4.xls
Références
Zighed, J.P. Auray, G. Duru, SIPINA : Méthode et logiciel, Lacassagne, 1992.
R. Rakotomalala, Graphes d’induction, Thèse de Doctorat, Université Lyon 1, 1997 (URL : http://eric.univ-lyon2.fr/~ricco/publications.html).
D. Zighed, R. Rakotomalala, Graphes d’induction : Apprentissage et Data Mining, Hermès, 2000.

samedi 30 août 2008

Comparaison des dispersions pour K échantillons indépendants

Les tests de comparaison de variances sont souvent présentés comme des préalables aux tests de comparaisons de moyennes, pour s’assurer de l’hypothèse d’homoscédasticité. Mais ce n’est pas leur seule finalité. Comparer les dispersions peut être une fin en soi.

Les tests paramétriques reposent principalement sur la normalité des données. Nous mettons en avant le test de Levene dans ce didacticiel. D’autres tests existent, nous les signalerons dans le texte.

Lorsque l’hypothèse de normalité est battue en brèche, lorsque les effectifs sont faibles, lorsque la variable est plus ordinale que continue, on a intérêt à passer aux tests non paramétriques. On parle alors de comparaison d’échelles ou de dispersions. En effet les procédures ne reposent plus sur les variances estimées. Nous utiliserons dans ce didacticiel les techniques les plus connues tels que le test de Ansari-Bradley, le test de Mood ou le test de Klotz. Ils ont un champ d’application plus large puisque non paramétriques. Ils présentent en revanche un inconvénient fort, ils sont inapplicables dès que les caractéristiques de tendance centrale conditionnelles (on dira la médiane pour simplifier) sont différentes.

Nous montrons la mise en œuvre de ces différents tests dans TANAGRA. Nous inspecterons et confronterons les résultats. Nous essayerons d’apporter des solutions lorsque les conditions d’utilisation des tests ne sont pas respectées.

Les données décrivent les performances de dispositifs de chauffage écologique. La variable d’intérêt est la température à l’intérieur d’une cabane au petit matin de l’automne, au fin fond de la forêt, lorsque le loup n’est pas rentré dans sa tanière encore. Nous disposons de n = 45 observations. Un premier groupe de n1 = 15 cabanes sert de témoin. Aucun système n’a été mis en place. Deux autres groupes (n2 = 15 et n3 = 15) sont constitués : l’un bénéficie d’un système basé sur un réchauffement naturel de l’air, l’autre s’appuie sur le réchauffement de l’eau. On cherche à comparer la disparité des températures d’un groupe à l’autre.

Les aspects théoriques relatifs à ce didacticiel sont décrits dans des supports de cours accessibles en ligne (voir références). D'autres tutoriels sont consacrés à la comparaison de variances (voir Comparaison de populations - Tests paramétriques univariés ; Analyse de variance et comparaison de variances ; etc.)

Mots clés : tests paramétriques, tests non paramétriques, échantillons indépendants, test de comparaison de variances, test de comparaison de dispersions ou d’échelles, test de Levene, test de Bartlett, test de Brown-Forsythe, test de Mood, test de Klotz, test de Ansari-Bradley
Composants : LEVENE’S TEST, ANSARI-BRADLEY SCALE TEST, MOOD SCALE TEST, KLOTZ SCALE TEST
Lien : fr_Tanagra_Nonparametric_Test_for_Scale_Differences.pdf
Données : tests_for_scale_differences.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests non paramétriques », Université Lyon 2.
R. Rakotomalala, « Comparaison de populations. Tests paramétriques », Université Lyon 2.

vendredi 29 août 2008

Tests de comparaison pour 2 échantillons appariés

L’appariement est une procédure qui vise à réduire l’effet des fluctuations d’échantillonnage c.-à-d. la variabilité due aux observations. Nous pouvons l’associer à différentes configurations.

Le schéma des « mesures répétés » est le premier qui vient à l’esprit. Il s’agit de mesurer la même grandeur chez un même individu, avant et après intervention d’une action dont on veut justement évaluer les conséquences. Par exemple, on mesure la fièvre chez un malade, on lui donne un médicament, après un certain laps de temps, on lui prend de nouveau sa température : les deux mesures sont confrontées.

L’appariement peut être aussi le fruit de la constitution des données en blocs. Si l’on souhaite comparer l’efficacité de 2 méthodes d’enseignement, les mesures répétées sont inappropriées. Dans les paires d’observations, que l’on appelle « blocs », nous associerons alors des élèves identiques par rapport aux caractéristiques de l’étude. Par exemple, on met dans chaque paire des élèves qui, par le passé, ont obtenu des résultats identiques aux examens.

Enfin, l’appariement peut être tout simplement inhérent à la situation que l’on cherche à analyser. Par exemple, on cherche à comparer le temps passé devant la télévision par l’homme et la femme à l’intérieur d’un couple. Les blocs correspondent naturellement aux ménages. Les hommes et les femmes ne doivent pas être considérés comme des observations indépendantes.

Les tests de comparaisons spécifiques à ce type de configuration présentent une caractéristique particulière : l’appréciation des différences est réalisée prioritairement à l’intérieur des blocs. Dans ce didacticiel, nous présentons deux techniques non paramétriques, le test des signes et le test des rangs signés de Wilcoxon, et une technique paramétrique, le test de Student pour échantillons appariés.

Les données proviennent du site de cours en ligne du Pr Richard Lowry du « Vassar College ». Nous traitons l’exemple utilisé pour illustrer le test des rangs signes de Wilcoxon. On a posé deux questions, QA et QB, à des étudiants, du type « quelle est la probabilité que… ». On cherche à savoir si les valeurs de QA sont stochastiquement différentes de celles de QB. Le principe, les formules et les calculs spécifiques à ces données sont détaillés sur le site web. Nous pouvons suivre à la trace les résultats fournis par TANAGRA.

Les aspects théoriques relatifs à ce didacticiel sont décrits dans des supports de cours accessibles en ligne (voir références). D'autres tutoriels abordent également le sujet de la comparaison sur échantillons apapriés (voir Tests paramétriques univariés, Tests non paramétriques, etc.)

Mots clés : tests non paramétriques, échantillons appariés, test des signes, test des rangs signés de Wilcoxon, test de Student pour échantillons appariés, test de normalité
Composants : SIGN TEST, WILCOXON SIGNED RANK TEST, PAIRED T-TEST, FORMULA, NORMALITY TEST
Lien : fr_Tanagra_Nonparametric_Test_for_Two_Related_Samples.pdf
Données : comparison_2_related_samples.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests non paramétriques », Université Lyon 2.
R. Rakotomalala, « Comparaison de populations. Tests paramétriques », Université Lyon 2.
R. Lowry, « Concepts and Applications of Inferential Statistics », SubChapter 12a. The Wilcoxon Signed-Rank Test.

jeudi 28 août 2008

Test de Kruskal-Wallis et comparaisons multiples

Les tests de comparaison de populations visent à déterminer si (K >= 2) échantillons proviennent de la même population au regard d’une variable d’intérêt (X). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

Les tests non paramétriques lorsque l’on ne fait pas d’hypothèse sur la distribution de X, on parle aussi de tests « distribution free ».

Dans ce didacticiel, nous nous intéressons plus particulièrement à la configuration où la variable d’intérêt prend stochastiquement des valeurs plus élevées (ou plus faibles, ou simplement différentes) dans une des sous populations. On suppose que la différenciation se fait sur un décalage entre les caractéristiques de tendance centrale des distributions conditionnelles. On parle de modèle de localisation. Le test de Kruskal-Wallis est certainement celui qui vient immédiatement à l’esprit pour traiter ce type de problèmes. Nous verrons dans ce didacticiel que d’autres tests existent. Nous comparerons les résultats obtenus. Nous complèterons l’étude en procédant à des comparaisons multiples, on souhaite détecter les groupes qui diffèrent significativement les uns des autres.

Les données proviennent du site de cours en ligne du Pr Richard Lowry du « Vassar College ». Nous traitons l’exemple utilisé pour illustrer le test de Kruskal-Wallis. On a demandé à n = 21 personnes d’évaluer 3 types de vins (A, B et C) : n1 = 8 ont noté le premier type de vin 1, n2 = 7 pour le second et, n3 = 6 pour le troisième. On souhaite savoir si les notes attribuées sont significativement différentes d’un groupe à l’autre.

Il y a une grosse feinte dans l’expérimentation. En réalité, le vin est exactement le même quel que soit le groupe. C’est l’entretien d’évaluation, débouchant sur l’attribution de la note, qui a été mené de différentes manières. Il est enthousiaste pour le groupe A, un peu moins dans le groupe B, il est neutre dans le groupe C.

La variable d’intérêt est RATING. Elle va de 1 à 10, meilleure sera l’appréciation, plus élevée sera la note. Un complément intéressant de ce tutoriel serait d’étudier le comportement des méthodes paramétriques (ANOVA à 1 Facteur et WELCH ANOVA) sur ces mêmes données.

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (voir références).

Mots clés : tests non paramétriques, test de Kruskal-Wallis, test de Van der Waerden, test de Fisher-Yates-Terry-Hoeffding, test des médianes, modèle de localisation
Composants : KRUSKAL-WALLIS 1-WAY ANOVA, MEDIAN TEST, VAN DER WAERDEN 1-WAY ANOVA, FYTH 1-WAY ANOVA
Lien : fr_Tanagra_Nonparametric_Test_KW_and_related.pdf
Données : wine_evaluation_nonparametric.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests non paramétriques », Université Lyon 2.
R. Lowry, « Concepts and Applications of Inferential Statistics », SubChapter 14a. The Kruskal-Wallis Test for 3 or More Independent Samples.

mercredi 27 août 2008

Tests non paramétriques de comparaison de 2 populations. Modèle de localisation.

Les tests de comparaison de populations visent à déterminer si (K >= 2) échantillons proviennent de la même population au regard d’une variable d’intérêt (X). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

Les tests non paramétriques lorsque l’on ne fait pas d’hypothèse sur la distribution de X, on parle aussi de tests « distribution free ».

De manière générique, le test de Kolmogorov-Smirnov consiste à comparer les fonctions de répartition empiriques (CDF : cumulative distribution function, en anglais). Dans ce cas, on cherche toute forme de différenciation entre les distributions.

On peut approfondir l’analyse en qualifiant la forme de la différenciation. Une approche très usitée consiste à déterminer si les valeurs de la variable d’intérêt sont stochastiquement plus élevés (plus faibles, ou tout simplement différents) dans un des sous échantillons. Le test de Wilcoxon-Mann-Whitney est certainement la technique la plus populaire, nous verrons dans ce didacticiel que d’autres tests non paramétriques peuvent être utilisés.

Les données proviennent du site de cours en ligne de l’Université Penn State de Pennsylvanie « STAT 500 – Applied Statistics ». Nous nous intéressons à la leçon n°10 qui traite de la comparaison de moyennes. Il s’agit d’évaluer les performances de 2 machines, une ancienne et une nouvelle, lors de l’empaquetage de cartons. La variable d’intérêt est la durée de l’opération.

Les données semblent compatibles avec une distribution normale, les tests paramétriques sont à privilégier dans ce cas. Le site d’ailleurs détaille les résultats du test de Student de comparaison de moyenne. La statistique du test est t = -3.40, l’écart est très significatif avec une probabilité critique (p-value) p = 0.0032 pour un test bilatéral.

Un aspect intéressant de ce tutoriel sera d’étudier le comportement les tests non paramétriques sur ces données, et de confronter les résultats avec celui du test de Student.

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (voir références).

Mots clés : tests non paramétriques, test de Kolmogorov-Smirnov, test de Wilcoxon-Mann-Whitney, test de Van der Waerden, test de Fisher-Yates-Terry-Hoeffding, test de la médiane, modèle de localisation
Composants : FYTH 1-WAY ANOVA, K-S 2-SAMPLE TEST, MANN-WHITNEY COMPARISON, MEDIAN TEST, VAN DER WAERDEN 1-WAY ANOVA
Lien : fr_Tanagra_Nonparametric_Test_MW_and_related.pdf
Données : machine_packs_cartons.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests non paramétriques », Université Lyon 2.
Wikipedia, « Non-parametric statistics ».

samedi 23 août 2008

Comparaison de populations – Tests non paramétriques

Les tests de comparaison de populations visent à déterminer si K (K >= 2) échantillons proviennent de la même population au regard d’une variable d’intérêt (X). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

Les tests non paramétriques présentent la particularité de ne pas faire d’hypothèses sur la distribution de X. On parle de tests « distribution free ». Leur champ d’application est donc théoriquement plus étendu que celui de leurs homologues paramétriques.

Ce document n’est pas à proprement parler un tutoriel. Il s’agit plutôt d’un fascicule de cours. Nous l’intégrons à ce site néanmoins car il intègre un grand nombre de sorties de Tanagra décortiquées en détail et mises en relation directe avec les formules sous-jacentes. Les productions de Tanagra sont également comparées avec celles des autres logiciels, libres (R) ou commerciaux (SAS).

Plusieurs didacticiels sur ce site traitent les thèmes abordés dans ce document (par ex. Analyse de variance de Friedman, Tests non paramétriques, etc.). Il serait intéressant de comparer les résultats produits par ces tests avec ceux des tests paramétriques équivalents.

Mots clés : tests non paramétriques, test de Kolmogorov-Smirnov, test de Kuiper, test de Cramer-von Mises, test de Wilcoxon-Mann-Whitney, test de Van der Waerden, test de Fisher-Yates-Terry-Hoeffding, test de la médiane, test de Kruskal-Wallis, modèle de localisation, test de Mood, test de Klotz, test de Ansari-Bradley, modèle d’échelle, test des signes, test de rangs signés de Wilcoxon, anova de Friedman, test Q de Cochran
Composants : ANSARI-BRADLEY SCALE TEST, CONCHRAN’S Q-TEST, FRIEDMAN’S ANOVA BY RANKS, FYTH 1-WAY ANOVA, KLOTZ SCALE TEST, KRUSKAL-WALLIS 1-WAY ANOVA, K-S 2-SAMPLE TEST, MANN-WHITNEY COMPARISON, MEDIAN TEST, MOOD SCALE TEST, SIGN TEST, VAN DER WAERDEN 1-WAY ANOVA, WILCOXON SIGNED RANKS TEST
Lien : Comparaison de populations - Tests non paramétriques
Données : dataset_support_tests_non_parametriques.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests non paramétriques », Université Lyon 2.
Wikipedia, « Non-parametric statistics ».

mardi 22 juillet 2008

Comparaison de populations - Tests paramétriques multivariés

Les tests de comparaison de populations visent à déterminer si K (K >= 2) échantillons proviennent de la même population au regard d’une groupe de variables d’intérêt (X1,…,Xp). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

On parle de tests paramétriques lorsque l’on fait l’hypothèse que X suit une distribution paramétrée. Dès lors comparer les distributions empiriques conditionnelles revient à comparer les paramètres : la moyenne et la variance lorsque l’on fait l’hypothèse de normalité en analyse univariée ; le vecteur moyenne et la matrice de variance covariance lorsque l’on considère que le groupe de variables est distribuée selon une loi normale multidimensionnelle en analyse multivariée.

Enfin, dans ce didacticiel, nous traitons les tests multivariés c.-à-d. nous étudions simultanément plusieurs variables d’intérêt.

Ce type de test peut servir à comparer effectivement des processus (ex. est-ce que deux machines produisent des boulons de même diamètre et qualité), mais il permet également d’éprouver la liaison qui peut exister entre une variable catégorielle et une variable quantitative (ex. est ce que les femmes conduisent en moyenne moins vite que les hommes, provoquent moins d’accidents et consomment moins ?).

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (Voir référence, Partie III). Les tests d’écrits dans ce didacticiel s’appliquent aux échantillons indépendants. Les procédures pour échantillons appariés feront l’objet d’autres didacticiels.

Mots clés : T2 de Hotelling, Lambda de Wilks, Box’s M test, test de Bartlett multivarié, vecteur des moyennes, barycentre, matrice de variance covariance, MANOVA
Composants : UNIVARIATE CONTINUOUS STAT, HOTELLING’S T2, HOTELLING’S T2 HETEROSCEDASTIC, BOX’S M TEST, ONE-WAY MANOVA
Lien : fr_Tanagra_Multivariate_Parametric_Tests.pdf
Données : credit_approval.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests paramétriques », Université Lyon 2.
S. Rathburn, A. Wiesner, "STAT 505: Applied Multivariate Statistical Analysis", The Pennsylvania State University.

Comparaison de populations - Tests paramétriques univariés

Les tests de comparaison de populations visent à déterminer si K (K >= 2) échantillons proviennent de la même population au regard d’une variable d’intérêt (X). En d’autres termes, nous souhaitons vérifier que la distribution de la variable est la même dans chaque groupe. On utilise également l’appellation « tests d’homogénéité » dans la littérature.

On parle de tests paramétriques lorsque l’on fait l’hypothèse que la variable X suit une distribution paramétrée. Dès lors comparer les distributions empiriques conditionnelles revient à comparer les paramètres, soit la moyenne et la variance lorsque l’on fait l’hypothèse de normalité de X.

Enfin, dans ce didacticiel, nous traitons les tests univariés c.-à-d. nous étudions une seule variable d’intérêt. Lorsque nous traitons simultanément plusieurs variables, on parle de tests multivariés. Ce qui fera l’objet d’un autre didacticiel prochainement.

Ce type de test peut servir à comparer effectivement des processus (ex. est-ce que deux machines produisent des boulons de même diamètre), mais il permet également d’éprouver la liaison qui peut exister entre une variable catégorielle et une variable quantitative (ex. est ce que les femmes conduisent en moyenne moins vite que les hommes sur telle portion de route).

Les aspects théoriques relatifs à ce didacticiel sont décrits dans un support de cours accessible en ligne (Voir référence, Parties I et II). Nous utiliserons les mêmes données et nous suivrons exactement la même trame pour que le lecteur puisse suivre le détail des formules mises en œuvre.

Mots clés : comparaison de moyennes, test de Student, comparaison de variances, test de Fisher, test de Bartlett, test de Levene, test de Brown-Forsythe, échantillons indépendants et échantillons appariés, ANOVA, ANOVA de Welch, blocs aléatoires complets, mesures répétées
Composants : MORE UNIVARIATE CONT STAT, NORMALITY TEST, T-TEST, T-TEST UNEQUAL VARIANCE, ONE-WAY ANOVA, WELCH ANOVA, FISHER’S TEST, BARTLETT’S TEST, LEVENE’S TEST, BROWN-FORSYTHE TEST, PAIRED T-TEST, PAIRED V-TEST, ANOVA RANDOMIZED BLOCKS
Lien : fr_Tanagra_Univariate_Parametric_Tests.pdf
Données : credit_approval.xls
Références :
R. Rakotomalala, « Comparaison de populations. Tests paramétriques », Université Lyon 2.
NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/ (Chapter 7, Product and Process Comparisons)

lundi 21 juillet 2008

Les cartes de Kohonen

Les cartes de Kohonen sont des réseaux de neurones artificiels orientés, constitués de 2 couches. Dans la couche d’entrée, les neurones correspondent aux variables décrivant les observations. La couche de sortie, elle, est le plus souvent organisée sous forme de grille (de carte) de neurones à 2 dimensions. Chaque neurone représente un groupe d’observations similaires.

Le réseau de Kohonen est donc une technique de classification automatique (clustering, apprentissage non supervisé). L’objectif est de produire un regroupement de manière à ce que les individus situés dans la même case soient semblables, les individus situés dans des cases différentes soient différents. En y regardant de plus près, on se rend compte d’ailleurs que l’algorithme d’apprentissage est une version sophistiquée de la méthode des K-Means (on parle de « nuées dynamiques » en français, bien que cette dernière intègre elle aussi d’autres types d’améliorations par rapport aux K-Means de Forgy [1965]).

Les cartes de Kohonen constituent également une technique de visualisation. En effet, les neurones de la couche de sortie sont organisés de manière à ce que deux cellules adjacentes dans la grille correspondent à des groupes d’observations proches dans l’espace de représentation initial. On parle de cartes auto organisatrices (SOM : Self Organisation Map). De ce point de vue, le réseau de Kohonen se positionne par rapport aux techniques factorielles de réduction de dimensionnalité. A la différence que la projection est non linéaire.

Dans ce didacticiel, nous montrons comment mettre en œuvre l’algorithme de Kohonen dans Tanagra. Nous visualiserons graphiquement les résultats. L’idée est de vérifier cette fameuse proximité entre les cellules de la grille dans l’espace de représentation. Puis, nous comparons les groupes obtenus avec ceux de la méthode des K-Means, très largement répandue au sein de la communauté de l’apprentissage automatique. Enfin, nous montrons comment nous pouvons affiner les résultats en lançant une classification ascendante hiérarchique (CAH) à partir des cellules de la carte. Cette stratégie est une approche alternative de la classification mixte (K-MEANS + CAH ; Lebart et al., 2000). Elle est particulièrement recommandée pour les fichiers comportant un grand nombre d’observations.

Mots clés : cartes de Kohonen, self organization map, SOM, classification automatique, clustering, réduction de dimensionnalité, k-means, nuées dynamiques, cah, classification ascendante hiérarchique, classification mixte
Composants : UNIVARIATE CONTINUOUS STAT, UNIVARIATE OUTLIER DETECTION, KOHONEN-SOM, PRINCIPAL COMPONENT ANALYSIS, SCATTERPLOT, K-MEANS, CONTINGENCY CHI-SQUARE, HAC
Lien : fr_Tanagra_Kohonen_SOM.pdf
Données : waveform_unsupervised.xls
Références :
Tutoriel Tanagra, "Les cartes auto-organisatrices de Kohonen - Diapos", juillet 2016.
Wikipedia, « Self organizing map », http://en.wikipedia.org/wiki/Self-organizing_map

mardi 17 juin 2008

Corrélation semi-partielle

La régression linéaire multiple vise à expliquer les valeurs d’une variable dépendante (Y) à l’aide d’une série de variables indépendantes ou explicatives (Z1, …, Zp). La corrélation semi-partielle quantifie le pouvoir explicatif additionnel d’une variable supplémentaire (X), une fois que nous lui avons retranché les informations déjà portées par les variables (Z1,…,Zp). Une manière simple de la calculer est de réaliser les 2 régressions, avec et sans la présence de X, l’écart entre les deux coefficients de détermination des régressions correspond au carré de la corrélation semi-partielle.

Une autre manière de la produire est de calculer les résidus de la régression de X sur (Z1, …, Zp). Ils correspondent à la fraction de X non expliquée par les variables indépendantes. La corrélation semi-partielle est obtenue en calculant le coefficient de corrélation de Pearson entre Y et la variable résiduelle. La nature asymétrique du processus apparaît clairement, l’appellation « corrélation semi-partielle » est pertinente de ce point de vue. On peut faire le parallèle avec la corrélation partielle qui, elle, est symétrique. En effet la corrélation est calculée sur les résidus de X/Z1,…,Zp et Y/Z1,…, Zp dans ce cas.

Dans ce didacticiel, nous montrons les différentes manières de produire la corrélation semi-partielle. Nous comparons les résultats avec le composant dédié de TANAGRA (SEMI-PARTIAL CORRELATION).

Les aspects théoriques en relation avec ce didacticiel sont disponibles dans un support de cours accessible en ligne (voir références, chapitre 5). Nous reprenons d’ailleurs l’exemple illustratif qui y est développé.

Nous cherchons à expliquer la consommation des véhicules à partir de la puissance, la cylindrée et le poids. L’objectif est de déterminer l’apport d’information de "puissance" par rapport aux autres variables explicatives.

Mots clés : corrélation, corrélation de Pearson, corrélation semi-partielle, régression linéaire multiple
Composants : LINEAR CORRELATION, MULTIPLE LINEAR REGRESSION, SEMI-PARTIAL CORRELATION
Lien : fr_Tanagra_Semi_Partial_Correlation.pdf
Données : cars_semi_partial_correlation.xls
Références :
R. Rakotomalala, « Analyse de corrélation – Etudes des dépendances, variables quantitatives », Chapitre 5, Analyse_de_Correlation.pdf
R. Rakotomalala, « Cours économétrie - Supports de cours L3 IDS », Université Lyon 2
M. Brannick, « Partial and Semipartial Correlation », University of South Florida

Corrélation partielle

Le coefficient de corrélation est une mesure statistique destinée à quantifier l’intensité d’un lien (linéaire) entre 2 variables. Il est possible de mettre en place un test de significativité qui cherche à établir l’existence de la relation dans la population.

Le coefficient de corrélation est un instrument très populaire. Mais comme tout outil numérique, il a ses faiblesses. La plus criante étant certainement la corrélation factice : 2 variables semblent fortement liées, on se rend compte après coup que la liaison repose sur l’intervention d’une troisième variable. Par exemple, la corrélation entre la longueur des jambes et la longueur des avant-bras est très forte. Elle repose en réalité sur la taille des personnes : les grands ont tendance à avoir des jambes et des avant-bras longs, inversement chez les petits.

La corrélation partielle corrige cet inconvénient. Elle mesure la liaison en annulant l’effet de la troisième variable, dite variable de contrôle. Dans notre exemple, il s’agit de mesurer, à taille de personne égale, la relation entre les longueurs des jambes et des bras. Nous pouvons faire intervenir plusieurs variables de contrôle.

Dans ce didacticiel, nous montrons comment mettre en œuvre le composant PARTIAL CORRELATION dans Tanagra. Nous reprenons un exemple décrit sur un excellent site de cours en ligne (voir références). Outre une présentation théorique de la technique, le détail des calculs est disponible. Nous pouvons retracer les étapes de construction de la mesure, le test de significativité et l’élaboration des intervalles de confiance. Nous pouvons aussi nous comparer avec les résultats établis à l’aide d’autres logiciels de statistique.

Les données proviennent d’un test d’intelligence (QI) basé sur la méthode WAIS (Wechsler Adult Intelligence Scale). Nous disposons de 37 observations mesurées sur 4 dimensions : « Information », le degré de connaissance associée à la culture ; « Similarities », la capacité d’abstraction verbale ; « Arithmetic », le calcul mental ; « Picture.Completion », la capacité à percevoir les détails visuel. Nous cherchons à caractériser la liaison entre INFORMATION et SIMILARITIES, les variables de contrôle seront ARITHMETIC et PICTURE.COMPLETION.

Mots clés : corrélation, corrélation de Pearson, corrélation de rangs, rho de Spearman, corrélation partielle
Composants : LINEAR CORRELATION, SPEARMAN’S RHO, PARTIAL CORRELATION
Lien : fr_Tanagra_Partial_Correlation.pdf
Données : wechsler_adult_intelligence_scale.xls
Références :
R. Rakotomalala, « Analyse de corrélation – Etudes des dépendances, variables quantitatives », Analyse_de_Correlation.pdf
S. Rathbun, A. Wiesner, « STAT 505 – Applied Multivariate Statistical Analysis », The Pennsylvania State University, Lesson 7 : Partial Correlations

dimanche 25 mai 2008

Régression PLS – Comparaison de logiciels

Se comparer aux autres est toujours une bonne manière de faire avancer un logiciel.

Pour valider les implémentations. C’est un point essentiel. Bien que l’on s’appuie sur les mêmes références bibliographiques, que l’on met en place les mêmes algorithmes, les choix de programmation ne sont pas anodins (la gestion des conditions de convergence par exemple). Une manière simple de valider l’implémentation est, outre la documentation des algorithmes utilisés et la publication du code, de voir ce qui se passe avec les autres outils.

Pour améliorer la présentation de résultats. Il y a certains standards à respecter dans la production des rapports, consensus initié par les ouvrages de référence et/ou le(s) logiciel(s) leader(s) dans le domaine. Les utilisateurs ont besoin de repères.

Notre implémentation de la Régression PLS repose essentiellement sur l’ouvrage de M. Tenenhaus (1998) qui, lui même, fait beaucoup référence au logiciel SIMCA-P. Profitant de l’accès à une version gratuite sur le site de l’éditeur (version 11 - limitée dans le temps), nous avons voulu comparer nos résultats sur un jeu de données. Nous avons étendu cette comparaison à d’autres logiciels (SAS avec la PROC PLS, SPAD avec le composant PLS, le logiciel R avec le package PLS).

Cette étude nous a emmené à introduire un nouveau composant dans Tanagra 1.4.24 (PLSR). Il intègre dans un cadre unique les composants PLS FACTORIAL, qui produit les scores factoriels, et PLS REGRESSION, qui effectue les prédictions. De plus, le mode de présentation des résultats, les noms des tableaux entre autres, est aligné sur les références anglo-saxonnes. Pour cela, nous nous sommes beaucoup appuyés sur les documents disponibles sur le site web de SIMCA-P (manuel de référence et tutoriel), et sur la description de D. Garson qui, inlassablement, produit toujours des documents d’une qualité extraordinaire.

Enfin, ce didacticiel permet d’approfondir la lecture et l’interprétation des résultats de la régression PLS. Le précédent était peut être un peu trop laconique. On se rend compte, dans ce nouveau document, de la richesse de l'approche qui constitue aussi une méthode factorielle : les observations sont projetés dans un nouvel espace qui permet de mieux expliciter les relations entre les variables, de mieux situer les proximités entre les individus.

Mots clés : régression pls, comparaison de logiciels
Composants : PLSR, VIEW DATASET, CORRELATION SCATTERPLOT, SCATTERPLOT WITH LABEL
Lien : fr_Tanagra_PLSR_Software_Comparison.pdf
Données : cars_pls_regression.xls
Références :
M. Tenenhaus, « La régression PLS – Théorie et pratique », Technip, 1998.
D. Garson, « Partial Least Squares Regression », from Statnotes: Topics in Multivariate Analysis. Retrieved 05/18/2008.
UMETRICS. SIMCA-P for Multivariate Data Analysis.

samedi 24 mai 2008

Détection (univariée) des points aberrants

Dans le processus Data Mining, la détection et le traitement des points aberrants sont incontournables lors de la préparation des données, ou même après coup, pour analyser et valider les résultats.

On parle de point aberrant (point atypique) lorsque qu’un individu prend une valeur exceptionnelle sur une variable (ex. un client d’une banque aurait 158 ans) ou sur des combinaisons de variables (ex. un athlète de 12 ans aurait effectué le 100 m en 10 secondes). Ces points sont problématiques car ils peuvent biaiser les résultats, notamment pour les méthodes basées sur des distances entre individus, ou plus dramatiquement encore, des distances par rapport à des barycentres. Il importe donc d’identifier ces individus et de les considérer attentivement.

Dans ce didacticiel, nous présentons le composant UNIVARIATE OUTLIER DETECTION destiné à détecter les points atypiques sur chacune des variables, prises individuellement.

Les techniques intégrées dans ce composant sont largement inspirées du texte sur le site de NIST. Nous essayerons de les combiner au mieux avec les statistiques descriptives dans ce document. On se rendra vite compte que des stratégies simples, notamment les approches graphiques, sont au moins aussi intéressantes finalement. Les techniques numériques ne sont réellement décisives que dans le cadre du traitement automatisé de fichiers comportant de très nombreuses colonnes. Dans ce cas, leurs indications nous permettent de nous orienter rapidement vers les variables à problèmes.

Enfin, notre composant choisit d’exclure les observations atypiques. C’est une solution possible mais ce n’est certainement pas la panacée. Il y a d’autres stratégies : la transformation des données, en rendant symétrique la distribution, on atténue l’écartement des queues de distribution ; une transformation plus radicale encore, le passage au rangs ; l’utilisation de techniques appropriées, peu sensibles aux points aberrants (ex. dans le data mining, plutôt qu’une analyse discriminante, on préfèrera les arbres de décision s’il y a profusion de points atypiques)...

Mots clés : point aberrant, point atypique
Composants : MORE UNIVARIATE CONT STAT, SCATTERPLOT WITH LABEL, UNIVARIATE OUTLIER DETECTION, UNIVARIATE CONT STAT
Lien : fr_Tanagra_Outliers_Detection.pdf
Données : body_mass_index.xls
Référence :
NIST/SEMATECH, « e-Handbook of Statistical Methods », Section 7.1.6, « What are outliers in the data ? »
R. High, "Dealing with 'Outliers': How to Maintain Your Data's Integrity"

mercredi 14 mai 2008

Analyse Discriminante PLS – Etude comparative

La régression PLS est une technique de régression qui vise à prédire les valeurs prises par un groupe de variables Y (variables à prédire, variables cibles, variables expliquées) à partir d’une série de variables X (variables prédictives, les descripteurs, variables explicatives). Définie à l’origine pour le traitement des variables cibles continues, la Régression PLS peut être transposée à la prédiction d’une variable qualitative, de différentes manières, on parle « d’analyse discriminante PLS ». Elle fait alors preuve des qualités qu’on lui connaît habituellement, essentiellement la capacité à traiter un espace de représentation à très forte dimensionnalité, avec un grand nombre de descripteurs bruités et/ou redondants.

Ce document fait suite à un précédent didacticiel où nous présentions différentes méthodes supervisées basées sur la Régression PLS. L’objectif est de montrer le comportement de l’une d’entre elles, PLS-LDA, dans un contexte où le nombre de descripteurs est élevé par rapport au nombre d’observations. Le ratio reste « raisonnable » (278 variables prédictives pour 232 observations en apprentissage). Nous pouvons néanmoins voir se dessiner dans cette expérimentation les principaux traits du traitement de ce type de données où, finalement, la maîtrise de la variance du classifieur est l’enjeu majeur. Pour confirmer cette idée, nous opposerons PLS-LDA à des méthodes éprouvées telles que les SVM (Support Vector Machine, Librairie LIBSVM, Fan et al., 2005), les Random Forest (Breiman, 2001), ou… l’analyse discriminante linéaire (Fisher, 1936 - combinée avec une sélection de variables judicieuse, cette dernière se révèle être une compétitrice redoutable dans notre étude).

Nous reproduisons dans ce didacticiel le schéma de comparaison de classifieurs déjà mis en avant dans un de nos didacticiels. Nous forçons un peu le trait en intégrant un plus grand nombre de descripteurs. Les méthodes réputées stables devraient plus se démarquer. Nous intégrons de plus de nouvelles méthodes dans le comparatif, notamment les méthodes dérivées de la Régression PLS, peu connues en apprentissage automatique.

Mots clés : régression pls, analyse discriminante linéaire, apprentissage supervisé, support vector machine, SVM, random forest, forêts aléatoires, méthode des plus proches voisins, nearest neighbor
Composants : K-NN, PLS-LDA, BAGGING, RND TREE, C-SVC, TEST, DISCRETE SELECT EXAMPLES, REMOVE CONSTANT
Lien : fr_Tanagra_PLS_DA_Comparaison.pdf
Données : arrhytmia.bdm
Références :
S. Chevallier, D. Bertrand, A. Kohler, P. Courcoux, « Application of PLS-DA in multivariate image analysis », in J. Chemometrics, 20 : 221-229, 2006.
M. Tenenhaus, « La régression PLS – Théorie et Pratique », Technip, 1998.
Garson, « Partial Least Squares Regression (PLS) », http://www2.chass.ncsu.edu/garson/PA765/pls.htm

jeudi 8 mai 2008

Analyse Discriminante PLS

La régression PLS est une technique de régression qui vise à prédire les valeurs prises par un groupe de variables Y à partir d’une série de variables X. La régression PLS a été définie à l’origine pour les problèmes de prédictions sur des variables cibles quantitatives. Il aurait été dommage de ne pas exploiter ses qualités, notamment sa capacité à appréhender des dimensionnalités très élevées, en apprentissage supervisé où, rappelons le, la variable cible est catégorielle.

Dans ce didacticiel, nous présentons plusieurs variantes de la régression PLS dédiées à la prédiction d’une variable catégorielle. Elles sont regroupées sous l’appellation générique de « Analyse Discriminante PLS ». Elles reposent sur le même principe : dans un premier temps, nous codons la variable à prédire catégorielle à l’aide d’une série d’indicatrices correspondant à ses modalités (codage disjonctif complet) ; dans un second temps, nous présentons le tableau de données, Y composé des indicatrices, X des descripteurs, à l’algorithme PLS. Les variantes diffèrent (1) par le type de codage et la valeur des codes utilisés lors de la constitution du tableau Y ; (2) par l’exploitation des résultats de la régression PLS lors de la phase de classement.

Ce didacticiel vise avant tout à présenter les techniques et à donner les repères de lecture des résultats. Nous utiliserons donc un jeu de données très simple pour faciliter la lecture. Dans un prochain document, nous utiliserons des données autrement plus difficiles à appréhender, avec une dimensionnalité élevée au regard du nombre d’observations. Nous constaterons alors l’excellent comportement de l’Analyse Discriminante PLS qui soutient la comparaison face à des méthodes fortement régularisées telles que les SVM (Support Vector Machine).

Mots clés : régression pls, analyse discriminante, apprentissage supervisé
Composants : C-PLS, PLS-DA, PLS-LDA
Lien : fr_Tanagra_PLS_DA.pdf
Données : breast-cancer-pls-da.xls
Références :
S. Chevallier, D. Bertrand, A. Kohler, P. Courcoux, « Application of PLS-DA in multivariate image analysis », in J. Chemometrics, 20 : 221-229, 2006.
M. Tenenhaus, « La régression PLS – Théorie et Pratique », Technip, 1998.
Garson, « Partial Least Squares Regression (PLS) », http://www2.chass.ncsu.edu/garson/PA765/pls.htm

lundi 21 avril 2008

Programmer un composant dans TANAGRA

L’intérêt de l’ « open source » est de pouvoir intervenir dans le logiciel pour ajouter de nouvelles fonctionnalités.

Dans le cas de Tanagra, il s’agit de rajouter une nouvelle méthode de Data Mining c.-à-d. rajouter un nouveau composant dans le logiciel. Il peut profiter des calculs réalisés en amont, il peut aussi proposer des résultats réutilisables en aval. Bref, son insertion parmi les outils déjà disponibles devrait lui permettre de tirer parti au maximum de l’environnement de travail.

Dans ce didacticiel, nous détaillons les étapes pour créer un composant de calcul de la moyenne sur les variables sélectionnées. L’objectif est modeste. Mais en détaillant l’exemple, nous accédons aux principales informations qui permettront à tout programmeur de démarrer dans l’implémentation de nouvelles méthodes de traitement de données dans Tanagra.

La totalité du projet, incluant l’unité du nouveau composant et la version compilée du prototype est accessible en ligne. Le fichier de données ayant servi aux tests est intégré dans l’archive.

Lien : fr_Ajouter_Composant_Dans_Tanagra.pdf
Fichiers du projet : exemple_ajouter_composant_dans_tanagra.zip

samedi 19 avril 2008

Compiler le projet Tanagra

Ce document décrit la compilation du projet TANAGRA avec la version "Edition Personnelle" de Delphi 6.0 (version gratuite).

Les étapes sont détaillées :

1. Chargement et installation du compilateur et des patches
2. Chargement et installation des bibliothèques externes (LMD TOOLS SE et TEE CHART)
3. Préparation du répertoire de compilation
4. Organisation du code source sur le disque dur
5. Chargement du projet dans DELPHI
6. Configuration du répertoire de sortie (.exe et .dcu)
7. Compilation

Tanagra est développé avec Delphi. Pourquoi ? C’est une question qui revient souvent.

Pour pleins de raisons, la principale étant simplement les affinités personnelles. Cela fait près de 20 ans que je programme en Pascal (procédural, puis objet). DELPHI me permet de développer des applications d’excellent niveau. Je ne vois pas d’intérêt à changer pour suivre telle ou telle mode. Et puis, du coup, c’est un des très rares projets de Data Mining « open source » développé en DELPHI (le seul à ma connaissance). La grande majorité des autres projets sont développés en JAVA, qui est très bien aussi, je n’en doute pas.

Il est possible de le faire passer sur les versions plus récentes du compilateur. Un internaute m’a envoyé une version du code que l’on peut compiler avec DELPHI 7.0. Il a également substitué la bibliothèque libre (open source) JEDI à LMD TOOLS SE en reprenant la grande majorité des boîtes de dialogue. Cela concourt à une meilleure évolutivité du projet. Ce code source pour DELPHI 7.0 est accessible sur simple demande. Pour ma part, je ne l’ai pas adopté, car pour des raisons qui m’échappent totalement, JEDI pose problème à mon compilateur. Elle m’obligeait à réinstaller complètement la bibliothèque à chaque démarrage de DELPHI. Ce n’était pas tenable.

Lien : fr_Guide_Compilation_Tanagra.pdf

vendredi 18 avril 2008

Interpréter la « valeur test »

La « valeur test » est un indicateur qui permet de hiérarchiser les variables lors de la caractérisation univariée des groupes, décrites par la modalité d’une variable (ex. qu’est ce qui caractérise les personnes soufrant de telle maladie), ou issue du calcul (un groupe défini par une classification automatique par exemple).

Grosso modo, il s’agit ni plus ni moins que d’une statistique de test de comparaison de paramètres calculés dans le sous échantillon associé au groupe et dans la totalité de l’échantillon : test de comparaison de moyennes lorsque la variable est quantitative, test de comparaison de proportions lorsque la variable est catégorielle. A la différence que les données ne sont pas indépendantes, le sous échantillon constitue une fraction de l’échantillon initial.

Dans ce didacticiel, nous mettons en avant l’indicateur « valeur test » pour la caractérisation de personnes souffrant d’une maladie cardiovasculaire. Nous détaillons les calculs, suites aux demandes répétées d’utilisateurs. La mesure est peu connue, elle pourtant très pratique. Notre texte repose principalement sur descriptif, accompagné de justifications théoriques, proposé dans l’ouvrage de Lebart et al. (2000).

Mots clés : valeur test, caractérisation de classes, clustering, analyse factorielle
Composants : Group characterization
Lien : fr_Tanagra_Comprendre_La_Valeur_Test.pdf
Données : heart_disease_male.xls
Référence :
Alain MORINEAU, "Note sur la Caractérisation Statistique d'une Classe et les Valeurs-tests", Bulletin Technique du Centre de Statistique et d'Informatique Appliquées, Vol 2, no 1-2, p 20-27, 1984 (http://www.deenov.com/analyse-de-donnees/documents/article-valeur-test.aspx).
L. Lebart, A. Morineau, M. Piron, « Statistique exploratoire multidimensionnelle », Dunod, 2000 ; pages 181 à 184.

vendredi 11 avril 2008

Régression logistique ordinale

La régression logistique est une technique très populaire pour analyser les dépendances entre une variable à expliquer (dépendante, endogène) binaire et une ou plusieurs variables explicatives (indépendantes, exogènes) quantitatives et qualitatives ordinales ou nominales.

La généralisation à une variable dépendante qualitative nominale est relativement simple. On parle dans ce cas de régression logistique multinomiale.

La situation est un peu plus complexe lorsqu’il s’agit de modéliser une liaison impliquant une variable dépendante ordinale. Pléthores d’interprétations sont possibles, allant de l’impasse sur le caractère ordinal afin de revenir simplement au modèle multinomial, à l’assimilation de la variable à prédire à une variable quantitative, dans ce cas la régression linéaire multiple devrait suffire. Entre ces deux cas extrêmes existent différentes approches. Dans ce didacticiel, nous étudierons essentiellement les LOGITS adjacents et les LOGITS cumulatifs. On parle alors de régression logistique polytomique à variable dépendante ordinale.

Pour étudier ces techniques, qui ne sont pas à ce jour programmées dans Tanagra (jusqu'à la version 1.4.22 en tous les cas), nous utilisons le logiciel R, accessible librement en ligne. Il s’agit d’un logiciel de statistique disposant d’un interpréteur de commande et d’un vrai langage de programmation. Il est particulièrement performant grâce au système des packages, des modules externes compilés, qui permettent de compléter sa bibliothèque de fonctions statistiques. Dans notre étude, nous utiliserons en priorité le package VGAM, il élargit de manière significative les dispositions de R en matière de régression généralisée.

Mots clés : régression logistique polytomique, régression logistique ordinale, logiciel R
Composants : -
Lien : didacticiel_Reg_Logistique_Polytomique_Ordinale.pdf
Données : hypertension.txt
Références :
R. Rakotomalala, « Régression logistique polytomique »
A. Slavkovic, « Multinomial Logistic Regression Models – Adjacent-Category Logits - The proportional odds cumulative logit model», in « STAT 504 – Analysis of Discrete Data », Pensylvania State University, 2007.

Régression logistique binaire

La régression logistique est une technique supervisée. Elle vise à expliquer et prédire l’appartenance à une classe (groupe) prédéfinie à partir d’une série de descripteurs. Le plus souvent nous traitons une variable à prédire binaire.

La régression logistique est une technique semi-paramétrique dans le sens où les hypothèses sont émises sur les rapports de distributions conditionnelles. Elle a donc un champ d’application théorique plus large que l’analyse discriminante par exemple. Elle est adaptée entre autres aux cas où les descripteurs sont des mélanges de variables quantitatives et des indicatrices 0/1.

La régression logistique se démarque également par la richesse des interprétations des coefficients que l’on peut mettre en avant à la lecture des résultats, pour peu que l’on code de manière appropriée les variables.

Ce didacticiel montre la mise en œuvre de la régression logistique, la lecture des résultats et l’évaluation des performances en prédiction. Tout comme le didacticiel sur l’analyse discriminante (la structure de présentation est exactement la même), il est réalisé sous la forme d’une démonstration animée.

Mots clés : régression logistique, validation croisée, évaluation de l’erreur
Composants : Binary logistic regression, Cross-validation
Lien : logistic_regression.htm
Données : prematures.xls
Références :
R. Rakotomalala, « Régression logistique »
Wikipedia, « Régression logistique »

Analyse discriminante linéaire

L’analyse discriminante linéaire (ADL) est une technique supervisée. Elle vise à expliquer et prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir d’une série de descripteurs.

L’analyse discriminante est une technique paramétrique. Elle repose sur l’hypothèse de distribution conditionnelle gaussienne des variables c.à-d. on considère que les nuages de points associés à chaque groupe sont distribués selon une loi normale multidimensionnelle. L’analyse discriminante linéaire introduit une hypothèse supplémentaire, les nuages conditionnels doivent avoir une forme identique.

On peut penser que ces hypothèses sont très restrictives, empêchant toute utilisation pratique. On se rend compte que la méthode est relativement robuste. On comprend mieux pourquoi lorsque l’on considère le problème sous un angle géométrique, l’analyse discriminante linéaire cherche avant tout à tracer une droite de séparation entre les groupes. Les hypothèses vont surtout influer sur le positionnement de la droite dans l’espace de représentation.

Avec ce didacticiel, nous dérogeons à notre schéma habituel. Plutôt que de produire un texte rédigé avec des copies d’écran (format PDF), nous montrons directement la mise en œuvre de l’analyse sous forme de démonstration animée. L’appréhension du document est un peu différente. Je pense que cette approche est complémentaire avec les PDF.

Le didacticiel montre comment introduire l’analyse discriminante, comment sélectionner manuellement les bonnes variables (avec une méthode très basique), et par la suite, comment évaluer les performances en prédiction à l’aide de la validation croisée.

Mots clés : analyse discriminante linéaire, analyse discriminante prédictive, validation croisée, évaluation de l’erreur
Composants : Linear Discriminant Analysis, Cross-validation
Lien : discriminant_analysis.htm
Données : prematures.xls
Références :
R. Rakotomalala, « Analyse discriminante linéaire »
Wikipedia, « Analyse discriminante linéaire »

mardi 8 avril 2008

Analyse de variance de Friedman

L’analyse de variance de Friedman (Friedman’s two-way ANOVA by ranks) est un test de comparaison de populations sur échantillons appariés.

Dans notre exemple, il s’agit d’apprécier les performances de conférenciers selon 3 types de supports. Chaque individu a été noté dans les 3 circonstances. On veut savoir si le support a une influence sur la qualité de la présentation.

Les échantillons ne sont pas indépendants. Nous devons en tenir compte en éliminant les disparités dues aux conférenciers. Nous avons une analyse de variance à 2 facteurs : le premier est le « type de support », le second est le « conférencier ». Si nous omettons ce second facteur c.-à-d. si nous considérons que les échantillons sont indépendants, l’ANOVA classique peut aboutir à des conclusions différentes. C’est le cas sur nos données.

Mots clés : comparaison de populations, échantillons appariés, analyse de variance, ANOVA
Composants : Friedman’s ANOVA by Rank, One-way ANOVA, Kruskal-Wallis 1-way ANOVA
Lien : fr_Tanagra_Friedman_Anova.pdf
Données : howell_book_friedman_anova_dataset.zip
Références :
R. Ramousse, M. Le Berre, L. Le Guelte, « Introduction aux Statistiques », Section 4.3, « K échantillons – Cas de k échantillons appariés »
Wikipedia, « Friedman test »

dimanche 6 avril 2008

Tests d’adéquation à la loi normale

Un test d’adéquation permet de statuer sur la compatibilité d’une distribution observée avec une distribution théorique associée à une loi de probabilité. Il s’agit de modélisation. Nous résumons une information brute, les données observées, à l’aide d’une fonction analytique paramétrée. L’estimation des valeurs des paramètres est souvent un préalable au test.

Parmi les tests d’adéquation, la conformité à la loi normale (loi de Laplace Gauss, loi gaussienne) tient une place importante. En effet, l’hypothèse de normalité sous-tend souvent de nombreux tests paramétriques. En toute rigueur, s’assurer de la compatibilité des données avec la loi normale devrait être un préalable obligatoire. Dans la pratique, fort heureusement, ce n’est pas vrai. Grâce à la notion de robustesse, les procédures statistiques restent valables même si l’on s’écarte plus ou moins des hypothèses initiales.

Dans ce didacticiel, nous montrons comment mettre en œuvre les tests de conformité à la loi normale dans Tanagra. Plusieurs procédures sont disponibles. Nous utilisons des données artificielles pour mieux situer les résultats.

Mots clés : test d’adéquation à la loi normale, conformité à la loi normale, test de Shapiro-Wilk, test de Lilliefors, test d’Anderson-Darling, test de d’Agostino
Composants : More Univariate cont stat, Normality Test
Lien : fr_Tanagra_Normality_Test.pdf
Données : normality_test_simulation.xls
Référence : R. Rakotomalala, « Tests de normalité – Techniques empiriques et tests statistiques », Université Lumière Lyon 2.