vendredi 30 décembre 2011

Connexion entre R et Excel via RExcel

Le couplage entre un logiciel spécialisé de data mining et un tableur est un argument certain pour la praticabilité du premier. Quasiment tout le monde sait manipuler un tableur, ne serait-ce que pour ouvrir un fichier de données et en visualiser le contenu. De même, les opérations de vérification, les calculs statistiques simples, les transformations de données, sont très facilement réalisables dans un tableur. D’ailleurs, un signe qui ne trompe pas, outre les enquêtes du site KDNUGGETS qui montre la popularité d’Excel auprès des data miners, tous les logiciels dignes de ce nom savent importer directement les fichiers au format Excel.

Très récemment, un étudiant me demandait s’il était possible de réaliser des échanges de données à la volée entre R et Excel. L’enjeu n’est pas tant l’importation des données au format Excel, des packages s’en chargent très bien (le package xlsx par exemple), mais de disposer des fonctionnalités simplifiées de transfert entre Excel et R, que ce soit pour les data frame (ensemble de données) ou, plus généralement, pour tout vecteur et matrice de données. En cherchant un peu, très rapidement, la réponse a été oui. RExcel répond exactement à ce cahier des charges. En y regardant de plus près, je me suis même rendu compte que la solution proposée est de très grande qualité et va nettement au-delà du simple échange de vecteurs de valeurs.

Nous présentons donc la bibliothèque RExcel dans ce tutoriel. Nous nous contenterons de décrire le transfert des données. Nous ferrons un très rapide tour d’horizon des autres fonctionnalités dans la conclusion.

Mots clés : importation des données, fichier excel, xls, xlsx, connexion, macro complémentaire, addin, add-in, add-on, régression linéaire multiple, logiciel R
Composants : lm, stepAIC, predict
Lien : fr_Tanagra_RExcel.pdf
Donnéesventes_regression_rexcel.zip
Références :
T. Baier, E. Neuwirth, "Powerful data analysis from inside your favorite application"

mardi 27 décembre 2011

L'add-in Tanagra pour Excel 2010 - 64 bits

La macro complémentaire « Tanagra.xla » actuelle fonctionne pour les versions 32 bits d’Excel (jusqu’à Excel 2010). Quelle que soit la version de Windows, y compris les versions 64 bits de Windows (ma configuration actuelle est un Windows 7 version 64 bits, version française).

Elle ne fonctionne pas en revanche lorsqu’il s’agit de lancer de connecter Tanagra avec la version 64 bits d’Excel 2010. Il faut la modifier. Dans ce didacticiel, nous montrons la procédure à suivre.

Attention, les copies d’écran ont été réalisées à l’aide d’Excel 2007, néanmoins les menus devraient être à peu près les mêmes sous Excel 2010.

Un grand merci à Mme Nathalie Jourdan-Salloum de m’avoir signalé le problème et de m’avoir indiqué la solution.

Mots clés : importation des données, fichier excel, macro-complémentaire, add-in, addin, add-on, xls, xlsx
Lien : fr_Tanagra_Addin_Excel_64_bit.pdf
Références :
Tanagra, "L'add-in Tanagra pour Excel 2007 et 2010".
Tanagra, "Importation fichier XLS (Excel) - Macro complémentaire".

samedi 24 décembre 2011

Données manquantes en déploiement

Le traitement des valeurs manquantes est un problème difficile, maintes fois étudié lorsqu’il s’agit d’analyser son impact sur les caractéristiques du modèle prédictif élaboré à partir des données d’apprentissage. Nous avons mené une expérimentation récemment. Il s’agissait de comparer les mérites respectifs des différentes approches (suppression de lignes ou imputation) sur les performances de la régression logistique.

Mais qu’en est-il lors du déploiement d’un modèle ? Curieusement, les écrits sont rares, voire très rares sur le sujet. Pourtant le problème est d’importance. Imaginons une situation concrète. Nous avons construit un super modèle à l’aide de la régression logistique. Nous l’intégrons dans notre système d’information. Une fiche client arrive, nous souhaitons le scorer pour connaître son appétence à un nouveau produit. Et là, patatras, la personne n’a pas mentionné son salaire dans sa fiche. Or, cette variable figure dans votre équation. Que faire ?

Dans ce tutoriel, nous supposons que le modèle prédictif a été construit selon un processus classique. La question des données manquantes n’est pas posée pour l’apprentissage. En revanche, elle est posée lors du déploiement. Nous souhaitons classer des individus dont la description est incomplète. Nous comparerons alors deux approches de substitution – l’une univariée, l’autre multivariée – de valeurs manquantes pour le déploiement. Nous montons une expérimentation sous R pour évaluer empiriquement leurs performances respectives sur plusieurs bases de données benchmark bien connues de la communauté du Data Mining.

Nous nous plaçons dans un cadre spécifique dans ce tutoriel : le modèle prédictif est issu de la régression logistique ; toutes les variables prédictives sont quantitatives ; la probabilité d'apparition d'une valeur manquante est la même pour toutes les variables décrivant l'individu à traiter.

Mots clés : données manquante, données manquantes, déploiement, classement, régression logistique, logiciel r, glm, lm, NA
Composants : Binary Logistic Regression
Lien : fr_Tanagra_Missing_Values_Deployment.pdf
Données et script R : md_logistic_reg_deployment.zip
Références :
Howell, D.C., "Treatment of Missing Data".
M. Saar-Tsechansky, F. Provost, “Handling Missing Values when Applying Classification Models”, JMLR, 8, pp. 1625-1657, 2007.

samedi 3 décembre 2011

Données manquantes - Régression logistique

L’appréhension des données manquantes est un problème difficile. Non pas à cause de sa gestion informatique qui est relativement simple, il suffit de signaler les valeurs manquantes par un code spécifique, mais plutôt à cause des conséquences de leur traitement (suppression des lignes ou des colonnes du fichier ; ou remplacement par une valeur calculée à partir de observations disponibles, on parle alors d’imputation) sur les caractéristiques des modèles élaborés.

Nous en avions parlé dans un précédent document. Il s’agissait alors d’étudier l’impact des différentes techniques de traitement de valeurs manquantes sur les arbres de décision construits avec la méthode C4.5 (Quinlan, 1993)  dans le logiciel Sipina. Aujourd’hui, nous réitérons l’analyse en étudiant leur influence sur les résultats de la régression logistique. Nous utiliserons principalement le logiciel R 2.13.2, avec la procédure glm(.). Par la suite, nous examinerons le comportement des outils proposés dans des logiciels tels qu’Orange 2.0b, Knime 2.4.2 et RapidMiner 5.1 placés dans un contexte identique.

Nous nous plaçons dans la configuration suivante dans ce tutoriel : (1) les valeurs manquantes sont MCAR, nous avons écrit un programme qui retire de manière complètement aléatoire les valeurs dans l’échantillon d’apprentissage ; (2) nous appliquons la régression logistique sur les données d’apprentissage post-traitées ; (3) nous évaluons les différentes techniques de traitement des données manquantes en observant le taux de bon classement (ou taux de succès) du modèle sur un échantillon test à part qui, lui, ne comporte aucune valeur manquante.

Mots clés : donnée manquante, données manquantes, valeurs manquantes, régression logistique, listwise deletion, imputation, missing values, missing data, logiciel R, glm
Lien : fr_Tanagra_Missing_Values_Imputation.pdf
Données et script R : md_experiments.zip
Références :
Howell, D.C., "Treatment of Missing Data".
Allison, P.D. (2001), « Missing Data ». Sage University Papers Series on Quantitative Applications in the Social Sciences, 07-136. Thousand Oaks, CA : Sage.
Little, R.J.A., Rubin, D.B. (2002), « Statistical Analysis with Missing Data », 2nd Edition, New York : John Wiley.

lundi 3 octobre 2011

Extraction des itemsets fréquents

La recherche des régularités dans les bases de données est l'idée principale du data mining. Ces régularités s'expriment sous différentes formes. Dans l'analyse du panier d'achats de consommateurs, l'extraction des itemsets consiste à mettre en exergue les cooccurrences entres les produits achetés c.-à-d. déterminer les produits (les items) qui sont " souvent " achetés simultanément. On parle alors d'itemsets fréquents. Par exemple, en analysant les tickets de caisse d'un supermarché, on pourrait produire des itemsets (un ensemble d'items) du type " le pain et le lait sont présents dans 10% des caddies ".

La recherche des itemsets fréquents est souvent présentée comme un préalable à l'extraction des règles d'association où l'on essaie, en sus, de mettre en évidence des relations de causalité. En reprenant notre exemple ci-dessus, une règle possible serait " ceux qui ont acheté du pain et du lait ont aussi acheté du beurre ". L'objectif est d'exploiter ce type de connaissance pour mieux agencer les rayons (mettre le beurre pas trop loin du pain et du lait) ou pour faire une offre promotionnelle ciblée (faire une promotion sur le pain et le lait dans le but d'augmenter les ventes de beurre).

En réalité, les itemsets fréquents sont en elles-mêmes porteuses d'informations. Savoir quels sont les produits achetés ensembles permet d'identifier les liens existants entre eux et, par là, de réaliser une typologie des achats ou de dégager des comportements types chez les consommateurs. Dans le cas du pain et du lait, il s'agit certainement d'achats relatifs au petit déjeuner. Si les consommateurs se mettent à acheter conjointement de la viande et du charbon, nous sommes en été, c'est la saison des barbecues…

Dans ce tutoriel, nous décrivons la mise en œuvre du composant FREQUENT ITEMSETS de Tanagra, basé sur la bibliothèque " apriori.exe " de Borgelt. Nous utilisons un petit jeu de données pour que tout un chacun puisse reconstituer manuellement les résultats produits par le logiciel. Ils (les résultats) seront mis en parallèle avec ceux fournis par le package arules du logiciel R basée sur la même bibliothèque. Mais, dans un premier temps, essayons d'expliciter les différentes notions liées à l'extraction des itemsets.

Mots clés : itemsets fréquents, itemsets fermés, itemsets maximaux, itemsets générateurs, règles d’association, logiciel R, package arules
Composants : FREQUENT ITEMSETS
Lien : fr_Tanagra_Itemset_Mining.pdf
Données : itemset_mining.zip
Références :
C. Borgelt, "A priori - Association Rule Induction / Frequent Item Set Mining"
R. Lovin, "Mining Frequent Patterns"

dimanche 25 septembre 2011

Mise à jour de A PRIORI PT

A PRIORI PT est un des rares composants de Tanagra basé sur une bibliothèque externe, le programme " apriori.exe " de Borgelt en l'occurrence . Jusqu'à la version 1.4.40 de Tanagra, nous utilisions la version 4.31 de l'exécutable (du 12/03/2007). Nous introduisons une version autrement plus récente (5.57 du 02/09/2011) dans Tanagra 1.4.41. Les paramètres étant légèrement modifiés, il a fallu adapter le programme appelant. Néanmoins, le fonctionnement reste identique, il en est de même en ce qui concerne la lecture des résultats.

Nous reprenons un ancien tutoriel pour décrire le comportement de cette nouvelle mouture. Nous ne revenons pas sur le détail (importation des données, choix des variables, paramétrage) de l'utilisation du composant APRIORI PT, puisque cela a déjà été fait. Nous essayons surtout de mettre en évidence les progrès du module en termes de temps de traitements. Force est de constater qu'ils sont particulièrement impressionnants.

Mots clés : règles d’association, traitement de grandes bases
Composants : A PRIORI PT
Lien : fr_Tanagra_AprioriPT_Updated.pdf
Données : assoc_census.zip
Références :
Tutoriel Tanagra, "Règles d'association avec APRIORI PT"
C. Borgelt, "A priori - Association Rule Induction / Frequent Item Set Mining"
Tutoriel Tanagra, « Les règles d’association – A priori »

jeudi 22 septembre 2011

Tanagra - Version 1.4.41

Nouveautés de cette version.

A PRIORI PT. Ce composant génère des règles d'association. Il est basé sur le programme apriori.exe de Borgelt qui a été mis à jour. Il s'appuie maintenant sur la version 5.57 du 02/09/2011. Le progrès de cette nouvelle mouture, en termes de temps de calcul, est impressionnant.

FREQUENT ITEMSETS. Egalement basé sur le programme apriori.exe de Borgelt (version 5.57), ce composant génère les itemsets fréquents, fermés, maximaux, ou générateurs.

Des tutoriels viendront bientôt décrire le fonctionnement de ces nouveaux outils.

Page de téléchargement : setup

samedi 16 juillet 2011

Tanagra add-on pour OpenOffice Calc 3.3

Tanagra add-on pour OpenOffice 3.3 et LibreOffice 3.4.

La connexion avec les tableurs est certainement un des facteurs de large diffusion de Tanagra. Il est facile de manipuler ses données à son aise dans le tableur OpenOffice Calc (jusqu'à la version 3.2) et de l'envoyer vers Tanagra via l'addon "TanagraLibrary.zip".

Récemment, des internautes m'ont signalé que le mécanisme ne fonctionnait plus avec les versions récentes d'OpenOffice (version 3.3), et de son dérivé LibreOffice (version 3.4). En me penchant sur la question, je me suis rendu compte que, plutôt qu'une simple correction, il était plus approprié de produire un module respectant la nouvelle norme de gestion des extensions de ces outils. La bibliothèque "TanagraModule.oxt" a dont été créée.

Ce tutoriel vise à documenter son installation et sa mise en œuvre sous OpenOffice Calc 3.3. La transposition à LibreOffice 3.4 est immédiate.

Mots clés : importation des données, tableur, openoffice, libreoffice, add-in, addon, excel
Composant : View Dataset
Lien : fr_Tanagra_Addon_OpenOffice_LibreOffice.pdf
Données : breast.ods
Références :
Tutoriel Tanagra, "Connexion Open Office Calc"
Tutoriel Tanagra, "Connexion Open Office Calc sous Linux"

mardi 5 juillet 2011

Tanagra - Version 1.4.40

Quelques améliorations pour cette nouvelle version.

L'addon de connexion avec le tableur Open Office Calc a été renouvelé. Il ne fonctionnait plus pour les versions récentes (Open Office 3.3 et LibreOffice 3.4). Une autre librairie a été rajoutée ("TanagraModule.oxt") pour ne pas interférer avec l'ancienne, toujours fonctionnelle pour les versions précédentes d'Open Office (3.2 et antérieures). Un tutoriel décrivant son installation sera mis en ligne bientôt. Je profite de cette mise à jour pour redire à quel point la liaison entre un tableur et un outil spécialisé de Data Mining est profitable. Les professionnels, les praticiens, ceux qui s'attaquent à des vrais problèmes avec des vraies données, connaissent l'importance du tableur dans la pratique journalière des statistiques et du data mining. Le sondage annuel organisé par le site kdnuggets.com le montre suffisamment (2011, 2010, 2009, ...). Il faut simplement savoir en circonscrire les limites en fonction de ses objectifs et de son contexte. Et comme outil pédagogique, le tableur est ce qui se fait de mieux pour comprendre les techniques. Les modifications m'ont été suggérées par Jérémy Roos (OpenOffice) et Franck Thomas (LibreOffice).

Notons qu'un addon similaire existe pour le logiciel R (R4Calc).

L'ACP non normée est maintenant disponible. Il est possible de la mettre en œuvre en désactivant l'option de standardisation des données dans le composant Principal Component Analysis. Modification suggérée par Elvire Antanjan.

La régression simultanée (régressions croisées) a été introduite. Inspirée sur logiciel LazStats qui n'est malheureusement plus accessible librement aujourd'hui. La technique est décrite dans notre fascicule accessible en ligne "Pratique de la régression linéaire - Diagnostic et sélection de variables" (section 3.6).

Les codes couleurs selon les p-value (probabilités critiques) ont été implémentées pour le composant Linear Correlation. Modification suggérée par Samuel KL.

Encore une fois, merci infiniment à toutes les personnes qui par leurs commentaires et leurs indications me permettent d'améliorer Tanagra.

Page de téléchargement : setup

mercredi 22 juin 2011

Pratique de la Régression Linéaire (version 2)

Le fascicule consacré à la pratique de la régression linéaire a été mis à jour. Cette nouvelle version se distingue (et celles qui suivront) par les graphiques en couleur (hé oui, on en apprend à tout âge...).

Plus sérieusement, un chapitre a été ajouté, d'autres ont été complétés. Je distinguerais volontiers :

Chapitre 3 - Colinéarité et sélection de variables. Deux sections ont été ajoutées : régressions partielles, régressions croisées.

Chapitre 4 - Régression sur des exogènes qualitatives. Ce chapitre a été profondément remanié. Je confesse avoir été énormément influencé par la lecture de l'extraordinaire ouvrage de M.A. Hardy, " Regression with dummy variables " (cf. bibliographie). Mon travail a surtout consisté à reprendre les parties qui me paraissaient les plus intéressantes de l'ouvrage, en l'inscrivant dans mon propre canevas de présentation et en utilisant mes propres exemples. Le fichier LOYER, entres autres, est mis à toutes les sauces dans ce chapitre.

Chapitre 6 - Détection et traitement de la non linéarité. Ce chapitre fait écho à une première approche de la non-linéarité concernant la régression simple développé dans le premier volume sur la régression (chapitre 6 aussi, c'est une coïncidence). Des approches plus génériques sont mises en avant dans ce document, dans un premier temps pour la régression simple, dans un second temps pour la régression multiple. Ce chapitre doit beaucoup à l'extraordinaire ouvrage de Aïvazian (cf. bibliographie). Je l'ai depuis plus de 20 ans. A chaque que je l'ouvre, je (re)découvre des choses intéressantes. Je l'ai également beaucoup mis à contribution pour mon fascicule consacré à la corrélation.

Mots-clés : régression linéaire simple et multiple, étude des résidus, points aberrants et points influents, colinéarité et sélection de variables, variables exogènes qualitatives, rupture de structure, non-linéarité
Techniques décrites : test de durbin-watson, test des séquences, qraphique qq-plot, test de symétrie des résidus, test de jarque-bera, résidu standardisé, résidu studentisé, dffits, distance de cook, dfbetas, covratio, sélection forward, backward, stepwise, codage centerd effect, codage cornered effect, codage contrastes, test de chow, test de non-linéarité
Ouvrage : Pratique de la régression linéaire multiple – Diagnostic et sélection de variables
Fichiers : fichiers_pratique_regression.zip

jeudi 26 mai 2011

Tanagra - Version 1.4.39

Quelques corrections mineures pour la version 1.4.39 de Tanagra.

Pour le composant PCA (Analyse en Composantes Principales), lorsque l'utilisateur demande explicitement tous les axes factoriels, Tanagra n'en génère aucun. Signalée par Jérémy Roos.

La régression logistique multinomiale (Multinomial Logistic Regression) implémentée dans la version précédente plante. Il n'était pas possible notamment de reproduire le tutoriel qui était en ligne. Signalée par Nicole Jurado.

Il n'était pas possible de calculer les scores avec le composant PLS-DA (Régression PLS - Analyse discriminante) c.-à-d. mettre le composant SCORING à la suite de PLS-DA. Signalée par Carlos Serrano.

Toutes ces erreurs ont été corrigées dans cette version 1.4.39. Je ne le répéterai jamais assez. Merci infiniment à toutes les personnes qui par leurs commentaires et leurs indications me permettent d'améliorer Tanagra.

Page de téléchargement : setup

mercredi 25 mai 2011

Régression avec le logiciel LazStats (OpenStat)

LazStats est un logiciel de statistique programmé et diffusé par Bill Miller, le père du logiciel OpenStat, très connu des statisticiens depuis un certain nombre d'années. Ce sont des outils de très grande qualité, avec une rigueur de calcul appréciable. OpenStat fait partie des logiciels de statistique que je privilégie lorsque je souhaite valider mes propres implémentations.

Le logiciel LazStats, qui est une émanation de la première version en Delphi de OpenStat, est de très bonne facture si j'en juge sa stabilité face aux multiples tests que j'ai pu effectuer. J'ai choisi de présenter la version Windows parce que j'ai l'habitude de travailler sous cet environnement. Une version Linux est accessible sur le site de diffusion pour ceux qui le désirent. Il est également possible de télécharger des versions pour Mac OSX et Linux 64 bits.

L'autre véritable évolution ces dernières années est la mise à disposition d'une documentation de plus en plus riche sur le site web d'OpenStat. Un ouvrage décrit les méthodes statistiques, des tutoriels rédigés décrivent leur mise en œuvre et, pour enfoncer le clou, des tutoriels animés (fichiers .wmv) montrent les séquences de manipulations à réaliser pour mener les analyses. Le travail accompli est vraiment remarquable. Je m'y réfère souvent pour situer ce que je fais moi-même.

Dans ce tutoriel, nous décrivons les fonctionnalités de LazStats en matière de régression linéaire multiple.

Mots clés : économétrie, régression linéaire simple, régression linéaire multiple, sélection de variables, forward, backward, stepwise, régressions croisées
Lien : fr_Tanagra_Regression_LazStats.pdf
Données : conso_vehicules_lazstats.txt (attention au point décimal !)
Références :
LazStats - http://www.statprograms4u.com/

samedi 14 mai 2011

REGRESS dans la distribution SIPINA

Peu de personnes le savent. En réalité, plusieurs logiciels sont installés lorsque l'on récupère et que l'on exécute le SETUP de SIPINA (setup_stat_package.exe). Je n'en parle pas beaucoup parce que les autres techniques proposées (Régression Linéaire Multiple et Règles d'Association) sont déjà intégrées dans TANAGRA qui est très largement diffusé.

Pourquoi en parler aujourd'hui alors ? Tout simplement parce que, concernant REGRESS en tous les cas, je me suis rendu compte en préparant le fascicule de cours consacré à la régression linéaire simple et multiple (Econométrie - Régression Linéaire Simple et Multiple), que le relatif manque de puissance du logiciel - par rapport à TANAGRA - est largement compensé par une grande facilité d'utilisation. Pour les utilisateurs qui souhaitent manipuler un outil simple, sans fioritures, REGRESS peut encore rendre de grands services.

REGRESS a été recompilé en introduisant deux améliorations : il peut s'intégrer dans le tableur Excel via une macro-complémentaire maintenant, la même que celle de SIPINA (SIPINA.XLA), cela accroît grandement sa facilité d'utilisation ; j'ai revérifié les formules pour qu'elles soient complètement cohérentes avec celles obtenues par tableur décrites dans mes fascicules de cours.

Mots clés : logiciel regress, économétrie, régression linéaire simple, régression linéaire multiple, points aberrants, points atypiques, points influents, normalité des résidus, test de Jarque-Bera, droite de Henry, normal probability plot, q-q plot, macro complémentaire, sipina.xla, add-in
Lien : fr_sipina_regress.pdf
Données : ventes-regression.xls
Références :
R. Rakotomalala, "Econométrie - Régression Linéaire Simple et Multiple".

mardi 10 mai 2011

Régression linéaire simple et multiple

Ce document décrit les principes et techniques de la régression linéaire simple et multiple. Décomposé en deux parties : régression simple puis régression multiple, il aborde tous les points importants de la modélisation statistique. Les concepts sont explicités à l'aide d'exemples traités sur tableur. Tous les calculs sont très largement détaillés. Les fichiers associés sont accessibles en ligne.

Il correspond à un enseignement d'économétrie de niveau licence (L3). Il est d'ailleurs associé au cours que je dispense aux étudiants de la Licence IDS (Informatique décisionnelle et statistique) du Département Informatique et Statistique de l'Université Lyon 2 (http://dis.univ-lyon2.fr).

Il vient en complément du fascicule consacré à la " Pratique de la régression linéaire multiple " accessible en ligne depuis quelque temps déjà (dans l'agencement du cours, il le précède plutôt).

Enfin, la mise en œuvre et la lecture des résultats de la régression sur des logiciels de data mining et de statistique sont décrites dans un chapitre dédié (tanagra, logiciel r, sas, spad, spss, statistica).

Mots-clés : économétrie, régression linéaire simple, régression linéaire multiple, droitereg
Thèmes abordés : principes de la régression, estimation / estimateur des moindres carrés ordinaires, tableau d'analyse de variance, coefficient de détermination, test de significativité globale de la régression, test de significativité individuelle des coefficients, test de significativité d'un bloc de coefficients, intervalle de confiance des coefficients, test de conformité à un standard des coefficients, prédiction ponctuelle, prédiction par intervalle, comparaison des paramètres des régressions dans différentes sous-populations
Ouvrage : econometrie_regression.pdf
Fichiers : econometrie_regression_fichiers.zip

jeudi 31 mars 2011

Classifieur Bayesien Naïf - Diaporama

Le classifieur bayesien naïf (le modèle d'indépendance conditionnelle) est très populaire en recherche (text mining, etc.), mais peu utilisée par les praticiens du data mining en entreprise (études marketing). Pourtant, la technique cumule les qualités : incrémentalité, capacité à traiter de très grandes bases (tant en nombre de lignes que de colonnes), simplicité des calculs (ce qui fait peut être son succès auprès des informaticiens), performances comparables aux autres techniques supervisées. Une des raisons de cette défection est qu'elle est mal comprise. Beaucoup pensent qu'il n'est pas possible d'en déduire un modèle explicite facile à déployer. Quand on regarde ce que propose le standard PMML pour son intégration dans les systèmes d'information, on peut effectivement s'interroger sur son intérêt. Ajouté à cela, l'interprétation des résultats qui est inhérente à toute étude, c.-à-d. l'analyse de la relation de chaque prédicteur avec la variable cible, semble bien compromise également.

Pourtant, à bien y regarder, on se rend compte que l'on peut facilement dériver un modèle explicite sous forme de combinaisons linéaires des prédicteurs. Nous avions implémenté cette approche dans Tanagra. Nous avons montré dans plusieurs tutoriels (cf. références) l'intérêt de ces calculs supplémentaires relativement simples finalement. Dans cette optique, le classifieur bayesien naïf se pose comme un challenger tout à fait valable des techniques populaires telles que la régression logistique. A l'époque des dits tutoriels, Tanagra était le seul logiciel libre (ou à accès gratuit) à proposer la présentation des modèles sous cette forme. Je ne sais pas aujourd'hui.

Ce diaporama, qui me servira de support pour mes cours, vient présenter la méthode de manière unifiée (prédicteurs quantitatifs et qualitatifs). A terme, il constituera un chapitre d'un ouvrage consacré à l'analyse discriminante prédictive.

Diaporama imprimable : Classifieur Bayesien Naïf
Références :
Tutoriel Tanagra, "Le classifieur Bayesien Naïf revisité"
Tutoriel Tanagra, "Bayesien Naïf pour Prédicteurs Continus"

dimanche 20 mars 2011

Régression - Déploiement de modèles

Le déploiement est une des principales finalités du Data Mining. Il s'agit d'appliquer les modèles sur de nouveaux individus de la population. En apprentissage supervisé, il s'agit de leur attribuer leur classe d'appartenance ; en apprentissage non supervisé, l'objectif est de les associer à un groupe qui leur serait le plus similaire. Concernant la régression, appliquer le modèle sur des nouveaux individus consiste à prédire la valeur de la variable dépendante quantitative (variable endogène, variable cible) à partir de leur description c.-à-d. les valeurs prises par les variables indépendantes (variables exogènes).

L'opération est simple lorsqu'il s'agit d'implémenter une régression linéaire multiple ou une régression PLS. Nous récupérons les coefficients du modèle, nous les appliquons sur la description des nouveaux individus à étiqueter. L'affaire devient compliquée lorsque nous souhaitons manipuler des modèles plus complexes, soit parce qu'issus d'enchaînements d'opérations (ex. analyse factorielle + régression sur axes), soit parce que nous ne disposons pas d'une expression explicite simple du modèle (Support Vector Regression avec un noyau non linéaire). Il est donc primordial que le logiciel qui a servi à la construction des modèles puisse se charger lui-même du déploiement.

Avec Tanagra, il est possible de déployer facilement les modèles dans le cadre de la régression, même lorsqu'ils sont le fruit d'une succession d'opérations. Il faut simplement préparer le fichier de données d'une manière particulière.

Dans ce didacticiel, nous montrons comment organiser efficacement le fichier pour faciliter le déploiement. Par la suite, nous apprenons plusieurs modèles prédictifs (régression linéaire multiple, régression PLS, support vector régression avec un noyau RBF, arbre de régression, régression sur axes factoriels), que nous appliquons sur les nouvelles observations à étiqueter. Nous exportons les prédictions dans un fichier au format Excel. Enfin, nous vérifions leur cohérence. L'idée est d'identifier les techniques qui produisent des prédictions similaires.

Mots clés : déploiement, régression linéaire multiple, régression pls, support vector regression, SVR, arbres de régression, cart, analyse en composantes principales, régression sur axes factoriels
Composants : MULTIPLE LINEAR REGRESSION, PLS REGRESSION, PLS SELECTION, C-RT REGRESSION TREE, EPSILON SVR, PRINCIPAL COMPONENT ANALYSIS, RECOVER EXAMPLES, EXPORT DATASET, LINEAR CORRELATION
Lien : fr_Tanagra_Multiple_Regression_Deployment.pdf
Données : housing.xls
Références :
R. Rakotomalala, Régression linéaire multiple - Diaporama

vendredi 11 février 2011

Régression linéaire - Lecture des résultats

La régression linéaire multiple est une technique de modélisation statistique. Elle vise à prédire et expliquer les valeurs prises par une variable endogène quantitative Y à partir de p variables exogènes X1, …, Xp, quantitatives ou qualitatives rendues binaires par recodage.

Dans ce tutoriel, à travers un exemple de prédiction de la consommation des véhicules à partir de leur poids, de leur cylindrée et de leur puissance, nous décrirons les sorties de TANAGRA en leur associant les formules utilisées. Nous mettrons en avant le rôle de la matrice (X'X)^(-1) fournie depuis la version 1.4.38. Elle est importante car elle tient une place centrale dans les tests généralisés sur les coefficients. Nous en accomplirons quelques uns manuellement avec le tableur Excel.

Dans un deuxième temps, nous réaliserons la régression à l'aide du logiciel R. Nous mettrons en parallèle ses résultats avec ceux de TANAGRA. Nous identifierons les objets qui fournissent les informations nécessaires aux différents post-traitements, notamment les tests généralisés. Nous effectuerons alors les calculs réalisés précédemment dans Excel directement dans R.

Mots clés : régression linéaire multiple, logiciel R, lm, tests généralisés, tests de conformité, tests de comparaison
Composants : MULTIPLE LINEAR REGRESSION
Lien : fr_Tanagra_Multiple_Regression_Results.pdf
Données : cars_consumption.zip
Références :
R. Rakotomalala, Régression linéaire multiple - Diaporama

vendredi 4 février 2011

Tanagra - Version 1.4.38

Quelques corrections mineures pour la version 1.4.38 de Tanagra.

Les codes couleurs des tests de normalité ont été harmonisés (NORMALITY TEST). Selon la procédure, les couleurs associées aux p-value n'étaient pas cohérents, induisant en erreur le praticien. Ce problème m'a été signalé par M. Laurent Garmendia.

Suite à des indications de M. Oanh Chau, je me suis rendu compte que la standardisation des variables pour la HAC (classification ascendante hiérarchique) était basée sur l'écart-type d'échantillon. Ce n'est pas une erreur en soi. Mais du coup, la somme des indices de niveau dans le dendrogramme ne coïncidait pas avec la TSS (total sum of squares). C'est plus gênant. L'écart est surtout perceptible sur les petits fichiers, il s'estompe lorsque l'effectif augmente. La correction a été introduite, maintenant le « BSS ratio » vaut bien 1 lorsque nous avons la partition triviale c.-à-d. un individu par groupe.

La régression linéaire multiple (MULTIPLE LINEAR REGRESSION) fournit maintenant la matrice (X'X)^(-1). Elle permet de déduire la matrice de variance covariance des coefficients (en la pré-multipliant par la variance estimée de l'erreur). Elle rentre aussi dans les tests généralisés sur les coefficients : les tests de conformité simultanés; les tests de combinaisons linéaires. Ces tests sont décrits (entres autres) dans les diaporamas de mes enseignements d'économétrie en Licence IDS.

Enfin, les sorties de l'analyse discriminante descriptive (CANONICAL DISCRIMINANT ANALYSIS) ont été complétées. Les barycentres des groupes (Group centroïds) sur les axes factoriels sont directement fournies.

Merci infiniment à toutes les personnes qui, par leurs commentaires ou leurs suggestions, m'aident à améliorer quotidiennement le travail que je mets en ligne (logiciel, documents).

Page de téléchargement de Tanagra : setup

lundi 31 janvier 2011

Régression Linéaire Multiple - Diaporama

Toujours dans la série « Je refais mes diapos de mon cours d'Économétrie », voici le support consacré à la « Régression Linéaire Multiple ».

Pour comprendre les formules, je montre le détail des calculs dans le tableur Excel. Franchement, je ne connais pas de meilleure approche pédagogique pour que tout un chacun puisse comprendre l'enchaînement des opérations, notamment tout ce qui concerne les calculs matriciels pour la production des estimateurs et de leurs variances.

Diaporama imprimable : Régression Linéaire Multiple
Données : Cigarettes.xls
Page du cours d'Économétrie de la Licence : Économétrie

jeudi 27 janvier 2011

Régression Linéaire Simple - Diaporama

Dans la série « Je refais les diaporamas de mon cours d'économétrie », voici le support consacré à la « Régression Linéaire Simple ».

Il développe tous les thèmes abordés en cours. Il ne comporte pas les démonstrations en revanche. Je les fais au tableau. En effet, il y a les formules, mais il y a surtout la démarche sous-jacente, les ressorts qui permettent de mettre en évidence tel ou tel résultat. Et quel que soit l'exhaustivité d'un support, il y a des choses que l'on ne peut développer que verbalement, en comptant sur l'interactivité des étudiants (allez les gars, dormez pas quoi...).

Et puis, il faut bien justifier le fait que je vienne à la fac pour faire le zouave devant tout le monde.

Diaporama imprimable : Régression linéaire simple
Données : rendements agricoles.xls
Page du cours d'Économétrie de la Licence : Économétrie

lundi 17 janvier 2011

Introduction à l'Econométrie - Diaporama

De l'Économétrie au Data Mining, le chemin n'est pas aussi long qu'on peut le croire. Finalement, il s'agit de détecter des formes de régularités dans les données, de s'assurer qu'elles représentent réellement une causalité (économique ou autres), puis de les exploiter par la suite. Seuls le domaine d'application et les techniques utilisées sont différents.

Ce diaporama correspond à mon Introduction à l'Économétrie pour mon cours en Licence Informatique Décisionnelle et Statistique du Département Informatique et Statistique (http://dis.univ-lyon2.fr) de la Faculté de Sciences Économiques de l'Université Lyon 2.

Diaporama imprimable : Introduction à l'Économétrie
Diaporama animé : Introduction à l'Économétrie

vendredi 14 janvier 2011

Analyse factorielle discriminante - Diaporama

L'analyse factorielle discriminante ou analyse discriminante descriptive est une technique factorielle qui vise à expliquer à l'aide d'un ensemble de variables l'appartenance des individus à des groupes (classes) prédéfinis. C'est dont avant tout une méthode descriptive. Néanmoins, de par sa définition, elle a des connexions très importantes avec l'analyse discriminante bayesienne ou analyse discriminante prédictive, bien connue en apprentissage supervisé et en reconnaissance de formes.

L'analyse discriminante descriptive fait partie des approches factorielles. On montre assez facilement qu'elle constitue une déclinaison particulière de l'analyse canonique et de l'analyse en composantes principales.

Ce nouveau diaporama est le support que j'utiliserai dorénavant pour décrire la méthode auprès de mes étudiants. On peut la décomposer en trois grandes parties : présentation de la méthode et principaux éléments théoriques ; lecture des résultats, notamment l'interprétation des axes factoriels ; mise en œuvre dans les logiciels tels que Tanagra (Canonical Discriminant Analysis), R (lda) et SAS (candisc).

Ce support doit beaucoup aux excellents ouvrages de Tenenhaus (2007) et Saporta (2006) indiqués dans la bibliographie.

Mots clés : analyse factorielle discriminante, analyse discriminante descriptive, logiciel R, lda, sas, candisc
Composants : CANONICAL DISCRIMINANT ANALYSIS
Lien : analyse_discriminante_descriptive.pdf
Données : wine_quality.xls
Références :
Wikipédia, "Analyse discriminante"
D. Garson, "Discriminant Function Analysis"

lundi 3 janvier 2011

Bonne année 2011 - Bilan 2010

L'année 2010 s'achève, 2011 commence. Je vous souhaite à tous une belle et heureuse année 2011.

Un petit bilan chiffré concernant l'activité organisée autour de Tanagra pour l' année écoulée. L'ensemble des sites (logiciel, support de cours, ouvrages, tutoriels) a été visité 241.765 fois cette année, soit 662 visites par jour. Par comparaison, nous avions 349 visites journalières en 2008 et 520 en 2009.

Qui êtes-vous ? La majorité des visites viennent de France et du Maghreb (62 %). Puis viennent les autres pays francophones, une grande partie vient d'Afrique. Pour ce qui est des pays non francophones, nous observons parmi ceux qui reviennent souvent : les États-Unis, l'Inde, le Royaume Uni, l'Allemagne, le Brésil, etc.

Que consultez-vous en priorité ? Les pages qui ont le plus de succès sont celles qui se rapportent à la documentation sur le Data Mining : les supports de cours, les tutoriels, les liens vers les autres documents accessibles en ligne, etc. Ce n'est guère étonnant. Au fil des années, plus que la programmation et la promotion de Tanagra, je passe de plus en plus de temps moi-même à écrire des fascicules de cours et des tutoriels, à étudier le comportement des différents logiciels.

Encore Bonne Année 2011 à tous. Que chacun puisse mener à bien les projets qui leur sont les plus précieux.

Ricco.
Diaporama : Tanagra - Bilan 2010