<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-4899725441569343706</id><updated>2012-02-17T04:51:50.605+01:00</updated><category term='Régression logistique'/><category term='Tanagra - Développement'/><category term='Analyse discriminante'/><category term='Régression'/><category term='Statistiques et tests'/><category term='Sipina'/><category term='Régression PLS'/><category term='Arbres de décision'/><category term='Sélection de variables'/><category term='Importation des données'/><category term='Classification - Clustering'/><category term='Analyse factorielle'/><category term='Règles d&apos;association'/><category term='Construction de variables'/><category term='App. Supervisé - Scoring'/><category term='Tanagra - Fonctionnalités'/><category term='Ouvrages'/><category term='Tanagra et les autres'/><title type='text'>Tutoriels Tanagra pour le Data Mining</title><subtitle type='html'>Ce blog recense les didacticiels pour Tanagra, sous forme d'études de cas. Ils sont organisés en catégories. On dispose des fonctionnalités de recherche par mots-clés. Chaque article est accompagné d'un texte de présentation, d'une liste de mots-clés, des liens vers les données et l'article (pdf), et une bibliographie. Pour certains (catégorie « Tanagra et les autres »), nous montrons comment faire avec d’autres logiciels libres (Knime, Orange, R, RapidMiner, Sipina, Weka) ou commerciaux (Spad).</subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://tutoriels-data-mining.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><link rel='next' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default?start-index=101&amp;max-results=100'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>206</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6664398795572294696</id><published>2012-02-17T04:51:00.003+01:00</published><updated>2012-02-17T04:51:50.618+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Tinn-R, un éditeur de code pour R</title><content type='html'>TINN-R est mon éditeur de code favori pour le logiciel R. Je l’utilise pour mes enseignements. Je me rends compte d’ailleurs que je ne suis pas le seul à l’apprécier. Ça ne veut pas dire qu’il est le meilleur (si tant est qu’il en existe). Je constate tout simplement qu’il présente des qualités intéressantes dans mon contexte : il est simple, léger, facile à manipuler, sans pour autant être limité face aux autres outils accessibles gratuitement. Il convient parfaitement pour la conception de petits scripts « .r ».&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous décrivons succinctement les principales fonctionnalités de TINN-R. Nous mettrons l’accent sur les erreurs fréquemment rencontrées avec l’outil. Après plusieurs années de pratique, je commence à identifier les différents écueils qui laissent parfois perplexes les utilisateurs. Ce didacticiel ne sera jamais définitif, au fil des années il sera complété au fur et à mesure des problèmes rencontrés et, je l’espère, résolus.&lt;br /&gt;&lt;br /&gt;Bien évidemment, pour pouvoir exploiter TINN-R, il faut que le logiciel R lui-même soit déjà installé sur notre machine.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots-clés &lt;/b&gt;: logiciel R, tinn-r, éditeur de code, EDI&lt;br /&gt;&lt;b&gt;Lien &lt;/b&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Tinn_R.pdf" target="_blank"&gt;fr_Tanagra_Tinn_R.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références &lt;/b&gt;:&lt;br /&gt;Site du logiciel &lt;a href="http://www.sciviews.org/Tinn-R/index.html" target="_blank"&gt;Tinn-R&lt;/a&gt; ; Site du logiciel &lt;a href="http://www.r-project.org/" target="_blank"&gt;R&lt;/a&gt;.&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours_programmation_R.html" target="_blank"&gt;Cours de programmation R&lt;/a&gt;".&lt;br /&gt;KDNuggets Polls, « &lt;a href="http://www.kdnuggets.com/polls/2011/r-gui-used.html" target="_blank"&gt;R GUIs you use frequently&lt;/a&gt; », Avril 2011.&lt;br /&gt;Developpez.com, « &lt;a href="http://www.developpez.net/forums/d887202/autres-langages/autres-langages/r/editeur-utilisez-r/" target="_blank"&gt;Quel éditeur utilisez-vous pour R ?&lt;/a&gt; », Mars 2010.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6664398795572294696?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6664398795572294696'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6664398795572294696'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2012/02/tinn-r-un-editeur-de-code-pour-r.html' title='Tinn-R, un éditeur de code pour R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7098964887815913410</id><published>2012-02-05T07:56:00.003+01:00</published><updated>2012-02-05T08:26:22.458+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Vérification des données manquantes - Tanagra</title><content type='html'>Jusqu’à la version 1.4.41, Tanagra ne gérait pas les données manquantes parce qu’il me semblait pédagogiquement intéressant que les étudiants, qui constituent quand même le principal public de Tanagra, réfléchissent et traitent explicitement en amont ce problème difficile. Le pire serait de s’en remettre aveuglément au logiciel c.-à-d. de le laisser choisir à notre place un traitement automatique inadapté au cadre de notre étude, aux caractéristiques de nos données, etc. Ainsi, Tanagra se contentait de tronquer le fichier à l’importation dès le premier obstacle rencontré. Ce traitement sans concessions déroutait souvent l’utilisateur, d’autant plus qu’aucun message d’erreur n’était envoyé. Il se demandait alors pourquoi, alors que toutes les conditions semblent réunies, les données n’étaient pas correctement chargées.&lt;br /&gt;&lt;br /&gt;&lt;b style="color: #3d85c6;"&gt;Avec la nouvelle version 1.4.42&lt;/b&gt;, l’importation des fichiers TXT (fichiers textes avec séparateur tabulation), des fichiers XLS (Excel 97-2003), et le transfert des données via les add-in pour Excel (jusqu’à Excel 2010) et LibreOffice 3.4/OpenOffice 3.3, ont été modifiés. Tanagra parcourt bien toutes les lignes de la base. Il se contente simplement de sauter les observations incomplètes et/ou comportant des incohérences (ex. une valeur non numérique pour un attribut initialement détecté quantitatif). Et, surtout, &lt;b style="color: #3d85c6;"&gt;un message d’erreur explicite comptabilise le nombre de lignes ignorées&lt;/b&gt;. L’utilisateur est mieux informé. Cette approche très simpliste correspond à la stratégie « listwise deletion » . Ses faiblesses sont largement identifiées . Pour nous, il s’agit surtout d’alerter l’utilisateur sur les problèmes rencontrés lors de la lecture du fichier de données. Libre à lui de poursuivre directement si ce traitement par défaut lui convient. Ce qui n’est pas très conseillé quand même dans la plupart des cas. Les études que nous avons menées pour la régression logistique le montrent bien. &lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous montrons la gestion des données manquantes lors de l’envoi des données d’Excel vers Tanagra via la macro complémentaire Tanagra.xla. Certaines cellules du fichier Excel sont vides. Cet exemple illustre bien le nouveau comportement de Tanagra. Nous obtiendrions des résultats identiques si nous importions directement le fichier XLS ou si nous importions le fichier au format TXT correspondant.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés&lt;/b&gt; : données manquantes, données incohérentes, missing data, missing values, importation des fichiers textes, excel, macro complémentaire, tanagra.xla&lt;br /&gt;&lt;b&gt;Composants&lt;/b&gt; : DATASET, VIEW DATASET&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Missing_Data_Checking.pdf" target="_blank"&gt;fr_Tanagra_Missing_Data_Checking.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Fichier :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/ronflement_with_missing_empty.zip" target="_blank"&gt;ronflement_with_missing_empty.zip&lt;/a&gt;&lt;b&gt; &lt;/b&gt;&lt;br /&gt;&lt;b&gt;Références &lt;/b&gt;:&lt;br /&gt;Wikipedia, "&lt;a href="http://en.wikipedia.org/wiki/Listwise_deletion" target="_blank"&gt;Listwise deletion&lt;/a&gt;".&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7098964887815913410?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7098964887815913410'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7098964887815913410'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2012/02/verification-des-donnees-manquantes.html' title='Vérification des données manquantes - Tanagra'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8742739977900775300</id><published>2012-02-04T10:26:00.006+01:00</published><updated>2012-02-04T10:26:56.224+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.42</title><content type='html'>La macro complémentaire &lt;span style="color: #6fa8dc;"&gt;Tanagra.xla&lt;/span&gt; est maintenant &lt;span style="color: #6fa8dc;"&gt;compatible avec les versions 64 bits d’Excel&lt;/span&gt; (en plus des versions 32 bits gérées auparavant).&lt;br /&gt;&lt;br /&gt;Avec le gestionnaire de mémoire FastMM, &lt;span style="color: #6fa8dc;"&gt;Tanagra peut adresser 3 Go de RAM sur les versions 32 bits de Windows, et 4 Go sur les versions 64 bits&lt;/span&gt;. La capacité à traiter des très grands fichiers est largement améliorée.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: #6fa8dc;"&gt;L’importation des fichiers texte (séparateur tabulation) et xls (Excel 97-2003) a été sécurisée&lt;/span&gt;. Auparavant, lorsqu’une ligne invalide était rencontrée (valeur manquante ou incohérente), le chargement était interrompu et les données tronquées. Maintenant, Tanagra saute la ligne incriminée et poursuit le chargement pour les observations restantes. Le nombre de lignes ignorées sont indiquées dans le rapport d’importation.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Page de téléchargement&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fr/contenu_telechargement_logiciel_tanagra.html" target="_blank"&gt;setup&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8742739977900775300?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8742739977900775300'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8742739977900775300'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2012/02/tanagra-version-1442.html' title='Tanagra - Version 1.4.42'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3863774136355773432</id><published>2012-01-26T20:57:00.002+01:00</published><updated>2012-01-26T20:59:41.837+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Régression logistique sur les grandes bases</title><content type='html'>Gratter les millisecondes est le péché mignon des informaticiens. Au-delà de la petite satisfaction personnelle, il y a quand même des enjeux&amp;nbsp; forts derrière l’optimisation des programmes. Notre rôle est de produire des logiciels fiables, rapides, avec une occupation mémoire contenue. Dans le cadre du data mining, cela se traduit par la capacité à&amp;nbsp; traiter les grandes bases de données. Certes, dans la phase finale où il s’agit de produire le modèle qui sera déployé dans le système d’information, qu’importe finalement que les calculs durent une 1/2 heure ou une 1/2 journée. Mais il y a la phase exploratoire en amont, lorsque nous cherchons les solutions les mieux adaptées à notre problème. Plus rapide sera l’outil, plus de configurations nous pourrons tester. Nous aurons ainsi de meilleures chances de mettre en évidence la solution la plus efficace.&lt;br /&gt;&lt;br /&gt;Il m’est apparu intéressant de comparer les temps de traitement et l’occupation mémoire de la régression logistique de Tanagra avec ceux des autres outils gratuits largement répandus au sein de la communauté du Data Mining. J’avais déjà mené un travail similaire par le passé. La nouveauté dans ce tutoriel est que nous nous situons dans un nouveau cadre : j’utilise maintenant un OS 64 bits (Windows 7), et certains de ces logiciels sont justement passés aux 64 bits avec des capacités de traitements accrus comme on a pu le constater pour les algorithmes de construction des arbres de décision . J’ai donc largement augmenté la taille de la base à traiter (&lt;b style="color: #6fa8dc;"&gt;300.000 observations&lt;/b&gt; et &lt;b style="color: #6fa8dc;"&gt;121 variables prédictives&lt;/b&gt;). Pour corser l’affaire, des attributs générés complètement aléatoirement ou de manière à être corrélés avec les variables initiales ont été rajoutées. L’objectif est d’observer le comportement des logiciels durant la recherche des prédicteurs pertinents.&lt;br /&gt;&lt;br /&gt;Dans ce comparatif, outre &lt;b style="color: #6aa84f;"&gt;Tanagra 1.4.41&lt;/b&gt; (32 bits), nous utiliserons les logiciels &lt;b&gt;&lt;span style="color: #6aa84f;"&gt;R 2.13.2&lt;/span&gt;&lt;/b&gt; (64 bits), &lt;b&gt;&lt;span style="color: #6aa84f;"&gt;Knime 2.4.2&lt;/span&gt;&lt;/b&gt; (64 bits), &lt;b&gt;&lt;span style="color: #6aa84f;"&gt;Orange 2.0b&lt;/span&gt;&lt;/b&gt; (build 15 oct 2011, 32 bits) et &lt;b&gt;&lt;span style="color: #6aa84f;"&gt;Weka 3.7.5&lt;/span&gt;&lt;/b&gt; (64 bits).&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés&lt;/b&gt; : régression logistique, grands fichiers, grandes bases, gros volumes, comparaison de logiciels, glm, stepAIC, logiciel R, knime, orange, weka&lt;br /&gt;&lt;b&gt;Composants&lt;/b&gt; : BINARY LOGISTIC REGRESSION, FORWARD LOGIT&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Perfs_Bis_Logistic_Reg.pdf" target="_blank"&gt;fr_Tanagra_Perfs_Bis_Logistic_Reg.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Fichier&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/perfs_bis_logistic_reg.zip" target="_blank"&gt;perfs_bis_logistic_reg.zip&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références &lt;/b&gt;:&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/pratique_regression_logistique.pdf" target="_blank"&gt;Pratique de la régression logistique&lt;/a&gt; - Régression logistique binaire et polytomique", Version 2.0, Juin 2011.&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/10/rgression-logistique-comparaison-de.html"&gt;Régression logistique - Comparaison de logiciels&lt;/a&gt;".&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3863774136355773432?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3863774136355773432'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3863774136355773432'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2012/01/regression-logistique-sur-les-grandes.html' title='Régression logistique sur les grandes bases'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-4450655076092716061</id><published>2012-01-18T16:29:00.002+01:00</published><updated>2012-01-19T09:14:01.173+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Sipina - Version 3.8</title><content type='html'>Les logiciels (SIPINA RESEARCH, REGRESS et ASSOCATION RULE SOFTWARE) associés à la distribution SIPINA ont été mis à jour avec quelques améliorations.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: #3d85c6;"&gt;SIPINA.XLA&lt;/span&gt;. La macro complémentaire fonctionne indifféremment avec les versions 32 et 64 bits d’Excel (testée jusqu’à Excel 2010).&lt;br /&gt;&lt;br /&gt;&lt;span style="color: #3d85c6;"&gt;Importation des fichiers textes&lt;/span&gt;. Le temps de traitement a été amélioré. Cette modification joue également sur le temps de transfert durant l’envoi des données d’Excel vers les logiciels via la macro-complémentaire (qui utilise un fichier temporaire au format texte).&lt;br /&gt;&lt;br /&gt;&lt;span style="color: #3d85c6;"&gt;Association rule software&lt;/span&gt;. L’interface a été simplifiée, l’affichage des règles est rendue plus lisible.&lt;br /&gt;&lt;br /&gt;S'appuyant sur le gestionnaire de mémoire FastMM, ces 3 logiciels &lt;span style="color: #6aa84f;"&gt;peuvent adresser jusqu'à 3 Go sous Windows 32 bits et 4 Go sous Windows 64 bits&lt;/span&gt;. Les capacités de traitement sont améliorées.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Site web&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/sipina.html" target="_blank"&gt;Sipina&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Chargement&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/sipina_download.html" target="_blank"&gt;Fichier setup&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références&lt;/b&gt; :&lt;br /&gt;Tutoriel Tanagra - &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-excel-sipina.html"&gt;Connexion Excel - Sipina&lt;/a&gt;&lt;br /&gt;Delphi Programming Resource - &lt;a href="http://delpres.blogspot.com/2008/07/fastmm-fast-memory-manager-replacement.html" target="_blank"&gt;FastMM, a Fast Memory Manager&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-4450655076092716061?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4450655076092716061'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4450655076092716061'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2012/01/sipina-version-38.html' title='Sipina - Version 3.8'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1583834591583320128</id><published>2012-01-10T07:09:00.001+01:00</published><updated>2012-01-10T07:09:27.105+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Arbres de décision sur les grandes bases (suite)</title><content type='html'>S’endormir sur ses lauriers est impossible en informatique. Tout évolue très vite : matériel, système, logiciel. C’est un de ses principaux attraits d’ailleurs. La vérité d’aujourd’hui n’est pas celle d’hier, elle sera peut être différente demain, il faut être sur le qui-vive. Ayant changé de système, je suis passé à Windows 7 en 64 bits (avec un Quad Core Q9400 à 2.66 Ghz), j’étais curieux de voir le nouveau comportement des outils analysés dans &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/09/traitement-de-gros-volumes-comparaison.html"&gt;un ancien document&lt;/a&gt; dont l'objet était l'analyse comparative des performances des différents logiciels de data mining durant l'apprentissage d'un arbre de décision. Surtout que plusieurs de ces outils sont passés à une version 64 bits (Knime, RapidMiner, R).&lt;br /&gt;&lt;br /&gt;J’ai donc reproduit la même analyse avec les mêmes données et mesuré les mêmes critères : temps de traitement et occupation mémoire. J’ai constaté que la grande majorité des outils ont bien progréssé en termes de temps de traitement, à des degrés divers néanmoins. En revanche, les évolutions ne sont pas manifestes concernant l’occupation mémoire. Nous détaillons tout cela dans la dernière section de cette nouvelle version de notre tutoriel.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés :&lt;/b&gt; c4.5, arbres de décision, grandes bases de données, comparaison de logiciels, knime2.4.2, orange 2.0b, r 2.13.2, rapidminer 5.1.011, sipina 3.7, tanagra 1.4.41, weka 3.7.4, windows 7 - 64 bits&lt;br /&gt;&lt;b&gt;Composants :&lt;/b&gt; SUPERVISED LEARNING, C4.5&lt;br /&gt;&lt;b&gt;Lien :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Perfs_Comp_Decision_Tree_Suite.pdf" target="_blank"&gt;fr_Tanagra_Perfs_Comp_Decision_Tree_Suite.pdf&lt;/a&gt; &lt;br /&gt;&lt;b&gt;Lien (2) :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/copie_ecran_tree_on_large_dataset_continued.pdf" target="_blank"&gt;Copies d'écran&lt;/a&gt; avec les versions des logiciels utilisées dans cette mise à jour.&lt;br /&gt;&lt;b&gt;Données :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/wave500k.zip" target="_blank"&gt;wave500k.zip&lt;/a&gt;&lt;b&gt;&amp;nbsp;&lt;/b&gt;&lt;br /&gt;&lt;b&gt;Références :&lt;/b&gt;&lt;br /&gt;Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/09/traitement-de-gros-volumes-comparaison.html" target="_blank"&gt;Traitement de gros volumes - Comparaison de logiciels&lt;/a&gt;". &lt;br /&gt;Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2010/12/arbres-sur-les-grands-fichiers-mise.html" target="_blank"&gt;Arbres de décision sur les grands fichiers (mise à jour)&lt;/a&gt;".&lt;br /&gt;R. Quinlan, « C4.5 : Programs for Machine Learning », Morgan Kaufman, 1993.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1583834591583320128?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1583834591583320128'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1583834591583320128'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/10/arbres-de-decision-sur-les-grandes.html' title='Arbres de décision sur les grandes bases (suite)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-4791357352784556020</id><published>2012-01-10T07:09:00.000+01:00</published><updated>2012-01-10T07:09:09.928+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Arbres sur les " très" grandes bases (suite)</title><content type='html'>Triturer des très grands fichiers était de fantasme ultime du data miner a-t-on coutume de dire. Etant passé récemment à un système 64 bits (mieux vaut tard que jamais), je me propose d’étudier le comportement des outils spécifiquement dédiés à ce système, principalement &lt;b style="color: #6aa84f;"&gt;Knime 2.4.2&lt;/b&gt; et &lt;b style="color: #6aa84f;"&gt;RapidMiner 5.1.011&lt;/b&gt;.&lt;br /&gt;&lt;br /&gt;Ce document vient compléter une &lt;a href="http://tutoriels-data-mining.blogspot.com/2011/10/arbres-de-decision-sur-les-grandes.html"&gt;étude récente&lt;/a&gt; où nous traitions une base moyennement volumineuse avec 500.000 observations et 22 variables. Nous poussons le curseur un peu plus loin en &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/10/sipina-traitement-des-tres-grands.html"&gt;reprenant un tutoriel&lt;/a&gt; où le fichier à traiter comportait &lt;b style="color: blue;"&gt;9.634.198 observations&lt;/b&gt; et &lt;b&gt;&lt;span style="color: blue;"&gt;41 variables&lt;/span&gt;&lt;/b&gt;, (quasiment) impossible à faire tenir en mémoire sur un système 32 bits. L’idée était alors de montrer qu’un système de swap adapté aux algorithmes d’apprentissage, l’induction d’un arbre de décision en l’occurrence, permettait d’appréhender de très grandes bases avec des temps de traitement raisonnables. La procédure avait été implémentée dans Sipina.&lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous constatons que le passage aux 64 bits augmente considérablement les capacités de calcul des logiciels de Data Mining. C’est indéniable. Mais il faut disposer d’une machine à l’avenant pour en tirer réellement parti.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés&lt;/b&gt; : gros volumes, très grands fichiers, grandes bases de données, arbre de décision, échantillonnage, sipina, knime, rapidminer, windows 7 - 64 bits&lt;br /&gt;&lt;b&gt;Composants&lt;/b&gt; : ID3&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Tree_Very_Large_Dataset.pdf" target="_blank"&gt;fr_Tanagra_Tree_Very_Large_Dataset.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Données&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/twice-kdd-cup-discretized-descriptors.zip" target="_blank"&gt;twice-kdd-cup-discretized-descriptors.zip&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références&lt;/b&gt; :&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2011/10/arbres-de-decision-sur-les-grandes.html"&gt;Arbres de décision sur les grandes bases (suite)&lt;/a&gt; ».&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/10/sipina-traitement-des-tres-grands.html"&gt;Sipina - Traitement des très grands fichiers&lt;/a&gt; »&lt;br /&gt;&lt;br /&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-4791357352784556020?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4791357352784556020'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4791357352784556020'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/10/arbres-sur-les-tres-grandes-bases-suite.html' title='Arbres sur les &quot; très&quot; grandes bases (suite)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1956636285136031252</id><published>2012-01-02T11:12:00.001+01:00</published><updated>2012-01-02T11:12:14.958+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Bonne année 2012 - Bilan 2011</title><content type='html'>L'année 2011 s'achève, 2012 commence. Je vous souhaite à tous une belle et heureuse année 2012.&lt;br /&gt;&lt;br /&gt;Un petit bilan chiffré concernant l'activité organisée autour de Tanagra pour l'    année écoulée. L'ensemble des sites (logiciel, support de cours, ouvrages, tutoriels) a été visité 281.352 fois cette année, soit 770 visites par jour. Par comparaison, nous avions 349 visites journalières en 2008, 520 en 2009 et 662 en 2010.&lt;br /&gt;&lt;br /&gt;Qui êtes-vous ? La majorité des visites viennent de France et du Maghreb. Puis viennent les autres pays francophones, une grande partie vient d'Afrique. Pour ce qui est des pays non francophones, nous observons parmi ceux qui reviennent souvent : les États-Unis, l'Inde, le Royaume Uni, l'Italie, le Brésil, l'Allemagne, etc.&lt;br /&gt;&lt;br /&gt;Que consultez-vous en priorité ? Les pages qui ont le plus de succès sont celles qui se rapportent à la documentation sur le Data Mining : les supports de cours, les tutoriels, les liens vers les autres documents accessibles en ligne, etc. Ce n'est guère étonnant. Au fil des années, plus que la programmation et la promotion de Tanagra, je passe de plus en plus de temps moi-même à écrire des fascicules de cours et des tutoriels, à étudier le comportement des différents logiciels. Je constate d'ailleurs que ma page consacrée à la Programmation R fait une percée dans le top 10.&lt;br /&gt;&lt;br /&gt;Encore Bonne Année 2012 à tous. Que chacun puisse mener à bien les projets qui leur sont les plus précieux.&lt;br /&gt;&lt;br /&gt;Ricco.&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Frequentation_2011.pdf" target="_blank"&gt;Tanagra - Bilan 2011&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1956636285136031252?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1956636285136031252'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1956636285136031252'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2012/01/bonne-annee-2012-bilan-2011.html' title='Bonne année 2012 - Bilan 2011'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2306590969994601593</id><published>2011-12-30T09:20:00.001+01:00</published><updated>2011-12-30T09:30:53.779+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Connexion entre R et Excel via RExcel</title><content type='html'>Le couplage entre un logiciel spécialisé de data mining et un tableur est un argument certain pour la praticabilité du premier. Quasiment tout le monde sait manipuler un tableur, ne serait-ce que pour ouvrir un fichier de données et en visualiser le contenu. De même, les opérations de vérification, les calculs statistiques simples, les transformations de données, sont très facilement réalisables dans un tableur. D’ailleurs, un signe qui ne trompe pas, outre les enquêtes du site KDNUGGETS qui montre la popularité d’Excel auprès des data miners, tous les logiciels dignes de ce nom savent importer directement les fichiers au format Excel.&lt;br /&gt;&lt;br /&gt;Très récemment, un étudiant me demandait s’il était possible de réaliser des échanges de données à la volée entre R et Excel. L’enjeu n’est pas tant l’importation des données au format Excel, des packages s’en chargent très bien (le &lt;a href="http://cran.r-project.org/web/packages/xlsx/index.html" target="_blank"&gt;package xlsx&lt;/a&gt; par exemple), mais de disposer des fonctionnalités simplifiées de transfert entre Excel et R, que ce soit pour les data frame (ensemble de données) ou, plus généralement, pour tout vecteur et matrice de données. En cherchant un peu, très rapidement, la réponse a été oui. RExcel répond exactement à ce cahier des charges. En y regardant de plus près, je me suis même rendu compte que la solution proposée est de très grande qualité et va nettement au-delà du simple échange de vecteurs de valeurs.&lt;br /&gt;&lt;br /&gt;Nous présentons donc la bibliothèque RExcel dans ce tutoriel. Nous nous contenterons de décrire le transfert des données. Nous ferrons un très rapide tour d’horizon des autres fonctionnalités dans la conclusion.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés&lt;/b&gt; : importation des données, fichier excel, xls, xlsx, connexion, macro complémentaire, addin, add-in, add-on, régression linéaire multiple&lt;br /&gt;&lt;b&gt;Composants&lt;/b&gt; : lm, stepAIC, predict&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_RExcel.pdf" target="_blank"&gt;fr_Tanagra_RExcel.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Données&lt;/b&gt; :&amp;nbsp; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/ventes_regression_rexcel.zip" target="_blank"&gt;ventes_regression_rexcel.zip&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références&lt;/b&gt; :&lt;br /&gt;T. Baier, E. Neuwirth, "&lt;a href="http://rcom.univie.ac.at/" target="_blank"&gt;Powerful data analysis from inside your favorite application&lt;/a&gt;"&lt;br /&gt;&lt;br /&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2306590969994601593?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2306590969994601593'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2306590969994601593'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/12/connexion-entre-r-et-excel-via-rexcel.html' title='Connexion entre R et Excel via RExcel'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6467006628321950945</id><published>2011-12-27T09:47:00.002+01:00</published><updated>2011-12-30T09:20:20.010+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><title type='text'>L'add-in Tanagra pour Excel 2010 - 64 bits</title><content type='html'>La macro complémentaire « Tanagra.xla » actuelle fonctionne pour les versions 32 bits d’Excel (jusqu’à Excel 2010). Quelle que soit la version de Windows, y compris les versions 64 bits de Windows (ma configuration actuelle est un Windows 7 version 64 bits, version française).&lt;br /&gt;&lt;br /&gt;Elle ne fonctionne pas en revanche lorsqu’il s’agit de lancer de connecter Tanagra avec la version 64 bits d’Excel 2010. Il faut la modifier. Dans ce didacticiel, nous montrons la procédure à suivre.&lt;br /&gt;&lt;br /&gt;Attention, les copies d’écran ont été réalisées à l’aide d’Excel 2007, néanmoins les menus devraient être à peu près les mêmes sous Excel 2010.&lt;br /&gt;&lt;br /&gt;Un grand merci à Mme Nathalie Jourdan-Salloum de m’avoir signalé le problème et de m’avoir indiqué la solution.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés&lt;/b&gt; : importation des données, fichier excel, macro-complémentaire, add-in, addin, add-on, xls, xlsx&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Addin_Excel_64_bit.pdf" target="_blank"&gt;fr_Tanagra_Addin_Excel_64_bit.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références&lt;/b&gt; :&lt;br /&gt;Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2010/08/ladd-in-tanagra-pour-excel-2007-et-2010.html"&gt;L'add-in Tanagra pour Excel 2007 et 2010&lt;/a&gt;".&lt;br /&gt;Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html"&gt;Importation fichier XLS (Excel) - Macro complémentaire&lt;/a&gt;".&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6467006628321950945?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6467006628321950945'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6467006628321950945'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/12/ladd-in-tanagra-pour-excel-2010-64-bits.html' title='L&apos;add-in Tanagra pour Excel 2010 - 64 bits'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1508484756322221636</id><published>2011-12-24T09:01:00.002+01:00</published><updated>2011-12-24T09:42:54.912+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Données manquantes en déploiement</title><content type='html'>Le traitement des valeurs manquantes est un problème difficile, maintes fois étudié lorsqu’il s’agit d’analyser son impact sur les caractéristiques du modèle prédictif élaboré à partir des données d’apprentissage. Nous avons mené une expérimentation &lt;a href="http://tutoriels-data-mining.blogspot.com/2011/12/donnees-manquantes-regression.html"&gt;récemment&lt;/a&gt;. Il s’agissait de comparer les mérites respectifs des différentes approches (suppression de lignes ou imputation) sur les performances de la régression logistique.&lt;br /&gt;&lt;br /&gt;Mais qu’en est-il lors du déploiement d’un modèle ? Curieusement, les écrits sont rares, voire très rares sur le sujet. Pourtant le problème est d’importance. Imaginons une situation concrète. Nous avons construit un super modèle à l’aide de la régression logistique. Nous l’intégrons dans notre système d’information. Une fiche client arrive, nous souhaitons le scorer pour connaître son appétence à un nouveau produit. Et là, patatras, la personne n’a pas mentionné son salaire dans sa fiche. Or, cette variable figure dans votre équation. Que faire ? &lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous supposons que le modèle prédictif a été construit selon un processus classique. La question des données manquantes n’est pas posée pour l’apprentissage. En revanche, elle est posée lors du déploiement. &lt;b&gt;&lt;span style="color: #3d85c6;"&gt;Nous souhaitons classer des individus dont la description est incomplète&lt;/span&gt;&lt;/b&gt;. Nous comparerons alors deux approches de substitution – l’une univariée, l’autre multivariée – de valeurs manquantes pour le déploiement. &lt;span style="color: lime;"&gt;Nous montons une expérimentation sous R&lt;/span&gt; pour évaluer empiriquement leurs performances respectives sur plusieurs bases de données benchmark bien connues de la communauté du Data Mining.&lt;br /&gt;&lt;br /&gt;Nous nous plaçons dans un cadre spécifique dans ce tutoriel : le modèle prédictif est issu de la régression logistique ; toutes les variables prédictives sont quantitatives ; la probabilité d'apparition d'une valeur manquante est la même pour toutes les variables décrivant l'individu à traiter.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés &lt;/b&gt;: données manquante, données manquantes, déploiement, classement, régression logistique, logiciel r, glm, lm, NA&lt;br /&gt;&lt;b&gt;Composants&lt;/b&gt; : Binary Logistic Regression&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Missing_Values_Deployment.pdf" target="_blank"&gt;fr_Tanagra_Missing_Values_Deployment.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Données et script R&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/md_logistic_reg_deployment.zip" target="_blank"&gt;md_logistic_reg_deployment.zip&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références &lt;/b&gt;:&lt;br /&gt;Howell, D.C., "&lt;a href="http://www.uvm.edu/%7Edhowell/StatPages/More_Stuff/Missing_Data/Missing.html" target="_blank"&gt;Treatment of Missing Data&lt;/a&gt;".&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1508484756322221636?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1508484756322221636'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1508484756322221636'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/12/donnees-manquantes-en-deploiement.html' title='Données manquantes en déploiement'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5486528756091734604</id><published>2011-12-03T09:16:00.001+01:00</published><updated>2011-12-03T09:31:12.657+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Données manquantes - Régression logistique</title><content type='html'>L’appréhension des données manquantes est un problème difficile. Non pas à cause de sa gestion informatique qui est relativement simple, il suffit de signaler les valeurs manquantes par un code spécifique, mais plutôt à cause des conséquences de leur traitement (suppression des lignes ou des colonnes du fichier ; ou remplacement par une valeur calculée à partir de observations disponibles, on parle alors d’imputation) sur les caractéristiques des modèles élaborés.&lt;br /&gt;&lt;br /&gt;Nous en avions parlé dans un &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/10/sipina-traitement-des-donnees.html"&gt;précédent document&lt;/a&gt;. Il s’agissait alors d’étudier l’impact des différentes techniques de traitement de valeurs manquantes sur les arbres de décision construits avec la méthode C4.5 (Quinlan, 1993)&amp;nbsp; dans le logiciel Sipina. Aujourd’hui, nous réitérons l’analyse en étudiant leur influence sur les résultats de la régression logistique. Nous utiliserons principalement le &lt;b style="color: #6aa84f;"&gt;logiciel R&lt;/b&gt; 2.13.2, avec la procédure glm(.). Par la suite, nous examinerons le comportement des outils proposés dans des logiciels tels qu’&lt;b&gt;&lt;span style="color: #6aa84f;"&gt;Orange 2.0b&lt;/span&gt;&lt;/b&gt;, &lt;b&gt;&lt;span style="color: #6aa84f;"&gt;Knime 2.4.2&lt;/span&gt;&lt;/b&gt; et &lt;b&gt;&lt;span style="color: #6aa84f;"&gt;RapidMiner 5.1&lt;/span&gt;&lt;/b&gt; placés dans un contexte identique.&lt;br /&gt;&lt;br /&gt;Nous nous plaçons dans la configuration suivante dans ce tutoriel : (1) les valeurs manquantes sont MCAR, nous avons écrit un programme qui retire de manière complètement aléatoire les valeurs dans l’échantillon d’apprentissage ; (2) nous appliquons la régression logistique sur les données d’apprentissage post-traitées ; (3) nous évaluons les différentes techniques de traitement des données manquantes en observant le taux de bon classement (ou taux de succès) du modèle sur un échantillon test à part qui, lui, ne comporte aucune valeur manquante.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés&lt;/b&gt; : donnée manquante, données manquantes, valeurs manquantes, régression logistique, listwise deletion, imputation, missing values, missing data, logiciel R, glm&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Missing_Values_Imputation.pdf" target="_blank"&gt;fr_Tanagra_Missing_Values_Imputation.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Données et script R&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/md_experiments.zip" target="_blank"&gt;md_experiments.zip&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références&lt;/b&gt; :&lt;br /&gt;Howell, D.C., "&lt;a href="http://www.uvm.edu/%7Edhowell/StatPages/More_Stuff/Missing_Data/Missing.html" target="_blank"&gt;Treatment of Missing Data&lt;/a&gt;". &lt;br /&gt;Allison, P.D. (2001), « Missing Data ». Sage University Papers Series on Quantitative Applications in the Social Sciences, 07-136. Thousand Oaks, CA : Sage.&lt;br /&gt;Little, R.J.A., Rubin, D.B. (2002), « Statistical Analysis with Missing Data », 2nd Edition, New York : John Wiley.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5486528756091734604?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5486528756091734604'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5486528756091734604'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/12/donnees-manquantes-regression.html' title='Données manquantes - Régression logistique'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1911930121280889267</id><published>2011-10-03T14:58:00.008+02:00</published><updated>2011-10-03T15:05:38.349+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Extraction des itemsets fréquents</title><content type='html'>La recherche des régularités dans les bases de données est l'idée principale du data mining. Ces régularités s'expriment sous différentes formes. Dans l'analyse du panier d'achats de consommateurs, l'extraction des itemsets consiste à mettre en exergue les cooccurrences entres  les produits achetés c.-à-d. déterminer les produits (les items) qui sont " souvent " achetés simultanément. On parle alors d'itemsets fréquents. Par exemple, en analysant les tickets de caisse d'un supermarché, on pourrait produire des itemsets (un ensemble d'items) du type " le pain et le lait sont présents dans 10% des caddies ".&lt;br /&gt;&lt;br /&gt;La recherche des itemsets fréquents est souvent présentée comme un préalable à l'extraction des règles d'association où l'on essaie, en sus, de mettre en évidence des relations de causalité. En reprenant notre exemple ci-dessus, une règle possible serait " ceux qui ont acheté du pain et du lait ont aussi acheté du beurre ". L'objectif est d'exploiter ce type de connaissance pour mieux agencer les rayons (mettre le beurre pas trop loin du pain et du lait) ou pour faire une offre promotionnelle ciblée (faire une promotion sur le pain et le lait dans le but d'augmenter les ventes de beurre).&lt;br /&gt;&lt;br /&gt;En réalité, les itemsets fréquents sont en elles-mêmes porteuses d'informations. Savoir quels sont les produits achetés ensembles permet d'identifier les liens existants entre eux et, par là, de réaliser une typologie des achats ou de dégager des comportements types chez les consommateurs. Dans le cas du pain et du lait, il s'agit certainement d'achats relatifs au petit déjeuner. Si les consommateurs se mettent à acheter conjointement de la viande et du charbon, nous sommes en été, c'est la saison des barbecues…&lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous décrivons la mise en œuvre du composant &lt;span style="color: rgb(51, 102, 255);"&gt;FREQUENT ITEMSETS&lt;/span&gt; de Tanagra, basé sur la bibliothèque " apriori.exe " de Borgelt. Nous utilisons un petit jeu de données pour que tout un chacun puisse reconstituer manuellement les résultats produits par le logiciel. Ils (les résultats) seront mis en parallèle avec ceux fournis par le package &lt;span style="color: rgb(51, 204, 0);"&gt;arules&lt;/span&gt; du &lt;span style="color: rgb(51, 204, 0);"&gt;logiciel R&lt;/span&gt; basée sur la même bibliothèque. Mais, dans un premier temps, essayons d'expliciter les différentes notions liées à l'extraction des itemsets.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés :&lt;/b&gt; itemsets fréquents, itemsets fermés, itemsets maximaux, itemsets générateurs, règles d’association, logiciel R, package arules&lt;br /&gt;&lt;b&gt;Composants&lt;/b&gt; : FREQUENT ITEMSETS&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Itemset_Mining.pdf" target="_blank"&gt;fr_Tanagra_Itemset_Mining.pdf&lt;/a&gt;&lt;b&gt; &lt;/b&gt;&lt;br /&gt;&lt;b&gt;Données&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/itemset_mining.zip" target="_blank"&gt;itemset_mining.zip&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références :&lt;/b&gt;&lt;br /&gt;C. Borgelt, "&lt;a href="http://www.borgelt.net/apriori.html"&gt;A priori - Association Rule Induction / Frequent Item Set Mining&lt;/a&gt;"&lt;br /&gt;R. Lovin, "&lt;a href="http://www.dataminingarticles.com/closed-maximal-itemsets.html" target="_blank"&gt;Mining Frequent Patterns&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1911930121280889267?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1911930121280889267'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1911930121280889267'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/10/extraction-des-itemsets-frequents.html' title='Extraction des itemsets fréquents'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7761634091519351806</id><published>2011-09-25T06:38:00.007+02:00</published><updated>2011-09-25T06:47:49.073+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Mise à jour de A PRIORI PT</title><content type='html'>A PRIORI PT est un des rares composants de Tanagra basé sur une bibliothèque externe, le programme " apriori.exe " de Borgelt en l'occurrence . Jusqu'à la version 1.4.40 de Tanagra, nous utilisions la version 4.31 de l'exécutable (du 12/03/2007). Nous introduisons une version autrement plus récente (5.57 du 02/09/2011) dans &lt;span style="font-weight: bold; color: rgb(51, 51, 255);"&gt;Tanagra 1.4.41&lt;/span&gt;. Les paramètres étant légèrement modifiés, il a fallu adapter le programme appelant. Néanmoins, le fonctionnement reste identique, il en est de même en ce qui concerne la lecture des résultats.&lt;br /&gt;&lt;br /&gt;Nous reprenons un ancien tutoriel pour décrire le comportement de cette nouvelle mouture. Nous ne revenons pas sur le détail (importation des données, choix des variables, paramétrage) de l'utilisation du composant APRIORI PT, puisque cela a déjà été fait. Nous essayons surtout de mettre en évidence les progrès du module en termes de temps de traitements. Force est de constater qu'ils sont particulièrement impressionnants.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés :&lt;/strong&gt; règles d’association, traitement de grandes bases&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : A PRIORI PT&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_AprioriPT_Updated.pdf" target="_blank"&gt;fr_Tanagra_AprioriPT_Updated.pdf&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/assoc_census.zip" target="_blank"&gt;assoc_census.zip&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Références :&lt;br /&gt;&lt;span style="font-weight: normal;"&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/04/rgles-dassociation-avec-les-prefix-tree.html"&gt;Règles d'association avec APRIORI PT&lt;/a&gt;"&lt;/span&gt;&lt;br /&gt;&lt;/strong&gt;C. Borgelt, "&lt;a href="http://www.borgelt.net/apriori.html"&gt;A priori - Association Rule Induction / Frequent Item Set Mining&lt;/a&gt;"&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/04/rgles-dassociation-algorithme-priori.html"&gt;Les règles d’association – A priori&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7761634091519351806?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7761634091519351806'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7761634091519351806'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/09/mise-jour-de-apriori-pt.html' title='Mise à jour de A PRIORI PT'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1317430217965053043</id><published>2011-09-22T09:07:00.005+02:00</published><updated>2011-09-22T09:21:03.828+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Tanagra - Version 1.4.41</title><content type='html'>Nouveautés de cette version.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(51, 204, 0);"&gt;A PRIORI PT&lt;/span&gt;. Ce composant génère des règles d'association. Il est basé sur le programme &lt;a href="http://www.borgelt.net/apriori.html" target="_blank"&gt;apriori.exe&lt;/a&gt; de Borgelt qui a été mis à jour. Il s'appuie maintenant sur la version 5.57 du 02/09/2011. Le progrès de cette nouvelle mouture, en termes de temps de calcul, est impressionnant.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(51, 204, 0);"&gt;FREQUENT ITEMSETS&lt;/span&gt;. Egalement basé sur le programme apriori.exe de Borgelt (version 5.57), ce composant génère les itemsets fréquents, fermés, maximaux, ou générateurs.&lt;br /&gt;&lt;br /&gt;Des tutoriels viendront bientôt décrire le fonctionnement de ces nouveaux outils.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Page de téléchargement&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fr/contenu_telechargement_logiciel_tanagra.html" target="_blank"&gt;setup&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1317430217965053043?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1317430217965053043'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1317430217965053043'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/09/tanagra-version-1441.html' title='Tanagra - Version 1.4.41'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1370367100099593725</id><published>2011-07-16T08:51:00.011+02:00</published><updated>2011-07-17T19:59:48.382+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><title type='text'>Tanagra add-on pour OpenOffice Calc 3.3</title><content type='html'>Tanagra add-on pour &lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;OpenOffice 3.3&lt;/span&gt; et &lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;LibreOffice 3.4&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;La connexion avec les tableurs est certainement un des facteurs de large diffusion de Tanagra. Il est facile de manipuler ses données à son aise dans le tableur OpenOffice Calc (jusqu'à la version 3.2) et de l'envoyer vers Tanagra via l'addon "TanagraLibrary.zip".&lt;br /&gt;&lt;br /&gt;Récemment, des internautes m'ont signalé que le mécanisme ne fonctionnait plus avec les versions récentes d'OpenOffice  (version 3.3), et de son dérivé LibreOffice  (version 3.4). En me penchant sur la question, je me suis rendu compte que, plutôt qu'une simple correction, il était plus approprié de produire un module respectant la nouvelle norme de gestion des extensions de ces outils. La bibliothèque "&lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;TanagraModule.oxt&lt;/span&gt;" a dont été créée.&lt;br /&gt;&lt;br /&gt;Ce tutoriel vise à documenter son installation et sa mise en œuvre sous OpenOffice Calc 3.3. La transposition à LibreOffice 3.4 est immédiate.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots clés&lt;/span&gt; : importation des données, tableur, openoffice, libreoffice, add-in, addon, excel&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Composant &lt;/span&gt;: View Dataset&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Lien&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Addon_OpenOffice_LibreOffice.pdf" target="_blank"&gt;fr_Tanagra_Addon_OpenOffice_LibreOffice.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/breast.ods" target="_blank"&gt;breast.ods&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-open-office-calc.html"&gt;Connexion Open Office Calc&lt;/a&gt;"&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2009/04/connexion-open-office-calc-sous-linux.html"&gt;Connexion Open Office Calc sous Linux&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1370367100099593725?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1370367100099593725'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1370367100099593725'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/07/tanagra-addon-pour-openoffice-33.html' title='Tanagra add-on pour OpenOffice Calc 3.3'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3275218600450942722</id><published>2011-07-05T14:49:00.013+02:00</published><updated>2011-10-05T15:10:44.701+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.40</title><content type='html'>Quelques améliorations pour cette nouvelle version.&lt;br /&gt;&lt;br /&gt;L'addon de connexion avec le tableur Open Office Calc a été renouvelé. Il ne fonctionnait plus pour les versions récentes (&lt;span style="color: #33cc00;"&gt;Open Office 3.3&lt;/span&gt; et &lt;span style="color: #33cc00;"&gt;LibreOffice 3.4&lt;/span&gt;). Une autre librairie a été rajoutée ("&lt;span style="color: #33cc00;"&gt;TanagraModule.oxt&lt;/span&gt;") pour ne pas interférer avec l'ancienne, toujours fonctionnelle pour les &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/04/connexion-open-office-calc-sous-linux.html"&gt;versions précédentes d'Open Office&lt;/a&gt; (3.2 et antérieures). Un tutoriel décrivant son installation sera mis en ligne bientôt. Je profite de cette mise à jour pour redire à quel point la liaison entre un tableur et un outil spécialisé de Data Mining est profitable. Les professionnels, les praticiens, ceux qui s'attaquent à des vrais problèmes avec des vraies données, connaissent l'importance du tableur dans la pratique journalière des statistiques et du data mining. Le sondage annuel organisé par le site kdnuggets.com le montre suffisamment (&lt;a href="http://www.kdnuggets.com/polls/2011/tools-analytics-data-mining.html" target="_blank"&gt;2011&lt;/a&gt;, &lt;a href="http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html" target="_blank"&gt;2010&lt;/a&gt;, &lt;a href="http://www.kdnuggets.com/polls/2009/data-mining-tools-used.htm" target="_blank"&gt;2009&lt;/a&gt;, ...). Il faut simplement savoir en circonscrire les limites en fonction de ses objectifs et de son contexte. Et comme outil pédagogique, le tableur est ce qui se fait de mieux pour comprendre les techniques. Les modifications m'ont été suggérées par Jérémy Roos (&lt;a href="http://fr.openoffice.org/" target="_blank"&gt;OpenOffice&lt;/a&gt;) et Franck Thomas (&lt;a href="http://fr.libreoffice.org/" target="_blank"&gt;LibreOffice&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;Notons qu'un addon similaire existe pour le logiciel R (&lt;a href="http://wiki.services.openoffice.org/wiki/R_and_Calc" target="_blank"&gt;R4Calc&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;L'ACP non normée est maintenant disponible. Il est possible de la mettre en œuvre en désactivant l'option de standardisation des données dans le composant Principal Component Analysis. Modification suggérée par Elvire Antanjan.&lt;br /&gt;&lt;br /&gt;La régression simultanée (régressions croisées) a été introduite. Inspirée sur logiciel LazStats qui n'est malheureusement plus accessible librement aujourd'hui. La technique est décrite dans notre fascicule accessible en ligne "&lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/La_regression_dans_la_pratique.pdf" target="_blank"&gt;Pratique de la régression linéaire - Diagnostic et sélection de variables&lt;/a&gt;" (section 3.6).&lt;br /&gt;&lt;br /&gt;Les codes couleurs selon les p-value (probabilités critiques) ont été implémentées pour le composant Linear Correlation. Modification suggérée par Samuel KL.&lt;br /&gt;&lt;br /&gt;Encore une fois, merci infiniment à toutes les personnes qui par leurs commentaires et leurs indications me permettent d'améliorer Tanagra.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Page de téléchargement&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fr/contenu_telechargement_logiciel_tanagra.html" target="_blank"&gt;setup&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3275218600450942722?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3275218600450942722'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3275218600450942722'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/07/tanagra-version-1440.html' title='Tanagra - Version 1.4.40'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5068876761400410967</id><published>2011-06-22T10:49:00.012+02:00</published><updated>2011-06-22T10:57:37.862+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Pratique de la Régression Linéaire (version 2)</title><content type='html'>Le fascicule consacré à la &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/09/pratique-de-la-regression-lineaire.html"&gt;pratique de la régression linéaire&lt;/a&gt; a été mis à jour. Cette nouvelle version  se distingue (et celles qui suivront) par les graphiques en couleur (hé oui, on en apprend à tout âge...).&lt;br /&gt;&lt;br /&gt;Plus sérieusement, un chapitre a été ajouté, d'autres ont été complétés. Je distinguerais volontiers :&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(51, 204, 0);"&gt;Chapitre 3&lt;/span&gt; - Colinéarité et sélection de variables. Deux sections ont été ajoutées : régressions partielles, régressions croisées.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(51, 204, 0);"&gt;Chapitre 4&lt;/span&gt; - Régression sur des exogènes qualitatives. Ce chapitre a été profondément remanié. Je confesse avoir été énormément influencé par la lecture de l'extraordinaire ouvrage de M.A. Hardy, " Regression with dummy variables " (cf. bibliographie). Mon travail a surtout consisté à reprendre les parties qui me paraissaient les plus intéressantes de l'ouvrage, en l'inscrivant dans mon propre canevas de présentation et en utilisant mes propres exemples. Le fichier LOYER, entres autres, est mis à toutes les sauces dans ce chapitre.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(51, 204, 0);"&gt;Chapitre 6&lt;/span&gt; - Détection et traitement de la non linéarité. Ce chapitre fait écho à une première approche de la non-linéarité concernant la régression simple développé dans le premier volume sur la régression (chapitre 6 aussi, c'est une coïncidence). Des approches plus génériques sont mises en avant dans ce document, dans un premier temps pour la régression simple, dans un second temps pour la régression multiple. Ce chapitre doit beaucoup à l'extraordinaire ouvrage de Aïvazian (cf. bibliographie). Je l'ai depuis plus de 20 ans. A chaque que je l'ouvre, je (re)découvre des choses intéressantes. Je l'ai également beaucoup mis à contribution pour mon fascicule consacré à la corrélation.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots-clés&lt;/strong&gt; : régression linéaire simple et multiple,  étude des résidus, points aberrants et points influents, colinéarité et  sélection de variables, variables exogènes qualitatives, rupture de  structure, non-linéarité&lt;br /&gt;&lt;strong&gt;Techniques décrites&lt;/strong&gt; : test de  durbin-watson, test des séquences, qraphique qq-plot, test de symétrie  des résidus, test de jarque-bera, résidu standardisé, résidu studentisé,  dffits, distance de cook, dfbetas, covratio, sélection forward,  backward, stepwise, codage centerd effect, codage cornered effect, codage contrastes, test  de chow, test de non-linéarité&lt;br /&gt;&lt;strong&gt;Ouvrage&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/La_regression_dans_la_pratique.pdf" target="_blank"&gt;Pratique de la régression linéaire multiple – Diagnostic et sélection de variables&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Fichiers &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/exercices/fichiers_pratique_regression.zip" target="_blank"&gt;fichiers_pratique_regression.zip&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5068876761400410967?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5068876761400410967'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5068876761400410967'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/06/pratique-de-la-regression-lineaire-ver.html' title='Pratique de la Régression Linéaire (version 2)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8091611081247121748</id><published>2011-05-26T14:54:00.003+02:00</published><updated>2011-05-26T14:56:40.363+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.39</title><content type='html'>Quelques corrections mineures pour la version 1.4.39 de Tanagra.&lt;br /&gt;&lt;br /&gt;Pour le composant &lt;span style="color: rgb(51, 204, 0);"&gt;PCA&lt;/span&gt; (Analyse en Composantes Principales), lorsque l'utilisateur demande explicitement tous les axes factoriels, Tanagra n'en génère aucun. Signalée par Jérémy Roos.&lt;br /&gt;&lt;br /&gt;La régression logistique multinomiale (&lt;span style="color: rgb(51, 204, 0);"&gt;Multinomial Logistic Regression&lt;/span&gt;) implémentée dans la version précédente plante. Il n'était pas possible notamment de reproduire le tutoriel qui était en ligne. Signalée par Nicole Jurado.&lt;br /&gt;&lt;br /&gt;Il n'était pas possible de calculer les scores avec le composant &lt;span style="color: rgb(51, 204, 0);"&gt;PLS-DA&lt;/span&gt; (Régression PLS - Analyse discriminante) c.-à-d. mettre le composant SCORING à la suite de PLS-DA. Signalée par Carlos Serrano.&lt;br /&gt;&lt;br /&gt;Toutes ces erreurs ont été corrigées dans cette version 1.4.39. Je ne le répéterai jamais assez. Merci infiniment à toutes les personnes qui par leurs commentaires et leurs indications me permettent d'améliorer Tanagra.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Page de téléchargement&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fr/contenu_telechargement_logiciel_tanagra.html" target="_blank"&gt;setup&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8091611081247121748?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8091611081247121748'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8091611081247121748'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/05/tanagra-version-1439.html' title='Tanagra - Version 1.4.39'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2853294083956444210</id><published>2011-05-25T07:39:00.022+02:00</published><updated>2012-02-02T17:26:57.897+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Régression avec le logiciel LazStats (OpenStat)</title><content type='html'>LazStats  est un logiciel de statistique programmé et diffusé par Bill Miller, le père du logiciel OpenStat, très connu des statisticiens depuis un certain nombre d'années. Ce sont des outils de très grande qualité, avec une rigueur de calcul appréciable. OpenStat fait partie des logiciels de statistique que je privilégie lorsque je souhaite valider mes propres implémentations.&lt;br /&gt;&lt;br /&gt;Le logiciel LazStats, qui est une émanation de la première version en Delphi de OpenStat, est de très bonne facture si j'en juge sa stabilité face aux multiples tests que j'ai pu effectuer. J'ai choisi de présenter la version Windows parce que j'ai l'habitude de travailler sous cet environnement. Une version Linux est accessible sur le site de diffusion pour ceux qui le désirent. Il est également possible de télécharger des versions pour Mac OSX et Linux 64 bits.&lt;br /&gt;&lt;br /&gt;L'autre véritable évolution ces dernières années est la mise à disposition d'une documentation de plus en plus riche sur le site web d'OpenStat. Un ouvrage décrit les méthodes statistiques, des tutoriels rédigés décrivent leur mise en œuvre et, pour enfoncer le clou, des tutoriels animés (fichiers .wmv) montrent les séquences de manipulations à réaliser pour mener les analyses. Le travail accompli est vraiment remarquable. Je m'y réfère souvent pour situer ce que je fais moi-même.&lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous décrivons les fonctionnalités de LazStats en matière de régression linéaire multiple.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots clés&lt;/span&gt; : économétrie, régression linéaire simple, régression linéaire multiple, sélection de variables, forward, backward, stepwise, régressions croisées&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Lien &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Regression_LazStats.pdf" target="_blank"&gt;fr_Tanagra_Regression_LazStats.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/conso_vehicules_lazstats.txt" target="_blank"&gt;conso_vehicules_lazstats.txt&lt;/a&gt; (&lt;span style="font-style: italic;"&gt;attention au point décimal !&lt;/span&gt;)&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;LazStats - &lt;a href="http://www.statprograms4u.com/" target="_blank"&gt;http://www.statprograms4u.com/&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2853294083956444210?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2853294083956444210'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2853294083956444210'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/05/regression-avec-le-logiciel-lazstats.html' title='Régression avec le logiciel LazStats (OpenStat)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3536232572318674476</id><published>2011-05-14T07:03:00.007+02:00</published><updated>2011-05-14T07:08:45.392+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>REGRESS dans la distribution SIPINA</title><content type='html'>Peu de personnes le savent. En réalité, plusieurs logiciels sont installés lorsque l'on récupère et que l'on exécute le SETUP de SIPINA (&lt;a href="http://eric.univ-lyon2.fr/%7Ericco/softs/setup_stat_package.exe" target="_blank"&gt;setup_stat_package.exe&lt;/a&gt;). Je n'en parle pas beaucoup parce que les autres techniques proposées (Régression Linéaire Multiple et Règles d'Association) sont déjà intégrées dans TANAGRA qui est très largement diffusé.&lt;br /&gt;&lt;br /&gt;Pourquoi en parler aujourd'hui alors ? Tout simplement parce que, concernant REGRESS en tous les cas, je me suis rendu compte en préparant le fascicule de cours consacré à la régression linéaire simple et multiple (Econométrie - Régression Linéaire Simple et Multiple), que le relatif manque de puissance du logiciel - par rapport à TANAGRA - est largement compensé par une grande facilité d'utilisation. Pour les utilisateurs qui souhaitent manipuler un outil simple, sans fioritures, REGRESS peut encore rendre de grands services.&lt;br /&gt;&lt;br /&gt;REGRESS a été recompilé en introduisant deux améliorations : il peut s'intégrer dans le tableur Excel via une macro-complémentaire maintenant, la même que celle de SIPINA (SIPINA.XLA), cela accroît grandement sa facilité d'utilisation ; j'ai revérifié les formules pour qu'elles soient complètement cohérentes avec celles obtenues par tableur décrites dans mes fascicules de cours.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots clés&lt;/span&gt; : logiciel regress, économétrie, régression linéaire simple, régression linéaire multiple, points aberrants, points atypiques, points influents, normalité des résidus, test de Jarque-Bera, droite de Henry, normal probability plot, q-q plot, macro complémentaire, sipina.xla, add-in&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Lien &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/doc/fr_sipina_regress.pdf" target="_blank"&gt;fr_sipina_regress.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/ventes-regression.xls" target="_blank"&gt;ventes-regression.xls&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2011/05/regression-lineaire-simple-et-multiple.html"&gt;Econométrie - Régression Linéaire Simple et Multiple&lt;/a&gt;".&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3536232572318674476?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3536232572318674476'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3536232572318674476'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.html' title='REGRESS dans la distribution SIPINA'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5140793150212189361</id><published>2011-05-10T09:35:00.006+02:00</published><updated>2011-05-10T09:42:29.899+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Régression linéaire simple et multiple</title><content type='html'>Ce document décrit les principes et techniques de la régression linéaire simple et multiple. Décomposé en deux parties : régression simple puis régression multiple, il aborde tous les points importants de la modélisation statistique. Les concepts sont explicités à l'aide d'exemples traités sur tableur. Tous les calculs sont très largement détaillés. Les fichiers associés sont accessibles en ligne.&lt;br /&gt;&lt;br /&gt;Il correspond à un enseignement d'économétrie de niveau licence (L3). Il est d'ailleurs associé au cours que je dispense aux étudiants de la Licence IDS (Informatique décisionnelle et statistique) du Département Informatique et Statistique de l'Université Lyon 2 (http://dis.univ-lyon2.fr).&lt;br /&gt;&lt;br /&gt;Il vient en complément du fascicule consacré à la " Pratique de la régression linéaire multiple " accessible en ligne depuis quelque temps déjà (dans l'agencement du cours, il le précède plutôt).&lt;br /&gt;&lt;br /&gt;Enfin, la mise en œuvre et la lecture des résultats de la régression sur des logiciels de data mining et de statistique sont décrites dans un chapitre dédié (tanagra, logiciel r, sas, spad, spss, statistica).&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : économétrie, régression linéaire simple, régression linéaire multiple, droitereg&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Thèmes abordés&lt;/span&gt; : principes de la régression, estimation / estimateur des moindres carrés ordinaires, tableau d'analyse de variance, coefficient de détermination, test de significativité globale de la régression, test de significativité individuelle des coefficients, test de significativité d'un bloc de coefficients, intervalle de confiance des coefficients, test de conformité à un standard des coefficients, prédiction ponctuelle, prédiction par intervalle, comparaison des paramètres des régressions dans différentes sous-populations&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Ouvrage&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/econometrie_regression.pdf" target="_blank"&gt;econometrie_regression.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Fichiers&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/econometrie_regression_fichiers.zip" target="_blank"&gt;econometrie_regression_fichiers.zip&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5140793150212189361?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5140793150212189361'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5140793150212189361'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/05/regression-lineaire-simple-et-multiple.html' title='Régression linéaire simple et multiple'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-9107433993075068317</id><published>2011-03-31T11:28:00.007+02:00</published><updated>2011-03-31T11:36:00.734+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><title type='text'>Classifieur Bayesien Naïf - Diaporama</title><content type='html'>Le classifieur bayesien naïf (le modèle d'indépendance conditionnelle) est très populaire en recherche (text mining, etc.), mais peu utilisée par les praticiens du data mining en entreprise (études marketing). Pourtant, la technique cumule les qualités : incrémentalité, capacité à traiter de très grandes bases (tant en nombre de lignes que de colonnes), simplicité des calculs (ce qui fait peut être son succès auprès des informaticiens), performances comparables aux autres techniques supervisées. Une des raisons de cette défection est qu'elle est mal comprise. Beaucoup pensent qu'il n'est pas possible d'en déduire un modèle explicite facile à déployer. Quand on regarde ce que propose le standard PMML pour son intégration dans les systèmes d'information, on peut effectivement s'interroger sur son intérêt. Ajouté à cela, l'interprétation des résultats qui est inhérente à toute étude, c.-à-d. l'analyse de la relation de chaque prédicteur avec la variable cible, semble bien compromise également.&lt;br /&gt;&lt;br /&gt;Pourtant, à bien y regarder, on se rend compte que l'on peut facilement dériver un modèle explicite sous forme de combinaisons linéaires des prédicteurs. Nous avions implémenté cette approche dans Tanagra. Nous avons montré dans plusieurs tutoriels (cf. références) l'intérêt de ces calculs supplémentaires relativement simples finalement. Dans cette optique, le classifieur bayesien naïf se pose comme un challenger tout à fait valable des techniques populaires telles que la régression logistique. A l'époque des dits tutoriels, Tanagra était le seul logiciel libre (ou à accès gratuit) à proposer la présentation des modèles sous cette forme. Je ne sais pas aujourd'hui.&lt;br /&gt;&lt;br /&gt;Ce diaporama, qui me servira de support pour mes cours, vient présenter la méthode de manière unifiée (prédicteurs quantitatifs et qualitatifs). A terme, il constituera un chapitre d'un ouvrage consacré à l'analyse discriminante prédictive.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama imprimable&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/slides/naive_bayes_classifier.pdf" target="_blank"&gt;Classifieur Bayesien Naïf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2010/03/le-classifieur-bayesien-naif-revisite.html"&gt;Le classifieur Bayesien Naïf revisité&lt;/a&gt;"&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2010/10/bayesien-naif-pour-predicteurs-continus.html"&gt;Bayesien Naïf pour Prédicteurs Continus&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-9107433993075068317?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/9107433993075068317'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/9107433993075068317'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/03/classifieur-bayesien-naif-diaporama.html' title='Classifieur Bayesien Naïf - Diaporama'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-194893244177904541</id><published>2011-03-20T10:10:00.004+01:00</published><updated>2011-03-20T10:15:27.990+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><title type='text'>Régression - Déploiement de modèles</title><content type='html'>Le déploiement est une des principales finalités du Data Mining. Il s'agit d'appliquer les modèles sur de nouveaux individus de la population. En apprentissage supervisé, il s'agit de leur attribuer leur classe d'appartenance ; en apprentissage non supervisé, l'objectif est de les associer à un groupe qui leur serait le plus similaire. Concernant la régression, appliquer le modèle sur des nouveaux individus consiste à prédire la valeur de la variable dépendante quantitative (variable endogène, variable cible) à partir de leur description c.-à-d. les valeurs prises par les variables indépendantes (variables exogènes).&lt;br /&gt;&lt;br /&gt;L'opération est simple lorsqu'il s'agit d'implémenter une régression linéaire multiple ou une régression PLS. Nous récupérons les coefficients du modèle, nous les appliquons sur la description des nouveaux individus à étiqueter. L'affaire devient compliquée lorsque nous souhaitons manipuler des modèles plus complexes, soit parce qu'issus d'enchaînements d'opérations (ex. analyse factorielle + régression sur axes), soit parce que nous ne disposons pas d'une expression explicite simple du modèle (Support Vector Regression avec un noyau non linéaire). Il est donc primordial que le logiciel qui a servi à la construction des modèles puisse se charger lui-même du déploiement.&lt;br /&gt;&lt;br /&gt;Avec Tanagra, il est possible de déployer facilement les modèles dans le cadre de la régression, même lorsqu'ils sont le fruit d'une succession d'opérations. Il faut simplement préparer le fichier de données d'une manière particulière.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous montrons comment organiser efficacement le fichier pour faciliter le déploiement. Par la suite, nous apprenons plusieurs modèles prédictifs (régression linéaire multiple, régression PLS, support vector régression avec un noyau RBF, arbre de régression, régression sur axes factoriels), que nous appliquons sur les nouvelles observations à étiqueter. Nous exportons les prédictions dans un fichier au format Excel. Enfin, nous vérifions leur cohérence. L'idée est d'identifier les techniques qui produisent des prédictions similaires.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : déploiement, régression linéaire multiple, régression pls, support vector regression, SVR, arbres de régression, cart, analyse en composantes principales, régression sur axes factoriels&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : MULTIPLE LINEAR REGRESSION, PLS REGRESSION, PLS SELECTION, C-RT REGRESSION TREE, EPSILON SVR, PRINCIPAL COMPONENT ANALYSIS, RECOVER EXAMPLES, EXPORT DATASET, LINEAR CORRELATION&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Multiple_Regression_Deployment.pdf" target="_blank"&gt;fr_Tanagra_Multiple_Regression_Deployment.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/housing.xls" target="_blank"&gt;housing.xls&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;R. Rakotomalala, &lt;a href="http://tutoriels-data-mining.blogspot.com/2011/01/regression-lineaire-multiple-diaporama.html"&gt;Régression linéaire multiple - Diaporama&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-194893244177904541?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/194893244177904541'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/194893244177904541'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/03/regression-deploiement-de-modeles.html' title='Régression - Déploiement de modèles'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6416682080233267919</id><published>2011-02-11T05:54:00.006+01:00</published><updated>2011-02-11T06:05:44.874+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Régression linéaire - Lecture des résultats</title><content type='html'>La régression linéaire multiple est une technique de modélisation statistique. Elle vise à prédire et expliquer les valeurs prises par une variable endogène quantitative Y à partir de p variables exogènes X1, …, Xp, quantitatives ou qualitatives rendues binaires par recodage.&lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, à travers un exemple de prédiction de la consommation des véhicules à partir de leur poids, de leur cylindrée et de leur puissance, nous décrirons les sorties de TANAGRA en leur associant les formules utilisées. Nous mettrons en avant le rôle de la matrice (X'X)^(-1) fournie depuis la version &lt;span style="font-weight: bold; color: rgb(0, 153, 0);"&gt;1.4.38&lt;/span&gt;. Elle est importante car elle tient une place centrale dans les tests généralisés sur les coefficients. Nous en accomplirons quelques uns manuellement avec le tableur Excel.&lt;br /&gt;&lt;br /&gt;Dans un deuxième temps, nous réaliserons la régression à l'aide du logiciel R. Nous mettrons en parallèle ses résultats avec ceux de TANAGRA. Nous identifierons les objets qui fournissent les informations nécessaires aux différents post-traitements, notamment les tests généralisés. Nous effectuerons alors les calculs réalisés précédemment dans Excel directement dans R.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : régression linéaire multiple, logiciel R, lm, tests généralisés, tests de conformité, tests de comparaison&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : MULTIPLE LINEAR REGRESSION&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Multiple_Regression_Results.pdf" target="_blank"&gt;fr_Tanagra_Multiple_Regression_Results.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/cars_consumption.zip" target="_blank"&gt;cars_consumption.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;R. Rakotomalala, &lt;a href="http://tutoriels-data-mining.blogspot.com/2011/01/regression-lineaire-multiple-diaporama.html"&gt;Régression linéaire multiple - Diaporama&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6416682080233267919?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6416682080233267919'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6416682080233267919'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/02/regression-lineaire-lecture-des.html' title='Régression linéaire - Lecture des résultats'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7673205510687933698</id><published>2011-02-04T05:21:00.005+01:00</published><updated>2011-02-04T15:52:02.847+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.38</title><content type='html'>Quelques corrections mineures pour la version 1.4.38 de Tanagra.&lt;br /&gt;&lt;br /&gt;Les codes couleurs des tests de normalité ont été harmonisés (&lt;span style="color: rgb(0, 153, 0);"&gt;NORMALITY TEST&lt;/span&gt;). Selon la procédure, les couleurs associées aux p-value n'étaient pas cohérents, induisant en erreur le praticien. Ce problème m'a été signalé par M. Laurent Garmendia.&lt;br /&gt;&lt;br /&gt;Suite à des indications de M. Oanh Chau, je me suis rendu compte que la standardisation des variables pour la &lt;span style="color: rgb(0, 153, 0);"&gt;HAC&lt;/span&gt; (classification ascendante hiérarchique) était basée sur l'écart-type d'échantillon. Ce n'est pas une erreur en soi. Mais du coup, la somme des indices de niveau dans le dendrogramme ne coïncidait pas avec la TSS (total sum of squares). C'est plus gênant. L'écart est surtout perceptible sur les petits fichiers, il s'estompe lorsque l'effectif augmente. La correction a été introduite, maintenant le « BSS ratio » vaut bien 1 lorsque nous avons la partition triviale c.-à-d. un individu par groupe.&lt;br /&gt;&lt;br /&gt;La régression linéaire multiple (&lt;span style="color: rgb(0, 153, 0);"&gt;MULTIPLE LINEAR REGRESSION&lt;/span&gt;) fournit maintenant la matrice (X'X)^(-1). Elle permet de déduire la matrice de variance covariance des coefficients (en la pré-multipliant par la variance estimée de l'erreur). Elle rentre aussi dans les tests généralisés sur les coefficients : les tests de conformité simultanés; les tests de combinaisons linéaires. Ces tests sont décrits (entres autres) dans  les diaporamas de mes enseignements d'économétrie en Licence IDS.&lt;br /&gt;&lt;br /&gt;Enfin, les sorties de l'analyse discriminante descriptive (&lt;span style="color: rgb(0, 153, 0);"&gt;CANONICAL DISCRIMINANT ANALYSIS&lt;/span&gt;) ont été complétées. Les barycentres des groupes (Group centroïds) sur les axes factoriels sont directement fournies.&lt;br /&gt;&lt;br /&gt;Merci infiniment à toutes les personnes qui, par leurs commentaires ou leurs suggestions, m'aident à améliorer quotidiennement le travail que je mets en ligne (logiciel, documents).&lt;br /&gt;&lt;br /&gt;Page de téléchargement de Tanagra : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fr/contenu_telechargement_logiciel_tanagra.html" target="_blank"&gt;setup&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7673205510687933698?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7673205510687933698'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7673205510687933698'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/02/tanagra-version-1438.html' title='Tanagra - Version 1.4.38'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2503824876330350156</id><published>2011-01-31T11:38:00.007+01:00</published><updated>2011-01-31T11:43:18.641+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><title type='text'>Régression Linéaire Multiple - Diaporama</title><content type='html'>Toujours dans la série « Je refais mes diapos de mon cours d'Économétrie », voici le support consacré à la « Régression Linéaire Multiple ».&lt;br /&gt;&lt;br /&gt;Pour comprendre les formules, je montre le détail des calculs dans le tableur Excel. Franchement, je ne connais pas de meilleure approche pédagogique pour que tout un chacun puisse comprendre l'enchaînement des opérations, notamment tout ce qui concerne les calculs matriciels pour la production des estimateurs et de leurs variances.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama imprimable&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/Regression_Lineaire_Multiple.pdf" target="_blank"&gt;Régression Linéaire Multiple&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/cigarettes%20-%20regression%20multiple.xls" target="_blank"&gt;Cigarettes.xls&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Page du cours d'Économétrie de la Licence&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours_econometrie.html" target="_blank"&gt;Économétrie&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2503824876330350156?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2503824876330350156'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2503824876330350156'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/01/regression-lineaire-multiple-diaporama.html' title='Régression Linéaire Multiple - Diaporama'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6556774402445821978</id><published>2011-01-27T08:21:00.004+01:00</published><updated>2011-01-31T11:45:33.025+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><title type='text'>Régression Linéaire Simple - Diaporama</title><content type='html'>Dans la série « Je refais les diaporamas de mon cours d'économétrie », voici le support consacré à la « Régression Linéaire Simple ».&lt;br /&gt;&lt;br /&gt;Il développe tous les thèmes abordés en cours. Il ne comporte pas les démonstrations en revanche. Je les fais au tableau. En effet, il y a les formules, mais il y a surtout la démarche sous-jacente, les ressorts qui permettent de mettre en évidence tel ou tel résultat. Et quel que soit l'exhaustivité d'un support, il y a des choses que l'on ne peut développer que verbalement, en comptant sur l'interactivité des étudiants (allez les gars, dormez pas quoi...).&lt;br /&gt;&lt;br /&gt;Et puis, il faut bien justifier le fait que je vienne à la fac pour faire le zouave devant tout le monde.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama imprimable&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/Regression_Lineaire_Simple.pdf" target="_blank"&gt;Régression linéaire simple&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/rendements%20agricoles%20-%20regression%20simple.xls" target="_blank"&gt;rendements agricoles.xls&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Page du cours d'Économétrie de la Licence&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours_econometrie.html" target="_blank"&gt;Économétrie&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6556774402445821978?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6556774402445821978'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6556774402445821978'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/01/regression-lineaire-simple-diaporama.html' title='Régression Linéaire Simple - Diaporama'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8914168233066896070</id><published>2011-01-17T19:42:00.004+01:00</published><updated>2011-01-17T19:48:10.566+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><title type='text'>Introduction à l'Econométrie - Diaporama</title><content type='html'>De l'Économétrie au Data Mining, le chemin n'est pas aussi long qu'on peut le croire. Finalement, il s'agit de détecter des formes de régularités dans les données, de s'assurer qu'elles représentent réellement une causalité (économique ou autres), puis de les exploiter par la suite. Seuls le domaine d'application et les techniques utilisées sont différents.&lt;br /&gt;&lt;br /&gt;Ce diaporama correspond à mon Introduction à l'Économétrie pour mon cours en Licence Informatique Décisionnelle et Statistique du Département Informatique et Statistique (&lt;a href="http://dis.univ-lyon2.fr/?page_id=188" target="_blank"&gt;http://dis.univ-lyon2.fr&lt;/a&gt;) de la Faculté de Sciences Économiques de l'Université Lyon 2.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama imprimable&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/Generalites%20Econometrie.pdf" target="_blank"&gt;Introduction à l'Économétrie&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama animé&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/animated_slides/intro_econometrie.html" target="_blank"&gt;Introduction à l'Économétrie&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8914168233066896070?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8914168233066896070'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8914168233066896070'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/01/introduction-leconometrie.html' title='Introduction à l&apos;Econométrie - Diaporama'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-4898380952052108060</id><published>2011-01-14T15:30:00.007+01:00</published><updated>2011-01-14T15:38:46.139+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Analyse discriminante'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Analyse factorielle discriminante - Diaporama</title><content type='html'>L'analyse factorielle discriminante ou analyse discriminante descriptive est une technique factorielle qui vise à expliquer à l'aide d'un ensemble de variables l'appartenance des individus à des groupes (classes) prédéfinis. C'est dont avant tout une méthode descriptive. Néanmoins, de par sa définition, elle a des connexions très importantes avec l'analyse discriminante bayesienne ou analyse discriminante prédictive, bien connue en apprentissage supervisé et en reconnaissance de formes.&lt;br /&gt;&lt;br /&gt;L'analyse discriminante descriptive fait partie des approches factorielles. On montre assez facilement qu'elle constitue une déclinaison particulière de l'analyse canonique et de l'analyse en composantes principales.&lt;br /&gt;&lt;br /&gt;Ce nouveau diaporama est le support que j'utiliserai dorénavant pour décrire la méthode auprès de mes étudiants. On peut la décomposer en trois grandes parties : présentation de la méthode et principaux éléments théoriques ; lecture des résultats, notamment l'interprétation des axes factoriels ; mise en œuvre dans les logiciels tels que Tanagra (Canonical Discriminant Analysis), R (lda) et SAS (candisc).&lt;br /&gt;&lt;br /&gt;Ce support doit beaucoup aux excellents ouvrages de Tenenhaus (2007) et Saporta (2006) indiqués dans la bibliographie.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : analyse factorielle discriminante, analyse discriminante descriptive, logiciel R, lda, sas, candisc&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : CANONICAL DISCRIMINANT ANALYSIS&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/slides/analyse_discriminante_descriptive.pdf"&gt;analyse_discriminante_descriptive.pdf&lt;/a&gt;&lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/didacticiels/R/acp_avec_factominer_dyngraph.pdf" target="_blank"&gt;&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/wine_quality.xls" target="_blank"&gt;wine_quality.xls&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;Wikipédia, "&lt;a href="http://fr.wikipedia.org/wiki/Analyse_discriminante" target="_blank"&gt;Analyse discriminante&lt;/a&gt;"&lt;br /&gt;D. Garson, "&lt;a href="http://faculty.chass.ncsu.edu/garson/PA765/discrim.htm"&gt;Discriminant Function Analysis&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-4898380952052108060?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4898380952052108060'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4898380952052108060'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/01/analyse-factorielle-discriminante.html' title='Analyse factorielle discriminante - Diaporama'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2382466255620394789</id><published>2011-01-03T14:09:00.004+01:00</published><updated>2011-01-07T12:53:50.284+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Bonne année 2011 - Bilan 2010</title><content type='html'>L'année 2010 s'achève, 2011 commence. Je vous souhaite à tous une belle et heureuse année 2011.&lt;br /&gt;&lt;br /&gt;Un petit bilan chiffré concernant l'activité organisée autour de Tanagra pour l'    année écoulée. L'ensemble des sites (logiciel, support de cours, ouvrages, tutoriels) a été visité 241.765 fois cette année, soit 662 visites par jour. Par comparaison, nous avions 349 visites journalières en 2008 et 520 en 2009.&lt;br /&gt;&lt;br /&gt;Qui êtes-vous ? La majorité des visites viennent de France et du Maghreb (62 %). Puis viennent les autres pays francophones, une grande partie vient d'Afrique. Pour ce qui est des pays non francophones, nous observons parmi ceux qui reviennent souvent : les États-Unis, l'Inde, le Royaume Uni, l'Allemagne, le Brésil, etc.&lt;br /&gt;&lt;br /&gt;Que consultez-vous en priorité ? Les pages qui ont le plus de succès sont celles qui se rapportent à la documentation sur le Data Mining : les supports de cours, les tutoriels, les liens vers les autres documents accessibles en ligne, etc. Ce n'est guère étonnant. Au fil des années, plus que la programmation et la promotion de Tanagra, je passe de plus en plus de temps moi-même à écrire des fascicules de cours et des tutoriels, à étudier le comportement des différents logiciels.&lt;br /&gt;&lt;br /&gt;Encore Bonne Année 2011 à tous. Que chacun puisse mener à bien les projets qui leur sont les plus précieux.&lt;br /&gt;&lt;br /&gt;Ricco.&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Frequentation_2010.pdf" target="_blank"&gt;Tanagra - Bilan 2010&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2382466255620394789?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2382466255620394789'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2382466255620394789'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2011/01/bonne-annee-2011-bilan-2010.html' title='Bonne année 2011 - Bilan 2010'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-564582915688282621</id><published>2010-12-24T07:29:00.014+01:00</published><updated>2010-12-24T07:47:50.891+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><category scheme='http://www.blogger.com/atom/ns#' term='Analyse factorielle'/><title type='text'>ACP avec FactoMineR et dynGraph</title><content type='html'>Il y a deux manières d'appréhender la représentation graphique des données en Data Mining. La première consiste à la considérer comme un outil de présentation des résultats. Le graphique vient appuyer le texte et les tableaux pour mettre en évidence les informations produites par l'analyse. Par exemple, on annonce dans le texte que les ventes de bonnets augmentent en hiver, une petite courbe où l'on distingue les pics de ventes en fin et en début d'année vient confirmer cela.&lt;br /&gt;&lt;br /&gt;La seconde cherche à intégrer la représentation graphique dans le processus exploratoire même. Ici, elle devient un outil supplémentaire de détection des régularités, des singularités et des relations qui peuvent exister dans les données. A cet égard, les logiciels modernes, avec des fonctionnalités graphiques de plus en plus puissantes, ouvrent des perspectives incroyables. Comme je le dis souvent : un graphique bien senti vaut largement mieux qu'une série de ratios à l'interprétation confuse ou mal maîtrisée.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous menons une analyse en composantes principale avec le logiciel R. Nous l'avions déjà réalisée précédemment avec la procédure &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/05/analyse-en-composantes-principales-avec.html"&gt;princomp()&lt;/a&gt;. Ici, nous réitérons l'étude avec la procédure PCA() du package FactoMineR. De nombreux indicateurs sur les éléments (variables, individus) actifs ou illustratifs sont directement fournis maintenant, facilitant grandement la tâche du praticien. Il n'est plus nécessaire de les post-calculer à l'aide de formules plus ou moins complexes comme nous avions pu le faire dans le précédent document. Par la suite, sur la base des indicateurs livrés par PCA(), nous procéderons à une exploration graphique à l'aide de l'outil dynGraph du package éponyme. Nous constaterons que les possibilités en matière d'analyse interactive sont nombreuses.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, analyse en composantes principales, ACP, cercle de corrélation, variables illustratives, factominer, dyngraph, analyse graphique interactive&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : PCA, dynGraph&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/didacticiels/R/acp_avec_factominer_dyngraph.pdf" target="_blank"&gt;acp_avec_factominer_dyngraph.pdf&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/didacticiels/R/acp_avec_factominer_dyngraph.zip" target="_blank"&gt;acp_avec_factominer_dyngraph.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;G. Saporta, « Probabilités, analyse des données et statistique », Dunod, 2006 ; pages 155 à 179.&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/acp-description-de-vhicules.html"&gt;ACP - Description de véhicules&lt;/a&gt;"&lt;br /&gt;F. Husson, J. Josse, S. Le, J. Pages, Le package FactoMineR pour R ; &lt;a href="http://factominer.free.fr/" target="_blank"&gt;http://factominer.free.fr/&lt;/a&gt;&lt;br /&gt;S. Le, J. Durand, Le package dynGraph pour R ; &lt;a href="http://dyngraph.free.fr/" target="_blank"&gt;http://dyngraph.free.fr/&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-564582915688282621?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/564582915688282621'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/564582915688282621'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/12/acp-avec-factominer-et-dyngraph.html' title='ACP avec FactoMineR et dynGraph'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6316412227010750361</id><published>2010-12-19T21:44:00.006+01:00</published><updated>2010-12-19T21:50:45.765+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Développement'/><title type='text'>Outils pour le développement d'applications</title><content type='html'>Un tutoriel un peu différent des autres cette fois-ci. J'y parle des outils et langages de programmation pour le développement d'applications de data mining.&lt;br /&gt;&lt;br /&gt;Lancer un débat à propos du " meilleur langage de programmation  " est une excellente manière de plomber une soirée entre informaticiens. La question sous-jacente est " quel est le langage qui permet de développer l'application la plus performante, la plus rapide… ".&lt;br /&gt;&lt;br /&gt;De très bon enfant, l'atmosphère devient très vite orageuse, voire délétère. Des personnes, fort charmantes la plupart du temps, adoptent un comportement passionné, voire passionnel, montent sur leurs grands chevaux (tagada, tagada) en assénant des arguments parfois complètement irrationnels. Je sais de quoi je parle, j'en fais partie quand je me laisse aller. Pourtant, finalement, trancher dans ce genre de débat serait assez facile. Il suffit de caractériser les problèmes que l'on cherche à résoudre, écrire un code équivalent dans les différents langages, et étudier le comportement de l'exécutable généré. C'est ce que nous allons faire dans ce didacticiel en nous plaçant dans deux situations couramment rencontrées lors de la programmation d'algorithmes d'exploration de données. On verra que le résultat n'est pas du tout celui qu'on attendait (si on en attendait un, ouh là là je vois déjà certains bondir), loin de là.&lt;br /&gt;&lt;br /&gt;Tout d'abord, corrigeons un abus de langage (si je puis dire), la performance n'est pas une affaire de langage, mais plutôt une affaire de technologie et de compilateur. Nous le verrons, le même code source, compilé avec des outils différents, peut aboutir à des exécutables avec des comportements très différents. Nous étudierons dans ce document : C# avec Visual C# Express de Microsoft ; Pascal avec Borland Delphi 6.0 ; Pascal avec le compilateur Free Pascal  2.2.4 de Lazarus 0.9.28 ; C++ avec Borland C++ Builder 4 ; C++ avec Dev C++ (compilateur G++) ; Java exécuté via la JRE1.6.0_19 sous Windows (Eclipse est l'outil de développement que j'ai utilisé). Tous ces outils, excepté Borland C++ Builer 4, sont accessibles gratuitement sur le net. Pour tous, j'ai sélectionné les options de compilations qui optimisent la rapidité d'exécution.&lt;br /&gt;&lt;br /&gt;Les performances sont évaluées en mesurant les temps de calculs des exécutables lancés via le shell, en dehors de l'EDI (Environnement de Développement Intégré) pour éviter les interférences. Ma machine étant multi-cœur, temps utilisateur et temps CPU sont quasiment les mêmes. Nous nous contenterons du premier. Chaque programme est lancé 10 fois. Nous calculons la moyenne.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : langage de programmation, c++, c#, delphi, pascal, java&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Programming_Language.pdf" target="_blank"&gt;fr_Tanagra_Programming_Language.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Code source&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/programming_language.zip" target="_blank"&gt;programming_language.zip&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6316412227010750361?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6316412227010750361'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6316412227010750361'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/12/outils-pour-le-developpement.html' title='Outils pour le développement d&apos;applications'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-4965205724158589713</id><published>2010-12-15T16:20:00.008+01:00</published><updated>2010-12-17T10:50:39.875+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Régles d'association - Données transactionnelles</title><content type='html'>&lt;div&gt;&lt;/div&gt;L’extraction des règles d’association est une des applications phares du data mining. L’idée est de mettre à jour des régularités, sous forme de cooccurrences, dans les bases de données. L’exemple emblématique est l’analyse des tickets de caisses des grandes surfaces : on veut découvrir des règles de comportement du type « si le client a acheté des couches et des lingettes, il va acheter du lait de croissance ». Auquel cas, il est peut être opportun de mettre les rayons adéquats dans la même zone du magasin (c’est le cas en ce qui concerne l’hypermarché que je fréquente habituellement). La partie « si » de la règle est appelée « antécédent », la partie « alors » est le « conséquent ».&lt;br /&gt;&lt;br /&gt;Il est possible de rechercher des cooccurrences dans les tableaux individus – variables que l’on manipule avec les logiciels de Data Mining usuels. Mais bien souvent, surtout dans le cadre de l’induction des règles d’association, les données peuvent se présenter sous la forme d’une base transactionnelle. Si l’on reprend l’exemple de l’analyse des tickets de caisse, nous disposons d’une liste de produits par caddie.&lt;br /&gt;&lt;br /&gt;Cette représentation des données est assez naturelle eu égard au problème que l’on souhaite traiter. Elle présente aussi l’avantage d’être plus compacte puisque seuls sont effectivement listés les produits observés dans chaque caddie. Nous n’avons pas besoin de nous préoccuper des produits qui n’y sont pas, surtout qu’ils peuvent être très nombreux si l’on se réfère aux nombre d’articles que peut proposer une enseigne de grande distribution.&lt;br /&gt;&lt;br /&gt;Pour autant que ce mode de description soit naturel, il s’avère que de nombreux logiciels ne savent pas l’appréhender directement. On observe curieusement un vrai clivage entre les outils à vocation professionnelle et ceux issus du monde universitaire. Les premiers savent pour la plupart manipuler ce type de fichier. C’est le cas des logiciels &lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;SPAD 7.3&lt;/span&gt; et &lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;SAS Enterprise Miner 4.3&lt;/span&gt; que nous étudions dans ce didacticiel. Les seconds en revanche demandent une transformation préalable des données pour pouvoir fonctionner. Nous utiliserons une macro VBA fonctionnant sous Excel pour transformer nos données en base « individus – variables » binaire propice au traitement sous &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Tanagra 1.4.37&lt;/span&gt; et &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Knime 2.2.2&lt;/span&gt;. Attention, nous devons respecter le cahier des charges initial, à savoir s’intéresser uniquement aux règles signalant la présence simultanée des produits dans les caddies. Il n’est pas question, consécutivement à un codage « présent – absent » mal maîtrisé, de produire des règles mettant en évidence l’absence simultanée de certains produits. Cela peut être intéressant dans certains cas, mais ce n’est pas l’objectif de notre analyse.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : règle d'association, règles d'association, spad 7.3, sas em 4.3, knime 2.2.2, filtrage des règles, lift&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Composants &lt;/span&gt;: A PRIORI&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Assoc_Rule_Transactions.pdf" target="_blank"&gt;fr_Tanagra_Assoc_Rule_Transactions.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/assoc_rule_transactions.zip" target="_blank"&gt;assoc_rule_transactions.zip&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;Wikipedia, "&lt;a href="http://en.wikipedia.org/wiki/Association_rule_learning"&gt;Association rule learning&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-4965205724158589713?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4965205724158589713'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4965205724158589713'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/12/regles-dassociation-donnees.html' title='Régles d&apos;association - Données transactionnelles'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8787608128406418185</id><published>2010-12-11T05:36:00.005+01:00</published><updated>2010-12-11T05:40:14.447+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Arbres de décision sur les grands fichiers (mise à jour)</title><content type='html'>Dans un post assez ancien ("&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/09/traitement-de-gros-volumes-comparaison.html"&gt;Traitement de gros volumes - Comparaison de logiciels&lt;/a&gt;" - septembre 2008), je comparais le comportement de plusieurs logiciels lors du traitement d'un fichier relativement volumineux avec les arbres de décision.&lt;br /&gt;&lt;br /&gt;J'y décrivais entres autres le comportement de Tanagra version 1.4.27 sortie en aout 2008. Depuis, ma machine de développement a changé ; Tanagra lui-même a changé, nous en sommes à ce jour à la version 1.4.37 ; et Sipina a lui aussi été modifié (version 3.5), avec l'introduction du &lt;a href="http://tutoriels-data-mining.blogspot.com/2010/11/multithreading-pour-les-arbres-de.html"&gt;multithreading&lt;/a&gt; pour certaines techniques d'induction d'arbres. Je me suis dit qu'il était temps d'étudier les performances en rééditant l'expérimentation dans les mêmes conditions.&lt;br /&gt;&lt;br /&gt;Concernant Tanagra et Sipina, les seuls logiciels que j'ai analysés dans ce nouveau contexte, l'amélioration des temps de traitement est manifeste. Après, il faut discerner ce qui est imputable au changement de machine, et ce qui revient aux modifications dans les implémentations. Nous avançons quelques pistes dans notre document.&lt;br /&gt;&lt;br /&gt;Les nouveaux résultats ont été ajoutés dans la dernière section (section 5) du PDF.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Lien :&lt;/strong&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Perfs_Comp_Decision_Tree.pdf" target="_blank"&gt;fr_Tanagra_Perfs_Comp_Decision_Tree.pdf&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8787608128406418185?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8787608128406418185'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8787608128406418185'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/12/arbres-sur-les-grands-fichiers-mise.html' title='Arbres de décision sur les grands fichiers (mise à jour)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1429640065830637930</id><published>2010-11-18T10:00:00.006+01:00</published><updated>2010-12-24T11:26:02.469+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Multithreading pour les arbres de décision</title><content type='html'>Une grande partie des PC modernes sont équipés de processeurs multi-cœurs. Dans les faits, l'ordinateur fonctionne comme s'il disposait de plusieurs processeurs. Certains d'ailleurs, les gros serveurs notamment, en disposent effectivement. Les logiciels et les algorithmes de data mining doivent être aménagés pour pouvoir en tirer profit. A l'heure actuelle, rares sont les outils à large diffusion qui exploitent ces nouvelles caractéristiques des machines.&lt;br /&gt;&lt;br /&gt;En effet, l'affaire n'est pas simple. Il est impossible de mettre en place une démarche générique qui serait valable quelle que soit la méthode d'apprentissage utilisée. Pour une technique donnée, décomposer un algorithme en tâches que l'on peut exécuter en parallèle est un domaine de recherche à part entière. Les publications scientifiques regorgent de propositions en tous genres, tant au niveau méthodologique (modification des algorithmes) qu'au niveau technologique (implémentation sur les machines). Une grande majorité d'entre elles s'intéressent surtout à l'implantation sur de gros systèmes. Il y a très peu de propositions de solutions légères que l'on peut introduire facilement sur des logiciels destinés aux ordinateurs personnels.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, une solution basée sur les threads est mise en avant. Elle est implantée dans la version 3.5 de Sipina.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : multithreading, thread, threads, arbres de décision, chaid, sipina 3.5, knime 2.2.2, rapidminer 5.0.011&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_sipina_multithreading.pdf" target="_blank"&gt;fr_sipina_multithreading.pdf&lt;/a&gt;&lt;span style="text-decoration: underline;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/covtype.arff.zip" target="_blank"&gt;covtype.arff.zip&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;Wikipedia, "&lt;a href="http://fr.wikipedia.org/wiki/Arbre_de_d%C3%A9cision" target="_blank"&gt;Arbres de décision&lt;/a&gt;"&lt;br /&gt;Aldinucci, Ruggieri, Torquati, " &lt;a href="http://www.di.unipi.it/%7Eruggieri/Papers/pkdd2010.pdf" target="_blank"&gt;Porting Decision Tree Algorithms to Multicore using FastFlow&lt;/a&gt; ", Pkdd-2010.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1429640065830637930?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1429640065830637930'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1429640065830637930'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/11/multithreading-pour-les-arbres-de.html' title='Multithreading pour les arbres de décision'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5179482806277068333</id><published>2010-10-24T07:05:00.010+02:00</published><updated>2010-10-24T07:18:04.397+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Sélection de variables'/><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Création de rapports avec Tanagra</title><content type='html'>Le reporting est un vrai critère de différenciation entre les logiciels de data mining à vocation professionnelle et ceux issus de la recherche. Pour un praticien (ex. chargé d'études), il est important de pouvoir récupérer facilement le fruit de son travail dans un traitement de texte ou dans un diaporama. L'affaire devient particulièrement intéressante lorsqu'il dispose déjà d'une sortie au format tableur. En effet les résultats se présentent souvent sous la forme de divers tableaux et, éventuellement, de graphiques. Le nec plus ultra est de pouvoir définir à l'avance des maquettes de rapports que l'on nourrit simplement à l'issue des calculs et que l'on peut imprimer directement. Pour le chercheur qui développe des outils, tout cela est bien beau, mais ce n'est absolument pas valorisable académiquement. Je me vois très mal pour ma part proposer un article dans une revue montrant que je suis capable d'intégrer automatiquement des camemberts 3D dans un fichier PDF. De fait, les outils élaborés par les chercheurs se contentent souvent de sorties textes, certes complètes, mais peu présentables en l'état dans des rapports destinés à être diffusés à large échelle. Les sorties de R ou de Weka en sont un exemple édifiant.&lt;br /&gt;&lt;br /&gt;Tanagra, créé par un enseignant chercheur, s'inscrit dans la même démarche. Rien n'a été initialement prévu pour le reporting. Et pourtant, paradoxalement, il propose dans un des ses menus (DIAGRAM / CREATE REPORT) un outil de création de rapports. C'est la conséquence heureuse d'un choix technologique effectué lors de l'écriture du cahier des charges du logiciel.&lt;br /&gt;&lt;br /&gt;Revenons un peu en arrière pour comprendre la démarche. Lorsque j'avais écrit SIPINA (version 3.x), je me suis rendu compte que la construction des fenêtres d'affichage des résultats me prenait énormément de temps, plus que l'écriture des algorithmes de calculs. Dans mon optique, ce n'était pas une bonne chose car cela me détournait de ma principale préoccupation : comprendre les méthodes, les implémenter, les évaluer, en parler. Lorsque j'ai réfléchi aux spécifications de Tanagra, je me suis dit qu'il fallait absolument définir une fenêtre d'affichage standardisée, forcément avec des sorties textes, mais avec néanmoins une présentation relativement attrayante. Et là, j'ai redécouvert le HTML. C'est un peu amusant à dire, surtout en 2003. Le HTML permet de faire un effort minimum de description des sorties, une seule méthode dans la classe de calcul suffit (un peu comme Weka pour ceux qui sont allés voir le code source), tout en obtenant une présentation avenante. De plus, il est possible de mettre en évidence les informations importantes à lire en priorité. Par exemple, rien que pouvoir attribuer des codes couleurs à des tranches de p-value est infiniment précieux.&lt;br /&gt;&lt;br /&gt;Par la suite, j'ai réalisé que le choix du HTML allait s'avérer doublement judicieux. En effet, c'est un standard largement répandu. Sans effort de programmation supplémentaire, nous pouvons d'une part récupérer les sorties dans le tableur Excel ; d'autre part, nous pouvons exporter les fenêtres de visualisation dans un fichier externe et visualiser les résultats dans un navigateur web, indépendamment du logiciel Tanagra. De fait, leur diffusion est largement facilitée.&lt;br /&gt;&lt;br /&gt;Ce sont ces fonctionnalités de " reporting " de Tanagra que nous présentons dans ce didacticiel.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : rapport, reporting, arbre de décision, c4.5, régression logistique, codage disjonctif, courbe roc, échantillon d'apprentissage, échantillon test, sélection de variables&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Composants &lt;/span&gt;: GROUP CHARACTERIZATION, SAMPLING, C4.5, TEST, O_1_BINARIZE, FORWARD-LOGIT, BINARY LOGISTIC REGRESSION, SCORING, ROC CURVE&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Reporting.pdf" target="_blank"&gt;fr_Tanagra_Reporting.pdf&lt;br /&gt;&lt;/a&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/heart_disease_male_for_reporting.xls" target="_blank"&gt;heart disease&lt;br /&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5179482806277068333?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5179482806277068333'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5179482806277068333'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/10/creation-de-rapports-avec-tanagra.html' title='Création de rapports avec Tanagra'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2621093312309162878</id><published>2010-10-20T14:43:00.011+02:00</published><updated>2010-10-24T07:15:08.090+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression PLS'/><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Bayesien naïf pour prédicteurs continus</title><content type='html'>Le classifieur bayesien naïf est une méthode d'apprentissage supervisé qui repose sur une hypothèse simplificatrice forte : les descripteurs (Xj) sont deux à deux indépendants conditionnellement aux valeurs de la variable à prédire (Y). Pourtant, malgré cela, il se révèle robuste et efficace. Ses performances sont comparables aux autres techniques d'apprentissage. Diverses raisons sont avancées dans la littérature. Nous avions nous même proposé une explication basée sur le biais de représentation dans un précédent tutoriel . Lorsque les prédicteurs sont discrets, on se rend compte  aisément que le classifieur bayesien naïf est un séparateur linéaire. Il se pose donc en concurrent direct des autres techniques du même acabit, telles que l'analyse discriminante, la régression logistique, les SVM (Support Vector Machine) linéaires, etc.&lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous décrivons le modèle d'indépendance conditionnelle dans le cadre des variables prédictives quantitatives. La situation est un peu plus complexe. Nous verrons que, selon les hypothèses simplificatrices utilisées, il peut être considéré comme un séparateur linéaire ou quadratique. Il est alors possible de produire un classifieur explicite, facilement utilisable pour le déploiement. Les idées mises en avant dans ce tutoriel ont été implémentées dans &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Tanagra 1.4.37&lt;/span&gt; (et ultérieure). Cette représentation du modèle est originale. Je ne l'ai pas retrouvée dans les autres logiciels libres que j'ai l'habitude de suivre (pour l'instant…).&lt;br /&gt;&lt;br /&gt;Ce document est organisé comme suit. Tout d'abord (section 2), nous détaillons les aspects théoriques de la méthode. Nous montrons qu'il est possible de parvenir à un modèle explicite que l'on peut exprimer sous la forme d'une combinaison linéaire des variables ou du carré des variables. Dans la section 3, nous décrivons la mise en œuvre de la méthode à l'aide du logiciel Tanagra. Nous confrontons les résultats avec ceux des autres séparateurs linéaires (régression logistique, SVM linéaire, analyse discriminante PLS, analyse discriminante de Fisher). Dans la section 4, nous comparons l'implémentation de la technique dans différents logiciels. Nous mettrons surtout l'accent sur la lecture des résultats. Enfin, section 5, nous montrons l'intérêt de l'approche sur les très grands fichiers. Nous traiterons la base " mutants " comprenant 16592 observations et 5408 variables prédictives avec une rapidité hors de portée des autres techniques.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : classifieur bayesien naïf, modèle d'indépendance conditionnelle, rapidminer 5.0.10, weka 3.7.2, knime 2.2.2, logiciel R, package e1071, analyse discriminante, analyse discriminante pls, régression pls, svm linéaire, régression logistique&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Composants&lt;/span&gt; : NAIVE BAYES CONTINUOUS, BINARY LOGISTIC REGRESSION, SVM, C-PLS, LINEAR DISCRIMINANT ANALYSIS&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf" target="_blank"&gt;fr_Tanagra_Naive_Bayes_Continuous_Predictors.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/breast.txt" target="_blank"&gt;breast&lt;/a&gt; ; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/low_birth_weight_nbc.arff" target="_blank"&gt;low birth weight&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;Wikipedia, "&lt;a href="http://en.wikipedia.org/wiki/Naive_Bayes_classifier"&gt;Naive bayes classifier&lt;/a&gt;"&lt;br /&gt;Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2010/03/le-classifieur-bayesien-naif-revisite.html"&gt;Classifieur bayesien naïf pour les prédicteurs discrets&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2621093312309162878?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2621093312309162878'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2621093312309162878'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/10/bayesien-naif-pour-predicteurs-continus.html' title='Bayesien naïf pour prédicteurs continus'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1123133217367631567</id><published>2010-10-19T18:53:00.003+02:00</published><updated>2011-05-14T05:52:56.606+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.37</title><content type='html'>&lt;span style="font-weight: bold; color: rgb(0, 153, 0);"&gt;Naive Bayes Continuous&lt;/span&gt; est un composant d'apprentissage supervisé. Il implémente le modèle d'indépendance conditionnelle pour les prédicteurs continus (quantitatifs). La principale originalité est dans la production d'un modèle explicite sous forme d'une combinaison linéaire des variables prédictives et, éventuellement, de leur carré.&lt;br /&gt;&lt;br /&gt;Les fonctionnalités de &lt;span style="font-weight: bold; color: rgb(0, 153, 0);"&gt;reporting &lt;/span&gt;ont été améliorées.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1123133217367631567?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1123133217367631567'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1123133217367631567'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/10/tanagra-version-1437_19.html' title='Tanagra - Version 1.4.37'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-933692695073583440</id><published>2010-10-19T18:53:00.000+02:00</published><updated>2010-10-19T18:54:44.405+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.37</title><content type='html'>&lt;span style="font-weight: bold; color: rgb(0, 153, 0);"&gt;Naive Bayes Continuous&lt;/span&gt; est un composant d'apprentissage supervisé. Il implémente le modèle d'indépendance conditionnelle pour les prédicteurs continus (quantitatifs). La principale originalité est dans la production d'un modèle explicite sous forme d'une combinaison linéaire des variables prédictives et, éventuellement, de leur carré.&lt;br /&gt;&lt;br /&gt;Les fonctionnalités de &lt;span style="font-weight: bold; color: rgb(0, 153, 0);"&gt;reporting &lt;/span&gt;ont été améliorées.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-933692695073583440?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/933692695073583440'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/933692695073583440'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/10/tanagra-version-1437.html' title='Tanagra - Version 1.4.37'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5955557375309857866</id><published>2010-10-04T10:45:00.010+02:00</published><updated>2010-10-04T11:29:26.325+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Nouvelle interface pour RapidMiner 5.0</title><content type='html'>La société Rapid-I, à travers leur logiciel phare RapidMiner, est un acteur très dynamique du l'informatique décisionnelle. Au-delà de l'outil, elle propose des solutions et des services dans le domaine de l'analyse prédictive, data mining et du text mining. Son site web regorge d'informations (blog, tutoriels, vidéos, forum, newsletter, wiki, etc.).&lt;br /&gt;&lt;br /&gt;La version 5.0 de RapidMiner (Community Edition - Téléchargeable gratuitement) propose une interface profondément remaniée, s'inspirant visiblement de Knime. Les ressemblances entre les deux produits sont frappantes. Je me suis dit qu'il était opportun d'étudier cela en détail, en évaluant son comportement dans le cadre d'une analyse type. Nous souhaitons mettre en place le processus suivant : (1) construire et afficher un arbre de décision à partir d'un ensemble d'observations étiquetées ; (2) sauvegarder l'arbre dans un fichier au format PMML en vue d'un déploiement ultérieur ; (3) évaluer les performances en généralisation du classifieur à travers la validation croisée ; (4) utiliser le modèle pour classer un ensemble d'observations non étiquetées contenues dans un second fichier, les résultats (descripteurs et étiquette attribuée) doivent être consignés dans un troisième fichier au format CSV.&lt;br /&gt;&lt;br /&gt;Ce sont là des tâches très classiques du data mining. Nous les avons maintes fois décrites dans nos didacticiels (ex. &lt;a href="http://tutoriels-data-mining.blogspot.com/2010/01/arbres-de-decision-interactifs-avec.html"&gt;SPAD&lt;/a&gt;, ...). Raison de plus pour vérifier s'il est aisé de les mener à bien avec cette nouvelle version de RapidMiner. En effet, avec la précédente mouture, certains enchaînements étaient compliqués. Mettre en place une validation croisée par exemple demandait une organisation, certes très rigoureuse dans son esprit, mais peu intuitive.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : rapidminer, knime, validation croisée, arbres de décision, déploiement&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_RapidMiner_5.pdf" target="_blank"&gt;fr_Tanagra_RapidMiner_5.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/adult_rapidminer.zip" target="_blank"&gt;adult_rapidminer.zip&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;Rapid-I, "&lt;a href="http://rapid-i.com/content/view/181/190/lang,en/" target="_blank"&gt;RapidMiner&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5955557375309857866?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5955557375309857866'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5955557375309857866'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/10/nouvelle-interface-pour-rapidminer-50.html' title='Nouvelle interface pour RapidMiner 5.0'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5226542016612459250</id><published>2010-09-21T11:52:00.010+02:00</published><updated>2010-09-21T12:06:57.996+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Le format PMML pour le déploiement de modèles</title><content type='html'>Le déploiement des modèles est une étape importante du processus Data Mining. Dans le cadre de l'apprentissage supervisé, il s'agit de réaliser des prédictions en appliquant les modèles sur des observations non étiquetées. Nous avons décrit à maintes reprises la procédure pour différents outils (ex. &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/dploiement-de-modles-avec-tanagra.html"&gt;Tanagra&lt;/a&gt;, &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/dploiement-de-modles-avec-sipina.html"&gt;Sipina&lt;/a&gt;, &lt;a href="http://tutoriels-data-mining.blogspot.com/2010/01/arbres-de-decision-interactifs-avec.html"&gt;Spad&lt;/a&gt;, ou encore &lt;a href="http://tutoriels-data-mining.blogspot.com/2010/06/deploiement-de-modeles-predictifs-avec.html"&gt;R&lt;/a&gt;). Ils ont pour point commun d'utiliser le même logiciel pour la construction du modèle et son déploiement.&lt;br /&gt;&lt;br /&gt;Ce nouveau didacticiel se démarque des précédents dans la mesure où nous utilisons un logiciel tiers pour le classement des nouvelles observations. Il fait suite à une remarque qui m'a été faite par Loïc LUCEL (merci infiniment Loïc pour tes précieuses indications), il m'a fait prendre conscience de deux choses : le déploiement donne sa pleine mesure lorsqu'on le réalise avec un outil dédié au management des données, nous prendrons l'exemple de PDI-CE (Kettle) ; nous accédons à une certaine universalité lorsque nous décrivons les modèles à l'aide de standards reconnus/acceptés par la majorité des logiciels, en l'occurrence le standard de description PMML.&lt;br /&gt;&lt;br /&gt;J'avais déjà parlé à plusieurs reprises de PMML. Mais jusqu'à présent, je ne voyais pas trop son intérêt si nous n'avons pas en aval un outil capable de l'appréhender de manière générique. Dans ce didacticiel, nous constaterons  qu'il est possible d'élaborer un arbre de décision avec différents outils (SIPINA, KNIME et RAPIDMINER), de les exporter en respectant la norme PMML, puis de les déployer de manière indifférenciée sur des observations non étiquetées via PDI-CE. L'adoption d'un standard de description des modèles devient particulièrement intéressante dans ce cas.&lt;br /&gt;&lt;br /&gt;Un peu à la marge de notre propos, nous décrirons des solutions de déploiement alternatives dans ce didacticiel. Nous verrons ainsi que Knime possède son propre interpréteur PMML. Il est capable d'appliquer un modèle sur de nouvelles données, quel que soit l'outil utilisé pour l'élaboration du modèle. L'essentiel est que le standard PMML soit respecté. En ce sens, Knime peut se substituer à PDI-CE. Autre piste possible, Weka, qui fait partie de la suite " Pentaho Community Edition ", possède un format de description propriétaire directement reconnu par PDI-CE.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : déploiement, pmml, arbres de décision, rapidminer 5.0.10, weka 3.7.2, knime 2.1.1, sipina 3.4&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_PDI_Model_Deployment.pdf" target="_blank"&gt;fr_Tanagra_PDI_Model_Deployment.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/heart-pmml.zip" target="_blank"&gt;heart-pmml.zip&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;Data Mining Group, "&lt;a href="http://www.dmg.org/v4-0/GeneralStructure.html" target="_blank"&gt;PMML standard&lt;/a&gt;"&lt;br /&gt;Pentaho, "&lt;a href="http://kettle.pentaho.com/" target="_blank"&gt;Pentaho Kettle Project&lt;/a&gt;"&lt;br /&gt;Pentaho, "&lt;a href="http://wiki.pentaho.com/display/DATAMINING/Using+the+Weka+Scoring+Plugin" target="_blank"&gt;Using the Weka Scoring Plugin&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5226542016612459250?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5226542016612459250'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5226542016612459250'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/09/le-format-pmml-pour-le-deploiement-de.html' title='Le format PMML pour le déploiement de modèles'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8243747181021210766</id><published>2010-09-10T18:56:00.009+02:00</published><updated>2010-09-11T00:52:05.667+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Pentaho Data Integration</title><content type='html'>L'informatique décisionnelle (" Business Intelligence - BI " en anglais, ça fait tout de suite plus &lt;span style="font-style: italic;"&gt;glamour&lt;/span&gt;)  fait référence  à "  l'exploitation des données de l'entreprise dans le but de faciliter la prise de décision ". Des suites logicielles se proposent de prendre en charge le processus complet. J'ai choisi de mettre en avant la suite Open Source Pentaho, mais les principes énoncés sont valables pour la grande majorité des logiciels du domaine.&lt;br /&gt;&lt;br /&gt;Il existe deux versions de Pentaho. L'édition entreprise est payante, elle donne accès à une assistance. Je ne l'ai pas testée. La " &lt;a href="http://community.pentaho.com/" target="_blank"&gt;Community Edition&lt;/a&gt; " (Pentaho CE) est téléchargeable librement. Elle est développée et maintenue par une communauté de développeurs. Je ne situe pas bien différences entre les deux versions. Pour ma part, je me suis focalisé sur la version non payante, pour que tout un chacun puisse reproduire les opérations que je décris.&lt;br /&gt;&lt;br /&gt;Ce document présente la mise en oeuvre de &lt;a href="http://kettle.pentaho.com/" target="_blank"&gt;Pentaho Data Integration Community Edition &lt;/a&gt;(PDI-CE, appelée également Kettle), l'outil ETL de la suite Pentaho CE. Je me contente d'une description succincte pour deux raisons : ce type d'outil n'entre pas directement dans mon champ de compétences (qui est le data mining) ; j'en parle surtout pour préparer un prochain tutoriel dans lequel je montre le déploiement de modèles élaborés à l'aide de Knime, Sipina ou Weka via PDI-CE.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : ETL, pentaho data integration, community edition, kettle, extraction de données, importation de données, alimentation, transformation, businness intelligence, informatique décisionnelle&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Pentaho_Data_Integration.pdf" target="_blank"&gt;PDI-CE&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/titanic32x.csv.zip" target="_blank"&gt;titanic32x.csv.zip&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références &lt;/span&gt;:&lt;br /&gt;Comment ça marche.net, "&lt;a href="http://www.commentcamarche.net/contents/entreprise/business-intelligence.php3"&gt;Informatique décisionnelle (Business Intelligence)&lt;/a&gt;"&lt;br /&gt;Pentaho, &lt;a href="http://community.pentaho.com/" target="_blank"&gt;Pentaho Community&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8243747181021210766?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8243747181021210766'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8243747181021210766'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/09/pentaho-data-integration.html' title='Pentaho Data Integration'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-977209489511357210</id><published>2010-08-30T12:11:00.012+02:00</published><updated>2010-08-30T16:36:44.437+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Connexion Sipina/Excel via OLE [XL-SIPINA]</title><content type='html'>La connexion entre un logiciel de data mining et Excel (et plus généralement les tableurs) est un enjeu fort. Nous l'avions maintes fois abordée dans nos didacticiels. Au fil du temps, la solution basée sur l'utilisation des macros complémentaires (add-in) s'est imposée, tant pour &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-excel-sipina.html"&gt;SIPINA&lt;/a&gt; que pour &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html"&gt;TANAGRA&lt;/a&gt;. Elle est simple, fiable, performante. Elle ne nécessite pas développer des versions spécifiques. La connexion avec Excel est une simple fonctionnalité additionnelle de la distribution standard.&lt;br /&gt;&lt;br /&gt;Avant de parvenir à cette solution, nous avions exploré différentes pistes. Dans ce didacticiel, nous présentons la solution &lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;XL-SIPINA&lt;/span&gt; basée sur la technologie OLE de Microsoft. A contre-pied des macros complémentaires, cette version de SIPINA choisit d'intégrer Excel dans le logiciel de Data Mining. Le dispositif fonctionne plutôt bien. Néanmoins, il a finalement été abandonné pour deux raisons : (1) nous étions obligé de développer/compiler des versions spéciales qui ne fonctionnent que si Excel est présent sur la machine de l'utilisateur ; (2) les temps de transferts " objet Excel - Sipina " via OLE s'avèrent dissuasifs lorsque la taille de la base augmente.&lt;br /&gt;&lt;br /&gt;Il faut donc prendre XL-SIPINA comme un exercice de style. Il y a toujours un peu de nostalgie lorsque je fais un retour en arrière sur des voies que j'ai explorées et que j'ai finalement abandonnées. Peut être d'ailleurs ne suis-je pas allé totalement au bout des choses.&lt;br /&gt;&lt;br /&gt;Dernière remarque. A l'origine, l'application a été développée à l'aide d'Office 97. Je me rends compte qu'elle reste d'actualité encore aujourd'hui, elle fonctionne parfaitement avec Office 2010.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : excel, tableur, sipina, xls, xlsx, xl-sipina, arbres de décision&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Logiciel&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/softs/setup_xl_sipina.exe" target="_blank"&gt;XL-SIPINA&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Didacticiel &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/~ricco/softs/fr_xls_sipina.pdf" target="_blank"&gt;fr_xls_sipina.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/auto_for_decision_tree_analysis.xls" target="_blank"&gt;autos&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-977209489511357210?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/977209489511357210'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/977209489511357210'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/08/connexion-sipina-excel-via-ole.html' title='Connexion Sipina/Excel via OLE [XL-SIPINA]'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8047273879088338540</id><published>2010-08-27T11:51:00.009+02:00</published><updated>2010-09-28T06:17:13.493+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>L'add-in Tanagra pour Excel 2007 et 2010</title><content type='html'>La macro complémentaire (" add-in " en anglais) " tanagra.xla " participe grandement à la diffusion du logiciel Tanagra. Le principe est simple, il s'agit d'intégrer un menu Tanagra dans Excel. Ainsi l'utilisateur peut lancer les calculs statistiques sans avoir à quitter le tableur. Pour simple qu'elle soit, cette fonctionnalité facilite le travail du data miner. Le tableur est un des outils les plus utilisés pour la préparation des données (cf. KDNuggets Polls: &lt;a href="http://www.kdnuggets.com/polls/2008/tools-languages-used-data-cleaning.htm" target="_blank"&gt;Tools / Languages for Data Cleaning - 2008&lt;/a&gt;). En intégrant le logiciel de data mining dans cet environnement, on évite au praticien des manipulations répétitives et fastidieuses : importation, exportation, vérifier la compatibilité des formats, etc.&lt;br /&gt;&lt;br /&gt;L'installation de l'add-in sous Office XP (valable de Office 1997 à Office 2003) est décrite dans un de nos &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html"&gt;didacticiels&lt;/a&gt;. La procédure devient caduque dans Office 2007 et Office 2010 dans la mesure où les menus d'Excel ont été réorganisés. Pourtant la macro reste opérationnelle. Il est dommage que les utilisateurs ne puissent pas en profiter.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous détaillons la démarche à suivre pour intégrer la macro Tanagra dans les nouvelles versions d'Excel. Nous nous concentrerons sur Office 2007 dans un premier temps, nous verrons que la procédure est aussi valable pour Office 2010. Ce passage à des versions récentes d'Excel n'est absolument pas anodin. En effet, par rapport aux précédentes, elles peuvent gérer un nombre plus important de lignes et de colonnes. &lt;span style="color: rgb(51, 51, 255);"&gt;Nous pouvons ainsi traiter une base allant jusqu'à 1.048.575 observations&lt;/span&gt; (la première ligne correspond  aux noms des variables) &lt;span style="color: rgb(51, 51, 255);"&gt;et 16.384 variables&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Nous traiterons pour notre part une base comportant 100.000 observations et 22 variables. Il s'agit d'une version du fichier "&lt;a href="http://archive.ics.uci.edu/ml/datasets/Waveform+Database+Generator+%28Version+1%29" target="_blank"&gt;waveform&lt;/a&gt;" bien connu des informaticiens. Notons que ce fichier, de par le nombre de lignes, ne peut pas être manipulé par les versions antérieures d'Excel.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(0, 153, 0);"&gt;La procédure décrite dans ce document est également valable pour la macro complémentaire associée au logiciel SIPINA&lt;/span&gt; (&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-excel-sipina.html"&gt;sipina.xla&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés &lt;/span&gt;: importation des données, fichier excel, macro complémentaire, add-in, add-on, xls, xlsx&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Composants &lt;/span&gt;: VIEW DATASET&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Lien &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Add_In_Excel_2007_2010.pdf" target="_blank"&gt;fr_Tanagra_Add_In_Excel_2007_2010.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données &lt;/span&gt;: &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/wave100k.xlsx" target="_blank"&gt;wave100k.xlsx&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt;:&lt;br /&gt;Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html"&gt;Importation fichier XLS (Excel) - Macro complémentaire&lt;/a&gt;".&lt;br /&gt;Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-open-office-calc.html"&gt;Connexion Open Office Calc&lt;/a&gt;".&lt;br /&gt;Tanagra, "&lt;a href="http://data-mining-tutorials.blogspot.com/2009/04/launching-tanagra-from-oocalc-under.html"&gt;&lt;/a&gt;&lt;a href="http://tutoriels-data-mining.blogspot.com/2009/04/connexion-open-office-calc-sous-linux.html"&gt;Connexion Open Office Calc sous Linux&lt;/a&gt;".&lt;br /&gt;Tanagra, "&lt;a href="http://data-mining-tutorials.blogspot.com/2010/08/sipina-add-in-for-excel.html"&gt;&lt;/a&gt;&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-excel-sipina.html"&gt;Connexion Excel - Sipina&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8047273879088338540?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8047273879088338540'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8047273879088338540'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/08/ladd-in-tanagra-pour-excel-2007-et-2010.html' title='L&apos;add-in Tanagra pour Excel 2007 et 2010'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-472065972861721958</id><published>2010-06-28T18:45:00.011+02:00</published><updated>2010-06-28T19:07:40.810+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Sélection de variables'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Filtrage des prédicteurs discrets</title><content type='html'>La sélection de variables est un dispositif crucial de l'apprentissage supervisé. On cherche à isoler le sous-ensemble de prédicteurs qui permet d'expliquer efficacement les valeurs de la variable cible.&lt;br /&gt;&lt;br /&gt;Trois approches sont généralement citées dans la littérature. Les méthodes " &lt;span style="color: rgb(0, 153, 0);"&gt;embedded&lt;/span&gt; " intègrent directement la sélection dans le processus d'apprentissage. Les méthodes " &lt;span style="color: rgb(0, 153, 0);"&gt;wrapper&lt;/span&gt; " optimisent explicitement un critère de précision, le plus souvent le taux d'erreur . Elles ne s'appuient en rien sur les caractéristiques de l'algorithme d'apprentissage qui est utilisé comme une boîte noire.&lt;br /&gt;&lt;br /&gt;Enfin, troisième et dernière approche que nous étudierons dans ce didacticiel, les méthodes " &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;filter&lt;/span&gt; " agissent en amont, avant la mise en œuvre de la technique d'apprentissage, et sans lien direct avec celui-ci. On présume donc qu'un processus indépendant basé sur un critère ad hoc permettrait de détecter les prédicteurs pertinents quel que soit l'algorithme d'apprentissage mis en œuvre en aval. Le pari est osé, voire hasardeux. Et pourtant, certaines expérimentations montrent que l'approche est viable même lorsque la méthode d'apprentissage utilise dans le même temps un dispositif intégré (embedded) de sélection de variables (les arbres de décision avec C4.5 par exemple ).&lt;br /&gt;&lt;br /&gt;Nous nous intéressons aux &lt;span style="font-weight: bold;"&gt;méthodes de filtrage (filter)&lt;/span&gt; basées sur le principe suivant :&lt;span style="font-weight: bold;"&gt; le sous-ensemble de prédicteurs sélectionnés doit être composé de variables fortement liées avec la variable cible (pertinence) mais faiblement liées entre elles (absence de redondance)&lt;/span&gt;. Deux idées sont à mettre en exergue dans ce schéma : (1) comment mesurer la liaison entre variables, sachant que nous nous restreignons aux cas des prédicteurs discrets ; (2) comment traduire la redondance dans un sous ensemble de variables.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous décrirons plusieurs méthodes de filtrage basées sur une mesure de corrélation pour variables discrètes. Nous les appliquerons sur un ensemble de données qui sera spécialement préparé pour mettre en évidence leur comportement. Nous évaluerons alors leurs performances en construisant le modèle bayesien naïf  à partir des sous-ensembles de variables sélectionnées. Nous mènerons l'expérimentation à l'aide du logiciel Tanagra ; par la suite, nous passerons en revue les méthodes filtres implémentées dans plusieurs logiciels  libres de data mining (&lt;span style="color: rgb(51, 102, 255);"&gt;Weka 3.6.0&lt;/span&gt;, &lt;span style="color: rgb(51, 51, 255);"&gt;Orange 2.0b&lt;/span&gt;, &lt;span style="color: rgb(51, 51, 255);"&gt;RapidMiner 4.6.0&lt;/span&gt;, &lt;span style="color: rgb(51, 51, 255);"&gt;R 2.9.2&lt;/span&gt; - package &lt;span style="color: rgb(51, 51, 255);"&gt;FSelector&lt;/span&gt;).&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés :&lt;/b&gt; méthodes de filtrage, filter approach, correlation based measure, modèle bayesien naïf, modèle d'indépendance conditionnelle&lt;br /&gt;&lt;b&gt;Composants  :&lt;/b&gt; FEATURE RANKING, CFS FILTERING, MIFS FILTERING, FCBF FILTERING, MODTREE FILTERING, NAIVE BAYES, BOOTSTRAP&lt;br /&gt;&lt;b&gt;Lien   :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Filter_Method_Discrete_Predictors.pdf" target="_blank"&gt;fr_Tanagra_Filter_Method_Discrete_Predictors.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Données  :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/vote_filter_approach.zip" target="_blank"&gt;vote_filter_approach.zip&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références : &lt;o:p&gt;&lt;/o:p&gt;&lt;/b&gt;&lt;br /&gt;Rakotomalala R., Lallich S., "&lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/MODTREE_article.pdf" target="_blank"&gt;Construction d'arbres de décision par optimisation&lt;/a&gt;", Revue Extraction des Connaissances et Apprentissage, vol. 16, n°6/2002, pp.685-703, 2002.&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/stepdisc-analyse-discriminante.html"&gt;Stepdisc - Analyse discriminante&lt;/a&gt;" ; "&lt;a href="http://www.blogger.com/Strat%C3%83%C2%A9gie%20%C3%82%C2%AB%20wrapper%20%C3%82%C2%BB%20pour%20la%20s%C3%83%C2%A9lection%20de%20variables"&gt;Stratégie wrapper pour la sélection de variables&lt;/a&gt;" ; "&lt;a href="http://tutoriels-data-mining.blogspot.com/2010/01/wrapper-pour-la-selection-de-variables.html"&gt;Wrapper pour la sélection de variables (suite)&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-472065972861721958?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/472065972861721958'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/472065972861721958'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/06/filtrage-des-predicteurs-discrets.html' title='Filtrage des prédicteurs discrets'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8820203845592400056</id><published>2010-06-15T15:57:00.010+02:00</published><updated>2010-06-16T06:55:55.009+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Data Mining sous R - Le package rattle</title><content type='html'>Le père de Tanagra est aussi un fan de R. Cela peut paraître étrange et/ou contradictoire. Mais en réalité, je suis surtout un grand fan de Data Mining. Et le logiciel en est un maillon essentiel. Je passe ainsi beaucoup de temps à les disséquer, à évaluer leur comportement face aux données, et analyser leur code source lorsque cela est possible, bref, à les étudier sous toutes les coutures. Ce travail me passionne tout simplement. Je l'ai toujours fait. Avec Internet, je peux partager le fruit de mes réflexions avec d'autres utilisateurs.&lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous présentons le package rattle pour R spécialisé dans le Data Mining. Il n'intègre pas de nouvelles méthodes d'apprentissage, il vise plutôt à rajouter une interface utilisateur graphique (GUI en anglais, " graphical user interface ") à R. Ainsi, un praticien, ignorant tout du langage de programmation R, pourra néanmoins piloter ses analyses en cliquant simplement sur des menus ou des boutons, un peu à l'image du mode " Explorer " du logiciel Weka. Rien de bien révolutionnaire donc, mais ô combien important pour les utilisateurs novices qui veulent aller à l'essentiel : traiter leurs données à l'aide de R sans avoir à investir dans l'apprentissage fastidieux de la programmation.&lt;br /&gt;&lt;br /&gt;Pour décrire le fonctionnement de rattle, nous reprenons la trame du document de présentation publié par son auteur dans le journal de R (voir référence). Nous réaliserons la succession d'opérations suivantes : charger le fichier, le scinder en échantillons d'apprentissage et de test, définir le rôle des variables (cible vs. prédictives), réaliser quelques statistiques descriptives et graphiques pour appréhender les données, construire les modèles prédictifs sur l'échantillon d'apprentissage, les jauger sur l'échantillon test à travers les outils usuels d'évaluation (matrice de confusion, quelques courbes).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, rpart, random forest, glm, arbres de décision, régression logistique, forêt aléatoire, forêts aléatoires&lt;br /&gt;&lt;strong&gt;&lt;/strong&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Rattle_Package_for_R.pdf" target="_blank"&gt;fr_Tanagra_Rattle_Package_for_R.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt;    : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/heart_for_rattle.txt" target="_blank"&gt;heart_for_rattle.txt&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt;   :&lt;br /&gt;Togaware, "&lt;a href="http://rattle.togaware.com/" target="_blank"&gt;Rattle&lt;/a&gt;"&lt;br /&gt;CRAN, "&lt;a href="http://cran.r-project.org/web/packages/rattle/index.html" target="_blank"&gt;Package rattle - Graphical user interface for data mining in R&lt;/a&gt;"&lt;br /&gt;G.J. Williams, "&lt;a href="http://journal.r-project.org/archive/2009-2/RJournal_2009-2_Williams.pdf" target="_blank"&gt;Rattle: A Data Mining GUI for R&lt;/a&gt;", in The R Journal, Vol. 1/2, pages 45--55, december 2009.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8820203845592400056?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8820203845592400056'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8820203845592400056'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/06/data-mining-sous-r-le-package-rattle.html' title='Data Mining sous R - Le package rattle'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7393482437860158505</id><published>2010-06-11T10:18:00.009+02:00</published><updated>2010-06-11T10:28:25.803+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Déploiement des modèles prédictifs avec R</title><content type='html'>L'industrialisation est l'étape ultime du data mining. Dans le cadre prédictif, l'objectif est de classer un individu à partir de sa description. Elle repose sur la possibilité de sauver, de diffuser et d'exploiter le classifieur élaboré lors de la phase d'apprentissage dans un environnement opérationnel. On parle de déploiement.&lt;br /&gt;&lt;br /&gt;Dans ce tutoriel, nous présentons une stratégie de déploiement pour R. Elle repose sur la possibilité de sauvegarder des modèles dans des fichiers binaires via le &lt;span style="color: rgb(51, 204, 0);"&gt;package filehash&lt;/span&gt;. Certes, nous aurons encore besoin du logiciel R dans la phase d'industrialisation (pour le classement de nouveaux individus), mais plusieurs aspects militent en faveur de cette stratégie : R est librement accessible et utilisable dans quelque contexte que ce soit ; il fonctionne indifféremment sous Windows, sous Linux et sous MacOS (http://www.r-project.org/); nous pouvons le piloter en mode batch c.-à-d. tout programme peut faire appel à R en sous main, lui faire exécuter une tâche, et récupérer les résultats.&lt;br /&gt;&lt;br /&gt;Nous écrirons trois programmes distincts pour différencier les étapes. Le premier construit les modèles à partir des données d'apprentissage et les stocke dans un fichier binaire. Le second charge les modèles et les utilise pour classer les individus non étiquetés d'un second ensemble de données. Les prédictions sont sauvées dans un fichier CSV. Enfin, le troisième charge les prédictions et la vraie classe d'appartenance conservée dans un troisième fichier, il construit les matrices de confusion et calcule les taux d'erreur. Les méthodes de data mining utilisés sont : les arbres de décision (&lt;span style="color: rgb(51, 102, 255);"&gt;rpart&lt;/span&gt;) ; la régression logistique (&lt;span style="color: rgb(51, 102, 255);"&gt;glm&lt;/span&gt;) ; l'analyse discriminante linéaire (&lt;span style="color: rgb(51, 102, 255);"&gt;lda&lt;/span&gt;) ; et l'analyse discriminante sur facteurs de l'ACP (&lt;span style="color: rgb(51, 102, 255);"&gt;princomp + lda&lt;/span&gt;).  Avec ce dernier cas, on montre que la stratégie reste opérationnelle même lorsque la prédiction nécessite un enchaînement d'opérations complexes.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, déploiement, industrialisation, rpart, lda, pca, glm, arbres de décision, analyse discriminante, régression logistique, analyse en composantes principales, analyse discriminante sur facteurs&lt;br /&gt;&lt;strong&gt;&lt;/strong&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Deploying_Predictive_Models_with_R.pdf" target="_blank"&gt;fr_Tanagra_Deploying_Predictive_Models_with_R.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt;   : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/pima-model-deployment.zip" target="_blank"&gt;pima-model-deployment.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt;  :&lt;br /&gt;R  package, "&lt;a href="http://cran.r-project.org/web/packages/filehash/index.html" target="_blank"&gt;Filehash : Simple key-value database&lt;/a&gt;"&lt;br /&gt;Kdnuggets, "&lt;a href="http://www.kdnuggets.com/polls/2009/deployment-data-mining-models.htm" target="_blank"&gt;Data mining deployment Poll&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7393482437860158505?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7393482437860158505'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7393482437860158505'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/06/deploiement-de-modeles-predictifs-avec.html' title='Déploiement des modèles prédictifs avec R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1040026436184776081</id><published>2010-06-02T22:06:00.008+02:00</published><updated>2010-06-02T22:17:09.855+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Traitement des très grands fichiers avec R</title><content type='html'>Le traitement des grands fichiers est un problème récurrent du data mining. Dans ce didacticiel, nous étudierons une solution mise en place dans R sous la forme d'une libraire. Le package " filehash " permet de copier (de " dumper " carrément) tous types d'objets sur le disque, les données mais aussi les modèles. Il utilise un format de type base de données. Il présente un avantage énorme, il est possible d'utiliser les fonctions statistiques standards ou issus d'autres packages sans avoir à procéder à une quelconque adaptation. Au lieu de manipuler des data.frame en mémoire, elles travaillent sur des data.frame stockés sur le disque, de manière totalement transparente. C'est assez épatant, il faut l'avouer. Les capacités de traitement sont largement améliorées et, dans le même temps, la dégradation du temps de calcul n'est pas rédhibitoire.&lt;br /&gt;&lt;br /&gt;Néanmoins, nous constaterons que les fonctions R n'étant pas spécifiquement conçus pour l'appréhension des grands ensembles de données, lorsque nous augmentons encore nos exigences, les calculs ne sont plus possibles alors que les ressources ne sont pas entièrement utilisées. C'est un peu la limite des approches génériques. La modification des algorithmes d'apprentissage est souvent nécessaire pour exploiter au mieux les particularités du contexte. Il faudrait même aller plus loin. Pour obtenir des résultats réellement probants, il faudrait à la fois adapter les algorithmes d'apprentissage et organiser en conséquence les données sur le disque. Une solution qui conviendrait à tout type d'analyse paraît difficile, voire illusoire.&lt;br /&gt;&lt;br /&gt;Pour évaluer la solution apportée par le package " filehash ", nous étudierons le temps de calcul et l'occupation mémoire, avec ou sans swap sur le disque, lors du calcul de statistiques descriptives, de l'induction d'un arbre de décision avec rpart du package du même nom, et de la modélisation à l'aide de l'analyse discriminante avec la fonction lda de la librairie MASS.&lt;br /&gt;&lt;br /&gt;Nous réaliserons les mêmes opérations dans SIPINA. En effet, ce dernier propose également une solution de swap pour l'appréhension des très grandes bases de données. Nous pourrons ainsi comparer les performances des stratégies implémentées.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : gros volumes, très grands fichiers, grandes  bases de données, arbre de décision, analyse discriminante, sipina, C4.5, rpart, lda&lt;br /&gt;&lt;strong&gt;&lt;/strong&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Dealing_Very_Large_Dataset_With_R.pdf" target="_blank"&gt;fr_Tanagra_Dealing_Very_Large_Dataset_With_R.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt;  : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/wave2M.txt.zip" target="_blank"&gt;wave2M.txt.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt;  :&lt;br /&gt;R package, "&lt;a href="http://cran.r-project.org/web/packages/filehash/index.html" target="_blank"&gt;Filehash : Simple key-value database&lt;/a&gt;"&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/09/traitement-de-gros-volumes-comparaison.html"&gt;Traitement  de gros volumes – Comparaison de logiciels&lt;/a&gt; »&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/10/sipina-traitement-des-tres-grands.html"&gt;Sipina - Traitement des très grands fichiers&lt;/a&gt; »&lt;br /&gt;Yu-Sung Su's Blog, "&lt;a href="http://yusung.blogspot.com/2007/09/dealing-with-large-data-set-in-r.html" target="_blank"&gt;Dealing with large dataset in R&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1040026436184776081?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1040026436184776081'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1040026436184776081'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/06/traitement-des-tres-grands-fichiers.html' title='Traitement des très grands fichiers avec R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8371380758009321634</id><published>2010-05-18T10:27:00.006+02:00</published><updated>2010-05-18T10:32:48.054+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra dans La revue Modulad (2005)</title><content type='html'>Toujours au chapitre nostalgie, le grand nettoyage de printemps se prête beaucoup à l'exhumation de documents anciens, j'ai retrouvé la version longue de l'&lt;a href="http://tutoriels-data-mining.blogspot.com/2010/05/tanagra-presentation-egc2005.html"&gt;article EGC&lt;/a&gt; publiée dans la revue Modulad (n°32 – 2005).&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www-rocq.inria.fr/axis/modulad/index.htm" target="_blank"&gt;La revue MODULAD&lt;/a&gt; cumule les avantages. Elle est présente depuis longtemps déjà, la pérennité est souvent un gage de qualité. Elle est en langue française. Elles ne sont pas nombreuses dans notre domaine. Et (surtout serais-je tenté de dire), elle est accessible librement en ligne. Nous pouvons donc accéder à des articles très intéressants, récents ou plus anciens puisque les archives sont disponibles. Le numéro 1 date de 1988. Les vieux documents ont été scannés.&lt;br /&gt;&lt;br /&gt;Autre aspect très plaisant, avec la page &lt;a href="http://www-rocq.inria.fr/axis/modulad/excel.htm" target="_blank"&gt;Excel'ense&lt;/a&gt;, nous disposons de nombreux tutoriels décrivant l'exploitation statistique des données sous un tableur. Les exemples montrent, si besoin était, que le tableur tient très bien sa place parmi les logiciels de statistique. Nous pouvons réaliser de nombreux traitements rien qu'en utilisant les fonctions courantes.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Article&lt;/span&gt; : &lt;a href="http://www-rocq.inria.fr/axis/modulad/archivesdetail.htm#32" target="_blank"&gt;Tanagra – Revue Modulad&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Référence&lt;/span&gt; : Rakotomalala R., "TANAGRA, une plate-forme d’expérimentation pour la fouille de données", Revue MODULAD, n°32, pp. 70-85, 2005.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8371380758009321634?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8371380758009321634'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8371380758009321634'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/05/tanagra-dans-la-revue-modulad-2005.html' title='Tanagra dans La revue Modulad (2005)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2671668145765072463</id><published>2010-05-17T23:59:00.009+02:00</published><updated>2010-05-18T06:27:12.888+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Présentation à EGC'2005</title><content type='html'>Au chapitre nostalgie, j'ai retrouvé le document décrivant Tanagra publié dans les actes de EGC'2005 (Paris). Il est précieux car il représente l'unique présentation du logiciel dans le cadre d'une conférence. C'est l'article que je conseille de citer lorsqu'un utilisateur souhaite faire référence à Tanagra. Il n'existe pas d'équivalent en anglais. Il faudra sûrement l'écrire un jour.&lt;br /&gt;&lt;br /&gt;Puisque l'occasion se présente, essayons un peu de situer Tanagra dans le temps. J'ai commencé à réfléchir sérieusement à un logiciel de Data Mining en janvier 2003. J'ai réalisé trois prototypes en java, c++ et delphi. Je n'étais pas très objectif néanmoins. Mon principal souci était de déterminer si l'élaboration du logiciel en delphi était pénalisant ou pas. Il est apparu au regard du cahier des charges, réaliser un logiciel à l'interface simplifiée en donnant la part belle aux calculs, que l'écrire en delphi était la solution la plus simple. Il faut dire que je programme en pascal depuis la fin des années 80.&lt;br /&gt;&lt;br /&gt;Les idées étant singulièrement clarifiées, je me suis attelé à la programmation de Tanagra au tout début de juillet 2003. Deux mois de travail (plaisir) ininterrompu. Après, il a fallu déboguer, valider, comparer, documenter, monter le site web. En janvier 2004, le logiciel était en ligne. En janvier 2005, je le présentais à EGC suite à l'invitation du chairman de la session consacrée aux logiciels.&lt;br /&gt;&lt;br /&gt;Il a fallu près d'un an encore pour que les tutoriels prennent vraiment de l'ampleur. Avec le recul, je me rends compte que c'est la documentation qui distingue Tanagra des autres outils libres qui, par ailleurs, possèdent d'autres atouts. A l'heure actuelle, je ne fais plus de présentation de Tanagra sans consacrer un temps important aux autres logiciels gratuits tels que &lt;span style="color: rgb(51, 51, 255);"&gt;R&lt;/span&gt;, &lt;span style="color: rgb(51, 51, 255);"&gt;Knime&lt;/span&gt;, &lt;span style="color: rgb(51, 51, 255);"&gt;Orange&lt;/span&gt;, &lt;span style="color: rgb(51, 51, 255);"&gt;RapidMiner&lt;/span&gt; et &lt;span style="color: rgb(51, 51, 255);"&gt;Weka&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Article&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/le_logiciel_tanagra_egc_2005.pdf" target="_blank"&gt;Tanagra - Egc'2005&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Référence&lt;/span&gt; : R. Rakotomalala, "TANAGRA : un logiciel gratuit pour l'enseignement et la recherche", in 5èmes Journées d'Extraction et Gestion des Connaissances, EGC-2005, pp. 697-702, Paris, 2005.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2671668145765072463?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2671668145765072463'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2671668145765072463'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/05/tanagra-presentation-egc2005.html' title='Tanagra - Présentation à EGC&apos;2005'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6727828680654399803</id><published>2010-05-15T22:14:00.015+02:00</published><updated>2010-05-16T21:28:42.130+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Sipina - Présentation de l'ancienne version 2.5</title><content type='html'>En travaillant sur la traduction du tutoriel décrivant &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/09/la-mthode-sipina.html"&gt;l'implémentation des graphes d'induction à l'aide de la version 2.5 de SIPINA&lt;/a&gt;, je suis tombé sur un ancien document de présentation de la dite version. Le texte est assez ancien. Il est directement extrait de mon mémoire de doctorat (chapitre 11, pages 269 à 292). Il a été repris tel quel dans l'ouvrage paru en 2000 (chapitre 16, pages 391 à 414). J'imagine qu'il a été préparé en vue d'une publication dans une revue quelconque. Mais, à ma connaissance, il n'a finalement jamais été valorisé sous la forme d'un article. Ce n'est pas plus mal, nous avons l'occasion de le mettre en avant sur ce blog.&lt;br /&gt;&lt;br /&gt;Je regarde toujours avec beaucoup de nostalgie cette version 2.5 de SIPINA. Le projet a été initié par des étudiants du &lt;a href="http://dis.univ-lyon2.fr/?page_id=195" target="_blank"&gt;Master SISE&lt;/a&gt; (dont je faisais partie). J'ai entièrement repris le projet de l'automne 1995 jusqu'à l'été 1997, en essayant de le perfectionner au possible, en rajoutant des modules de calculs (les algorithmes d'induction d'arbres de décision tels que C4.5, CHAID; les techniques de ré-échantillonnage pour l'évaluation des résultats, bootstrap, validation croisée, etc.). Néanmoins, je n'ai jamais pu aller très loin dans le développement du logiciel. Principalement à cause d'un cahier de charges initial trop timoré qui a lourdement pesé sur sa conception; et l'utilisation de bibliothèques payantes 16 bits qui ont compromis tout passage au 32 bits.&lt;br /&gt;&lt;br /&gt;La &lt;a href="http://sipina.over-blog.fr/" target="_blank"&gt;version recherche&lt;/a&gt; (ou version 3.0 et suivantes) a été conçue pour dépasser les limitations structurelles de la version 2.5. Il n'en reste pas moins que cette dernière est encore utilisée de nos jours. En effet, c'est le seul logiciel qui implémente la méthode SIPINA telle qu'elle est décrite dans littérature. Mieux même, il s'agit vraisemblablement du seul outil gratuit au monde qui propose une implémentation facilement exploitable des graphes de décision. C'est la raison pour laquelle je la mets  encore en ligne sur le site web à ce jour.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés&lt;/span&gt; : graphes d'induction, graphes de décision&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Texte&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/softs/Sipina_windows_v25.pdf" target="_blank"&gt;Sipina_windows_v25.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;R. Rakotomalala, Graphes d’induction, Thèse de Doctorat, Université Lyon 1, 1997 (URL : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/publications.html" target="_blank"&gt;http://eric.univ-lyon2.fr/~ricco/publications.html&lt;/a&gt;).&lt;br /&gt;D. Zighed, R. Rakotomalala, Graphes d’induction : Apprentissage et Data Mining, Hermès, 2000.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6727828680654399803?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6727828680654399803'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6727828680654399803'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/05/sipina-version-25-presentation.html' title='Sipina - Présentation de l&apos;ancienne version 2.5'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-283982405783775823</id><published>2010-05-05T05:11:00.006+02:00</published><updated>2010-05-05T05:18:11.078+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><title type='text'>Traitement des classes déséquilibrées</title><content type='html'>Bien souvent, les modalités de la variable à prédire ne sont pas également représentées en apprentissage supervisé. Si l'on s'en tient aux problèmes à deux classes, les positifs, ceux que l'on cherche à identifier justement, sont rares par rapport aux négatifs : les personnes malades sont (heureusement) peu nombreux par rapport aux personnes en bonne santé ; les fraudeurs constituent une infime minorité dans la population ; etc. Dans cette configuration, en travaillant avec un échantillon représentatif et en évaluant le modèle de prédiction avec la procédure usuelle (matrice de confusion + taux d'erreur), on se rend compte que le meilleur classifieur revient à prédire systématiquement la classe majoritaire (les négatifs), ce qui nous assure le plus faible taux d'erreur.&lt;br /&gt;&lt;br /&gt;La stratégie la plus couramment admise pour surmonter cet écueil consiste à équilibrer artificiellement les données c.-à-d. mettre autant de positifs que de négatifs dans l'échantillon d'apprentissage. Sans que l'on ne sache pas très bien pourquoi, sans mettre en relation cette modification avec les caractéristiques de la technique d'apprentissage, sans en mesurer les conséquences sur le comportement du classifieur induit. Tout simplement parce que " c'est mieux ". La recette miracle en quelque sorte. En tous les cas, les ressources étant limitées, cela ne peut se faire que de deux manières : dupliquer les positifs (sur échantillonnage) ou bien n'utiliser qu'une fraction des négatifs (sous échantillonnage).&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous souhaitons évaluer le comportement du sous échantillonnage lors du traitement d'une base très déséquilibrée à l'aide de la régression logistique.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : régression logistique, classes déséquilibrées, sur et sous échantillonnage&lt;br /&gt;&lt;strong&gt;&lt;/strong&gt;&lt;strong&gt;Lien&lt;/strong&gt;  : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Imbalanced_Dataset.pdf" target="_blank"&gt;fr_Tanagra_Imbalanced_Dataset.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt;  : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/imbalanced_dataset.xls" target="_blank"&gt;imbalanced_dataset.xls&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt;    :&lt;br /&gt;Wikipedia, "&lt;a href="http://fr.wikipedia.org/wiki/R%C3%A9gression_logistique" target="_blank"&gt;Régression logistique&lt;/a&gt;".&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2009/09/pratique-de-la-regression-logistique.html" target="_blank"&gt;Pratique  de la régression logistique - Régression logistique binaire et  polytomique&lt;/a&gt;".&lt;br /&gt;D. Hosmer, S. Lemeshow, « Applied Logistic  Regression », John Wiley &amp;amp;Sons, Inc, Second Edition, 2000.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-283982405783775823?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/283982405783775823'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/283982405783775823'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/05/traitement-des-classes-desequilibrees.html' title='Traitement des classes déséquilibrées'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2195135211468350769</id><published>2010-05-01T07:04:00.011+02:00</published><updated>2010-05-01T07:55:43.571+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Séminaire au LIESP</title><content type='html'>Le vendredi 30 avril a été l'occasion d'un très agréable séminaire au LIESP (&lt;a href="http://liesp.insa-lyon.fr/v2/?q=fr/acc" target="_blank"&gt;http://liesp.insa-lyon.fr/v2/?q=fr/acc&lt;/a&gt;). Le contenu est plus ou moins identique à la présentation réalisée le mois précédent à Rennes. A la différence que j'avais en face de moi des chercheurs qui travaillent dans le domaine du Data Mining.&lt;br /&gt;&lt;br /&gt;Les discussions se sont donc plutôt orientées vers l'utilisation des différents logiciels libres/gratuits en recherche. J'ai appris entres autres que, s'agissant du Data Mining, Matlab a un positionnement très proche de celui de R, avec notamment le système des plugins. J'essaierai de voir cela dans un avenir proche.&lt;br /&gt;&lt;br /&gt;Dans la partie bilan : &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;pour les 4 premiers mois de l'année 2010&lt;/span&gt; (1er janvier au 30 avril), mes sites ont enregistré 83.219 visites, soit &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;693 visites par jour&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Titre &lt;/span&gt;: Tanagra, un logiciel gratuit pour l'enseignement et la recherche&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Résumé &lt;/span&gt;: Tanagra est un logiciel de data mining gratuit, open source, à destination des étudiants, des enseignants et des chercheurs. Il intègre à l'heure actuelle (version 1.4.36 - Mars 2010) près de 170 techniques d'exploration des données. Elles couvrent la statistique, l'analyse de données, l'économétrie, la reconnaissance de formes. Au-delà du logiciel, le site web Tanagra est aussi le carrefour d'une documentation très importante, sous la forme d'ouvrages gratuits (free e-books) et de tutoriels en français et en anglais. La convergence de ces éléments a beaucoup contribué à la large diffusion de notre travail. En termes quantitatifs, notre site, regroupant les supports de cours, les tutoriels et le logiciel, a connu 520 visites par jour sur l'année 2009, à comparer avec les 349 visites journalières de 2008.&lt;br /&gt;&lt;br /&gt;Dans notre exposé, nous décrivons les motivations et les contraintes qui nous ont conduit à définir un cahier de charges suffisamment précis pour l'élaboration du logiciel. Nous essayons surtout de délimiter son champ d'application et les utilisateurs visés. Les choix conditionnent la viabilité du projet dans la durée. En effet, il y a la création de la première version, toujours exaltante, puis il faut anticiper sur son évolution dans le temps. Notre propre expérience montre que les solutions organisationnelles et techniques sont très importantes dans cette perspective.&lt;br /&gt;&lt;br /&gt;Mais Tanagra n'est pas le seul logiciel de data mining libre, loin de là. Dans une deuxième partie, nous présenterons les autres outils, très diffusés dans communauté: R, Weka, Knime, Orange, RapidMiner. Ce sont autant d'alternatives très intéressantes pour le traitement des données. Un des facteurs de succès de notre site d'ailleurs est d'avoir réalisé un effort considérable de documentation pour ces logiciels. Nous les présentons rapidement en essayant de pointer leurs spécificités respectives.&lt;br /&gt;&lt;br /&gt;Enfin, dans une troisième et dernière partie, pour donner un tour concret à notre exposé, nous réaliserons quelques traitements types (apprentissage supervisé, induction de règles d'association) à l'aide de ces différents logiciels. En réalisant les mêmes traitements sur les mêmes données, nous sommes à même de situer ce qui rapproche ou ce qui différencie ces outils. Nous constaterons d'ailleurs que, finalement, ils sont relativement similaires. Les différences se situent essentiellement sur le mode de présentation et la terminologie utilisée selon l'origine communautaire du logiciel (statistique, informatique, reconnaissance de formes).&lt;br /&gt;&lt;br /&gt;Mots-clés : data mining, logiciel gratuit, logiciel libre, tanagra, r, weka, knime, orange, rapidminer&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Diaporama&lt;/span&gt; : voir &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/tanagra_seminaire_30042010.html" target="_blank"&gt;diapos&lt;/a&gt; en version animée.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2195135211468350769?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2195135211468350769'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2195135211468350769'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/05/seminaire-au-liesp.html' title='Séminaire au LIESP'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1875280330850382083</id><published>2010-03-26T22:39:00.010+01:00</published><updated>2010-03-26T22:52:12.216+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Tanagra et autres logiciels gratuits</title><content type='html'>Un très sympathique et chaleureux séminaire au sein du Laboratoire de Mathématiques Appliquées de l'AgroCampus Ouest de Rennes (&lt;a href="http://www.agrocampus-ouest.fr/math/" target="_blank"&gt;http://www.agrocampus-ouest.fr/math/&lt;/a&gt;) a été l'occasion de faire un bilan sur l'évolution de Tanagra ces dernières années. En termes quantitatifs, notre site, regroupant les supports de cours, les tutoriels et le logiciel, a connu &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;520 visites par jour sur l'année 2009&lt;/span&gt;, à comparer avec les 349 visites journalières de 2008. Les visiteurs sont pour moitié francophones, les accès se concentrent avant tout sur les pages consacrées à la documentation.&lt;br /&gt;&lt;br /&gt;Mais, au-delà de la simple présentation de Tanagra, j'ai surtout tenté de positionner les principaux logiciels libres largement reconnus dans notre communauté : Orange, Knime, Rapid-Miner, Weka ; mais aussi le logiciel R, plutôt d'obédience statistique, mais qui fait une percée spectaculaire auprès des " Data Miner ". Des démonstrations sur des données réalistes ont permis de montrer le mode opératoire des différents outils.&lt;br /&gt;&lt;br /&gt;Au final, on se rend compte qu'ils répondent peu ou prou à des cahiers des charges relativement similaires. Il est illusoire de penser que tel ou tel logiciel serait systématiquement meilleur que les autres quel que soit le domaine abordé. Le plus important pour l'utilisateur est de bien cerner les spécificités de son étude (objectifs, caractéristiques des données, etc.) pour choisir en pleine conscience l'outil le mieux adapté. C'est une des raisons pour lesquelles j'essaie, et j'essaierai toujours, de comparer objectivement les logiciels lorsque que je montre la mise en œuvre des techniques exploratoires dans mes tutoriels. Après, le choix des armes appartient à l'utilisateur lorsqu'il aura à affronter ses propres données. Et c'est très bien ainsi...&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Résumé du séminaire&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/resume_du_seminaire_mars_2010.pdf" target="_blank"&gt;Résumé&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Slides du séminaire&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/tanagra_logiciels_libres_seminaire_mars_2010.pdf" target="_blank"&gt;Présentation&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1875280330850382083?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1875280330850382083'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1875280330850382083'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/03/tanagra-et-autres-logiciels-gratuits.html' title='Tanagra et autres logiciels gratuits'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8055745706887032744</id><published>2010-03-23T17:44:00.007+01:00</published><updated>2010-03-23T17:55:30.958+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Le classifieur Bayesien Naïf revisité</title><content type='html'>Le classifieur bayesien naïf est une méthode d'apprentissage supervisé qui repose sur une hypothèse simplificatrice forte : les descripteurs (Xj) sont deux à deux indépendants conditionnellement aux valeurs de la variable à prédire (Y) . Pourtant, malgré cela, il se révèle robuste et efficace. Ses performances sont comparables aux autres techniques d'apprentissage. Diverses raisons sont avancées dans la littérature. Dans ce document, nous mettrons en avant une explication basée sur le biais de représentation. Le modèle d'indépendance conditionnel est ni plus ni moins qu'un classifieur linéaire, au même titre que l'analyse discriminante linéaire ou la régression logistique. Seul diffère le mode d'estimation des coefficients de la fonction de classement.&lt;br /&gt;&lt;br /&gt;Dans la première partie de ce tutoriel, nous présentons tout d'abord brièvement les aspects théoriques relatifs à la méthode. Puis, nous l'implémentons à l'aide du logiciel &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Tanagra 1.4.36&lt;/span&gt;. Nous comparerons les résultats obtenus (les coefficients de l'hyperplan séparateur) avec ceux de la régression logistique, de l'analyse discriminante et d'un SVM (support vector machine) linéaire. Nous constaterons qu'ils sont étonnamment cohérents, expliquant ainsi la bonne tenue du classifieur bayesien naïf dans la grande majorité des situations.&lt;br /&gt;&lt;br /&gt;Dans la seconde partie, nous montrons la mise en œuvre de la technique dans les plusieurs logiciels libres tels que &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Weka 3.6.0&lt;/span&gt;, &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;R 2.9.2&lt;/span&gt;, &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Knime 2.1.1&lt;/span&gt;, &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Orange 2.0b&lt;/span&gt; et &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;RapidMiner 4.6.0&lt;/span&gt;. Nous nous attacherons avant tout à lire correctement les résultats. Un des aspects qui dessert souvent la méthode auprès des praticiens du Data Mining.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : classifieur bayesien naïf, séparateur linéaire, analyse discriminante, régression logistique, support vector machine&lt;br /&gt;&lt;strong&gt;&lt;/strong&gt;&lt;strong&gt;Lien&lt;/strong&gt;  : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf" target="_blank"&gt;fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/heart_for_naive_bayes.zip" target="_blank"&gt;heart_for_naive_bayes.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt;   :&lt;br /&gt;Wikipedia, "&lt;a href="http://en.wikipedia.org/wiki/Naive_Bayes_classifier" target="_blank"&gt;Naive bayes  classifier&lt;/a&gt;".&lt;br /&gt;T. Mitchell, "&lt;a href="http://www.cs.cmu.edu/%7Etom/mlbook/NBayesLogReg.pdf" target="_blank"&gt;Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression&lt;/a&gt;", in Machine Learning, Chapter 1, 2005.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8055745706887032744?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8055745706887032744'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8055745706887032744'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/03/le-classifieur-bayesien-naif-revisite.html' title='Le classifieur Bayesien Naïf revisité'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5181771837268855329</id><published>2010-03-23T17:37:00.001+01:00</published><updated>2010-03-23T17:42:03.105+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.36</title><content type='html'>&lt;span style="font-weight: bold; color: rgb(0, 153, 0);"&gt;ReliefF&lt;/span&gt; est un composant de sélection automatique de variables pour l'apprentissage supervisé. Il sait traiter les descripteurs continus ou discrets. On peut le placer devant n'importe quelle méthode supervisée.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Naive Bayes&lt;/span&gt; a été modifié. Il affiche maintenant un modèle de prédiction sous une forme explicite, facile à déployer. Un tutoriel accompagne cette mise à jour.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5181771837268855329?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5181771837268855329'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5181771837268855329'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/03/tanagra-version-1436.html' title='Tanagra - Version 1.4.36'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8866661242442302399</id><published>2010-02-03T16:51:00.009+01:00</published><updated>2010-02-03T17:00:23.481+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Construction de variables'/><title type='text'>Discrétisation - Comparaison de logiciels</title><content type='html'>La discrétisation consiste à découper une variable quantitative en intervalles. Il s'agit d'une opération de recodage. De quantitative, la variable est transformée en qualitative ordinale. Nous devons répondre à deux questions pour mener à bien l'opération : (1) comment déterminer le nombre d'intervalles à produire ; (2) comment calculer les bornes de discrétisation à partir des données. La résolution ne se fait pas forcément dans cet ordre.&lt;br /&gt;&lt;br /&gt;J'ai coutume de dire que le découpage d'expert est le meilleur possible. En effet, lui seul peut fournir une discrétisation raisonnée tenant compte des connaissances du domaine, tenant compte de tout un tas de contraintes dont on n'a pas idée si on se base uniquement sur les données, et en adéquation avec les objectifs de l'étude. Malheureusement, la démarche s'avère délicate parce que : d'une part, les connaissances ne sont pas toujours au rendez vous ou sont difficilement quantifiables ; d'autre part, elle n'est pas automatisable, le traitement d'une base comportant des centaines de variables se révèle rapidement ingérable. Souvent donc, nous sommes obligés de nous baser uniquement sur les données pour produire un découpage qui soit un tant soit peu pertinent.&lt;br /&gt;&lt;br /&gt;Discrétisation comme prétraitement des variables en apprentissage supervisé. Tout d'abord, il faut situer le canevas dans lequel nous réalisons l'opération. Selon le cas, il est évident que la démarche et les critères utilisés ne seront pas les mêmes. Dans ce didacticiel, nous nous plaçons dans le cadre de l'apprentissage supervisé. Les variables quantitatives sont préalablement recodées avant d'être présentées à un algorithme d'apprentissage supervisé. La variable à prédire, elle, est naturellement qualitative. Lors de la discrétisation, il est par conséquent souhaitable que les groupes soient le plus purs possibles c.-à-d. les individus situés dans le même intervalle doivent appartenir majoritairement à l'une des modalités de la variable à prédire.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous comparerons le comportement des techniques supervisées et non supervisées implémentées dans les logiciels &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Tanagra 1.4.35&lt;/span&gt;, &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Sipina 3.3&lt;/span&gt;, &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;R 2.9.2&lt;/span&gt; (package dprep), &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Weka 3.6.0&lt;/span&gt;, &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Knime 2.1.1&lt;/span&gt;, &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Orange 2.0b&lt;/span&gt; et &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;RapidMiner 4.6.0&lt;/span&gt;. Comme nous pouvons le constater, tout logiciel de Data Mining se doit de proposer ce type d'outils. Nous mettrons en avant le paramétrage et la lecture des résultats.&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mots clés :&lt;/b&gt; mdlpc, discrétisation supervisée, discrétisation non supervisée, intervalles de largeurs égales, intervalles de fréquences égales&lt;br /&gt;&lt;b&gt;Composants  :&lt;/b&gt; MDLPC, Supervised Learning, Decision List&lt;br /&gt;&lt;b&gt;Lien  :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Discretization_for_Supervised_Learning.pdf" target="_blank"&gt;fr_Tanagra_Discretization_for_Supervised_Learning.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Données :&lt;/b&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/data-discretization.arff" target="_blank"&gt;data-discretization.arff&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Références : &lt;o:p&gt;&lt;/o:p&gt;&lt;/b&gt;&lt;br /&gt;F. Muhlenbach, R. Rakotomalala, « Discretization of Continuous Attributes », in Encyclopedia of Data Warehousing and Mining, John Wang (Ed.), pp. 397-402, 2005 (&lt;a href="http://hal.archives-ouvertes.fr/hal-00383757/fr/" target="_blank"&gt;http://hal.archives-ouvertes.fr/hal-00383757/fr/&lt;/a&gt;).&lt;br /&gt;R. Rakotomalala, « &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/doc/Graphes_Induction_These_Rakotomalala_1997.pdf" target="_blank"&gt;Graphes d’Induction &lt;/a&gt;», Thèse de Doctorat Lyon 1,  1997 ; chapitre 9, pp.209-244.&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/discrtisation-contextuelle-la-mthode.html"&gt;Discrétisation contextuelle - La méthode MDLPC&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8866661242442302399?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8866661242442302399'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8866661242442302399'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/02/discretisation-comparaison-de-logiciels.html' title='Discrétisation - Comparaison de logiciels'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2328986384657364965</id><published>2010-01-31T17:14:00.009+01:00</published><updated>2010-01-31T19:21:10.910+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Sélection de variables'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>"Wrapper" pour la sélection de variables (suite)</title><content type='html'>Ce didacticiel fait suite à celui consacré à la&lt;a href="http://tutoriels-data-mining.blogspot.com/2009/05/strategie-wrapper-pour-la-selection-de.html"&gt; stratégie wrapper pour la sélection de variables en apprentissage supervisé&lt;/a&gt;. Nous y analysions le comportement de Sipina, puis nous avions programmé une procédure ad hoc dans R. Dans ce didacticiel, nous étudions la mise en oeuvre de la méthode dans les logiciels &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Knime 2.1.1&lt;/span&gt;, &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;Weka 3.6.0&lt;/span&gt; et &lt;span style="color: rgb(0, 153, 0); font-weight: bold;"&gt;RapidMiner 4.6&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;La démarche est la suivante : (1) utilisation du fichier d'apprentissage pour la sélection des variables les plus performantes pour le classement ; (2) création du modèle sur les descripteurs sélectionnés ; (3) évaluation des performances sur un fichier test contenant toutes les variables candidates.&lt;br /&gt;&lt;br /&gt;Ce troisième point est très important. Nous ne pouvons pas connaître initialement les variables prédictives qui seront finalement retenues. Il ne faut pas que nous ayons à préparer manuellement le fichier test en y intégrant uniquement celles qui  auront été choisies par la procédure wrapper. C'est une condition essentielle pour que la démarche soit automatisable. En effet, dans le cas contraire, chaque modification de paramétrage dans la procédure wrapper aboutissant à autre sous-ensemble de descripteurs nous obligerait à modifier manuellement le fichier test. Ce qui s'avère très rapidement fastidieux.&lt;br /&gt;&lt;br /&gt;A la lumière de ce cahier des charges, il est apparu que seul Knime a permis de mettre en place le dispositif complet. Avec les autres logiciels, il est certes possible de sélectionner les variables pertinentes sur le fichier d'apprentissage. Je n'ai pas pu en revanche (ou je n'ai pas su) réaliser simplement le déploiement sur un fichier test comprenant la totalité des variables candidates.&lt;br /&gt;&lt;br /&gt;La méthode d'apprentissage supervisé utilisée est le modèle d'indépendance conditionnel, le modèle bayesien naïf selon la terminologie utilisée en apprentissage automatique .&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : sélection de variables, apprentissage  supervisé, classifieur bayesien naïf, wrapper&lt;br /&gt;&lt;strong&gt;&lt;/strong&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Wrapper_Continued.pdf" target="_blank"&gt;fr_Tanagra_Wrapper_Continued.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt;  : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/mushroom.wrapper.arff.zip" target="_blank"&gt;mushroom.wrapper.arff.zip&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Références&lt;/strong&gt;  :&lt;br /&gt;&lt;a href="http://jmlr.csail.mit.edu/papers/special/feature03.html" target="_blank"&gt;JMLR Special Issue on Variable and Feature Selection -  2003&lt;/a&gt;&lt;br /&gt;R Kohavi, G. John, « &lt;a href="http://citeseer.ist.psu.edu/cache/papers/cs/1999/http:zSzzSzrobotics.stanford.eduzSz~ronnykzSzwrappers-chapter.pdf/kohavi98wrapper.pdf/" target="_blank"&gt;The wrapper approach&lt;/a&gt; », 1997.&lt;br /&gt;Wikipedia, "&lt;a href="http://en.wikipedia.org/wiki/Naive_Bayes_classifier"&gt;Naive bayes classifier&lt;/a&gt;".&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2328986384657364965?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2328986384657364965'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2328986384657364965'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/01/wrapper-pour-la-selection-de-variables.html' title='&quot;Wrapper&quot; pour la sélection de variables (suite)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-331178814753287043</id><published>2010-01-21T09:48:00.005+01:00</published><updated>2010-01-21T09:54:05.456+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Induction de règles floues avec Knime</title><content type='html'>Ce didacticiel fait suite à celui consacré à l'&lt;a href="http://tutoriels-data-mining.blogspot.com/2009/11/induction-de-regles-predictives.html"&gt;induction des règles prédictives&lt;/a&gt;. Je n'avais pas intégré Knime dans le comparatif car il proposait une technique que je ne connaissais pas bien, l'induction de règles floues, et demandait une préparation particulière de variables qui me paraissait bien étrange. Il fallait notamment que l'attribut cible soit numérique, ce qui paraît assez incongru dans le cadre de l'apprentissage supervisé. Comme il me fallait avancer, j'ai préféré reporter l'étude du logiciel Knime à plus tard (c.-à-d. maintenant) en lui dédiant spécifiquement un didacticiel.&lt;br /&gt;&lt;br /&gt;Parmi les logiciels libres (ou accessibles gratuitement) fonctionnant sous forme de diagramme de traitements, Knime est certainement l'un des plus prometteurs, un des rares à pouvoir tailler des croupières aux équivalents commerciaux. Il y a dans ce logiciel une rigueur de conception et un souci du détail qui ne laisse pas indifférent : il est par exemple possible, devant la multitude d'outils disponibles, de créer une section des méthodes favorites ; une autre palette permet également de retrouver les composants les plus fréquemment utilisés ; la documentation est accessible de manière permanente dans la partie droite de la fenêtre principale ; etc. C'est aussi un des seuls logiciels libres à faire des efforts particuliers pour ce qui est de l'accès aux bases de données et la préparation des variables. J'avoue que je prends un réel plaisir à l'utiliser et à l'étudier de manière approfondie.&lt;br /&gt;&lt;br /&gt;Concernant l'induction de règles prédictives, &lt;span style="font-weight: bold; color: rgb(51, 102, 255);"&gt;Knime (version 2.1.1)&lt;/span&gt; implémente l'induction des règles floues. Les articles présentant la méthode sont accessibles en ligne , . Les lecteurs intéressés par les fondements théoriques de la méthode pourront s'y reporter. Pour ma part, dans ce didacticiel, je m'attacherais avant tout à décrire la mise en œuvre de la méthode en détaillant le pourquoi et comment de la préparation des variables préalable à l'induction, et le mode de lecture du modèle prédictif. Pour avoir un point de repère, nous comparerons les résultats avec ceux fournis par la méthode d'induction de règles proposée par &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Tanagra&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots clés&lt;/span&gt; : induction de règles prédictives, logique floue&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Composants&lt;/span&gt; : SAMPLING, RULE INDUCTION, TEST&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Lien&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Induction_Regles_Floues_Knime.pdf" target="_blank"&gt;fr_Tanagra_Induction_Regles_Floues_Knime.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/iris2D.txt" target="_blank"&gt;iris2D.txt&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;M.R. Berthold, « Mixed fuzzy rule formation », International Journal of Approximate Reasonning, 32, pp. 67-84, 2003.&lt;br /&gt;T.R. Gabriel, M.R. Berthold, « Influence of fuzzy norms and other heuristics on mixed fuzzy rule formation », International Journal of Approximate Reasoning, 35, pp.195-202, 2004.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-331178814753287043?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/331178814753287043'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/331178814753287043'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/01/induction-de-regles-floues-avec-knime.html' title='Induction de règles floues avec Knime'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8187163999650392277</id><published>2010-01-19T08:16:00.001+01:00</published><updated>2010-01-19T08:17:47.324+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.35</title><content type='html'>&lt;p&gt;&lt;b&gt;CTP&lt;/b&gt;. Modification de la méthode de détection de la bonne taille de l'arbre&lt;br /&gt;dans le composant " Clustering Tree " avec post-élagage (CTP). Elle s'appuie à&lt;br /&gt;la fois sur l'angle entre chaque demi-droite à chaque point de la courbe de&lt;br /&gt;décroissante de l'inertie intra-classe sur l'échantillon d'expansion (growing&lt;br /&gt;set) et la décroissance du même indicateur calculé sur l'échantillon d'élagage&lt;br /&gt;(pruning set). Par rapport à l'implémentation précédente, il en résulte un choix&lt;br /&gt;de partitionnement avec un nombre plus faible de clusters.&lt;/p&gt;&lt;p&gt;&lt;b&gt;Regression Tree&lt;/b&gt;. La modification précédente est répercutée sur le composant&lt;br /&gt;arbre de régression qui en est une version univariée.&lt;/p&gt;&lt;p&gt;&lt;b&gt;C-RT Regression Tree&lt;/b&gt;. Un nouveau composant d'arbre de régression a été&lt;br /&gt;introduit. Il implémente fidèlement la technique décrite dans l'ouvrage de&lt;br /&gt;Breiman et al. (1984), notamment la partie post-élagage avec la règle de l'écart&lt;br /&gt;type (1-SE Rule) (chapitre 8, en particulier p. 226 concernant la formule de la&lt;br /&gt;variance du MSE).&lt;/p&gt;&lt;p&gt;&lt;b&gt;C-RT&lt;/b&gt;. L'affichage de la méthode d'induction d'arbre de décision C-RT a été&lt;br /&gt;complété. En s'appuyant sur la dernière colonne du tableau d'élagage, il devient&lt;br /&gt;plus aisé de choisir le paramètre " x " (dans x-SE Rule) pour définir&lt;br /&gt;arbitrairement la taille de l'arbre élagué.&lt;/p&gt;&lt;p&gt;Des tutoriels viendront décrire ces différentes modifications.&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8187163999650392277?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8187163999650392277'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8187163999650392277'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/01/tanagra-version-1435.html' title='Tanagra - Version 1.4.35'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5575939253219063845</id><published>2010-01-17T18:02:00.009+01:00</published><updated>2010-01-17T18:14:28.829+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Arbres de décision interactifs avec SPAD</title><content type='html'>Dans le domaine du Data Mining, les logiciels libres et commerciaux ne s'adressent pas au même public. Ils ne répondent pas aux mêmes besoins. Les premiers sont plutôt destinés aux étudiants et aux chercheurs. Leur but est de mettre à leur disposition un grand nombre de méthodes, à des fins pédagogiques, ou à des fins d'expérimentation. L'utilisateur doit pouvoir monter simplement des comparaisons à grande échelle, pour comprendre le comportement des méthodes, pour évaluer leurs performances, etc. Le &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;logiciel R&lt;/span&gt; (http://www.r-project.org/) en est certainement le meilleur représentant. Avec le système des packages, il est extensible à l'infini. Le dispositif est maintenant bien accepté, un grand nombre de chercheurs viennent enrichir la bibliothèque de calcul au fil du temps, signe que le mécanisme a été très bien conçu.&lt;br /&gt;&lt;br /&gt;Les outils commerciaux s'adressent plutôt aux praticiens du Data Mining, y compris les chercheurs d'autres domaines. Leur objectif est de pouvoir mener à bien une étude intégrant le cycle complet de la fouille de données, partant de l'accès aux fichiers jusqu'au déploiement et la production de rapports. Dans ce cas, l'outil doit surtout leur faciliter le travail en prenant en charge, le plus simplement possible, un grand nombre de tâches répétitives et fastidieuses, comme l'accès aux données, leur préparation, la production de tableaux et graphiques pour les rapports, l'industrialisation des résultats, etc.&lt;br /&gt;&lt;br /&gt;La frontière n'est pas aussi tranchée. Bien d'outils issus du monde universitaire tentent de franchir le Rubicon en intégrant  des fonctionnalités qui intéresseraient plutôt le monde industriel (ex. déploiement des modèles avec PMML - http://www.dmg.org/). A l'inverse, des logiciels commerciaux s'approprient les formidables bibliothèques de calculs  que proposent les outils libres, notamment ceux de R (ex. SAS / IML Studio, SPSS PASW  ou SPAD).&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous montrons la mise en œuvre des Arbres de Décision Interactifs (&lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;IDT&lt;/span&gt; - Interactive Decision Tree) &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;de SPAD 7.0&lt;/span&gt;&lt;span style="color: rgb(51, 102, 255);"&gt; &lt;/span&gt;sur un jeu de données constitué d'un classeur Excel décomposé en 3 feuilles : (1) on doit construire un arbre de décision à partir des données d'apprentissage ; (2) appliquer le modèle sur les données de la seconde feuille, nous adjoignons ainsi une nouvelle colonne " prédiction " aux données ; (3) vérifier la qualité de la prédiction  en la confrontant à la vraie valeur de la variable cible située dans la troisième feuille du classeur.&lt;br /&gt;&lt;br /&gt;Bien sûr, toutes ces opérations sont réalisables avec la grande majorité des logiciels libres. Un utilisateur un tant soit peu habile vous programme cela en trois coups de cuiller à pots sous R. Nous y reviendrons dans la section 4. L'intérêt ici est de montrer qu'un utilisateur novice, réfractaire à l'informatique, peut les enchaîner très facilement avec ce type d'outil, en prenant comme source de données un classeur Excel.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots clés&lt;/span&gt; : IDT, interactive decision tree, arbres de décision, induction interactive, SPAD, SIPINA, logiciel R&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Lien&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Arbres_IDT_Spad.pdf" target="_blank"&gt;fr_Tanagra_Arbres_IDT_Spad.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données :&lt;/span&gt;&lt;span&gt; &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/pima-arbre-spad.zip" target="_blank"&gt;pima-arbre-spad.zip&lt;/a&gt;&lt;/span&gt;&lt;span style="font-weight: bold;"&gt;&lt;br /&gt;Références&lt;/span&gt; :&lt;br /&gt;Logiciel SPAD, &lt;a href="http://www.spad.eu/" target="_blank"&gt;http://www.spad.eu/&lt;/a&gt;&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://www-roc.inria.fr/axis/modulad/archives/numero-33/tutorial-rakotomalala-33/rakotomalala-33-tutorial.pdf" target="_blank"&gt;Arbres de décision&lt;/a&gt;", Revue Modulad, n°33, 2005.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5575939253219063845?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5575939253219063845'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5575939253219063845'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2010/01/arbres-de-decision-interactifs-avec.html' title='Arbres de décision interactifs avec SPAD'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-403439772876810496</id><published>2009-11-22T05:19:00.006+01:00</published><updated>2009-11-29T18:18:39.136+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Induction de Règles Prédictives</title><content type='html'>L’induction de règles tient une place privilégiée dans le Data Mining. En effet, elle fournit un modèle prédictif facilement interprétable, on sait lire sans connaissances statistiques préalables un modèle de prédiction de type « Si condition Alors Conclusion » (ex. Si Compte Client à découvert Alors Client défaillant pour remboursement des crédits ») ; les règles peuvent être facilement implémentées dans les systèmes d’information (ex. traduction d’une règle en requête SQL).&lt;br /&gt;&lt;br /&gt;Nous nous plaçons dans le cadre de l’apprentissage supervisé dans ce didacticiel. Parmi les méthodes d’induction des règles prédictives, les approches « separate-and-conquer » ont monopolisé les conférences d’apprentissage automatique dans les années 90. Curieusement, le souffle semble un peu retombé aujourd’hui. Plus ennuyeux encore, elles sont peu implémentées, voire inexistantes, dans les logiciels commerciaux. Il faut se tourner vers les logiciels libres issues de l’apprentissage automatique (la communauté « machine learning ») pour les trouver. Pourtant, elles présentent plusieurs atouts par rapport aux autres techniques.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, une fois n’est pas coutume, nous décrivons dans un premier temps les techniques « separate-and-conquer » pour l’induction de règles. Je trouve en effet que ces méthodes sont peu connues des praticiens du Data Mining et, de ce fait, peu utilisées. Pourtant  elles sont souvent performantes. Elles constituent une alternative tout à fait valable aux arbres de décision. Nous mettrons l’accent sur les approches par spécialisation, par opposition aux approches par généralisation, plus lentes et quasi-introuvables dans les logiciels.&lt;br /&gt;&lt;br /&gt;Dans un second temps, nous montrons la mise en œuvre des différentes variantes implémentées dans les logiciels de Data Mining. Nous utiliserons &lt;span style="color: rgb(51, 51, 255); font-weight: bold;"&gt;Tanagra 1.4.34&lt;/span&gt;, &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Sipina Recherche 3.3&lt;/span&gt;, &lt;span style="font-weight: bold; color: rgb(51, 102, 255);"&gt;Weka 3.6.0&lt;/span&gt;, &lt;span style="font-weight: bold; color: rgb(51, 102, 255);"&gt;R 2.9.2&lt;/span&gt; avec le package &lt;span style="color: rgb(51, 102, 255);"&gt;RWeka&lt;/span&gt;, &lt;span style="font-weight: bold; color: rgb(51, 102, 255);"&gt;RapidMiner 4.6&lt;/span&gt;, et &lt;span style="color: rgb(51, 102, 255); font-weight: bold;"&gt;Orange 2.0b&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots clés&lt;/span&gt; : induction de règles, règles prédictives, listes de décision, base de connaissances, CN2, arbres de décision&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Composants&lt;/span&gt; : SAMPLING, DECISION LIST, RULE INDUCTION, TEST&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Lien&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_Rule_Induction.pdf" target="_blank"&gt;fr_Tanagra_Rule_Induction.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/life_insurance.zip" target="_blank"&gt;life_insurance.zip&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Références&lt;/span&gt; :&lt;br /&gt;J. Furnkranz, "Separate-and-conquer Rule Learning", Artificial Intelligence Review, Volume 13, Issue 1, pages 3-54, 1999.&lt;br /&gt;P. Clark, T. Niblett, "The CN2 Rule Induction Algorithm", Machine Learning, 3(4):261-283, 1989.&lt;br /&gt;P. Clark, R. Boswell, "Rule Induction with CN2: Some recent improvements", Machine Learning - EWSL-91, pages 151-163, Springer Verlag, 1991.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-403439772876810496?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/403439772876810496'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/403439772876810496'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/11/induction-de-regles-predictives.html' title='Induction de Règles Prédictives'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5654786334398657601</id><published>2009-11-22T05:03:00.002+01:00</published><updated>2009-11-22T05:06:35.413+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.34</title><content type='html'>&lt;p&gt;Un composant d'induction de règles prédictives (RULE INDUCTION) a été ajouté dans la section " Apprentissage Supervisé ". Son utilisation est décrite dans un didacticiel accessible en ligne.&lt;br /&gt;&lt;/p&gt;&lt;p&gt;Le composant DECISION LIST a été amélioré, nous avons modifié le test réalisé lors de la procédure de pré-élagage. La formule est décrite dans le même didacticiel que ci-dessus.&lt;br /&gt;&lt;/p&gt;&lt;p&gt;Les composants SAMPLING et STRATIFIED SAMPLING (onglet Instance Selection) ont été légèrement modifiés. Il est maintenant possible de contrôler le générateur de nombres pseudo aléatoires en fixant nous même la valeur de départ de la " graine ".&lt;br /&gt;&lt;/p&gt;&lt;p&gt;Suite à une indication de Anne Viallefont, le calcul des degrés de liberté dans les tests sur tableaux de contingence est maintenant plus générique. En effet, le calcul était erroné lorsque la base était préalablement filtrée et que certaines marges (ligne ou colonne) contenaient un effectif égal à zéro. Merci Anne pour ces indications. De manière plus générale, merci à tous ceux qui m'envoient des commentaires. Programmer a toujours été pour moi une sorte de loisir. Le vrai boulot commence lorsqu'il faut contrôler les résultats, les confronter avec les références disponibles, les croiser avec les autres logiciels de Data Mining, libres ou non, comprendre les éventuelles différences, etc. A ce stade, votre aide m'est très précieuse.&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5654786334398657601?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5654786334398657601'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5654786334398657601'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/11/tanagra-version-1434.html' title='Tanagra - Version 1.4.34'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7061147516139790117</id><published>2009-10-21T10:27:00.005+02:00</published><updated>2009-10-21T10:33:22.377+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Sipina – Traitement des très grands fichiers</title><content type='html'>Triturer les très grands fichiers est le fantasme ultime du data miner. On veut pouvoir traiter de très grandes bases dans l’espoir d’y déceler des informations cachées. Malheureusement, rares sont les logiciels libres qui peuvent les appréhender. Tout simplement parce que la quasi-totalité d’entre eux chargent les données en mémoire. &lt;a href="http://www.knime.org/" target="_blank"&gt;Knime&lt;/a&gt; semble faire exception. Il sait swapper une partie des données sur le disque. Mais j’avoue ne pas savoir comment exploiter pleinement cet atout (paramétrer ou contrôler l’encombrement mémoire en fonction des données et des algorithmes utilisés par exemple).&lt;br /&gt;&lt;br /&gt;Cette rareté n’est guère étonnante. En effet, l’affaire est compliquée. Il ne s’agit pas seulement de copier des informations sur le disque, il faut pouvoir y accéder efficacement compte tenu de la méthode d’apprentissage mise en œuvre. Deux aspects s’entremêlent : (1) comment organiser les données sur le disque ; (2) est-il possible de proposer un système de cache afin d’éviter d’avoir à accéder au disque à chaque fois qu’il faut traiter un individu ou lire la valeur d’une variable.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous montrons comment exploiter une solution que j’ai naguère implémentée dans Sipina. Elle n’a jamais été valorisée ni documentée. J’avoue l’avoir totalement oubliée jusqu’à ce que je la redécouvre par hasard en préparant le tutoriel sur l’échantillonnage dans les arbres. Nous montrons qu’il est possible de traiter, en disposant de toutes les fonctionnalités interactives, un fichier comportant &lt;span style="color:#3333ff;"&gt;&lt;strong&gt;41 variables&lt;/strong&gt;&lt;/span&gt; et (surtout) &lt;span style="color:#3333ff;"&gt;&lt;strong&gt;9.634.198 observations&lt;/strong&gt;&lt;/span&gt; lorsque nous activons cette option.&lt;br /&gt;&lt;br /&gt;Pour apprécier pleinement la solution proposée par Sipina, nous ferons le parallèle avec le comportement des logiciels &lt;span style="color:#009900;"&gt;Tanagra 1.4.33&lt;/span&gt; et &lt;span style="color:#009900;"&gt;Knime 2.0.3&lt;/span&gt; face à un tel fichier.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : gros volumes, très grands fichiers, grandes bases de données, arbre de décision, échantillonnage, sipina, knime&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : ID3&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Sipina_Large_Dataset.pdf" target="_blank"&gt;fr_Sipina_Large_Dataset.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/twice-kdd-cup-discretized-descriptors.zip" target="_blank"&gt;twice-kdd-cup-discretized-descriptors.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/09/traitement-de-gros-volumes-comparaison.html"&gt;Traitement de gros volumes – Comparaison de logiciels&lt;/a&gt; ».&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/10/sipina-accelerer-par-lechantillonnage.html"&gt;Sipina – Echantillonnage dans les arbres&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7061147516139790117?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7061147516139790117'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7061147516139790117'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/10/sipina-traitement-des-tres-grands.html' title='Sipina – Traitement des très grands fichiers'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-4702956821695614867</id><published>2009-10-18T11:24:00.006+02:00</published><updated>2009-10-18T15:04:51.559+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Sipina - Echantillonnage dans les arbres</title><content type='html'>Lors de l’induction d’un arbre de décision, l’algorithme doit détecter la meilleure variable de segmentation pour chaque nœud que l’on souhaite partitionner. L’opération peut prendre du temps si le nombre d’observations est très élevé. Ceci d’autant plus que les variables candidates sont continues, il faut trouver la borne de discrétisation optimale.&lt;br /&gt;&lt;br /&gt;Le logiciel &lt;span style="color:#3333ff;"&gt;&lt;strong&gt;Sipina&lt;/strong&gt;&lt;/span&gt; introduit une &lt;span style="color:#990000;"&gt;&lt;strong&gt;option d’échantillonnage local&lt;/strong&gt;&lt;/span&gt; dans tous les algorithmes d’induction d’arbres qu’il propose. L’idée est la suivante : sur chaque sommet, plutôt que de travailler sur la totalité des observations présentes pour choisir la variable de segmentation, il réalise les opérations sur un échantillon. Bien entendu, lorsque le nombre d’observations disponibles sur le sommet est plus faible que la taille d’échantillon demandée, il n’y a plus lieu de procéder à un échantillonnage, Sipina utilise toutes les observations. Cela arrive dans les parties bases de l’arbre lorsqu’il est particulièrement profond. Nous avions évoqué cette idée dans un de nos anciens posts (&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/echantillonnage-dans-les-arbres-de.html"&gt;Echantillonnage dans les arbres de décision&lt;/a&gt;), nous la mettons en œuvre dans ce didacticiel.&lt;br /&gt;&lt;br /&gt;Nous manipulons un fichier comportant &lt;span style="color:#009900;"&gt;&lt;strong&gt;21 descripteurs&lt;/strong&gt;&lt;/span&gt; et &lt;span style="color:#009900;"&gt;&lt;strong&gt;2.000.000 d’observations&lt;/strong&gt;&lt;/span&gt;, dont une moitié est utilisée pour construire l’arbre, l’autre pour son évaluation. Nous constaterons que, dans certaines circonstances, travailler sur un échantillon dans les nœuds permet de réduire le temps de calculs (divisé par 30 !) tout en préservant les performances en classement.&lt;br /&gt;&lt;br /&gt;Nous comparerons les temps de calcul avec ceux de &lt;strong&gt;&lt;span style="color:#3333ff;"&gt;Tanagra &lt;/span&gt;&lt;/strong&gt;où une autre stratégie a été mise en place pour accélérer les traitements.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : arbre de décision, échantillonnage, sipina, apprentissage, test, traitement des grandes bases de données, gros fichier&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : SAMPLING, ID3, TEST&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Sipina_Sampling.pdf" target="_blank"&gt;fr_Sipina_Sampling.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/wave2M.zip" target="_blank"&gt;wave2M.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;J.H. Chauchat, R. Rakotomalala, « &lt;a href="http://eric.univ-lyon2.fr/~ricco/doc/chauchat_rakotomalala_ifcs2000.pdf" target="_blank"&gt;A new sampling strategy for building decision trees from large databases &lt;/a&gt;», Proc. of IFCS-2000, pp. 199-204, 2000.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-4702956821695614867?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4702956821695614867'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4702956821695614867'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/10/sipina-accelerer-par-lechantillonnage.html' title='Sipina - Echantillonnage dans les arbres'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6442841879290818448</id><published>2009-10-14T21:54:00.003+02:00</published><updated>2009-10-14T21:57:56.000+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Sipina - Traitement des données manquantes</title><content type='html'>L’appréhension des données manquantes est un problème difficile. La gestion informatique en elle-même ne pose pas de problème, il suffit de signaler la valeur manquante par un code spécifique. En revanche, son traitement avant ou durant l’analyse des données est très compliqué.&lt;br /&gt;&lt;br /&gt;Il faut prendre en considération deux aspects : (1) la nature de la valeur manquante (complètement aléatoire, partiellement aléatoire, non aléatoire) ; (2) la technique statistique que nous mettons en œuvre par la suite, en effet, certaines méthodes de traitement des données manquantes sont plus ou moins adaptées selon les techniques statistiques que nous utilisons.&lt;br /&gt;&lt;br /&gt;L’objectif de ce tutoriel est de montrer la mise en œuvre des techniques implémentées dans le logiciel SIPINA et d’observer les conséquences des choix sur l’induction des arbres de décision avec la méthode C4.5 (Quinlan, 1993).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : valeur manquante, donnée manquante, missing data, sipina, C4.5&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/doc/fr_Sipina_Missing_Data.pdf" target="_blank"&gt;fr_Sipina_Missing_Data.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/dataset/ronflement_missing_data.zip" target="_blank"&gt;ronflement_missing_data.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;P.D. Allison, « Missing Data », in Quantitative Applications in the Social Sciences Series n°136, Sage University Paper, 2002.&lt;br /&gt;J. Bernier, D. Haziza, K. Nobrega, P. Whitridge, « &lt;a href="http://www.ssc.ca/documents/case_studies/2002/missing_e.html" target="_blank"&gt;Handling Missing Data – Case Study &lt;/a&gt;», Statistical Society of Canada.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6442841879290818448?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6442841879290818448'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6442841879290818448'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/10/sipina-traitement-des-donnees.html' title='Sipina - Traitement des données manquantes'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6907751194906372654</id><published>2009-10-07T16:42:00.009+02:00</published><updated>2009-10-08T07:50:21.965+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Evaluation des classifieurs - Quelques courbes</title><content type='html'>L’évaluation des classifieurs est une étape incontournable de l’apprentissage supervisé. Nous avons construit un modèle de prédiction, nous devons en mesurer les. D’un côté, nous avons la matrice de confusion et les indicateurs afférents, très populaire dans la recherche en apprentissage automatique (&lt;i&gt;ah… les fameux grands tableaux avec des moyennes de taux d’erreur sur des bases de données qui n’ont rien à voir entre elles…&lt;/i&gt;) ; de l’autre, dans les applications, on privilégie les courbes qui semblent mystérieuses si l’on n’est pas du domaine (courbe ROC en épidémiologie, entre autres ; courbe de gain en marketing ; courbe rappel – précision en recherche d’information). &lt;p&gt;&lt;/p&gt;&lt;p&gt;Dans ce didacticiel, nous montrons dans un premier temps comment construire ces courbes en détaillant les calculs dans un tableur. Puis, dans un deuxième temps, nous utilisons les logiciels &lt;span style="COLOR: rgb(153,0,0); FONT-WEIGHT: bold"&gt;Tanagra 1.4.33&lt;/span&gt; et &lt;span style="COLOR: rgb(153,51,0)"&gt;&lt;span style="FONT-WEIGHT: bold"&gt;R 2.9.2&lt;/span&gt; &lt;/span&gt;pour les obtenir. Nous comparerons les performances de la régression logistique et des SVM (support vector machine, noyau RBF) sur notre fichier de données.&lt;/p&gt;&lt;b&gt;Mots-clés&lt;/b&gt; : courbe ROC, courbe de gain, courbe lift, courbe rappel précision, échantillon d'apprentissage, échantillon test, régression logistique, svm, noyau RBF, librairie libsvm, logiciel R, glm, package e1071&lt;br /&gt;&lt;b&gt;Composants&lt;/b&gt; : DISCRETE SELECT EXAMPLES, BINARY LOGISTIC REGRESSION, SCORING, C-SVC, ROC CURVE, LIFT CURVE, PRECISION-RECALL CURVE&lt;br /&gt;&lt;b&gt;Lien&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Spv_Learning_Curves.pdf" target="_blank"&gt;fr_Tanagra_Spv_Learning_Curves.pdf&lt;/a&gt;&lt;br /&gt;&lt;b&gt;Données&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/heart_disease_for_curves.zip" target="_blank"&gt;heart_disease_for_curves.zip&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;p&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6907751194906372654?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6907751194906372654'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6907751194906372654'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/10/evaluation-des-classifieurs-quelques.html' title='Evaluation des classifieurs - Quelques courbes'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-43625421723724139</id><published>2009-10-03T06:57:00.010+02:00</published><updated>2009-10-03T07:14:21.940+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Diagnostic de la régression logistique</title><content type='html'>Ce tutoriel décrit la mise en œuvre des outils d’évaluation et de diagnostic de la régression logistique binaire, disponibles depuis la version 1.4.33 de Tanagra. Les techniques et les formules afférentes sont présentées dans le fascicule de cours que nous avons mis en ligne récemment (voir références). Il serait intéressant de le charger également afin de pouvoir s’y référer lorsque nous décrivons les résultats.&lt;br /&gt;&lt;br /&gt;Nous traitons un problème de crédit scoring. Nous cherchons à déterminer à l’aide de la régression logistique les facteurs explicatifs de l’accord ou du refus d’une demande de crédit de clients auprès d’un établissement bancaire.&lt;br /&gt;&lt;br /&gt;Nous utiliserons Tanagra 1.4.33 dans un premier temps. Dans un deuxième temps, nous essaierons de reproduire les mêmes calculs à l’aide du Logiciel R 2.9.1 [procédure glm()].&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots-clés&lt;/strong&gt; : régréssion logistique, analyse des résidus, détection des points atypiques et points influents, résidus de pearson, résidus déviance, levier, distance de cook, dfbeta, dfbetas, test de Hosmer - Lemeshow, diagramme de fiabilité, reliability diagram, calibration plot, logiciel R, glm()&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : BINARY LOGISTIC REGRESSION, HOSMER LEMESHOW TEST, RELIABILITY DIAGRAM, LOGISTIC REGRESSION RESIDUALS&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Logistic_Regression_Diagnostics.pdf" target="_blank"&gt;fr_Tanagra_Logistic_Regression_Diagnostics.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/logistic_regression_diagnostics.zip" target="_blank"&gt;logistic_regression_diagnostics.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2009/09/pratique-de-la-regression-logistique.html"&gt;Pratique de la régression logistique - Régression logistique binaire et polytomique&lt;/a&gt;".&lt;br /&gt;D. Hosmer, S. Lemeshow, « Applied Logistic Regression », John Wiley &amp;amp;Sons, Inc, Second Edition, 2000.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-43625421723724139?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/43625421723724139'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/43625421723724139'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/10/diagnostic-de-la-regression-logistique.html' title='Diagnostic de la régression logistique'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7233864721815192040</id><published>2009-10-03T06:49:00.007+02:00</published><updated>2009-10-03T06:52:08.785+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.33</title><content type='html'>&lt;p&gt;Cette version accompagne la sortie du fascicule du cours consacré à la régression logistique (" &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html#regression_logistique" target="_blank"&gt;Pratique de la Régression Logistique - Régression logistique binaire et polytomique "&lt;/a&gt; - Septembre 2009). Plusieurs techniques d'évaluation et de diagnostic de la régression logistique ont été développées, l'une d'entre elles (reliability diagram) peut s'appliquer à toute méthode supervisée :&lt;br /&gt;&lt;br /&gt;1. La matrice de variance covariance des coefficients.&lt;br /&gt;2. Test de Hosmer et Lemeshow&lt;br /&gt;3. Diagramme de fiabilité (reliability diagram ou calibration plot en anglais)&lt;br /&gt;4. Analyse des résidus, détection des points atypiques et/ou influents (résidus de pearson, résidus déviance, dfichisq, difdev, levier, distance de Cook, dfbeta, dfbetas)&lt;br /&gt;&lt;br /&gt;Un tutoriel décrivant la mise en œuvre de ces outils sera mis en ligne très prochainement.&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7233864721815192040?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7233864721815192040'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7233864721815192040'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/10/tanagra-version-1433.html' title='Tanagra - Version 1.4.33'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6458039922036304079</id><published>2009-09-30T19:49:00.004+02:00</published><updated>2009-09-30T20:00:00.163+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Statistiques et tests'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Etude des dépendances - Variables qualitatives</title><content type='html'>Ce document décrit quelques mesures statistiques destinées à quantifier et tester la liaison entre 2 variables qualitatives. Elles exploitent le tableau de contingence formé à partir des variables. Le domaine étant très vaste et les mesures innombrables, nous ne pourrons certainement pas prétendre à l'exhaustivité. Nous mettrons l'accent sur l'interprétation, les formules associées et la lecture pratique des résultats.&lt;br /&gt;&lt;br /&gt;Nous nous concentrons essentiellement sur la dépendance entre variables nominales. Le traitement des variables ordinales fera l'objet d'une partie distincte (Partie IV).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots-clés&lt;/strong&gt; : tableau de contingence, khi-2, mesures PRE (proportional reduction in error), odds et odds-ratio, coefficient de concordance, mesures d'association, associations ordinales&lt;br /&gt;&lt;strong&gt;Techniques décrites&lt;/strong&gt; : statistique du khi-2, test d'indépendance du khi-2, contributions au khi-2, t de Tschuprow, v de Cramer, lambda de Goodman et Kruskal, tau de Goodman et Kruskal, U de Theil, coefficient phi, correction de continuité, Q de Yule, kappa de Cohen, kappa de Fleiss, gamma de Goodman et Kruskal, tau-b de Kendall, tau-c de Kendall, d de Sommers&lt;br /&gt;&lt;strong&gt;Ouvrage&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours/Dependance_Variables_Qualitatives.pdf" target="_blank"&gt;Etude des dépendances - Variables qualitatives &lt;/a&gt;- Tableau de contingence et mesures d'association&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6458039922036304079?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6458039922036304079'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6458039922036304079'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/etude-des-dependances-variables.html' title='Etude des dépendances - Variables qualitatives'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2768771575869272562</id><published>2009-09-26T06:30:00.000+02:00</published><updated>2009-09-26T06:31:44.913+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Statistiques et tests'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Analyse de corrélation</title><content type='html'>Ce document décrit les méthodes statistiques destinées à quantifier et tester la liaison entre 2 variables quantitatives : on parle d’analyse de corrélation.&lt;br /&gt;&lt;br /&gt;Il est subdivisé en 2 grandes parties. La première est consacrée à la corrélation brute : principalement le coefficient de corrélation de Pearson, mais aussi les coefficients non paramétriques de Spearman et Kendall. La seconde aborde la question des corrélations partielles et semi-partielles.&lt;br /&gt;&lt;br /&gt;Pour chaque indicateur étudié, nous présentons la mise en place du test de significativité, et éventuellement le calcul des intervalles de confiance.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots-clés&lt;/strong&gt; : corrélation brute, corrélation partielle, corrélation semi-partielle&lt;br /&gt;&lt;strong&gt;Techniques décrites&lt;/strong&gt; : r de Pearson, rho de Spearman, tau de Kendall, corrélation partielle d’ordre 1, corrélation partielle d’ordre p, rho de Spearman partiel, corrélation semi-partielle d’ordre 1 et d’odre p&lt;br /&gt;&lt;strong&gt;Ouvrage&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours/Analyse_de_Correlation.pdf" target="_blank"&gt;Analyse de corrélation&lt;/a&gt; – Etude des dépendances, Variables quantitatives&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2768771575869272562?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2768771575869272562'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2768771575869272562'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/analyse-de-correlation.html' title='Analyse de corrélation'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-2757994245275397437</id><published>2009-09-20T11:26:00.000+02:00</published><updated>2009-09-20T11:27:42.696+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Statistiques et tests'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Probabilités et Statistique - Note de cours</title><content type='html'>Ce document est un support de cours pour les enseignements des probabilités et de la statistique. Il couvre l'analyse combinatoire, le calcul des probabilités, les lois de probabilités d'usage courant et les tests d'adéquation à une loi.&lt;br /&gt;&lt;br /&gt;Il correspond approximativement aux enseignements en L2 de la filière Sciences Économiques et Gestion, Administration Économique et Sociale (AES).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Chapitres &lt;/strong&gt;: Eléments d’analyse combinatoire, définition de la probabilité, axiome du calcul des probabilités, les schémas de tirages probabilistes, probabilité de bayes, les variables aléatoires, caractéristiques d’une variable aléatoire, les lois discrètes, les lois continues, test d’adéquation à une loi&lt;br /&gt;&lt;strong&gt;Ouvrage&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours/Probabilites_et_Statistique.pdf" target="_blank"&gt;Probabilités et Statistique – Note de cours&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-2757994245275397437?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2757994245275397437'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/2757994245275397437'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/probabilites-et-statistique-note-de.html' title='Probabilités et Statistique - Note de cours'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3839798987903488964</id><published>2009-09-20T11:19:00.001+02:00</published><updated>2009-09-20T11:20:46.371+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Statistiques et tests'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Tests de conformité à la loi normale</title><content type='html'>Un test d'adéquation permet de statuer sur la compatibilité d'une distribution observée avec une distribution théorique associée à une loi de probabilité. Il s'agit de modélisation. Nous résumons une information brute, une série d'observations, à l'aide d'une fonction analytique paramétrée. L'estimation des valeurs des paramètres est souvent un préalable au test de conformité. Au delà de la simplification, le test permet de valider une appréhension du processus de formation des données, il permet de savoir si notre perception du réel est compatible avec ce que nous observons.&lt;br /&gt;&lt;br /&gt;Parmi les tests d'adéquation, la conformité à la loi normale (loi gaussienne, loi de Laplace-Gauss) revêt une importance supplémentaire. En effet, l'hypothèse de normalité des distributions sous-tend souvent de nombreux tests paramétriques (ex. comparaison de moyennes, résidus de la régression, etc.).&lt;br /&gt;&lt;br /&gt;Dans ce support, nous présenterons dans un premier chapitre les techniques descriptives, notamment le très populaire graphique Q-Q plot. Dans le second, nous détaillerons plusieurs tests statistiques reconnus et implémentés dans la plupart des logiciels de statistique. Dans le troisième, nous étudierons les tests de symétrie des distributions qui, à certains égards, peuvent être considérés comme des cas particuliers des tests de normalité. Enfin, dans un quatrième et dernier chapitre, nous décrivons les formules de Box-Cox destinées à transformer les variables afin qu’elles soient compatibles avec la distribution normale.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots-clés&lt;/strong&gt; : test de conformité à la loi normale, test d’adéquation, test de symétrie, transformation de box-cox&lt;br /&gt;&lt;strong&gt;Techniques décrites&lt;/strong&gt; : graphique Q-Q plot, droite de henry, test de shapiro-wilk, test de lilliefors, test de anderson-darling, test de jarque-bera, test de wilcoxon, test de van der waerden&lt;br /&gt;&lt;strong&gt;Ouvrage&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf" target="_blank"&gt;Tests de normalité – Techniques empiriques et test statistiques&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3839798987903488964?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3839798987903488964'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3839798987903488964'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/tests-de-conformite-la-loi-normale.html' title='Tests de conformité à la loi normale'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7832077193022891385</id><published>2009-09-20T11:00:00.002+02:00</published><updated>2009-09-20T11:03:27.569+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Pratique de la Régression Linéaire Multiple</title><content type='html'>Le véritable travail du statisticien commence après la première mise en oeuvre de la régression linéaire multiple sur un fichier de données. Après ces calculs, qu'on lance toujours "pour voir", il faut se poser la question de la pertinence des résultats, vérifier le rôle de chaque variable, interpréter les coefficients, etc.&lt;br /&gt;&lt;br /&gt;En schématisant, la modélisation statistique passe par plusieurs étapes : proposer une solution (une configuration de l'équation de régression), estimer les paramètres, diagnostiquer, comprendre les résultats, réfléchir à une formulation concurrente.&lt;br /&gt;&lt;br /&gt;Dans ce support, nous mettrons l'accent, sans se limiter à ces points, sur deux aspects de ce processus : le diagnostic de la régression à l'aide de l'analyse des résidus, il peut être réalisé avec des tests statistiques, mais aussi avec des outils graphiques simples ; l'amélioration du modèle à l'aide de la sélection de variables, elle permet entre autres de se dégager du piège de la colinéarité entre les variables exogènes.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots-clés&lt;/strong&gt; : régression linéaire simple et multiple, étude des résidus, points aberrants et points influents, colinéarité et sélection de variables, variables exogènes qualitatives, rupture de structure&lt;br /&gt;&lt;strong&gt;Techniques décrites&lt;/strong&gt; : test de durbin-watson, test des séquences, qraphique qq-plot, test de symétrie des résidus, test de jarque-bera, résidu standardisé, résidu studentisé, dffits, distance de cook, dfbetas, covratio, sélection forward, backward, stepwise, codage centerd effect, codage cornered effect, test de chow&lt;br /&gt;&lt;strong&gt;Ouvrage&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf" target="_blank"&gt;Pratique de la régression linéaire multiple – Diagnostic et sélection de variables&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7832077193022891385?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7832077193022891385'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7832077193022891385'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/pratique-de-la-regression-lineaire.html' title='Pratique de la Régression Linéaire Multiple'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3129093209844801599</id><published>2009-09-17T15:14:00.004+02:00</published><updated>2009-09-20T10:32:32.933+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Statistiques et tests'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Comparaison de populations - Tests paramétriques</title><content type='html'>&lt;span style="color: rgb(51, 102, 255);"&gt;Comparaison de populations&lt;/span&gt;. Stricto sensu, les tests de comparaisons de&lt;br /&gt;populations cherchent à déterminer si K (K ¸ 2) échantillons proviennent de la même population relativement à la variable d'intérêt. Nous sommes dans le cadre de la statistique inférentielle : à partir d'échantillons, nous tirons des conclusions sur la population. Au delà de ces aspects purement théoriques, les applications pratiques sont nombreuses.&lt;br /&gt;&lt;br /&gt;&lt;span style="color: rgb(51, 102, 255);"&gt;Paramétrique&lt;/span&gt;. On parle de tests paramétriques lorsque l'on fait l'hypothèse que les variables qui décrivent les individus suivent une distribution paramétrée. Dans ce support, nous analyserons principalement (mais pas seulement) le cas des variables continues gaussiennes. Les paramètres sont estimés à partir des échantillons et, dans ce cas, les tests reviennent simplement à les comparer puisqu'elles définissent de manière non ambiguë la distribution. Ainsi, concernant la distribution gaussienne, les tests porteront essentiellement sur la moyenne et l'écart type. L'hypothèse de normalité n'est pas aussi restrictive qu'on peut le penser, nous en discuterons de manière détaillée plus loin.&lt;br /&gt;&lt;br /&gt;Ce fascicule de cours se veut avant tout opérationnel. Il se concentre sur les principales formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallèle avec les résultats fournis par les logiciels de statistique. Le bien-fondé des tests, la pertinence des hypothèses à opposer sont peu ou prou discutées. Nous invitons le lecteur désireux d'approfondir les bases de la statistique inférentielle, en particulier la théorie des tests, à consulter les ouvrages énumérés dans la bibliographie.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Mots-clés &lt;/span&gt;: test statistique, test paramétrique, comparaison de populations, tanagra, logiciel R&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Techniques décrites&lt;/span&gt; : comparaison de moyennes, test de student, analyse de variance à 1 facteur, comparaison de variances, test de fisher, test de bartlett, test de cochran, test de hartley, test de levene, test de brown-forsythe, comparaison de proportions, test d'homogénéité du KHI-2 pour 2 populations, tests pour échantillons appariés, tests multivariés, T2 de hotelling, manova, lambda de wilks&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Ouvrage&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/cours/cours/Comp_Pop_Tests_Parametriques.pdf" target="_blank"&gt;Comparaison de populations - Tests paramétriques&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3129093209844801599?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3129093209844801599'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3129093209844801599'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/comparaison-de-populations-tests.html' title='Comparaison de populations - Tests paramétriques'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7861986696876946068</id><published>2009-09-14T15:16:00.009+02:00</published><updated>2009-10-03T08:19:00.622+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression logistique'/><category scheme='http://www.blogger.com/atom/ns#' term='Ouvrages'/><title type='text'>Pratique de la régression logistique</title><content type='html'>&lt;p class="MsoNormal"&gt;Cet ouvrage décrit la pratique de la régression logistique. Il est pour l’instant centré sur la régression logistique binaire, il est amené à évoluer en intégrant la régression logistique polytomique dans un proche avenir.&lt;/p&gt;&lt;p class="MsoNormal"&gt;Il aborde tous les grands thèmes du domaine : l’estimation des paramètres via la maximisation de la vraisemblance ; les intervalles de confiance et les tests de significativité ; l’interprétation des coefficients (sous la forme d’odds-ratio) ; l’évaluation de la régression ; la prédiction et les intervalles de prédiction ; le redressement sur les échantillons non représentatifs ; l’analyse des interactions ; le diagnostic de la régression via l’analyse des résidus ; etc. (15 chapitres).&lt;/p&gt;&lt;p class="MsoNormal"&gt;L’ouvrage est très peu théorique. Il cherche à mettre en avant les aspects pratiques. Il est abondamment illustré à l’aide d’exemples traités à l’aide de logiciel libres (ou gratuits), principalement Tanagra et R. Souvent, les calculs sont également reproduits manuellement dans le tableur Excel pour que le lecteur puisse inspecter dans le détail les formules utilisées. Les données sont accessibles en ligne, tout un chacun pourra reproduire les exercices.&lt;/p&gt;&lt;p class="MsoNormal"&gt;&lt;b&gt;Mots clés&lt;/b&gt; : régression logistique, tanagra, R&lt;br /&gt;&lt;b&gt;Ouvrage&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours/pratique_regression_logistique.pdf" target="_blank"&gt;Pratique de la régression logistique&lt;/a&gt; – Régression logistique binaire et polytomique&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7861986696876946068?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7861986696876946068'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7861986696876946068'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/pratique-de-la-regression-logistique.html' title='Pratique de la régression logistique'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6901460728304147824</id><published>2009-09-07T16:40:00.016+02:00</published><updated>2010-03-27T06:36:45.378+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Tanagra - Séminaire au L3I</title><content type='html'>&lt;p&gt;Un très sympathique séminaire au sein du laboratoire &lt;a href="http://l3i.univ-larochelle.fr/" target="_blank"&gt;L3I&lt;/a&gt; (Laboratoire Informatique, Image et Interaction) de l’Université de la Rochelle a été l’occasion de faire le point sur Tanagra et de le positionner par rapport aux principaux outils libres. Un petit bilan numérique a été fait également. Sur la période 01-09-2008 au 31-08-2009 (une année), l’ensemble des sites web qui gravitent autour de Tanagra, comprenant le site du logiciel mais aussi les sites de tutoriels et de supports de cours, a enregistré 171.697 visites, soit 470 visites par jour. Une grande partie vient de France (77.117) ; puis vient le Maghreb (11.603 – Algérie, 10.855 – Maroc et 7543 – Tunisie)... (voir le pdf pour plus de précisions). Je suis très content que ce travail contribue à la diffusion de la connaissance.&lt;/p&gt;&lt;p&gt;Voici le résumé de l’exposé.&lt;/p&gt;&lt;p&gt;&lt;b&gt;Titre :&lt;/b&gt; Tanagra - logiciels libres, spécificités et applications&lt;br /&gt;&lt;b&gt;Auteur :&lt;/b&gt; Ricco Rakotomalala, Laboratoire ERIC, Université Lyon 2&lt;/p&gt;&lt;p&gt;Avec internet, les logiciels libres (gratuits) connaissent un essor sans précédent. Dans le domaine du Data Mining et de l'apprentissage automatique, les outils développés par les chercheurs dans les laboratoires, uniquement connus des initiés, sont maintenant mondialement diffusés à moindre coût. Ce succès croissant introduit des contraintes. De nouvelles exigences en matière de qualité apparaissent. Il est impensable de mettre à la disposition d'autres chercheurs ou d'utilisateurs néophytes, un outil totalement abscons ou, plus grave encore, qui n'effectue pas les calculs correctement. Finalement, ces dernières années, les logiciels libres&lt;span style="font-size:0;"&gt; &lt;/span&gt;à grande diffusion intégrant tout le cycle du Data Mining (accès aux données, préparation et sélection de variables, apprentissage automatique, validation et déploiement) sont assez rares. Ces outils partagent une particularité essentielle en recherche : le code source est accessible, tout le monde a la possibilité de vérifier ce qui est réellement codé.&lt;/p&gt;&lt;p class="MsoNormal"&gt;Dans notre exposé, nous présenterons le logiciel Tanagra que nous avons développé. Dans un premier temps, nous essaierons de mettre en avant les spécifications qui ont conduit à son élaboration, son évolution au fil du temps, et les éléments périphériques qui accompagnent sa diffusion. Dans un deuxième temps, nous le comparerons aux principaux logiciels libres, largement reconnus dans notre communauté : Orange, Knime, R, RapidMiner, Weka. Nous nous baserons principalement sur les étapes clés du Data Mining pour évaluer les solutions qui ont été mises en place par les différents outils.&lt;span style="font-size:0;"&gt; &lt;/span&gt;Des petits exemples didactiques permettront de juger de leur comportement réel. Enfin, dans un troisième temps, pour donner un tour concret à notre exposé, nous détaillerons l'utilisation de notre outil lors d'une collaboration avec un laboratoire externe, non spécialiste du Data Mining, où l'objectif initial était de classer automatiquement des planctons à partir d'images. Nous constaterons qu'au delà de la simple application des algorithmes, l'utilisation d'une plate-forme complète permet d'élargir l'horizon d'analyse et de mieux préciser les objectifs d'une étude. &lt;/p&gt;&lt;p&gt;&lt;b&gt;Mots clés :&lt;/b&gt; data mining, logiciel libre, Tanagra, applications&lt;br /&gt;&lt;b&gt;PDF du séminaire&lt;/b&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/tanagra%20-%20logiciels%20libres%20-%20Copie%20pour%20pdf.pdf" target="_blank"&gt;Tanagra&lt;/a&gt; &lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6901460728304147824?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6901460728304147824'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6901460728304147824'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/09/tanagra-selminaire-au-l3i.html' title='Tanagra - Séminaire au L3I'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-4525711209966362496</id><published>2009-05-29T11:52:00.006+02:00</published><updated>2009-05-29T12:00:03.257+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Statistiques et tests'/><title type='text'>Statistiques descriptives (suite)</title><content type='html'>La statistique descriptive vise à résumer l’information portée par un tableau de données. « Trop d’informations tue l’information » a-t-on coutume de dire. Il est illusoire d’inspecter un tableau contenant des centaines, voire des milliers, d’observations et d’en déduire des tendances.&lt;br /&gt;&lt;br /&gt;L’objectif de la statistique descriptive est de nous fournir une image simplifiée de la réalité, en mettant en exergue des caractéristiques qui ne sont pas discernables de prime abord. Elle emmène un nouvel éclairage sur les données. Elle s’appuie pour cela sur des indicateurs et des représentations graphiques qui, pour simples qu’elles soient, sont très souvent pertinentes pour une bonne compréhension de la structure des données.&lt;br /&gt;&lt;br /&gt;Ce thème a déjà été abordé dans un de nos précédents didactciels (voir référence). Nous l'abordons de manière plus approfondie ici en le présentant selon deux axes. Tout d’abord nous ferons la distinction « techniques univariées », qui étudient les variables individuellement, et « techniques bivariées », qui étudient les relations entre 2 variables. Le second axe repose sur la distinction entre les variables catégorielles (qualitatives nominales) et les variables continues (quantitatives).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés &lt;/strong&gt;: descriptive statistics, statistique univariée, statistique bivariée&lt;br /&gt;&lt;strong&gt;Composants &lt;/strong&gt;: UNIVARIATE DISCRETE STAT, CONTINGENCY CHI-SQUARE, UNIVARIATE CONTINUOUS STAT, SCATTERPLOT, LINEAR CORRELATION, GROUP CHARACTERIZATION&lt;br /&gt;&lt;strong&gt;Lien &lt;/strong&gt;: &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Descriptive_Statistics.pdf" target="_blank"&gt;fr_Tanagra_Descriptive_Statistics.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données &lt;/strong&gt;: &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/enquete_satisfaction_femmes_1953.xls" target="_blank"&gt;enquete_satisfaction_femmes_1953.xls&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/statistiques-descriptives.html"&gt;Statistiques descriptives&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-4525711209966362496?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4525711209966362496'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/4525711209966362496'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/05/statistiques-descriptives-suite.html' title='Statistiques descriptives (suite)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7640997320058715406</id><published>2009-05-15T19:54:00.003+02:00</published><updated>2009-05-19T09:41:39.564+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Sélection de variables'/><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Stratégie « wrapper » pour la sélection de variables</title><content type='html'>La sélection de variables est un aspect essentiel de l’apprentissage supervisé. Nous devons déterminer les variables pertinentes pour la prédiction des valeurs de la variable à prédire, pour différentes raisons : un modèle plus simple sera plus facile à comprendre et à interpréter ; le déploiement sera facilité, nous aurons besoin de moins d’informations à recueillir pour la prédiction ; enfin, un modèle simple se révèle souvent plus robuste en généralisation c.-à-d. lorsqu’il est appliqué sur la population.&lt;br /&gt;&lt;br /&gt;Trois familles d’approches sont mises en avant dans la littérature. Les approches FILTRE consistent à introduire les procédures de sélection préalablement et indépendamment de l’algorithme d’apprentissage mise en oeuvre par la suite. Pour les approches INTEGREES, le processus de sélection fait partie de l’apprentissage. Les algorithmes d’induction d'arbres de décision illustrent parfaitement cette méthode. Enfin, l’approche WRAPPER cherche à optimiser un critère de performance en présentant à la méthode d’apprentissage des scénarios de solutions. Le plus souvent, il s’agit du taux d’erreur. Mais en réalité, tout critère peut convenir.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous mettrons en œuvre la méthode WRAPPER couplée avec le modèle bayesien naïf (modèle d’indépendance conditionnelle). Nous utilisons les logiciels SIPINA et R. Pour ce dernier, le code écrit est le plus générique possible afin que le lecteur puisse comprendre chaque étape du processus de sélection et adapter le programme à d’autres données, et à d’autres méthodes d’apprentissage supervisé.&lt;br /&gt;&lt;br /&gt;La stratégie WRAPPER est a priori la meilleure puisqu’elle optimise explicitement le critère de performance. Nous vérifierions cela en comparant les résultats avec ceux fournis par l’approche FILTRE (méthode FCBF) proposée dans TANAGRA. Nous verrons que les conclusions ne sont pas aussi tranchées qu’on pourrait le croire.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : sélection de variables, apprentissage supervisé, classifieur bayesien naïf, wrapper, fcbf, sipina, logiciel R, package RWeka,&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : DISCRETE SELECT EXAMPLES, FCBF FILTERING, NAIVE BAYES, TEST&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Sipina_Wrapper.pdf" target="_blank"&gt;fr_Tanagra_Sipina_Wrapper.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/mushroom_wrapper.zip" target="_blank"&gt;mushroom_wrapper.zip&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;&lt;a href="http://jmlr.csail.mit.edu/papers/special/feature03.html" target="_blank"&gt;JMLR Special Issue on Variable and Feature Selection - 2003&lt;/a&gt;&lt;br /&gt;R Kohavi, G. John, « &lt;a href="http://citeseer.ist.psu.edu/cache/papers/cs/1999/http:zSzzSzrobotics.stanford.eduzSz~ronnykzSzwrappers-chapter.pdf/kohavi98wrapper.pdf/" target="_blank"&gt;The wrapper approach&lt;/a&gt; », 1997.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7640997320058715406?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7640997320058715406'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7640997320058715406'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/05/strategie-wrapper-pour-la-selection-de.html' title='Stratégie « wrapper » pour la sélection de variables'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8277291962500681604</id><published>2009-05-09T07:51:00.006+02:00</published><updated>2009-05-09T07:57:39.167+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Analyse factorielle'/><title type='text'>Analyse factorielle des correspondances avec R</title><content type='html'>Ce tutoriel reproduit sous le logiciel R, l’analyse factorielle des correspondances (AFC) décrite dans l’ouvrage de Lebart et al., pages 103 à 107. Les justifications théoriques et les formules sont disponibles dans le même ouvrage, pages 67 à 103.&lt;br /&gt;&lt;br /&gt;Ces calculs ont été reproduits dans Tanagra dans un de nos anciens didacticiels (&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/afc-association-mdias-et-professions.html"&gt;AFC - Association médias et professions&lt;/a&gt;). Nous pouvons ainsi comparer les sorties. Si le mode de présentation est un peu différent, les résultats sont strictement les mêmes. Ils sont également identiques à ceux de notre ouvrage de référence. Heureusement.&lt;br /&gt;&lt;br /&gt;Plusieurs packages de R peuvent mener une AFC, nous avons choisi FactorMineR pour sa simplicité et son adéquation avec les sorties usuelles des logiciels reconnus.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, analyse factorielle des correspondances multiples, AFC, représentation simultanée&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : CA, FactoMineR&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/afc_avec_r.pdf" target="_blank"&gt;afc_avec_r.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/afc_avec_r.zip" target="_blank"&gt;afc_avec_r.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références &lt;/strong&gt;:&lt;br /&gt;L. Lebart, A. Morineau, M. Piron, "Statistique Exploratoire Multidimensionnelle", Dunod, 2000 ; pages 67 à 103, partie théorique ; pages 103 à 107, pour l’exemple que nous traitons.&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/afc-association-mdias-et-professions.html"&gt;AFC - Association médias et professions&lt;/a&gt;"&lt;br /&gt;Husson, Le, Josse, Mazet, « &lt;a href="http://factominer.free.fr/" target="_blank"&gt;FactoMineR&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8277291962500681604?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8277291962500681604'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8277291962500681604'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/05/analyse-factorielle-des-correspondances.html' title='Analyse factorielle des correspondances avec R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3106499602588397037</id><published>2009-05-06T07:29:00.013+02:00</published><updated>2009-05-09T07:57:50.124+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Analyse factorielle'/><title type='text'>Analyse des Corresponsances Multiples avec R</title><content type='html'>Ce tutoriel reproduit sous le logiciel R, l’analyse des correspondances multiples (ACM) décrite dans l’ouvrage de Tenenhaus, pages 266 à 276. Les justifications théoriques et les formules sont disponibles dans le même ouvrage, pages 253 à 264.&lt;br /&gt;&lt;br /&gt;Ces calculs ont été reproduits dans Tanagra dans un de nos anciens didacticiels (&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/afcm-races-canines.html"&gt;AFCM - Races canines&lt;/a&gt;). Nous pouvons ainsi comparer les sorties. Si le mode de présentation est un peu différent, les résultats sont strictement les mêmes. Ils sont également identiques à ceux de notre ouvrage de référence. Heureusement.&lt;br /&gt;&lt;br /&gt;Plusieurs packages de R peuvent mener une ACM (ou AFCM – Analyse factorielle des correspondances multiples), nous avons choisi FactorMineR pour sa simplicité et son adéquation avec les sorties usuelles des logiciels reconnus.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, analyse des correspondances multiples, ACM, analyse factorielle de correspondances multiples, AFCM, représentation pseudo-barycentrique, représentation barycentrique&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : MCA, FactoMineR&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/afcm_avec_r.pdf" target="_blank"&gt;afcm_avec_r.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/afcm_avec_r.zip" target="_blank"&gt;afcm_avec_r.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;M. Tenenhaus, « Statistique – Méthodes pour décrire, expliquer et prévoir », Dunod, 2006 ; pages 253 à 264, partie théorique ; pages 266 à 276, pour l’exemple que nous traitons.&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/afcm-races-canines.html"&gt;AFCM - Races canines&lt;/a&gt;"&lt;br /&gt;Husson, Le, Josse, Mazet, « &lt;a href="http://factominer.free.fr/" target="_blank"&gt;FactoMineR&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3106499602588397037?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3106499602588397037'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3106499602588397037'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/05/analyse-de-corresponsances-multiples.html' title='Analyse des Corresponsances Multiples avec R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5021490464253182547</id><published>2009-05-05T06:01:00.004+02:00</published><updated>2009-05-05T07:04:42.624+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><title type='text'>Installation des packages sous R</title><content type='html'>R est à la fois un langage de programmation et un logiciel statistique, c’est le point de vue de la majorité des utilisateurs et il est tout à fait justifié.&lt;br /&gt;&lt;br /&gt;Une autre manière de voir les choses serait de dire que R est un langage de programmation où l’objet de base est un vecteur. Il est ainsi particulièrement adapté au traitement statistique. Ce qui explique sa spécialisation dans ce domaine d’ailleurs, bien qu’en réalité son champ d’application soit plus large.&lt;br /&gt;&lt;br /&gt;Cette spécialisation est d’autant plus marquée que R dispose d’une multitude de fonctions statistiques, extensibles à l’infini avec le système des packages.&lt;br /&gt;&lt;br /&gt;L’idée est simple. Tout un chacun peut écrire une bibliothèque externe qu’il peut plugger dans R, sans avoir à modifier ou à recompiler le programme appelant. La procédure semble simple pourvu qu’on se conforme aux spécifications. Les avantages sont incommensurables. Pour le chercheur, il peut se consacrer aux méthodes qu’il développe en s’intégrant dans un environnement bien défini, en bénéficiant des fonctionnalités de gestion de données de R, et avec la possibilité d’utiliser des méthodes développées par ailleurs. Pour les praticiens, c’est l’assurance de disposer des techniques de pointe dans tous les domaines du traitement des données (statistique, analyse de données, data mining). Les mises à jour et les addenda sont quasi-journaliers.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, package, arbres de décision&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : library, rpart&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/installation%20et%20gestion%20des%20packages.pdf" target="_blank"&gt;installation et gestion des packages.pdf&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;R Team, « &lt;a href="http://www.r-project.org/" target="_blank"&gt;The R Project for Statistical Computing&lt;/a&gt; ».&lt;br /&gt;R. Rakotomalala, « &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_R.html" target="_blank"&gt;Cours Programmation R&lt;/a&gt; ».&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5021490464253182547?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5021490464253182547'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5021490464253182547'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/05/installation-des-packages-sous-r.html' title='Installation des packages sous R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3661989059729020909</id><published>2009-05-05T04:23:00.009+02:00</published><updated>2009-05-05T04:31:23.956+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><title type='text'>Diagnostic de la régression avec R</title><content type='html'>Ce didacticiel illustre les concepts présentés dans la deuxième partie de mon cours d’économétrie. Il s’agit de diagnostiquer une régression linéaire multiple à l’aide des graphiques des résidus (entre autres, le graphique quantile-quantile plot, etc.), de l’analyse des points atypiques, de la détection de la colinéarité.&lt;br /&gt;&lt;br /&gt;Un processus de sélection automatique de variables est mis en place à l’aide de la procédure stepAIC (package MASS).&lt;br /&gt;&lt;br /&gt;Les procédures et les résultats peuvent être mis en parallèle avec ceux proposés par Tanagra, présentés par ailleurs dans une série de didacticiels : &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/rgression-expliquer-la-consommation-des.html"&gt;Régresison – Expliquer la consommation de véhicules&lt;/a&gt; ; &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/slection-forward-crime-dataset.html"&gt;Sélection forward – Crime Dataset&lt;/a&gt; ; &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/04/colinarit-et-rgression.html"&gt;Colinéarité et régression&lt;/a&gt; ; &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html"&gt;Points aberrants et influents dans la régression&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, régression linéaire multiple, économétrie, diagnostic, résidus, points atypiques, points aberrants, points influents, colinéarité, critère VIF, sélection de variables&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : lm, influence.measures, res.standard, res.student, stepAIC&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/regression%20-%20detection%20des%20donnees%20aberrantes%20-%20selection%20de%20variables.pdf" target="_blank"&gt;regression - detection des donnees aberrantes - selection de variables.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/automobiles_pour_regression.txt" target="_blank"&gt;automobiles_pour_regression.txt&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html" target="_blank"&gt;Cours Econométrie&lt;/a&gt;", Université Lumière Lyon 2.&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf" target="_blank"&gt;Pratique de la régression linéaire multiple – Diagnostic et sélection de variables&lt;/a&gt;", Université Lumière Lyon 2.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3661989059729020909?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3661989059729020909'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3661989059729020909'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/05/diagnostic-de-la-regression-avec-r.html' title='Diagnostic de la régression avec R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7519157488254652039</id><published>2009-05-04T19:48:00.004+02:00</published><updated>2009-05-04T19:53:05.034+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Analyse factorielle'/><title type='text'>Analyse en Composantes Principales avec R</title><content type='html'>Ce didacticiel reproduit un exemple traité dans l’ouvrage de Saporta (2006), à la différence que l’analyse a été menée entièrement dans R à l’aide de la procédure &lt;strong&gt;princomp(.)&lt;/strong&gt; (package stats, installé et chargé automatiquement).&lt;br /&gt;&lt;br /&gt;Les mêmes calculs ont été réalisés sous Tanagra (&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/acp-description-de-vhicules.html"&gt;ACP - Description de véhicules&lt;/a&gt;). Nous pouvons donc comparer les résultats fournis par le livre, ceux de Tanagra et ceux rapportés dans ce document. Bonne nouvelle, ils sont strictement identiques.&lt;br /&gt;&lt;br /&gt;L’analyse couvre les sujets suivants : construction du cercle des corrélations, projection des individus dans le plan factoriel, traitement des variables illustratives (supplémentaires) qualitatives et quantitatives, traitement des individus illustratifs (supplémentaires).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : logiciel R, analyse en composantes principales, ACP, cercle de corrélation, variables illustratives, individus illustratifs&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : princomp&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/acp_avec_r.pdf" target="_blank"&gt;acp_avec_r.pdf&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/didacticiels/R/acp_avec_r.zip" target="_blank"&gt;acp_avec_r.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;G. Saporta, « Probabilités, analyse des données et statistique », Dunod, 2006 ; pages 155 à 179.&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/acp-description-de-vhicules.html"&gt;ACP - Description de véhicules&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7519157488254652039?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7519157488254652039'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7519157488254652039'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/05/analyse-en-composantes-principales-avec.html' title='Analyse en Composantes Principales avec R'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3836030450635324252</id><published>2009-04-15T10:10:00.005+02:00</published><updated>2009-04-15T10:19:28.941+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra - Version 1.4.31</title><content type='html'>M. Thierry Leiber a amélioré l'add-on réalisant la connexion entre Tanagra et Open Office. Il est maintenant possible, sous Linux, d'installer la macro complémentaire sous Open Office et de lancer directement Tanagra après avoir sélectionné les données (voir le &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/04/connexion-open-office-calc-sous-linux.html"&gt;tutoriel associé&lt;/a&gt;). Merci beaucoup Thierry pour cette contribution qui élargit le panel des utilisateurs de Tanagra.&lt;br /&gt;&lt;br /&gt;Suite à une suggestion de M. Laurent Bougrain, la matrice de confusion est ajoutée à la sauvegarde automatique des résultats lors des expérimentations à grande échelle (voir « &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/tanagra-en-ligne-de-commande.html"&gt;Tanagra en Ligne de commande&lt;/a&gt; »). Merci à Laurent, et à tous ceux qui par leurs commentaires constructifs m'aident à aller dans le bon sens.&lt;br /&gt;&lt;br /&gt;Par ailleurs deux composants de régression par la méthode des Machines à Vastes Marges (Support Vector Regression) ont été ajoutés : Epsilon-SVR et Nu-SVR. Un &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/04/support-vector-regression.html"&gt;didacticiel&lt;/a&gt; présente ces méthodes et compare nos résultats avec ceux du logiciel R. Tanagra, comme R avec la package « e1071 », s'appuie sur la fameuse bibliothèque &lt;a href="http://www.csie.ntu.edu.tw/~cjlin/libsvm/" target="_blank"&gt;LIBSVM&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3836030450635324252?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3836030450635324252'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3836030450635324252'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/04/tanagra-version-1431.html' title='Tanagra - Version 1.4.31'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-113019170777088769</id><published>2009-04-15T10:01:00.006+02:00</published><updated>2009-04-15T10:13:27.809+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Régression'/><title type='text'>Support Vector Regression</title><content type='html'>Les SVM (séparateur à vaste marge, machines à vecteurs de support, support vector machine en anglais) sont des méthodes bien connues en apprentissage supervisé. Leur utilisation est en revanche moins répandue en régression. On parle de « Support Vector Regression » (SVR).&lt;br /&gt;&lt;br /&gt;La méthode est peu diffusée auprès des statisticiens. Pourtant, elle cumule des qualités qui la positionnent favorablement par rapport aux techniques existantes. Elle se comporte admirablement bien lorsque le ratio nombre de variables sur le nombre d’observations devient très défavorable, avec des prédicteurs fortement corrélés. Encore faut-il bien entendu trouver le paramétrage adéquat, nous y reviendrons dans ce didacticiel. Autre atout, avec le principe des noyaux, il est possible de construire des modèles non linéaires sans avoir à produire explicitement de nouveaux descripteurs.&lt;br /&gt;&lt;br /&gt;Le premier objectif de ce didacticiel est de montrer la mise en œuvre de deux nouveaux composants SVR de &lt;span style="color:#3333ff;"&gt;&lt;strong&gt;Tanagra 1.4.31&lt;/strong&gt;&lt;/span&gt; : espilon-SVR et nu-SVR. Ils sont issus de la bibliothèque LIBSVM que nous utilisons par ailleurs pour l’apprentissage supervisé (voir le composant &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/10/svm-comparaison-de-logiciels.html"&gt;C-SVC&lt;/a&gt;). Nous comparerons nos résultats avec ceux du logiciel R (version 2.8.0 - &lt;a href="http://cran.r-project.org/" target="_blank"&gt;http://cran.r-project.org/&lt;/a&gt;). Nous utilisons pour ce dernier le package &lt;a href="http://cran.r-project.org/web/packages/e1071/index.html" target="_blank"&gt;e1071&lt;/a&gt; basée également sur la bibliothèque LIBSVM.&lt;br /&gt;&lt;br /&gt;Le second objectif est de proposer un nouveau composant d’évaluation de la régression. Il est d’usage en apprentissage supervisé de scinder le fichier en deux parties, une pour la création du modèle, l’autre pour son évaluation, afin d’obtenir une estimation non biaisée des performances. Cette pratique est très peu répandue en régression. Pourtant, la procédure est nécessaire dès que nous sommes emmenés à comparer des prédicteurs de complexité différente. Nous constaterons ainsi dans ce didacticiel que les indicateurs usuels calculés sur les données d’apprentissage sont très trompeurs dans certaines situations.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : support vector regression, support vector machine, régression, régression linéaire multiple, évaluation de la régression, logiciel R, package e1071&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : MULTIPLE LINEAR REGRESSION, EPSILON SVR, NU SVR, REGRESSION ASSESSMENT&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Support_Vector_Regression.pdf" target="_blank"&gt;fr_Tanagra_Support_Vector_Regression.pdf &lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/qsar.zip" target="_blank"&gt;qsar.zip &lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références &lt;/strong&gt;:&lt;br /&gt;C.C. Chang, C.J. Lin, "&lt;a href="http://www.csie.ntu.edu.tw/~cjlin/libsvm/" target="_blank"&gt;LIBSVM - A Library for Support Vector Machines&lt;/a&gt;".&lt;br /&gt;S. Gunn, « &lt;a href="http://users.ecs.soton.ac.uk/srg/publications/pdf/SVM.pdf" target="_blank"&gt;Support Vector Machine for Classification and Regression &lt;/a&gt;», Technical Report of the University of Southampton, 1998.&lt;br /&gt;A. Smola, B. Scholkopf, « &lt;a href="http://eprints.pascal-network.org/archive/00002057/01/SmoSch03b.pdf" target="_blank"&gt;A tutorial on Support Vector Regression&lt;/a&gt; », 2003.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-113019170777088769?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/113019170777088769'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/113019170777088769'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/04/support-vector-regression.html' title='Support Vector Regression'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1304668075732738859</id><published>2009-04-15T09:48:00.006+02:00</published><updated>2009-04-15T09:54:11.512+02:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Analyse factorielle'/><title type='text'>Connexion Open Office Calc sous Linux</title><content type='html'>L'intégration de Tanagra dans un tableur, que ce soit &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html"&gt;Excel&lt;/a&gt; ou &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-open-office-calc.html"&gt;Open Office Calc&lt;/a&gt; (OOCalc), via le système des Add-Ons, est certainement un des principaux facteurs de diffusion du logiciel. Sans connaissances particulières concernant la manipulation de fichiers, un utilisateur peut envoyer directement ses données à partir d'un environnement auquel il est familiarisé, le tableur, vers un logiciel spécialisé de Data Mining.&lt;br /&gt;&lt;br /&gt;Les macros ont été initialement développées pour l'environnement Windows. Je me suis intéressé depuis peu au fonctionnement de &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/01/tanagra-sous-linux.html"&gt;Tanagra sous Linux&lt;/a&gt; via Wine. Je me suis rendu compte que le logiciel était pleinement fonctionnel sans l'utilisateur n'ait besoin de procéder à des tripatouillages compliqués du système. Il ne restait plus qu'à établir une connexion entre le tableur phare sous Linux (OOCalc) et Tanagra.&lt;br /&gt;&lt;br /&gt;M. Thierry Leiber a réalisé ce travail pour la version &lt;span style="color:#3366ff;"&gt;&lt;strong&gt;1.4.31&lt;/strong&gt;&lt;/span&gt; de Tanagra. Il a étendu la macro complémentaire initialement destinée à la version d'Open Office sous Windows. En résumant un peu, le code consiste à tester le système en vigueur, de former la commande adéquate pour lancer Tanagra, et transférer à ce dernier les données via le presse papier. De fait, l'Add-On est maintenant opérationnel que ce soit sous Windows ou sous Linux. Il a été testé en tous les cas dans les configurations suivantes : Windows XP + Open Office 3.0.0 ; Windows Vista + Open Office 3.0.1 ; Ubuntu 8.10 + Open Office 2.4 ; Ubuntu 8.10 + Open Office 3.0.1.&lt;br /&gt;&lt;br /&gt;Ce document reprend donc &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-open-office-calc.html"&gt;un de nos anciens tutoriels&lt;/a&gt;. La nouveauté ici est que nous travaillons sous Linux (distribution Ubuntu 8.10). Nous réaliserons une analyse en composantes principales pour illustrer notre propos. Mais notre principal objectif est bien de montrer le portage de la connexion sous Linux.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : open office calc, add-on, analyse en composantes principales, ACP, cercle des corrélations, variable illustrative, linux, ubuntu 8.10 intrepid ibex&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : PRINCIPAL COMPONENT ANALYSIS, CORRELATION SCATTERPLOT&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_OOCalc_under_Linux.pdf" target="_blank"&gt;fr_Tanagra_OOCalc_under_Linux.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/cereals.xls" target="_blank"&gt;cereals.xls&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références :&lt;/strong&gt;&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/connexion-open-office-calc.html"&gt;Connexion Open Office Calc&lt;/a&gt; »&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/01/tanagra-sous-linux.html"&gt;Tanagra sous Linux&lt;/a&gt; »&lt;br /&gt;Tutoriel Tanagra, « &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html"&gt;Connexion Excel [Macro complémentaire]&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1304668075732738859?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1304668075732738859'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1304668075732738859'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/04/connexion-open-office-calc-sous-linux.html' title='Connexion Open Office Calc sous Linux'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3543587222241231742</id><published>2009-02-16T13:17:00.005+01:00</published><updated>2009-11-02T17:27:20.299+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Importation des données'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Sipina - Formats de fichiers</title><content type='html'>L’accès aux données est la première étape du processus Data Mining. Lorsque nous souhaitons initier un traitement à l’aide d’un logiciel quelconque, la première question que nous nous posons est systématiquement « comment dois-je procéder pour importer mes données ? ». C’est donc un critère important pour juger de la qualité d’un logiciel. Nous pourrons fatalement moins consacrer de temps à l’exploration et l’interprétation lorsque la lecture et la manipulation des données deviennent des opérations difficiles et fastidieuses.&lt;br /&gt;&lt;br /&gt;Deux points de vue permettent de positionner les formats de fichier : la souplesse et la performance. On entend par souplesse la capacité à manipuler facilement le fichier, même en dehors du logiciel spécialisé. Le fichier texte est le format à privilégier dans ce contexte. Nous pouvons l’ouvrir, le modifier et l’enregistrer dans n’importe quel éditeur de texte. De plus, tout logiciel destiné à la manipulation de données (tableur, système de gestion de base de données entre autres) sait appréhender ce type de fichier. La performance revient surtout à évaluer la rapidité des accès et, dans une moindre mesure, l’occupation disque. Le critère de performance est surtout important lorsque nous avons à manipuler de très grands fichiers. En effet, Sipina réalisant les traitements en mémoire centrale, comme la majorité des logiciels de Data Mining libres d’ailleurs, il n’est pas nécessaire de répéter fréquemment les opérations de chargement et de sauvegarde.&lt;br /&gt;&lt;br /&gt;Dans ce document, notre premier objectif est de faire &lt;span style="color: rgb(51, 102, 255);"&gt;&lt;strong&gt;le point sur les différents formats de fichier que gère Sipina&lt;/strong&gt;&lt;/span&gt;. Il y a les fichiers textes au format simplifié (texte avec séparateur tabulation) ou spécialisé (ARFF de Weka) ; il y a les formats binaires que seul Sipina sait lire, mais qui sont très performants. Nous décrirons également la solution originale que nous avons mis en place pour faciliter le transfert d’Excel vers Sipina. Certaines solutions sont décrites en détail dans des didacticiels accessibles par ailleurs, nous indiquerons les pointeurs adéquats au fil du texte. L’autre objet de ce didacticiel est de &lt;span style="color: rgb(51, 102, 255);"&gt;&lt;strong&gt;comparer les performances&lt;/strong&gt;&lt;/span&gt; de Sipina selon ces différents formats, &lt;span style="color: rgb(51, 102, 255);"&gt;&lt;strong&gt;lorsque l’on traite un fichier de grande taille, comportant 4.817.099 observations et 42 variables&lt;/strong&gt;&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Enfin, nous avons construit un arbre de décision à partir de ce fichier pour évaluer un peu le comportement de Sipina face à un tel volume.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : fichier, format, texte, csv, arff, weka, fdm, fdz, zdm, arbres de décision&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/doc/fr_Sipina_File_Format.pdf" target="_blank"&gt;fr_Sipina_File_Format.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/weather.txt" target="_blank"&gt;weather.txt&lt;/a&gt; et &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/kdd-cup-discretized-descriptors.txt.zip" target="_blank"&gt;kdd-cup-discretized-descriptors.txt.zip&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3543587222241231742?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3543587222241231742'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3543587222241231742'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/02/sipina-formats-de-fichiers.html' title='Sipina - Formats de fichiers'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-8516208370811969339</id><published>2009-02-11T17:53:00.006+01:00</published><updated>2009-02-11T18:07:34.701+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Règles d'Association Prédictives</title><content type='html'>Les algorithmes d’extraction des règles d’association ont été initialement mis au point pour découvrir des liens logiques entre des variables ayant le même statut. Les règles d’association prédictives en revanche cherchent à produire les combinaisons d’items qui caractérisent au mieux une variable qui joue un rôle à part, on cherche à prédire ses valeurs.&lt;br /&gt;&lt;br /&gt;Fondamentalement, l’algorithme est peu modifié. L’exploration est simplement restreinte aux itemsets qui comportent la variable à prédire. Le temps de calcul est d’autant réduit. Deux composants de Tanagra sont dédiés à cette tâche, il s’agit de &lt;span style="color:#3366ff;"&gt;&lt;strong&gt;SPV ASSOC RULE&lt;/strong&gt;&lt;/span&gt; et &lt;span style="color:#3366ff;"&gt;&lt;strong&gt;SPV ASSOC TREE&lt;/strong&gt;&lt;/span&gt;. Ils sont accessibles dans l’onglet ASSOCIATION.&lt;br /&gt;&lt;br /&gt;Par rapport aux approches classiques, les composants de Tanagra introduisent une spécificité supplémentaire : nous avons la possibilité de préciser la classe (couple « variable à prédire = valeur ») que l’on souhaite prédire. L’intérêt est de pouvoir ainsi paramétrer finement l’algorithme de recherche, en relation directe avec les caractéristiques des données. Cela s’avère décisif par exemple lorsque les prévalences des modalités de la variable à prédire sont très différentes.&lt;br /&gt;&lt;br /&gt;Nous avions déjà présentés le composant SPV ASSOC TREE &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/04/rgles-dassociation-supervises.html"&gt;par ailleurs&lt;/a&gt;. Mais c’était dans le contexte de la caractérisation multivariée de groupes d’individus. Nous l’opposions alors au composant GROUP CHARACTERIZATION. Dans ce didacticiel, nous comparerons le comportement des composants SPV ASSOC TREE et SPV ASSOC RULE sur un problème de prédiction. Nous mettrons en avant leurs points communs, les problèmes qu’ils savent traiter ; et leurs différences, SPV ASSOC RULE, en plus de proposer des &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/02/mesures-dinteret-des-regles-dans-priori.html"&gt;mesures d’intérêt des règles originales&lt;/a&gt;, a la capacité de simplifier la base de règles.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : règles d’association prédictives, mesures d'intérêt des règles, simplification des bases de règles&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : SPV ASSOC TREE, SPV ASSOC RULE&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Predictive_AssocRules.pdf" target="_blank"&gt;fr_Tanagra_Predictive_AssocRules.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/credit_assoc.xls" target="_blank"&gt;credit_assoc.xls&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références &lt;/strong&gt;:&lt;br /&gt;R. Rakotomalala, « &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html#association" target="_blank"&gt;Règles d’association&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-8516208370811969339?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8516208370811969339'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/8516208370811969339'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/02/regles-dassociation-predictives.html' title='Règles d&apos;Association Prédictives'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6799210716545225634</id><published>2009-02-06T08:27:00.006+01:00</published><updated>2009-02-06T08:33:43.150+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Utiliser et paramétrer A PRIORI MR</title><content type='html'>L’extraction des règles d’association est une approche très populaire pour dégager les interdépendances entre les caractéristiques des individus. Elle a beaucoup été utilisée pour étudier les achats concomitants chez les consommateurs. Le résultat se présente sous la forme d’une règle logique du type « SI un individu a acheté tel ou tel produit ALORS il achètera également tel et tel produit ». Bien entendu, il est possible d’étendre le champ d’application de la méthode à d’autres domaines.&lt;br /&gt;&lt;br /&gt;Nous avons présenté les règles d’association à plusieurs reprises dans nos &lt;a href="http://tutoriels-data-mining.blogspot.com/search/label/R%C3%A8gles%20d%27association"&gt;didacticiels&lt;/a&gt;. La méthode A PRIORI est certainement la plus connue. Malgré ses qualités, l’approche présente un écueil fort : le nombre de règles produites peut être très élevé. La capacité à mettre en avant les « meilleures » règles, celles qui sont porteuses d’informations « intéressantes », devient ainsi un enjeu fort.&lt;br /&gt;&lt;br /&gt;Ces dernières années, on a vu fleurir un nombre impressionnant de publications cherchant à proposer des mesures d’intérêt des règles. Leur mise en œuvre est simple : on assigne un score (mesure d’intérêt) à chaque règle, on trie alors la base de règles de manière à ce que celles qui sont les plus informatives apparaissent en premier.&lt;br /&gt;&lt;br /&gt;Le composant &lt;strong&gt;&lt;span style="color:#3333ff;"&gt;A PRIORI MR&lt;/span&gt;&lt;/strong&gt; (onglet ASSOCIATION) est un outil expérimental qui propose plusieurs mesures d’évaluation des règles. Il met en avant, entres autres, le concept de « valeur-test ». C’est une mesure statistique développée par A. Morineau (1984), décrite dans un ouvrage (Lebart, Morineau et Piron, 2000), et largement utilisée dans le logiciel commercial SPAD (&lt;a href="http://www.spad.eu/" target="_blank"&gt;http://www.spad.eu/&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : règles d’association, mesures d'intérêt des règles&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : A PRIORI MR&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_APrioriMR_Component.pdf" target="_blank"&gt;fr_Tanagra_APrioriMR_Component.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/credit_assoc.xls" target="_blank"&gt;credit_assoc.xls&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références &lt;/strong&gt;:&lt;br /&gt;R. Rakotomalala, « &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html#association" target="_blank"&gt;Règles d’association&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6799210716545225634?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6799210716545225634'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6799210716545225634'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/02/utiliser-et-parametrer-priori-mr.html' title='Utiliser et paramétrer A PRIORI MR'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-9047606199815096212</id><published>2009-02-06T08:09:00.007+01:00</published><updated>2009-02-06T08:27:36.997+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Mesures d'intérêt des règles dans A PRIORI MR</title><content type='html'>Ce document recense les mesures d’évaluation des règles d’association proposées par le composant A PRIORI MR. Elles résultent d’études relatées dans une série de publications de A. Morineau et R. Rakotomalala (essentiellement en 2006).&lt;br /&gt;&lt;br /&gt;Une mesure sert à caractériser la pertinence d’une règle. Elle permet de les classer. Elle devrait aussi permettre de discerner celles qui sont « significativement intéressantes » de celles qui ne le sont pas. Ce dernier point reste totalement prospectif. Il n’y a pas de solutions réellement satisfaisantes à ce jour.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : règles d'association, mesures d'intérêt des règles, valeur test&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : A PRIORI MR&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_APrioriMR_Measures.pdf" target="_blank"&gt;fr_Tanagra_APrioriMR_Measures.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;A. Morineau, R. Rakotomalala, "Crtière VT-100 de sélection des règles d'association", in Actes de EGC-2006, pp. 581-592, Lille, 2006.&lt;br /&gt;Wikipedia, "&lt;a href="http://en.wikipedia.org/wiki/Association_rule_learning" target="_blank"&gt;Association rule learning&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-9047606199815096212?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/9047606199815096212'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/9047606199815096212'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/02/mesures-dinteret-des-regles-dans-priori.html' title='Mesures d&apos;intérêt des règles dans A PRIORI MR'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5462277797335122284</id><published>2009-01-23T22:14:00.008+01:00</published><updated>2009-01-24T19:35:19.776+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Comparaison des performances sous Linux</title><content type='html'>La courbe de gain est un outil important du ciblage marketing. On le retrouve sous des terminologies différentes selon les logiciels (gain chart, courbe lift, lift chart, courbe lift cumulative, etc.). Mais l'idée est toujours la même : nous affectons un score à des individus, nous trions la base selon un score décroissant, nous élaborons alors une graphique nuage de points avec, en abscisse, la proportion des individus dans la cible (les x premiers – en pourcentage - dans la base triée selon le score), et en ordonnée, la fraction des positifs que l'on y retrouve. Le dernier point est de coordonnée (100%, 100%) : lorsque tous les individus sont inclus dans la cible, nous sommes sûrs de retrouver tous les positifs.&lt;br /&gt;&lt;br /&gt;L'élaboration de la courbe de gains dans Tanagra est décrite par ailleurs (&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/ciblage-marketing-scoring-coil.html"&gt;http://tutoriels-data-mining.blogspot.com/2008/03/ciblage-marketing-scoring-coil.html&lt;/a&gt;). Notre idée dans ce didacticiel est d'élargir la description aux autres logiciels libres (&lt;span style="color:#3366ff;"&gt;Knime&lt;/span&gt;, &lt;span style="color:#3366ff;"&gt;RapidMiner&lt;/span&gt; et &lt;span style="color:#3366ff;"&gt;Weka&lt;/span&gt;). La seconde originalité de cette étude est que nous réalisons toutes les opérations sous Linux (distribution Ubuntu 8.10). Nous constaterons que Tanagra, tout comme les logiciels sus-cités, fonctionnent parfaitement. Cela nous amène à la troisième originalité de ce travail, nous traitons un fichier d'une taille importante avec &lt;strong&gt;&lt;span style="color:#009900;"&gt;2.000.000 d'observations et 41 variables&lt;/span&gt;&lt;/strong&gt;. Nous pourrons évaluer la tenue de ces logiciels lorsqu'on les place dans des situations extrêmes, de surcroît sur une machine très peu performante.&lt;br /&gt;&lt;br /&gt;Nous adopterons la même démarche pour chaque logiciel. Dans un premier temps, nous traitons un échantillon de 2.000 observations, nous pouvons ainsi paramétrer à notre aise les calculs et obtenir au moins une fois un résultat que l'on peut montrer. Dans un second temps, nous modifions la source de données pour traiter le fichier complet. Nous mesurons alors le temps d’exécution, nous mesurons également l'occupation mémoire à l'issue de tous les traitements. Nous constaterons que certains logiciels ne pourront pas mener à leur terme les calculs.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : scoring, ciblage marketing, analyse discriminante, courbe lift, courbe de gain, knime, rapidminer, weka, orange&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : SAMPLING, LINEAR DISCRIMINANT ANALYSIS, SCORING, LIFT CURVE&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Gain_Chart.pdf" target="_blank"&gt;fr_Tanagra_Gain_Chart.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/dataset_gain_chart.zip" target="_blank"&gt;dataset_gain_chart.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;Wikipedia, "&lt;a href="http://fr.wikipedia.org/wiki/Analyse_discriminante_lin%C3%A9aire" target="_blank"&gt;Analyse discriminante linéaire&lt;/a&gt;"&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/slides/scoring_et_ciblage.pdf" target="_blank"&gt;Ciblage marketing&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5462277797335122284?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5462277797335122284'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5462277797335122284'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/01/comparaison-de-performances-sous-linux.html' title='Comparaison des performances sous Linux'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3996181937435145752</id><published>2009-01-20T19:03:00.011+01:00</published><updated>2009-01-20T20:47:27.019+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Arbres de décision'/><category scheme='http://www.blogger.com/atom/ns#' term='Sipina'/><title type='text'>Sipina sous Linux</title><content type='html'>Je suis dans la période où je (re)découvre Linux. Nous avons vu récemment qu'il était possible de travailler avec &lt;a href="http://tutoriels-data-mining.blogspot.com/2009/01/tanagra-sous-linux.html"&gt;Tanagra sous Linux &lt;/a&gt;via Wine, simplement, sans contorsions compliquées.&lt;br /&gt;&lt;br /&gt;Nous montrons dans ce document qu'il est possible de faire de même avec Sipina. &lt;span style="color: rgb(51, 102, 255);"&gt;Toutes les fonctionnalités du logiciel sont accessibles&lt;/span&gt;. On pense notamment aux outils interactifs qui permettent de guider la construction de l'arbre et d'explorer finement les sous-groupes d'observations associées aux nœuds.&lt;br /&gt;&lt;br /&gt;Nous ne nous étendrons pas outre mesure sur ces fonctionnalités qui sont largement présentées par ailleurs dans plusieurs tutoriels accessibles sur le site web de Sipina. Notre principal objectif dans ce tutoriel est de montrer qu'il est possible d'utiliser Sipina sous Linux.&lt;br /&gt;&lt;br /&gt;Nous utilisons la distribution française de Ubuntu 8.10. Nous avons également installé WINE, un outil extraordinaire qui permet d'exécuter un très grand nombre de logiciels initialement compilés pour Windows.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : linux, ubuntu, wine, sipina, arbres de décision&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/softs/fr_Sipina_under_Linux.pdf" target="_blank"&gt;fr_Sipina_under_Linux.pdf&lt;/a&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Données&lt;/span&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/breast.txt" target="_blank"&gt;breast.txt&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;"Sipina", &lt;a href="http://sipina.over-blog.fr/" target="_blank"&gt;http://sipina.over-blog.fr/&lt;/a&gt; ou &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/sipina.html" target="_blank"&gt;http://eric.univ-lyon2.fr/~ricco/sipina.html&lt;/a&gt;&lt;br /&gt;"Ubuntu", &lt;a href="http://www.ubuntu-fr.org/" target="_blank"&gt;http://www.ubuntu-fr.org/&lt;/a&gt;&lt;br /&gt;"Wine", &lt;a href="http://doc.ubuntu-fr.org/wine" target="_blank"&gt;http://doc.ubuntu-fr.org/wine&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3996181937435145752?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3996181937435145752'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3996181937435145752'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/01/sipina-sous-linux.html' title='Sipina sous Linux'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-1366469368219706598</id><published>2009-01-11T19:01:00.010+01:00</published><updated>2009-01-11T21:19:52.376+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra - Fonctionnalités'/><title type='text'>Tanagra sous Linux</title><content type='html'>Une question des utilisateurs qui revient souvent est : « est-ce que l'on peut utiliser Tanagra sous Linux ? ». La réponse est OUI et NON.&lt;br /&gt;&lt;br /&gt;NON, parce que Tanagra est compilé avec Delphi pour Windows. L'exécutable ne peut pas être directement lancé dans l'environnement Linux.&lt;br /&gt;&lt;br /&gt;OUI, parce qu'il y a WINE, un outil performant qui permet d'exécuter des applications Windows sous Linux. Nous pouvons ainsi profiter de toutes les fonctionnalités de Tanagra sans avoir à se poser des questions sur les éventuels problèmes de compatibilités, etc. De fait, &lt;span style="color: rgb(51, 51, 255);"&gt;l'utilisation de Tanagra sous Linux est complètement transparente. On clique sur le raccourci, le programme démarre, il est directement utilisable sans que l'on ait à se poser des questions compliquées&lt;/span&gt;. Plusieurs utilisateurs me l'avaient déjà signalé. Je me suis dit qu'il était temps de documenter tout cela.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, nous montrons comment faire fonctionner Tanagra dans UBUNTU (une distribution gratuite de Linux) via l'environnement WINE que nous devrons préalablement installer.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : linux, ubuntu, wine&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/%7Ericco/tanagra/fichiers/fr_Tanagra_under_Linux.pdf" target="_blank"&gt;fr_Tanagra_under_Linux.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références &lt;/strong&gt;:&lt;br /&gt;"Ubuntu", &lt;a href="http://www.ubuntu-fr.org/" target="_blank"&gt;http://www.ubuntu-fr.org/&lt;/a&gt;&lt;br /&gt;"Wine", &lt;a href="http://doc.ubuntu-fr.org/wine" target="_blank"&gt;http://doc.ubuntu-fr.org/wine&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-1366469368219706598?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1366469368219706598'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/1366469368219706598'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/01/tanagra-sous-linux.html' title='Tanagra sous Linux'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-6181982300715883401</id><published>2009-01-06T08:03:00.009+01:00</published><updated>2009-01-06T08:19:04.730+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Coûts de mauvais classement en apprentissage supervisé</title><content type='html'>Tout le monde s’accorde à dire que l’intégration des coûts de mauvais classement est un aspect incontournable de la pratique du Data Mining. Diagnostiquer une maladie chez un patient sain ne produit pas les mêmes conséquences que de prédire la bonne santé chez un individu malade. Dans le premier cas, le patient sera soigné à tort, ou peut être demandera-t-on des analyses supplémentaires superflues ; dans le second cas, il ne sera pas soigné, au risque de voir son état se détériorer de manière irrémédiable. Pourtant, malgré son importance, le sujet est peu abordé, tant du point de vue théorique c.-à-d. comment intégrer les coûts dans l’évaluation des modèles (facile) que dans leur construction (un peu moins facile), que du point de vue pratique c.-à-d. comment les mettre en œuvre dans les logiciels.&lt;br /&gt;&lt;br /&gt;La prise en compte des coûts lors de l’évaluation ne pose pas de problèmes particuliers. La prise en compte des coûts lors de l’élaboration du modèle de classement est moins connue. Plusieurs approches sont possibles.&lt;br /&gt;&lt;br /&gt;Si les techniques existent, qu’en est-il de leur implémentation dans les logiciels libres ? Après investigations, on se rend compte que les logiciels qui les intègrent de manière naturelle sont très peu nombreux. Il semble que Weka soit l’un des rares à proposer des outils faciles à manipuler pour l’intégration des coûts. Ce constat nous a amené à introduire de nouveaux composants destinés à la prise en compte des coûts en apprentissage supervisé dans la version 1.4.29 de Tanagra.&lt;br /&gt;&lt;br /&gt;Dans ce document, nous montrons la mise en œuvre de ces composants de &lt;span style="color:#3366ff;"&gt;Tanagra 1.4.29&lt;/span&gt; sur un problème réel (réaliste). Nous avons également programmé ces mêmes procédures dans le logiciel &lt;span style="color:#3366ff;"&gt;R 2.8.0&lt;/span&gt; (&lt;a href="http://www.r-project.org/"&gt;http://www.r-project.org/&lt;/a&gt;) pour donner une meilleure visibilité sur ce qui est implémenté. Nous comparerons nos résultats avec ceux de &lt;span style="color:#3366ff;"&gt;Weka 3.5.8&lt;/span&gt;. L’algorithme sous-jacent à toutes nos analyses sera un arbre de décision. Selon les logiciels, nous utiliserons C4.5, CART ou J48.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : apprentissage supervisé, coûts de mauvais classement, arbres de décision, Weka 3.5.8, logiciel R 2.8.0, package rpart&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Cost_Sensitive_Learning.pdf" target="_blank"&gt;fr_Tanagra_Cost_Sensitive_Learning.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/dataset-dm-cup-2007.zip" target="_blank"&gt;dataset-dm-cup-2007.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;J.H. Chauchat, R. Rakotomalala, M. Carloz, C. Pelletier, "&lt;a href="http://www.informatik.uni-freiburg.de/~ml/ecmlpkdd/WS-Proceedings/w10/chauchat_workshop.pdf" target="_blank"&gt;Targeting Customer Groups using Gain and Cost Matrix: a Marketing Application&lt;/a&gt;", PKDD-2001.&lt;br /&gt;J.H. Chauchat, R. Rakotomalala, "&lt;a href="http://sipina.over-blog.fr/article-18203843.html" target="_blank"&gt;Cost sensitive C4.5&lt;/a&gt;"&lt;br /&gt;Tutoriel Tanagra, "&lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/apprentissage-test-avec-sipina.html"&gt;Apprentissage-test avec Sipina&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-6181982300715883401?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6181982300715883401'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/6181982300715883401'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2009/01/cots-de-mauvais-classement-en.html' title='Coûts de mauvais classement en apprentissage supervisé'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-5607734124471776437</id><published>2008-11-17T08:28:00.009+01:00</published><updated>2008-11-17T09:21:24.303+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><category scheme='http://www.blogger.com/atom/ns#' term='Règles d&apos;association'/><title type='text'>Règles d’association – Comparaison de logiciels</title><content type='html'>Ce document reprend un &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/04/rgles-dassociation-orange-tanagra-et.html"&gt;précédent tutoriel&lt;/a&gt; dédié à la comparaison des implémentations libres des règles d’association. Nous avions étudié Tanagra, Orange, et Weka. Nous étendons le comparatif aux logiciels R (package arules), RapidMiner et Knime.&lt;br /&gt;&lt;br /&gt;Nos données se présentent sous la forme d’un tableau générique « attribut – valeur », avec les individus en ligne et les variables en colonne. Ce n’est pas le format usuel pour les règles d’association où l’on traite plutôt des bases transactionnelles : chaque ligne est une transaction, pour chaque transaction nous disposons de la liste des items observés.&lt;br /&gt;&lt;br /&gt;Nous verrons dans ce didacticiel que certains logiciels savent traiter le format tableau en réalisant automatiquement en interne le recodage. Pour d’autres en revanche, il nous faudra procéder explicitement au recodage. Il importe alors de trouver les bons outils et la bonne séquence de traitements pour produire le format propice à l’extraction des règles d’association. Les manipulations ne sont pas toujours évidentes selon les logiciels.&lt;br /&gt;&lt;br /&gt;Tous les logiciels étudiés implémentent une version plus ou moins élaborée de l’algorithme A PRIORI (Agrawal et Srikant, 1994). Pour être tout à fait précis, et afin que tout un chacun puisse reproduire exactement les opérations, nous avons mis à contribution les versions suivantes dans ce comparatif : &lt;span style="color:#3366ff;"&gt;Tanagra 1.4.28&lt;/span&gt; ; &lt;span style="color:#3366ff;"&gt;R 2.7.2&lt;/span&gt; (package arules 0.6-6) ; &lt;span style="color:#3366ff;"&gt;Orange 1.0b2&lt;/span&gt; ; &lt;span style="color:#3366ff;"&gt;RapidMiner&lt;/span&gt; Community Edition ; &lt;span style="color:#3366ff;"&gt;Knime 1.3.5&lt;/span&gt; et &lt;span style="color:#3366ff;"&gt;Weka 3.5.6&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Tous chargent la totalité des données et effectuent les calculs en mémoire vive. Lorsque la taille de la base augmente, le véritable goulot d’étranglement est donc la mémoire disponible sur notre machine.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : règles d’association&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : A PRIORI, A PRIORI PT&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Assoc_Rules_Comparison.pdf" target="_blank"&gt;fr_Tanagra_Assoc_Rules_Comparison.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/credit-german.zip" target="_blank"&gt;credit-german.zip&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;R. Rakotomalala, « &lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html#association" target="_blank"&gt;Règles d’association&lt;/a&gt; »&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-5607734124471776437?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5607734124471776437'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/5607734124471776437'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2008/11/rgles-dassociation-comparaison-de.html' title='Règles d’association – Comparaison de logiciels'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-3934274560248037340</id><published>2008-11-06T03:55:00.008+01:00</published><updated>2008-11-06T04:07:49.852+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='App. Supervisé - Scoring'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Validation croisée - Comparaison de logiciels (suite)</title><content type='html'>Ce didacticiel reprend un de nos anciens articles consacrés à la mise en œuvre de la validation croisée pour l’évaluation des performances des arbres de décision (voir &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/04/arbres-de-dcision-avec-orange-tanagra.html"&gt;Arbres de décision avec Orange, Tanagra et Weka&lt;/a&gt;). Nous comparions la démarche à suivre et la lecture des résultats pour Tanagra, Orange et Weka.&lt;br /&gt;&lt;br /&gt;Dans ce document, nous étendons le descriptif aux logiciels &lt;a href="http://www.r-project.org/" target="_blank"&gt;R 2.7.2&lt;/a&gt;, &lt;a href="http://www.knime.org/" target="_blank"&gt;Knime 1.3.51&lt;/a&gt; et &lt;a href="http://rapid-i.com/content/blogcategory/38/69/" target="_blank"&gt;RapidMiner Community Edition&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Les objectifs et le cheminement sont les mêmes. Le lecteur peut se reporter à notre précédent didacticiel s’il souhaite avoir des précisions sur ces éléments. Nous utilisons le fichier HEART.TXT (UCI). L’objectif est de prédire l’occurrence des maladies cardio-vasculaires (COEUR). Le fichier a été nettoyé, le nombre de descripteurs a été réduit (12 variables prédictives), il en est de même pour les observations (270 individus).&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : apprentissage supervisé, arbres de décision, évaluation des classifieurs, méthode de ré échantillonnage, validation croisée, RapidMiner, Knime, logiciel R, package rpart&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Validation_Croisee_Suite.pdf" target="_blank"&gt;fr_Tanagra_Validation_Croisee_Suite.pdf&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/heart.zip" target="_blank"&gt;heart.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;R. Rakotomalala, "&lt;a href="http://eric.univ-lyon2.fr/~ricco/cours/slides/resampling_evaluation.pdf" target="_blank"&gt;Estimation de l'erreur de prédiction - Les techniques de ré échantillonnage&lt;/a&gt;"&lt;br /&gt;R. Rakotomalala, " Arbres de décision ", Revue Modulad, 33, 163-187, 2005 (&lt;a href="http://eric.univ-lyon2.fr/~ricco/doc/tutoriel_arbre_revue_modulad_33.pdf" target="_blank"&gt;tutoriel_arbre_revue_modulad_33.pdf&lt;/a&gt;)&lt;br /&gt;UCI Machine Learning Repository, "&lt;a href="http://archive.ics.uci.edu/ml/datasets/Heart+Disease" target="_blank"&gt;Heart Disease Data set&lt;/a&gt;"&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-3934274560248037340?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3934274560248037340'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/3934274560248037340'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2008/11/validation-croise-comparaison-de.html' title='Validation croisée - Comparaison de logiciels (suite)'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-7423702304836691135</id><published>2008-10-30T08:40:00.008+01:00</published><updated>2008-10-31T04:30:19.957+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Classification - Clustering'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>Classification automatique - Déploiement de modèles</title><content type='html'>Le déploiement est une étape importante du Data Mining. Dans le cas d'une typologie, il s'agit, après la construction des classes à l'aide d'un algorithme de classification automatique, d'affecter les individus supplémentaires aux groupes.&lt;br /&gt;&lt;br /&gt;Cette phase de catégorisation vient naturellement après le processus de modélisation. La construction et l'interprétation des groupes nous permettent de dégager des caractéristiques et des comportements types. Lorsque apparaît un nouvel individu (un nouveau client pour une banque, un nouveau patient pour un centre hospitalier, etc.), le positionner par rapport aux groupes permet d'anticiper sur son attitude.&lt;br /&gt;&lt;br /&gt;Mais le traitement des individus supplémentaires peut aussi servir à renforcer les résultats. Lorsqu'une sous population est connue pour son comportement atypique, la classer par rapport aux groupes construits sur le reste de la population renforce à la fois l'interprétation des groupes et la connaissance que l'on peut avoir des ces " niches " d'observations. On parle plus volontiers d'individus illustratifs dans ce cas.&lt;br /&gt;&lt;br /&gt;Dans ce didacticiel, &lt;span style="color:#33cc00;"&gt;nous construisons&lt;/span&gt; tout d'abord &lt;span style="color:#33cc00;"&gt;les groupes à l'aide de la méthode des K-Means&lt;/span&gt; (méthode des centres mobiles). &lt;span style="color:#33cc00;"&gt;Puis, nous associons chaque individu supplémentaire à la classe qui lui est la plus proche au sens de la distance aux centres de classes&lt;/span&gt;. &lt;span style="color:#3333ff;"&gt;La méthode est viable car la technique utilisée pour classer l'individu supplémentaire est en accord avec la démarche de constitution des groupes lors de l'apprentissage&lt;/span&gt;. Ce n'est pas toujours bien compris. Si nous avions utilisé une classification ascendante hiérarchique avec la méthode du saut minimum, classer un nouvel individu à partir de la distance aux centres de classes n'est pas approprié. La stratégie d'affectation doit être en adéquation avec la stratégie d'agrégation.&lt;br /&gt;&lt;br /&gt;Notre fichier est composé exclusivement de variables qualitatives. Nous devons donc passer par une phase préalable de préparation des variables (voir aussi &lt;a href="http://tutoriels-data-mining.blogspot.com/2008/03/k-means-sur-variables-qualitatives.html"&gt;K-Means sur variables qualitatives&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;Nous utilisons &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html" target="_blank"&gt;Tanagra 1.4.28&lt;/a&gt; et &lt;a href="http://www.r-project.org/" target="_blank"&gt;R 2.7.2&lt;/a&gt; (avec le package FactoMineR pour l'analyse des correspondances multiples). Dans ce didacticiel, nos objectifs sont : (1) montrer comment réaliser ce type de tâche avec ces deux logiciels ; (2) comparer les résultats ; (3) en détaillant les commandes dans R, nous donnons une meilleure visibilité sur les calculs réalisés par Tanagra.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : clustering, classification automatique, typologie, k-means, méthode des centres mobiles, méthode des nuées dynamiques, ACM, AFCM, analyse factorielle des correspondances multiples, interprétation des classes, tableau de contingence, déploiement de modèles, classement d’individus supplémentaires, exportation des résultats&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : MULTIPLE CORRESPONDENCE ANALYSIS, K-MEANS, GROUP CHARACTERIZATION, CONTINGENCY CHI-SQUARE, EXPORT DATASET&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_KMeans_Deploiement.pdf" target="_blank"&gt;fr_Tanagra_KMeans_Deploiement.pdf&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/banque_classif_deploiement.zip" target="_blank"&gt;banque_classif_deploiement.zip&lt;/a&gt;&lt;br /&gt;&lt;strong&gt;Références &lt;/strong&gt;:&lt;br /&gt;Wikipedia (en), « &lt;a href="http://en.wikipedia.org/wiki/K-means_algorithm" target="_blank"&gt;K-Means algorithm&lt;/a&gt; ».&lt;br /&gt;F. Husson, S. Lê, J. Josse, J. Mazet, « &lt;a href="http://factominer.free.fr/" target="_blank"&gt;FactoMineR&lt;/a&gt; – A package dedicated to Factor Analysis and Data Mining with R ».&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-7423702304836691135?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7423702304836691135'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/7423702304836691135'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2008/10/classification-automatique-dploiement.html' title='Classification automatique - Déploiement de modèles'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry><entry><id>tag:blogger.com,1999:blog-4899725441569343706.post-551623638217375576</id><published>2008-10-26T10:22:00.008+01:00</published><updated>2008-10-26T10:35:47.754+01:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Classification - Clustering'/><category scheme='http://www.blogger.com/atom/ns#' term='Tanagra et les autres'/><title type='text'>K-Means – Comparaison de logiciels</title><content type='html'>&lt;p&gt;La méthode des K-Means (méthode des centres mobiles) est une technique de classification automatique (clustering en anglais). Elle vise à produire un regroupement de manière à ce que les individus du même groupe soient semblables, les individus dans des groupes différents soient dissemblables.&lt;/p&gt;&lt;p&gt;Nous l’avons déjà décrite (faire recherche sur le mot clé &lt;span style="color:#3333ff;"&gt;k-means&lt;/span&gt; ou voir la section &lt;span style="color:#3333ff;"&gt;classification-clustering&lt;/span&gt;) par ailleurs. Notre idée dans ce didacticiel est de montrer sa mise en oeuvre dans différents logiciels libres de Data Mining. Nous souhaitons utiliser la démarche suivante :&lt;/p&gt;&lt;ul&gt;&lt;li&gt;Importer les données ;&lt;/li&gt;&lt;li&gt;Réaliser quelques statistiques descriptives sur les variables actives ;&lt;/li&gt;&lt;li&gt;Centrer et réduire les variables ;&lt;/li&gt;&lt;li&gt;Réaliser la classification automatique via les K-Means sur les variables transformées, en décidant nous même du nombre de classes ;&lt;/li&gt;&lt;li&gt;Visualiser les données avec la nouvelle colonne représentant la classe d’appartenance des individus ;&lt;/li&gt;&lt;li&gt;Illustrer les classes à l’aide des variables actives, via des statistiques descriptives comparatives et des graphiques judicieusement choisis ;&lt;/li&gt;&lt;li&gt;Croiser la partition obtenue avec une variable catégorielle illustrative ;&lt;/li&gt;&lt;li&gt;Exporter les données, avec la colonne additionnelle, dans un fichier.&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;span style="color:#009900;"&gt;Ces étapes&lt;/span&gt; sont &lt;span style="color:#009900;"&gt;usuelles lors de la construction d’une typologie&lt;/span&gt;. L’intérêt de ce didacticiel est de montrer qu’elles &lt;span style="color:#009900;"&gt;sont pour la plupart&lt;/span&gt;, sous des formes parfois diverses certes, &lt;span style="color:#009900;"&gt;réalisables avec les logiciels libres de Data Mining&lt;/span&gt;. Il faut simplement trouver les bons composants et le bon enchaînement. &lt;/p&gt;&lt;p&gt;Nous étudierons les logiciels suivants : &lt;span style="color:#3333ff;"&gt;Tanagra 1.4.28&lt;/span&gt; ; &lt;span style="color:#3333ff;"&gt;R 2.7.2&lt;/span&gt; (sans package additionnel spécifique) ; &lt;span style="color:#3333ff;"&gt;Knime 1.3.5&lt;/span&gt; ; &lt;span style="color:#3333ff;"&gt;Orange 1.0b2&lt;/span&gt; et &lt;span style="color:#3333ff;"&gt;RapidMiner&lt;/span&gt; Community Edition. &lt;/p&gt;&lt;p&gt;Nous utilisons la méthode des centres mobiles dans ce tutoriel. Il est possible de suivre la même démarche globale en lui substituant n’importer quelle autre technique de classification automatique (la classification ascendante hiérarchique, les cartes de Kohonen, etc.).&lt;/p&gt;&lt;p&gt;Bien évidemment, je ne peux prétendre maîtriser complètement les différents logiciels. Il se peut que des fonctionnalités m’échappent pour certains d’entre eux. Il faut surtout voir les grandes lignes et le parallèle entre les outils, les experts pourront compléter les opérations à leur guise.&lt;/p&gt;&lt;p&gt;&lt;strong&gt;Mots clés&lt;/strong&gt; : clustering, classification automatique, typologie, k-means, méthode des centres mobiles, méthode des nuées dynamiques, ACP, interprétation des classes&lt;br /&gt;&lt;strong&gt;Composants&lt;/strong&gt; : PRINCIPAL COMPONENT ANALYSIS, K-MEANS, GROUP CHARACTERIZATION, EXPORT DATASET&lt;br /&gt;&lt;strong&gt;Lien&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_et_les_autres_KMeans.pdf" target="_blank"&gt;fr_Tanagra_et_les_autres_KMeans.pdf&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Données&lt;/strong&gt; : &lt;a href="http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/cars_dataset.zip" target="_blank"&gt;cars_dataset.zip&lt;br /&gt;&lt;/a&gt;&lt;strong&gt;Références&lt;/strong&gt; :&lt;br /&gt;Wikipedia (en), « &lt;a href="http://en.wikipedia.org/wiki/K-means_algorithm" target="_blank"&gt;K-Means algorithm&lt;/a&gt; ».&lt;br /&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/4899725441569343706-551623638217375576?l=tutoriels-data-mining.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/551623638217375576'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/4899725441569343706/posts/default/551623638217375576'/><link rel='alternate' type='text/html' href='http://tutoriels-data-mining.blogspot.com/2008/10/k-means-comparaison-de-logiciels.html' title='K-Means – Comparaison de logiciels'/><author><name>Tanagra</name><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author></entry></feed>
