mercredi 31 décembre 2014

Méthodologie statistique pour l'analyse prédictive

Google est mon ami, tout le monde l’a bien compris (ça rime !). Je passe beaucoup de temps à effectuer des recherches sur le web, à lire, à classer les documents, à les annoter pour pouvoir les reprendre plus facilement lorsqu’il s’agira d’écrire un tutoriel sur tel ou tel sujet.

Tout récemment, je suis tombé sur le document « Méthodologie statistique pour la discrimination et classement » de Pierre Traissac. Je lis d’abord un peu en diagonale parce qu’il y a des mots-clés qui me parlent… et d’un coup je me rends compte que l’auteur nous livre là une trame particulièrement claire d’une démarche d’analyse prédictive, si populaire en data science (data mining). Je me suis dit qu’il serait intéressant d’en faire un petit résumé.

Mots clés : analyse prédictive, analyse discriminante prédictive, analyse discriminante linéaire, régression logistique, arbres de décision, arbres de segmentation, cart
Composants Tanagra : BINARY LOGISTIC REGRESSION, LINEAR DISCRIMINANT ANALYSIS, C-RT
Lien : Résumé
Références :
Pierre Traissac, "Méthodologie statistique pour la discrimination et le classement. Application au ciblage des interventions nutritionnelles", in Padilla M, Delpeuch F, Le Bihan G, Maire B, editors. Les politiques alimentaires en Afrique du Nord D'une assistance généralisée aux interventions ciblées. Paris: Karthala; 1995. p. 393-431.
Références connexes :
B. Marie, F. Delpeuch, M. Padilla, G. Le Bihan, "Le ciblage dans les politiques et programmes nutritionnels", in Padilla M, Delpeuch F, Le Bihan G, Maire B, editors. Les politiques alimentaires en Afrique du Nord D'une assistance généralisée aux interventions ciblées. Paris: Karthala; 1995. p. 35-57.
P. Traissac P., B. Marie, F.Delpeuch, "Aspects statistiques du ciblage des politiques et programmes nutritionnels dans les pays en voie de développement", in Laloë Francis (ed.), Perrier X. (ed.), Pavé A. (pref.) De l'observation à l'analyse : implication de la biométrie dans les pays de développement. Paris : Société Française de Biométrie, 1998, (15), (Session de Biométrie ; 15). Journées de la Société Française de Biométrie, Carcassonne (FRA), 1997, p. 79-98.

mardi 30 décembre 2014

Règles de décision prédictives - Diapos

Bien connu des chercheurs d’obédience « machine learning », l’induction de règles prédictives est rarement mise en avant en « statistical learning ». Cela m’a paru toujours un peu étrange, bien que faire la distinction entre les deux communautés n’est pas toujours évidente. Pour ma part, j’évite d’entrer dans ce genre de discussions. Pour simplifier, j’associe l’esprit « machine learning » à l’ouvrage de Tom Mitchell  (1997), « statistical learning » est plutôt rattaché au livre de Hastie, Tibshirani et Friedman (2009). Et je m’en tiens à cette idée. Je mesure parfaitement en revanche les compétences que je cherche à transmettre à mes étudiants, c’est ce qui importe après tout.

Pour en revenir à l’apprentissage des règles de décision dans le cadre de l’analyse prédictive, je présente dans ces slides les différentes méthodes d’élaboration de bases de règles à partir de données. Les méthodes separate-and-conquer, par opposition aux techniques divide-and-conquer c.-à-d. les arbres de décision, y ont la part belle. Je détaille les différentes méthodes top-down aboutissant à  un système prédictif sous la forme d’une liste de décision (decision list en anglais) ou en un ensemble de règles non imbriquées (règles non ordonnées – unordered rules). Pour élargir le débat, je parle également, de manière plus ou moins détaillée des autres approches, moins connues, mais qui ont pourtant mobilisé des énergies à  différentes périodes : les techniques bottom-up, les algorithmes génétiques, les règles d’association prédictives, les règles prédictives floues.

Des tutoriels permettant de pratiquer ces techniques sur des données réelles à l’aide de logiciels librement accessibles sont référencés.

Mots clés : induction de règles, règles prédictives, listes de décision, base de connaissances, CN2, arbres de décision
Composants Tanagra : DECISION LIST, RULE INDUCTION, SPV ASSOC RULE
Lien : Règles de décision prédictives
Données : weather rule induction data
Références :
Tutoriel Tanagra,"Induction de règles prédictives", novembre 2009.
Tutoriel Tanagra, "Induction de règles floues avec Knime", janvier 2010.
J. Furnkranz, "Separate-and-Conquer Rule Learning", Artificial Intelligence Review, 13: 3-54, 1999.

samedi 20 décembre 2014

Data Mining with Decision Trees

Comme tout enseignant-chercheur, je passe beaucoup de temps à lire. Habituellement, j’essaie de trouver à la bibliothèque les ouvrages qui m’intéressent. Quand je vois que ça tient vraiment la route, je l’achète. Cette stratégie n’est pas trop possible pour les livres en anglais. Dans ce cas, j’acquière le livre sur la foi d’un titre, d’un auteur, d’un résumé, d’une quatrième de couverture, … et il m’arrive de les lire un peu en diagonale à l’arrivée parce que je suis un peu déçu ou bien parce que ça ne correspond pas vraiment à ce que je cherchais.

Pour rentabiliser ces lectures, et m’obliger à scruter attentivement tout livre qui me passe entre les mains, j’ai décidé d’inaugurer un nouveau thème sur ce blog : les résumés d’ouvrages. L’idée est de les rendre plus accessible en essayant d’en cerner la teneur. Si ça peut inciter les étudiants à lire d’avantage, ce n’est pas plus mal.

Dans ce post, je décris le livre de Rokach et Maimon consacré aux arbres de décision.

Mots clés : arbres de décision, arbres de segmentation, chaid, c4.5, cart
Composants Tanagra : C4.5, C-RT, CS-CRT, CS-MC4, ID3
Lien : Résumé
Références :
L. Rokach and O. Maimon, "Data Mining with Decision Trees - Theory and Applications", Series in Machine Perception and Artificial Intelligence, vol. 61, World Scientific Publising, 2007.

jeudi 18 décembre 2014

Introduction aux arbres de décision - Diapos

Au milieu des années 90, « faire du data mining » était assimilé à construire des arbres de décision. Le raccourci était bien évidemment trop simpliste, même si les arbres constituent effectivement une des méthodes phares du data mining (on dirait data science aujourd’hui).

Mes diapos sur les arbres ont été parmi les premiers que j’aie rédigés pour mes cours de data mining à l’Université. Ils avaient très peu évolué depuis parce que, entres autres, la méthode – la construction d’un arbre unique à partir d’un échantillon d’apprentissage - est bien établie et a connu peu de bouleversements fondamentaux depuis la fin des années 80. Il n’en reste pas moins qu’au fil des années, mon discours a évolué. Notamment parce que les outils actuels proposent des fonctionnalités de plus en plus performantes pour l’exploration interactive, pour l’appréhension de la volumétrie, etc. Je le disais verbalement. Je me suis dit qu’il était temps de matérialisé cela sur le support que j’utilise pour mes présentations. Je l’ai également complété en insérant les références sur les nombreux tutoriels récents que j’ai pu écrire sur l’induction des arbres à l’aide de différents logiciels.

Mots clés : arbres de décision, arbres de segmentation, chaid, c4.5, cart, sipina, logiciel R, spad, package rpart, tree, party, arbres interactifs
Composants Tanagra : C4.5, C-RT, CS-CRT, CS-MC4, ID3
Lien : Introduction aux arbres de décision
Références :
R. Rakotomalala, "Arbres de décision", Revue MODULAD, n°33, pp. 163-187, 2005.

dimanche 7 décembre 2014

Débogage sous RStudio

Durant les travaux dirigés pour mon cours de programmation R, les étudiants me sollicitent pour les aider à identifier les bugs qui bloquent leurs programmes. Parfois, je vois immédiatement le problème parce qu’il y a une erreur de syntaxe, ou enchaînement d’accolades mal maîtrisé. Souvent, je leur dis d’émailler leur code de print() pour que l’on puisse comprendre l’enchaînement des opérations et évaluer l’état des variables importantes dans le programme. Rapidement dans ce cas, les incohérences apparaissent, et la correction apparaît évidente (elle l’est toujours après coup).

Une autre solution est possible si l’on travaille sous RStudio. Nous pouvons nous appuyer sur le débogueur intégré.  Le post ci-dessous, accessible sur le site de l’éditeur de l’outil, décrit la procédure à suivre. Il détaille les outils et options disponibles. La possibilité de lancer pas-à-pas les lignes d’instruction est absolument indispensable lorsqu’on souhaite tracer l'exécution d'un programme. RStudio propose un dispositif particulièrement complet.

RStudio s’impose de plus en plus comme un environnement de développement intégré (EDI)  incontournable pour le langage R. J’ai moi-même utilisé Tinn-R pendant longtemps avant de finalement passer à RStudio. Cette popularité ne se démentira avec ce type de fonctionnalité.

Mots-clés : logiciel R, programmation R, environnement de développement intégré, EDI, rstudio, débogage
Lien : Jonathan McPherson, Debugging with RStudio, avril 2015 (pdf) ; Josh Paulson, "Breakpoint Troubleshooting", juin 2105 (pdf).
Références :
Site de RStudio, http://www.rstudio.com/
Andrea Spano, "Visual debugging with RStudio", Milano-R.
Tutoriel Tanagra, "Tinn-R, un éditeur de code pour R", février 2012.

jeudi 27 novembre 2014

Azure Machine Learning

Microsoft Azure est la plateforme cloud de Microsoft. Elle offre un certain nombre de services pour le stockage, le calcul, le traitement et la transmission des données, la gestion des bases de données, le développement d’applications, etc . Azure Machine Learning (Azure ML) est un service dédié à l’analyse prédictive. Il propose les fonctionnalités nécessaires à la construction de modèles prédictifs, à leur évaluation, et à leur déploiement. Des algorithmes maisons, adossés à des méthodes reconnues, sont implémentées (régression logistique, forêts aléatoires, etc.). Nous pouvons démultiplier les analyses puisque Azure ML intègre le logiciel R et la grande majorité des packages associés. De fait, réaliser des traitements en ligne avec du code R est possible. Nous étudierons avec beaucoup de curiosité cette opportunité. Azure Machine Learning Studio (ML Studio) est un front end accessible via un navigateur web. Il permet de piloter des analyses via l’élaboration de diagrammes de traitements, à l’instar des outils bien connus de data mining. On parle souvent de programmation visuelle (cf. SPAD, SAS EM, IBM SPSS Modeler, etc.).

Le data science rentre de plain pied dans l’ère du "cloud computing" avec Azure ML. Les données sont stockées on ne sait où (les fameux "data centers") et les calculs sont effectués à distance sur des serveurs externalisés. Un simple navigateur suffit pour développer les analyses et réaliser les traitements. Ainsi, un client léger avec des capacités limitées ne nous pénalise en rien, tant en matière de volumétrie qu’en matière de temps de calcul.

Microsoft propose une tarification sophistiquée du service. Mais nous pouvons nous exercer gratuitement sur l’outil ML Studio via le site https://studio.azureml.net/, en nous connectant avec un compte e-mail Microsoft. J’ai utilisé mon compte "@live.fr" en ce qui me concerne. Dans ce tutoriel, je montre les principales fonctionnalités de l’outil en réalisant quelques traitements types d’analyse prédictive.

Mots clés : cloud computing, azure, machine learning, régression logistique, k-means, decision forest, random forest, courbe roc, auc
Composants Tanagra : SAMPLING, BINARY LOGISTIC REGRESSION, BAGGING + RND TREE, SCORING, ROC CURVE
Lien : Azure Machine Learning
Données : breast.txt
Références :
Microsoft Azure, http://azure.microsoft.com/fr-fr/
Azure Machine Learning, http://azure.microsoft.com/fr-fr/services/machine-learning/
R. Casteres, [Article en Français] "Predict Wine Quality with Azure Machine Learning", août 2014.

mercredi 12 novembre 2014

Clustering de variables qualitatives - Diapos

La classification de variables qualitatives vise à regrouper les variables en groupes homogènes. Les variables situées dans un même groupe sont fortement liées entre elles, celles situées dans des groupes différents le sont faiblement. Deux approches sont décrites. La première exploite le v de Cramer, la matrice de dissimilarités qui en est déduite permet de lancer une classification ascendante hiérarchique (CAH) avec les stratégies d’agrégation usuelles (lien minimum, lien maximum, méthode de Ward, etc.). La seconde repose sur la notion de variable latente, une « moyenne » résumant l’information portée par un groupe de variables. Le barycentre d’un ensemble de variables étant ainsi défini, il est possible de s’appuyer sur les algorithmes bien connus de classification (CAH, mais aussi les algorithmes de type k-means, etc.).

La classification de variables donne une indication sur les liaisons et les redondances, mais elle ne permet pas d’identifier la nature des relations entre les variables c.-à-d. les associations entre les modalités. A partir de ce constat, nous introduisons la classification de modalités de variables qualitatives. Deux pistes sont explorées. La première, tout comme pour la classification de variables, prend pour point de départ la définition la similarité entre modalités. Le processus de classification (CAH) s’appuie sur la matrice des dissimilarités qui en découle. La seconde est de type « tandem analysis » (tandem clustering). Dans une première étape, une analyse des correspondances multiples (ACM) permet de projeter les modalités dans un nouvel espace de représentation. La typologie est réalisée à partir des coordonnées factorielles des modalités qui font figure d’individus dans la seconde étape.

Le jeu de données et le programme R qui ont servi à illustrer ce document sont téléchargeables.

Mots clés : classification automatique, typologie, clustering, classification de variables qualitatives, acm, analyse des correspondances multiples, afcm, tandem analysis, tandem clustering, package clustofvar, hclustvar, package hmisc, varclus, classification ascendante hiérarchique, CAH, indice de dice, logiciel R
Composants : CATVARHCA
Lien : Classification de variables qualitatives
Données : catvarclus.zip
Références :
Tutoriel Tanagra, "Classification de variables qualitatives", décembre 2013.

jeudi 6 novembre 2014

La page Excel'Ense de Modulad

La revue MODULAD est consacrée aux statistiques et traitement de données. Elle est éditée depuis 1988. Elle met l’accent sur le bon usage des méthodes et des outils. En janvier 2005, la version papier est abandonnée au profit d’une diffusion sur le web. Tout un chacun peut accéder librement aux articles et aux ressources associées sans avoir à s’enregistrer.

Une des forces de la revue est d’avoir su trouver un équilibre entre les fondements théoriques, la pratique, et les outils. Elle ouvre la porte aux non-spécialistes, attachés aux aspects applicatifs, mais désireux de s’appuyer sur des références théoriques solides. La politique éditoriale de la revue évoque, bien avant l’heure, ce que l’on a coutume d’appeler aujourd’hui « data science » ou encore « big data analytics ».

La page Excel’Ense montre l’attachement de la revue au caractère pratique de l’analyse de données. Il s’agit d’un « cahier d’information et d’échanges, ciblé sur l’exploitation des données et l’enseignement de la statistique avec un tableur, le prototype étant Excel ». Concrètement, des classeurs types et macros-complémentaires (add-ins) adaptés à différents problèmes statistiques sont mis à disposition des lecteurs (ex. calcul des coefficients d’autocorrélation, construction de plans d’expériences factoriels complets, tests de Wilcoxon, tirage d’un échantillon stratifié, etc.). Nous pouvons les charger et appliquer les techniques proposées sur nos propres données via Excel.

Dans ce tutoriel, nous étudions l’add-in « Explore.xla » de Jacques Vaillé (2011). L’auteur met à notre disposition plusieurs outils et méthodes statistiques pour l’analyse exploratoire des données. Certains d’entre eux, très simples, sont pourtant particulièrement utiles. Une macro par exemple permet de réaliser un graphique nuage de points étiquetés à l’aide des labels des observations, chose impossible à faire avec les fonctions standards d’Excel. Une documentation accompagne la librairie. Nous nous en tiendrons aux techniques d’analyse factorielle dans notre présentation.

Mots clés : analyse en composantes principales, acp, analyse des correspondances binaires, analyse factorielle des correspondances, afc
Composants : PRINCIPAL COMPONENT ANALYSIS, CORRESPONDENCE ANALYSIS
Lien : fr_Tanagra_ExcelEnse.pdf
Données : excelense_explore.zip
Références :
Jacques Vaillé, « La statistique au service des données : quelques macros Excel pour faire de l’analyse exploratoire des données », La revue MODULAD, n°43, 2011.
La revue MODULAD, la page Excel’Ense : http://www.modulad.fr/excel.htm

mardi 28 octobre 2014

Induction par arbre avec WinIDAMS

WinIDAMS (Internationally Developed Data Analysis and Management Software Package) est un logiciel de statistique développé sous l’égide de l’UNESCO. J’en avais dessiné les contours récemment (« Statistiques avec WinIDAMS », octobre 2014). J’avais remarqué durant cette étude la procédure SEARCH consacrée à l’apprentissage par arbre. Elle intègre les arbres de décision et de régression, ainsi qu’une méthode que l’on voit peu dans les logiciels, et qui s’apparente à une régression par morceaux. Plutôt que d’incorporer la description de SEARCH dans le document générique consacré à WinIDAMS, j’ai préféré écrire un tutoriel à part car plusieurs éléments avaient attiré mon attention.

(1) L’outil propose des sorties qui permettent de retracer le processus de construction de l’arbre. (2) Cette caractéristique est d’autant plus intéressante que la documentation technique décrit les formules utilisées avec force détail (« WinIDAMS Reference Manual (release 1.3) », april 2008 ; Chapter 56, « Searching for structure »). Nous pourrons ainsi de reproduire les calculs intermédiaires pour comprendre pleinement la teneur des méthodes. (3) J’avoue avoir été d’autant plus curieux d’étudier la procédure que j’avais remarqué parmi les contributeurs des auteurs qui ont énormément œuvré dans la popularisation de l’induction par arbre, notamment J.N. Morgan et J. Sonquist qui comptent parmi les références les plus anciennes et les plus prolifiques dans le domaine. Mieux appréhender leur vision ne peut qu’améliorer notre compréhension de ces méthodes. (4) Enfin, la troisième option proposée par SEARCH (Analysis = Regression) correspond à une méthode que je n’ai jamais rencontré dans d’autres outils. Forcément, cela m’a interpelé. De par ma trajectoire scientifique, je suis toujours très curieux de tout ce qui touche aux arbres.

Ce tutoriel décrit les tenants et aboutissants des 3 options (CHI, MEANS, REGRESSION) de la procédure SEARCH de WinIDAMS.

Mots clés : arbre de décision, arbre de régression, régression linéaire, variation
Lien : fr_Tanagra_WinIDAMS_Tree_Induction.pdf
Données : tree_winidams.zip
Références :
UNESCO, "WinIDAMS 1.3 Reference Manual", 2008.
WinIDAMS Advanced Guide, "Example 10: Searching for Structure".

jeudi 16 octobre 2014

Statistiques avec WinIDAMS

WinIDAMS (Internationally Developed Data Analysis and Management Software Package) est un logiciel de statistique développée sous l’égide de l’UNESCO. Le projet prend ses sources dans les années 70. Mais la première mouture réellement estampillée IDAMS date de la fin des années 80. Deux versions sont développées en parallèle : l’une pour les ordinateurs IBM Mainframe, l’autre pour les PC sous MS-DOS . L’idée est de fédérer (comme Roger du même nom) les spécialistes de différents pays pour développer un outil qui exprime la quintessence du savoir statistique. J’avoue avoir eu le vertige lorsque j’ai consulté pour la première fois la liste des contributeurs. Cornaqué par un tel aréopage d’experts internationaux, l’outil devrait présenter de très grandes qualités.

Ce tutoriel décrit la mise en œuvre de WinIDAMS sur un fichier exemple. Nous porterons une attention particulière à l’’importation des données car le logiciel procède de manière assez singulière. Puis, nous effectuerons une rapide découverte de quelques méthodes exploratoires en précisant pour chacune d’elles le paramétrage et la lecture (d’une partie) des résultats. Nous mettrons en parallèle les sorties d’autres logiciels tels que Tanagra et SAS.

Mots clés : classification automatique, typologie, clustering, CAH, proc cluster, analyse discriminante, proc discrim, analyse en composantes principales, factor analysis, proc factor, sas
Composants : HAC, PRINCIPAL COMPONENT ANALYSIS, CANONICAL DISCRIMINANT ANALYSIS, LINEAR DISCRIMINANT ANALYSIS
Lien : fr_Tanagra_WinIDAMS.pdf
Données : winidams_pottery.zip
Références :
UNESCO, "WinIDAMS 1.3 Reference Manual", 2008.

jeudi 2 octobre 2014

La discrétisation des variables quantitatives (slides)

La discrétisation est une opération de recodage. Elle consiste à transformer une variable quantitative en une qualitative ordinale. Elle procède par découpage en intervalles. Deux questions clés se posent alors durant le processus : (1) combien d’intervalles (de classes) faut-il produire ? (2) comment déterminer les seuils (les bornes) de découpage.

Cette opération rentre dans le cadre de la préparation des données. Elle rend possible l’utilisation des techniques statistiques qui ne traitent que les variables qualitatives (ex. induction de règles, construction des grilles de score…) ; elle permet d’harmoniser les bases lorsque nous faisons face à des tableaux hétérogènes (avec un mix de variables qualitatives et quantitatives) ; elle permet également de nettoyer les données en éliminant par exemple l’influence exagérée des données aberrantes.

Je décris dans ce support les enjeux et la démarche de discrétisation. Le point le plus important à retenir est qu’il faut absolument utiliser toute l’information disponible pour obtenir des résultats satisfaisants. Nous devons notamment exploiter pleinement la variable cible lorsque nous nous plaçons dans un schéma d’apprentissage supervisé.

Mots clés : discrétisation, chi-merge, mdlp, mdlpc, intervalles de fréquences égales, intervalles de largeurs égales, arbres de décision, arbres de régression, package discretization, logiciel R
Composants Tanagra :  EQFREQ DISC, EQWIDTH DISC, MDLPC
Lien : Discrétisation
Références :
Tutoriel Tanagra, "Discrétisation - Comparaison de logiciels", février 2010.
Tutoriel Tanagra, "Discrétisation contextuelle - La méthode MDLPC", mars 2008.

dimanche 17 août 2014

Nouveaux arbres interactifs dans SPAD 8

Les arbres de décision interactifs font partie de la panoplie d’outils privilégiés du data miner . D’une part parce que l’induction par arbres en elle-même est une méthode intéressante : elle se positionne honorablement par rapport aux autres techniques prédictives en termes de performance ; elle fournit une connaissance intelligible, facilement interprétable ; ses conditions d’utilisation sont particulièrement larges, aucune hypothèse sur les distribution n’est nécessaire, nous pouvons directement mixer les variables prédictives quantitatives et qualitatives, elle sait effectuer les codages les plus appropriés en fonction de la variable cible. D’autre part, du fait qu’elle soit interactive, elle donne la possibilité aux experts du domaine de guider l’exploration des solutions en accord avec des connaissances qui ne sont pas directement disponibles dans les données traitées. De fait, tous les grands éditeurs de logiciels de statistique et de data mining se doivent de proposer les outils – c’est un vrai critère de différenciation entre les logiciels – qui permettent aux utilisateurs d’interagir avec l’arbre de décision élaboré au préalable par les approches bien connues telles que CHAID, CART, C4.5 ou leurs variantes.

J’avais déjà présenté les arbres de décision de la version 7 de SPAD précédemment (janvier 2010). Aujourd’hui, je décris le module proposé par SPAD 8. En effet, il a connu une évolution importante, tant en qualité graphique, qu’en matière d’utilisabilité (grosso modo, un mix d’efficacité et d’ergonomie). Il me semblait intéressant d’étudier cette nouvelle mouture pour cerner ce que nous pouvons faire avec les arbres de décision interactifs. Je me concentre sur les fonctionnalités d’exploration dans ce tutoriel. Pour ce qui est du stockage du modèle et de son déploiement, le mieux est de lire/relire le précédent document.

Mots clés : arbres de décision interactifs, induction interactive, SPAD 8
Lien : fr_Tanagra_Arbres_Spad_8.pdf
Données : faible poids bebes.xlsx
Références
:
Logiciel SPAD, SPAD.
Tutoriel Tanagra, "Arbres de décision interactifs avec SPAD", Janvier 2010.
R. Rakotomalala, "Arbres de décision", Revue Modulad, n°33, 2005.

dimanche 10 août 2014

Etude du logiciel Sipina

Dans le cadre du transfert du contenu de l’ancienne version française du site de Sipina, j’ai redécouvert un projet réalisé par des étudiants de Master 2 (DESS) il y a une douzaine d’années.

Le document liste les principaux menus du logiciel. Une étude comparative de quelques algorithmes d'induction d'arbres sur un même jeu de données est réalisée. Les étudiants ont surtout eu le mérite de manipuler un logiciel que je n’avais absolument pas documenté à l'époque, un véritable tour de force.

Petit commentaire important. Sipina intégrait des méthodes ensemblistes (bagging, boosting, arcing) que j’ai décidé de désactiver par la suite, n’étant pas très satisfait du mode opérationnel de cette fonctionnalité. Le document étant antérieur à cette modification, ces outils y sont décrits.

Les méthodes ensemblistes sont aujourd'hui disponibles de manière générique dans Tanagra. Elles peuvent s’appliquer à tout algorithme d’apprentissage supervisé.

Mots-clés : sipina, arbres de décision
Référence : C. Levieux, M. Fihue, « Etude du logiciel SIPINA (Version Expérimentale) », sous la direction de P.L. Gonzales, DESS d’Ingénierie et de Statistique, Année 2001-2002.

vendredi 8 août 2014

Nouveau site web pour Sipina (FR)

Le logiciel SIPINA est sur le web depuis le milieu des années 90. Le site, toujours actif aujourd’hui, a été exclusivement en anglais pendant très longtemps. Une version française a été mise en ligne en 2008. J’avais fait le choix d’un hébergeur de blog gratuit pour des raisons de maintenance et d’organisation. Récemment les conditions générales de l’hébergeur ont évolué. Il s’autorise à intégrer quelques espaces publicitaires sur les blogs des utilisateurs gratuits. Depuis début août, une énorme annonce orne la page de garde du site, masquant presque totalement  (sur les ordinateurs à faible résolution) le texte de présentation.

Bon, je peux comprendre qu’une entreprise ait besoin de ressources pour fonctionner. Mais, pour ma part, cette nouvelle situation ne me convient pas. Parce que ce n’était pas le deal initial. Parce que je ne souhaite pas associer Sipina, ni Tanagra, à une forme quelconque de monétisation. La solution la plus simple a donc été de transférer le contenu du site sur un nouveau serveur. Dorénavant, l’URL à utiliser – à partir d’août 2014 – sera : http://sipina-arbres-de-decision.blogspot.fr/

Ce n’est pas plus mal. Ca m’a pris un peu de temps, mais finalement cette transition aura été l’occasion pour moi de réorganiser la présentation, en mettant en valeur les documents importants pour la prise en main de Sipina, et ceux qui caractérisent le mieux les particularités du logiciel.

L’ancien site restera actif pendant une courte période encore, le temps de vérifier que tout a bien été récupéré.

Mots clés : sipina, site web en français
Référence : http://sipina-arbres-de-decision.blogspot.fr/

jeudi 7 août 2014

L'add-in Sipina pour Excel 2007 et 2010

Ce tutoriel décrit succinctement l’installation de l’add-in "sipina.xla" dans Excel 2007. La transposition à Excel 2010 est immédiate. Un document similaire existe pour Tanagra. Il m’a semblé néanmoins nécessaire de repréciser la démarche, notamment parce que plusieurs internautes m’en ont fait la demande. D’autres didacticiels existent pour les versions antérieures d’Excel (1997 à 2003) et pour le tableur Calc d’Open Office et de Libre Office.

Mots-clés : importation des données, fichier excel, macro complémentaire, add-in, add-on, xls, xlsx
Lien : fr_sipina_excel_addin.pdf
Données : heart.xls
Références:
Tutoriel Tanagra, "Les add-ins Tanagra et Sipina pour Excel 2016", juin 2016.
Tutoriel Tanagra, "L'add-in Tanagra pour Excel 2007 et 2010", août 2010.

mercredi 9 juillet 2014

Tutoriels animés sur YouTube

Il y a tutoriels et tutoriels. On voit de plus en plus aujourd’hui des guides d’utilisation de logiciels de data mining sur la plate-forme youtube. Pour avoir moi-même exploré la réalisation de didacticiels en flash (ex. analyse discriminante, régression logistique, arbres de décision), je mesure parfaitement l’intérêt de ce type de média. Pourtant, j’ai finalement choisi de privilégié les textes rédigés avec des copies d’écran. Pour la principale raison que je peux ainsi, à tout moment, ouvrir des parenthèses : proposer un prisme différent par rapport à l’action qui est décrite, parler des autres logiciels proposant des fonctionnalités similaires, m’autoriser des digressions théoriques et méthodologiques, mettre en contrepoint les autres techniques de data mining, …

Il n’en reste pas moins que l’idée des tutoriels animés reste une piste très intéressante. J’ai découvert par hasard plusieurs  documents relatifs à Sipina et Tanagra sur youtube, élaborés par des utilisateurs que je remercie très chaleureusement ici (1, 2, 3, 4, 5).

De manière générale, je conseille souvent à mes étudiants d’explorer attentivement ce média pour se familiariser avec des outils dont nous ne disposons pas à l’Université. J’avoue passer moi-même beaucoup de temps à scruter le mode opératoire des différents logiciels. Les principaux éditeurs ont parfaitement compris l’intérêt de la chose et proposent aujourd’hui des démonstrations de très grande qualité. Il suffit d’effectuer quelques requêtes sur youtube pour s’en rendre compte (ex. Coheris Spad, Statistica, Spss, Sas, etc.)...

mercredi 2 juillet 2014

SQL Server Data Mining Add-Ins

Excel – le tableur de manière général – est très populaire auprès des « data scientist » . Mais, s’il est effectivement performant pour la manipulation et la préparation des données, il est moyennement apprécié concernant les calculs statistiques, parce que moins précis et affublé d’une bibliothèque de fonctions limitée . Pour palier cette faiblesse, de nombreux add-ins (macro complémentaires) existent pour compléter ses capacités d’analyse.

Dans ce tutoriel, nous décrivons plusieurs cas d’utilisation des techniques de data mining fournies par l’add-in « SQL Server Data Mining Add-ins ». Plusieurs traits distinctifs apparaissent clairement a posteriori. L’outil couvre parfaitement la pratique usuelle du data mining (ex. le module d’apprentissage supervisé permet de construire différents modèles sur un échantillon d’apprentissage, d’en mesurer et comparer les performances sur un échantillon test, d’effectuer le déploiement sur des données non-étiquetées). Il mise sur une très grande simplicité d’utilisation. Les manipulations sont intuitives. Il n’est pas nécessaire de scruter des heures durant l’aide en ligne  pour réaliser une étude. Cette apparente simplicité ne doit pas masquer la complexité de certaines opérations. L’outil effectue automatiquement des choix (ex. discrétisation automatique des variables, sélection des variables pertinentes, etc.) dont on doit avoir conscience pour apprécier pleinement la pertinence des résultats présentés.

Mots clés : excel, tableur, analyse prédictive, arbres de décision, réseau de neurones, bayésien naïf, régression logistique, perceptron,classification automatique, clustering, k-means, règles d'association, scoring, courbe de gain, courbe lift, data mining client for excel
Lien : SSAS
Données : SSAS dataset, cover type
Références :
Microsoft, "SQL Server - Analysis Services Data Mining".

vendredi 13 juin 2014

L'add-in Real Statistics pour Excel

Excel – je dirais plutôt le tableur de manière générique - est un des outils favoris des « data scientist ». Les sondages Kdnuggets sur la question le confirment. Il arrive systématiquement dans les 3 premiers logiciels les plus utilisés ces dernières années. Les raisons de ce succès ont été maintes fois évoquées sur ce blog : il est très répandu, tout le monde sait le manipuler, c’est un instrument puissant pour la mise en forme et la préparation des données.

Excel est moins à son avantage lorsqu’il s’agit d’effectuer des calculs statistiques. D’aucuns pointent du doigt son manque de précision et la relative pauvreté de sa bibliothèque de fonctions statistiques et d’analyse de données. Les add-ins (ou add-on, macros complémentaires) semblent alors constituer une solution privilégiée pour associer les calculs spécialisés aux fonctionnalités usuelles des tableurs.

La librairie « Real Statistics » du Dr Charles Zaiontz est une solution simple comme je les aime. La copie d’un fichier « RealStats-2007.xlam » (pour la version 2007 d’Excel) suffit pour disposer pleinement de toutes les fonctionnalités. Il n’y a pas d’installation fastidieuse à réaliser, avec des bibliothèques à tiroirs que l’on est obligé de chercher à droite et à gauche. La macro complémentaire se suffit à elle-même, elle ne repose pas sur une DLL compilée. Grâce à cette autonomie, il a été possible de multiplier les versions pour les différentes configurations d’Excel (des add-ins existent pour Excel 2013, 2010, versions antérieures à Excel 2003, version pour Mac). Les résultats des calculs statistiques sont insérés dans les feuilles de calculs sous forme de formules s’appuyant sur des fonctions standards d’Excel (ex. les opérations matricielles, nous pouvons ainsi retracer les étapes des traitements) ou de nouvelles fonctions spécifiques intégrées dans la librairie, que nous pouvons appeler directement dans d’autres feuilles de calculs. Il y a donc deux manières d’utiliser l’add-in : soit, comme nous le ferons dans ce tutoriel, exploiter les boîtes de dialogue dédiées permettant de spécifier les données à traiter et paramétrer les méthodes ; soit en appelant directement les nouvelles fonctions disponibles.

« Real Statistics » est une excellente librairie, à conseiller aux personnes qui souhaitent travailler exclusivement dans l’environnement Excel pour réaliser les traitements statistiques. Elle est d’autant plus intéressante qu’elle est accompagnée d’une documentation particulièrement riche, permettant de comprendre dans le détail la teneur de chaque méthode. Nous décrivons dans ce tutoriel le mode opératoire de l’add-in et, dans certains cas, nous comparons les résultats avec ceux de Tanagra 1.4.50.

Mots clés : excel, tableur, test d'indépendance du khi-2, comparaison de moyennes, test de mann-whitney, test de comparaison pour échantillons appariés, test des rangs signés de wilcoxon, anova à 1 facteur, régression linéaire, régression logistique, manova, analyse en composantes principales
Composants :  CONTINGENCY CHI-SQUARE, THEIL U, T-TEST, T-TEST UNEQUAL VARIANCE, MANN-WHITNEY COMPARISON, MULTIPLE LINEAR REGRESSION, WILCOXON SIGNED RANKS TEST, ONE-WAY ANOVA, PRINCIPAL COMPONENT ANALYSIS, BINARY LOGISTIC REGRESSION, ONE-WAY MANOVA, BOX'S M TEST, PAIRED T-TEST, KRUSKAL-WALLIS 1-WAY ANOVA
Lien : fr_Tanagra_Real_Statistics.pdf
Données : credit_approval_real_statistics.xlsx
Références :
Dr. Charles Zaiontz, "Real Statistics Using Excel".

dimanche 25 mai 2014

Le tableur Gnumeric

Le tableur est un outil privilégié des data scientist. C’est ce que nous révèle l’enquête annuelle du portail KDNuggets. Excel arrive régulièrement parmi les trois logiciels les plus utilisés ces cinq dernières années (enquêtes 2013, 2012, 2011, 2010, 2009). En France, cette popularité est largement confirmée par sa présence quasi-systématique dans les offres d’emploi relatives au traitement exploratoire des données (statistique, data mining, data science, big data / data analytics, etc.) accessibles sur le site de l’APEC (Association Pour l’Emploi des Cadres). Excel est nommément cité, mais il faut surtout y voir une reconnaissance des aptitudes et capacités de l’outil tableur. D’autres suites bureautiques, dont certaines sont libres, proposent un module équivalent (ex. CALC de la suite LibreOffice).

Ce tutoriel est consacré au tableur libre Gnumeric. Il présente des caractéristiques intéressantes : le setup et l’installation sont de taille réduite parce qu’il ne fait pas partie d’une suite bureautique ; il est rapide et léger ; il est dédié au calcul numérique et intègre de manière native un menu « Statistics » avec les procédures statistiques courantes (tests paramétriques, tests non paramétriques, régression, analyse en composantes principales, etc.) ; et, il semble plus précis que les tableurs de référence (McCullough, 2004 ; Keeling and Pavur, 2011). Ces deux derniers aspects ont attiré mon attention et m’ont convaincu de l’étudier plus en détail. Dans ce qui suit, nous effectuons un rapide tour d’horizon d’une sélection des procédures statistiques de Gnumeric. Pour certaines, nous comparons les résultats à ceux de Tanagra 1.4.50.

Mots clés : gnumeric, tableur, statistique descriptive, analyse en composantes principales, acp, régression linéaire multiple, test des rangs signés de wilcoxon, test de comparaison de moyenne - variances inégales, test de mann et whitney, analyse de variance, anova
Composants :  MORE UNIVARIATE CONT STAT, PRINCIPAL COMPONENT ANALYSIS, MULTIPLE LINEAR REGRESSION, WILCOXON SIGNED RANKS TEST, T-TEST UNEQUAL VARIANCE, MANN-WHITNEY COMPARISON, ONE-WAY ANOVA
Lien : fr_Tanagra_Gnumeric.pdf
Données : credit_approval.zip
Références :
Gnumeric, "The Gnumeric Manual, version 1.12".
K.B. Keeling, R. Pavur, « Statistical Accuracy of Spreadsheet Software », The Amercial Statistician, 65:4, 265-273, 2011.

lundi 19 mai 2014

Sipina - Version 3.12

Le transfert entre le tableur  Excel et Sipina a été fiabilisé sur les bases de taille modérée (sur les grandes bases, plusieurs centaines de milliers d’observations, mieux vaut toujours passer par l’importation directe de fichier au format texte .TXT). La gestion du point décimal a été améliorée. La transformation automatique est maintenant bien plus rapide qu’auparavant.

La précision des seuils numériques affichés dans un arbre de décision devient paramétrable. L’utilisateur y accède vient un nouvel item dans le menu « Tree Management ».

Site web : Sipina
Chargement : Fichier setup

dimanche 18 mai 2014

Du Data Mining au Big Data

Ces dernières années de nouveaux termes très « fashion » sont apparus dans le domaine de l’exploitation des données en vue de la prise de décision. On parle de « data science », du métier de « data scientist », de « big analytics », de « predictive analytics », « d’open data », de « social media mining », etc. On les place souvent dans le nouveau contexte du « big data ».

A bien y regarder dans les articles où il en est question, parmi les principaux enjeux figurent le stockage, le traitement, l’analyse et la valorisation des données massives (big data), le respect de la vie privée, la sécurisation des informations. Est-ce si nouveau que cela ? Est-ce que cela mérite autant d’effervescence ? Ou bien est-ce seulement un replâtrage par rapport à l’analyse de données et aux statistiques exploratoires, comme ont eu tendance à le dire les statisticiens lorsque le phénomène data mining est apparu à l’orée des années 90.

L’affaire est d’importance en ce qui concerne notre Département Informatique et Statistique. Notre offre de formation couvre entres autres la statistique et le data mining (SISE), l’informatique décisionnelle (business intelligence, IIDEE), la sécurité informatique (OPSIE). Domaines que l’on cite très souvent dans le contexte du « big data ».  Est-ce suffisant dans le futur ? Faut-il présenter un nouveau diplôme spécifiquement estampillé « big data » ? Ou bien doit-on veiller surtout à renouveler à bon escient nos maquettes comme nous le faisons tous les 5 ans lors des campagnes d’habilitation ? Est-ce qu’il y a matière à introduire de nouveaux enseignements dans cette perspective, des cours concrets avec un savoir et un savoir faire à prodiguer à nos étudiants, des compétences qu’ils pourront valoriser dans leur vie professionnelle ? Ou bien doit-on se contenter de présentations générales positionnant la nouvelle configuration de la gestion, du traitement et de l’exploitation des données ?

Il est difficile voire impossible d’avoir une position tranchée. Pour l’heure, je partage avec vous le fruit de mes réflexions que j’ai livrées lors d’une présentation récente. J’ai placé le big data dans la perspective d’une évolution du « knowldege discovery » (« data science » devrait-on dire alors ?) liée au progrès technologique, avec notamment l’impact considérable des nouvelles technologies et du web sur la circulation de l’information. Ce support vaut aussi pour les très nombreux liens internet que j’ai consultés durant la préparation de mon exposé. Il préfigure le prisme que j’utiliserai dans mon cours d’introduction au data mining (devrais-je dire désormais « introduction au big data » ?).

Mots clés : data mining, big data, data science, data scientist, big analytics, predictive analytics, open data
Lien : Du Data Mining au Big Data - Enjeux et opportunités
Références :
M.P. Hamel D. Marguerite, "Analyse des big data – Quels usages, quels défis", La note d’analyse, Commissariat Général à la Stratégie et à la Prospective, Département Questions Sociales, N°8, Novembre 2013.
Anne Lauvergeon et al., "Ambition 7 : La valorisation des données massives (Big Data)", in « Un principe et sept ambitions pour l’innovation - Rapport de la commission Innovation 2030 », Octobre 2013.

mardi 29 avril 2014

Régression linéaire pour le classement

Ces slides font suite au tutoriel consacré à l’utilisation de la régression linéaire multiple dans un problème de classement. La trame est la même. On montre (1) que la démarche est tout à fait licite lorsque la variable cible est binaire, il existe une passerelle avec l’analyse discriminante linéaire ; (2) les tests d’évaluation globale du modèle et de pertinence des variables sont applicables.

Mots clés : apprentissage supervisé, discrimination, classement, régression linéaire multiple, analyse discriminante linéaire, significativité globale du modèle, significativité individuelle des coefficients, R2, lambda de wilks
Lien : regression_multiple_pour_le_classement.pdf
Références :
Tutoriel Tanagra, "Analyse discriminante et régression linéaire", avril 2014.

dimanche 20 avril 2014

Analyse discriminante et régression linéaire

Bien que s’inscrivant toutes deux dans le cadre de l’analyse prédictive, l’analyse discriminante linéaire et la régression linéaire multiple répondent à des problématiques différentes. La première cherche à prédire une variable cible qualitative nominale à partir d’un ensemble de variables prédictives quantitatives (ou qualitatives recodées en indicatrices numériques). Pour la seconde, la variable cible est quantitative. La finalité, les calculs sous-jacents et le mécanisme inférentiel ne sont pas les mêmes.

Pourtant, de nombreux auteurs indiquent qu’il y a des similarités entre ces deux approches. Mieux même, dans le cas particulier d’une variable cible binaire, il est possible de reproduire à l’identique les sorties de l’analyse discriminante à partir des résultats de la régression.

Dans ce tutoriel, nous décrivons les connexions entre les deux approches dans le cas d’une variable cible binaire. Nous détaillons les formules permettant de retrouver les coefficients de l’analyse discriminante à partir de ceux de la régression linéaire. Il apparaît que, si l’équivalence est totale lorsque les classes sont équilibrées, il est nécessaire d’introduire une correction additionnelle de la constante lorsque les effectifs ne sont pas identiques dans les deux groupes. La formule correspondante est explicitée. Nous réalisons les calculs sous Tanagra (classes équilibrées) et sous R (classes non équilibrées).

Mots clés : analyse discriminante prédictive, analyse discriminante linéaire, régression linéaire multiple, lambda de wilks, distance de mahalanobis, fonction score, classifieur linéaire, sas, proc discrim, proc stepdisc
Composants : LINEAR DISCRIMINANT ANALYSIS, MULTIPLE LINEAR REGRESSION
Lien : fr_Tanagra_LDA_and_Regression.pdf
Données : lda_regression.zip
Références :
C.J. Huberty, S. Olejnik, « Applied MANOVA and Discriminant Analysis »,Wiley, 2006.
R. Tomassone, M. Danzart, J.J. Daudin, J.P. Masson, « Discrimination et Classement », Masson, 1988.

samedi 12 avril 2014

Text mining avec Knime et RapidMiner

L’approche statistique du « text mining » consiste à transformer une collection de documents textuels en une matrice de valeurs numériques sur laquelle nous pouvons appliquer les techniques d’analyse de données. Bien évidemment, d’autres prismes existent. Je préfère prendre mes précautions avant la levée de bouclier des linguistes et autres tenants des approches sémantiques. Il y a de la place pour tout le monde.

Dans ce tutoriel, je reprends un des exercices de catégorisation de textes (fouille de textes) que j’encadre en Master SISE  du Département Informatique et Statistique de l’Université Lumière Lyon 2. Nous effectuons la totalité des opérations sous R. L’utilisation des packages spécialisés ‘XML’ et ‘tm’ facilitent grandement les opérations, avouons-le. Je me suis demandé s’il était possible de réaliser les mêmes traitements à l’aide d’autres logiciels libres. J’ai beaucoup cherché. Trouver de la documentation qui corresponde véritablement à ce que je souhaitais mettre en place n’a pas été facile (et encore, je savais exactement ce qu’il y avait à faire, ça aide pour les recherche sur le web). J’ai finalement réussi à reproduire (à peu près) la totalité de la séance sous les logiciels Knime 2.9.1 et RapidMiner 5.3.

Mots clés : text mining, fouille de textes, catégorisation de textes, arbres de décision, j48, svm linéaire, base reuters, format XML, stemming, stopwords, matrice documents-termes
Lien : fr_Tanagra_Text_Mining.pdf
Données : text_mining_tutorial.zip
Références :
Wikipedia, "Document classification".
S. Weiss, N. Indurkhya, T. Zhang, "Fundamentals of Predictive Text Mining", Springer, 2010.

jeudi 13 février 2014

Grille de score

En scoring, un cadre particulier de l’apprentissage supervisé où la variable cible est binaire (modalité positive vs. négative), une grille de score est un système de notation permettant d’apprécier la propension à être positif des individus. Il peut s’agir par exemple de situer la capacité d’une personne à rembourser un crédit contracté auprès d’un établissement bancaire, on aurait alors un mécanisme du type : personne en CDI, + 30 points ; propriétaire de son logement, + 20 points ; elle n’a pas d’autre crédit en cours, +25 points ; etc.

Des outils classiques de l’apprentissage statistique (régression logistique, analyse discriminante, etc.) permettent d’estimer directement la probabilité d’être positif des individus. Malheureusement, les solutions fournies – les coefficients des modèles prédictifs, parfois positifs, d’autres fois négatifs, appliquées à des variables définies sur des échelles différentes – s’avèrent quelquefois peu lisibles, hors de portée des non-initiés. L’objectif de la grille de score est de transformer ces coefficients en un système de points entrant dans une notation globale des individus. Cette représentation cumule plusieurs avantages : le score global est calibré, son domaine de définition est connu à l’avance (ex. 0 à 100) ; le déploiement est facilité, il suffit de recenser les caractéristiques des individus et de sommer les points associés ; l’interprétation est immédiate, l’influence des caractéristiques sur l’appréciation d’un individu est directement identifiable.

Ce support décrit la transformation des coefficients d’un modèle issu de la régression logistique en un système de notation.

Mots clés : scoring, grille de score, apprentissage supervisé,discrétisation, mdlpc
Lien : grille_de_score.pdf
Données : pret_acceptation_score.xls
Références :
G. Saporta, « Probabilités, Analyse de données et Statistique », Technip, 2006 ; pp. 462 à 467, section 18.4.3 « Un exemple de 'credit scoring' ».
J.P. Nakache, J. Confais, « Statistique explicative appliquée », Technip, 2003 ; pp. 58 à 60, section 2.2.2 « SCORE : construction d’un score ».

jeudi 2 janvier 2014

Tanagra, 10 ans déjà

Tout d’abord, permettez-moi de vous présenter tous mes vœux de bonheur, de santé et de réussite pour cette année 2014 qui commence.

Pour Tanagra, 2014 revêt une importance assez particulière. Il y a 10 ans presque jour pour jour, la première version du logiciel a été mise en ligne. Conçu à l’origine comme un outil de data mining gratuit à l’usage des étudiants et des chercheurs, le projet a un peu changé de nature ces dernières années. Aujourd’hui, Tanagra est surtout un projet pédagogique qui propose un point d’accès aux techniques statistiques et au data mining. Il s’adresse aux étudiants, mais aussi aux chercheurs d’autres domaines (psychologie, sociologie, archéologie, etc.). Il permet, j’espère, de rendre plus attractif, plus limpide, la mise en œuvre de ces techniques sur des études réelles.

Cette mutation s’est accompagnée d’un recentrage de mon activité. Le logiciel Tanagra évolue toujours (nous en sommes à la version 1.4.50), de nouvelles méthodes sont ajoutées, les composants existants sont régulièrement améliorés, mais dans le même temps je mets l’accent sur la documentation sous forme d’ouvrages, de supports de cours et de tutoriels. L’idée sous-jacente est très simple : comprendre les tenants et aboutissants des méthodes reste la meilleure manière d’apprendre à utiliser les logiciels qui les proposent.

Sur ces 5 dernières années (01/01/2009 au 31/12/2013), mon site a connu 677 visites par jour. Les 10 pays qui viennent le plus souvent sont : la France, le Maroc, l’Algérie, la Tunisie, les Etats-Unis, l’Inde, le Canada, la Belgique, le Royaume-Uni et le Brésil. La page de support de cours est la plus consultée (http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html ; 99 visites par jour, 6 minutes 35 secondes de temps moyen passé sur la page). Dans le même temps, je note avec beaucoup de satisfaction que les pages en anglais sont globalement autant visitées que celles en français. Je me dis que l’effort d’internationalisation sert à quelque chose.

J’espère que ce travail vous sera utile encore pour longtemps, et que 2014 sera le théâtre d’échanges toujours aussi enrichissants pour les uns comme pour les autres.

Ricco.