lundi 16 février 2009

Sipina - Formats de fichiers

L’accès aux données est la première étape du processus Data Mining. Lorsque nous souhaitons initier un traitement à l’aide d’un logiciel quelconque, la première question que nous nous posons est systématiquement « comment dois-je procéder pour importer mes données ? ». C’est donc un critère important pour juger de la qualité d’un logiciel. Nous pourrons fatalement moins consacrer de temps à l’exploration et l’interprétation lorsque la lecture et la manipulation des données deviennent des opérations difficiles et fastidieuses.

Deux points de vue permettent de positionner les formats de fichier : la souplesse et la performance. On entend par souplesse la capacité à manipuler facilement le fichier, même en dehors du logiciel spécialisé. Le fichier texte est le format à privilégier dans ce contexte. Nous pouvons l’ouvrir, le modifier et l’enregistrer dans n’importe quel éditeur de texte. De plus, tout logiciel destiné à la manipulation de données (tableur, système de gestion de base de données entre autres) sait appréhender ce type de fichier. La performance revient surtout à évaluer la rapidité des accès et, dans une moindre mesure, l’occupation disque. Le critère de performance est surtout important lorsque nous avons à manipuler de très grands fichiers. En effet, Sipina réalisant les traitements en mémoire centrale, comme la majorité des logiciels de Data Mining libres d’ailleurs, il n’est pas nécessaire de répéter fréquemment les opérations de chargement et de sauvegarde.

Dans ce document, notre premier objectif est de faire le point sur les différents formats de fichier que gère Sipina. Il y a les fichiers textes au format simplifié (texte avec séparateur tabulation) ou spécialisé (ARFF de Weka) ; il y a les formats binaires que seul Sipina sait lire, mais qui sont très performants. Nous décrirons également la solution originale que nous avons mis en place pour faciliter le transfert d’Excel vers Sipina. Certaines solutions sont décrites en détail dans des didacticiels accessibles par ailleurs, nous indiquerons les pointeurs adéquats au fil du texte. L’autre objet de ce didacticiel est de comparer les performances de Sipina selon ces différents formats, lorsque l’on traite un fichier de grande taille, comportant 4.817.099 observations et 42 variables.

Enfin, nous avons construit un arbre de décision à partir de ce fichier pour évaluer un peu le comportement de Sipina face à un tel volume.

Mots clés : fichier, format, texte, csv, arff, weka, fdm, fdz, zdm, arbres de décision
Lien : fr_Sipina_File_Format.pdf
Données : weather.txt et kdd-cup-discretized-descriptors.txt.zip

mercredi 11 février 2009

Règles d'Association Prédictives

Les algorithmes d’extraction des règles d’association ont été initialement mis au point pour découvrir des liens logiques entre des variables ayant le même statut. Les règles d’association prédictives en revanche cherchent à produire les combinaisons d’items qui caractérisent au mieux une variable qui joue un rôle à part, on cherche à prédire ses valeurs.

Fondamentalement, l’algorithme est peu modifié. L’exploration est simplement restreinte aux itemsets qui comportent la variable à prédire. Le temps de calcul est d’autant réduit. Deux composants de Tanagra sont dédiés à cette tâche, il s’agit de SPV ASSOC RULE et SPV ASSOC TREE. Ils sont accessibles dans l’onglet ASSOCIATION.

Par rapport aux approches classiques, les composants de Tanagra introduisent une spécificité supplémentaire : nous avons la possibilité de préciser la classe (couple « variable à prédire = valeur ») que l’on souhaite prédire. L’intérêt est de pouvoir ainsi paramétrer finement l’algorithme de recherche, en relation directe avec les caractéristiques des données. Cela s’avère décisif par exemple lorsque les prévalences des modalités de la variable à prédire sont très différentes.

Nous avions déjà présentés le composant SPV ASSOC TREE par ailleurs. Mais c’était dans le contexte de la caractérisation multivariée de groupes d’individus. Nous l’opposions alors au composant GROUP CHARACTERIZATION. Dans ce didacticiel, nous comparerons le comportement des composants SPV ASSOC TREE et SPV ASSOC RULE sur un problème de prédiction. Nous mettrons en avant leurs points communs, les problèmes qu’ils savent traiter ; et leurs différences, SPV ASSOC RULE, en plus de proposer des mesures d’intérêt des règles originales, a la capacité de simplifier la base de règles.

Mots clés : règles d’association prédictives, mesures d'intérêt des règles, simplification des bases de règles
Composants : SPV ASSOC TREE, SPV ASSOC RULE
Lien : fr_Tanagra_Predictive_AssocRules.pdf
Données : credit_assoc.xls
Références :
R. Rakotomalala, « Règles d’association »

vendredi 6 février 2009

Utiliser et paramétrer A PRIORI MR

L’extraction des règles d’association est une approche très populaire pour dégager les interdépendances entre les caractéristiques des individus. Elle a beaucoup été utilisée pour étudier les achats concomitants chez les consommateurs. Le résultat se présente sous la forme d’une règle logique du type « SI un individu a acheté tel ou tel produit ALORS il achètera également tel et tel produit ». Bien entendu, il est possible d’étendre le champ d’application de la méthode à d’autres domaines.

Nous avons présenté les règles d’association à plusieurs reprises dans nos didacticiels. La méthode A PRIORI est certainement la plus connue. Malgré ses qualités, l’approche présente un écueil fort : le nombre de règles produites peut être très élevé. La capacité à mettre en avant les « meilleures » règles, celles qui sont porteuses d’informations « intéressantes », devient ainsi un enjeu fort.

Ces dernières années, on a vu fleurir un nombre impressionnant de publications cherchant à proposer des mesures d’intérêt des règles. Leur mise en œuvre est simple : on assigne un score (mesure d’intérêt) à chaque règle, on trie alors la base de règles de manière à ce que celles qui sont les plus informatives apparaissent en premier.

Le composant A PRIORI MR (onglet ASSOCIATION) est un outil expérimental qui propose plusieurs mesures d’évaluation des règles. Il met en avant, entres autres, le concept de « valeur-test ». C’est une mesure statistique développée par A. Morineau (1984), décrite dans un ouvrage (Lebart, Morineau et Piron, 2000), et largement utilisée dans le logiciel commercial SPAD (http://www.spad.eu/).

Mots clés : règles d’association, mesures d'intérêt des règles
Composants : A PRIORI MR
Lien : fr_Tanagra_APrioriMR_Component.pdf
Données : credit_assoc.xls
Références :
R. Rakotomalala, « Règles d’association »

Mesures d'intérêt des règles dans A PRIORI MR

Ce document recense les mesures d’évaluation des règles d’association proposées par le composant A PRIORI MR. Elles résultent d’études relatées dans une série de publications de A. Morineau et R. Rakotomalala (essentiellement en 2006).

Une mesure sert à caractériser la pertinence d’une règle. Elle permet de les classer. Elle devrait aussi permettre de discerner celles qui sont « significativement intéressantes » de celles qui ne le sont pas. Ce dernier point reste totalement prospectif. Il n’y a pas de solutions réellement satisfaisantes à ce jour.

Mots clés : règles d'association, mesures d'intérêt des règles, valeur test
Composants : A PRIORI MR
Lien : fr_Tanagra_APrioriMR_Measures.pdf
Références :
A. Morineau, R. Rakotomalala, "Crtière VT-100 de sélection des règles d'association", in Actes de EGC-2006, pp. 581-592, Lille, 2006.
Wikipedia, "Association rule learning"