lundi 17 novembre 2008

Règles d’association – Comparaison de logiciels

Ce document reprend un précédent tutoriel dédié à la comparaison des implémentations libres des règles d’association. Nous avions étudié Tanagra, Orange, et Weka. Nous étendons le comparatif aux logiciels R (package arules), RapidMiner et Knime.

Nos données se présentent sous la forme d’un tableau générique « attribut – valeur », avec les individus en ligne et les variables en colonne. Ce n’est pas le format usuel pour les règles d’association où l’on traite plutôt des bases transactionnelles : chaque ligne est une transaction, pour chaque transaction nous disposons de la liste des items observés.

Nous verrons dans ce didacticiel que certains logiciels savent traiter le format tableau en réalisant automatiquement en interne le recodage. Pour d’autres en revanche, il nous faudra procéder explicitement au recodage. Il importe alors de trouver les bons outils et la bonne séquence de traitements pour produire le format propice à l’extraction des règles d’association. Les manipulations ne sont pas toujours évidentes selon les logiciels.

Tous les logiciels étudiés implémentent une version plus ou moins élaborée de l’algorithme A PRIORI (Agrawal et Srikant, 1994). Pour être tout à fait précis, et afin que tout un chacun puisse reproduire exactement les opérations, nous avons mis à contribution les versions suivantes dans ce comparatif : Tanagra 1.4.28 ; R 2.7.2 (package arules 0.6-6) ; Orange 1.0b2 ; RapidMiner Community Edition ; Knime 1.3.5 et Weka 3.5.6.

Tous chargent la totalité des données et effectuent les calculs en mémoire vive. Lorsque la taille de la base augmente, le véritable goulot d’étranglement est donc la mémoire disponible sur notre machine.

Mots clés : règles d’association
Composants : A PRIORI, A PRIORI PT
Lien : fr_Tanagra_Assoc_Rules_Comparison.pdf
Données : credit-german.zip
Références :
R. Rakotomalala, « Règles d’association »