mercredi 2 avril 2008

Règles d’association – Algorithme A PRIORI

L’extraction des règles d’association est une technique de data mining relativement récente (Agrawal et Srikant, 1994). Elle a été définie initialement pour trouver des co-occurrences dans les bases transactionnelles, notamment pour analyser les fameux « tickets de caisse » des grandes surfaces. On s’est rendu compte très rapidement que la démarche pouvait être étendue à l’analyse des tableaux statistiques « individus x variables ».

Si le principe de l’algorithme est assez simple, il en est tout autre en ce qui concerne son implémentation. Les principaux enjeux sont la gestion de la volumétrie : les bases à traiter sont en général très importantes ; et, a posteriori, le nombre de règles produites est très élevé, il devient vital de pouvoir les filtrer/trier avec des critères répondant directement aux besoins de l’utilisateurs.

Très rares sont les logiciels de Data Mining libres capables d’appréhender des grandes bases de données. Tanagra ne déroge pas à la règle. Les données sont chargées en mémoire, les structures intermédiaires pour l’extraction des itemsets et la production des règles sont également en mémoire. La machine est vite débordée, surtout si on paramètre mal la méthode.

Néanmoins, sur des bases relativement raisonnables, et avec un paramétrage adéquat, on peut très bien générer les règles d’association avec Tanagra. Dans un cadre pédagogique, il donne toute satisfaction.

Ce didacticiel décrit la mise en œuvre de l’algorithme sur une base « individus x variables ». Il montre l’influence du paramétrage sur le nombre de règles produites.

Mots clés : règles d’association, algorithme a priori
Composants : A priori
Lien : a_priori.pdf
Données : banque.bdm
Références :
R. Rakotomalala, « Les règles d’association ».
P.N. Tan, M. Steinbach, V. Kumar, « Introduction to Data Mining », Addison Wesley, 2006 ; chapitre 6, « Association analysis : Basic Concepts and Algorithms ».