dimanche 21 septembre 2008

Traitement de gros volumes – Comparaison de logiciels

La gestion de la volumétrie est une des pierres angulaires du Data Mining. Toute présentation du domaine passe par le sempiternel « depuis quelques années, les entreprises amassent une quantité considérable de données, l’enjeu n’est plus comment les stocker mais plutôt comment les exploiter pour en tirer de l’information », etc., etc. Ok, ok, n’en jetez plus, on est d’accord.

Si le traitement des grandes bases est un enjeu important, on est curieux de savoir comment se comportent les logiciels libres (gratuits) dans ce contexte. Ils sont nombreux dans le Data Mining. J’essaie de suivre un peu leur évolution. La capacité à analyser des grands fichiers est un critère que je regarde souvent pour situer mes propres implémentations. La plupart chargent l’ensemble de données en mémoire centrale. De fait, la différenciation en termes de performances repose essentiellement sur la technologie utilisée (compilé ou pseudo-compilé) et la programmation. Le goulot d’étranglement est la mémoire disponible.

Dans ce didacticiel, nous comparons les performances de plusieurs implémentations de l’algorithme C4.5 (Quinlan, 1993) lors du traitement d’un fichier comportant 500.000 observations et 22 variables. Un fichier somme toute assez raisonnable.

Les logiciels mis en compétition sont les suivants : KNIME, ORANGE, R (package RPART), RAPIDMINER (anciennement YALE), SIPINA, TANAGRA et WEKA.

Ce document vient un complément d’un ancien didacticiel où nous montrions les performances de ID3 de Tanagra sur un fichier encore plus volumineux. Nous retiendrons 2 critères pour comparer les logiciels : le temps de traitement et surtout l’occupation mémoire. Ils sont essentiels dans notre contexte.

On retiendra entre autres que tous les logiciels ont pu mener à bien les calculs dans cette expérimentation. Ce qui confirme, si besoin était, l’excellente tenue des logiciels libres en matière de performances.

Mots clés : c4.5, arbres de décision, grandes bases de données, comparaison de logiciels, knime, orange, r, rapidminer, sipina, tanagra, weka
Composants : SUPERVISED LEARNING, C4.5
Lien : fr_Tanagra_Perfs_Comp_Decision_Tree.pdf
Données : wave500k.zip
Références :
R. Quinlan, « C4.5 : Programs for Machine Learning », Morgan Kaufman, 1993.