samedi 11 décembre 2010

Arbres de décision sur les grands fichiers (mise à jour)

Dans un post assez ancien ("Traitement de gros volumes - Comparaison de logiciels" - septembre 2008), je comparais le comportement de plusieurs logiciels lors du traitement d'un fichier relativement volumineux avec les arbres de décision.

J'y décrivais entres autres le comportement de Tanagra version 1.4.27 sortie en aout 2008. Depuis, ma machine de développement a changé ; Tanagra lui-même a changé, nous en sommes à ce jour à la version 1.4.37 ; et Sipina a lui aussi été modifié (version 3.5), avec l'introduction du multithreading pour certaines techniques d'induction d'arbres. Je me suis dit qu'il était temps d'étudier les performances en rééditant l'expérimentation dans les mêmes conditions.

Concernant Tanagra et Sipina, les seuls logiciels que j'ai analysés dans ce nouveau contexte, l'amélioration des temps de traitement est manifeste. Après, il faut discerner ce qui est imputable au changement de machine, et ce qui revient aux modifications dans les implémentations. Nous avançons quelques pistes dans notre document.

Les nouveaux résultats ont été ajoutés dans la dernière section (section 5) du PDF.

Lien : fr_Tanagra_Perfs_Comp_Decision_Tree.pdf