jeudi 20 mars 2008

Traitement des grands fichiers

Une des principales nouveautés de ces dernières années est l’évolution quasi-exponentielle du volume des fichiers que nous sommes emmenés à traiter. Il y a une dizaine d’années encore, un tableau de 5000 observations avec 22 variables, les fameuses « ondes de Breiman », faisait figure de « gros fichier » au sein de la communauté de l’apprentissage automatique. Aujourd’hui, les tailles de fichiers connaissent une inflation galopante avec une augmentation importante du nombre d’observations (les bases marketing) et/ou du nombre de descripteurs (en bio-informatique, en réalité tous les domaines où les descripteurs sont générés automatiquement).

La capacité à traiter les gros ensembles de données est un critère important de différenciation entre les logiciels de recherche et les logiciels commerciaux. Très souvent les outils commerciaux disposent de systèmes de gestion de données très performants, limitant la quantité de données chargée en mémoire à chaque étape du traitement. Les outils de recherche en revanche conservent toutes les données en mémoire, en les codant au mieux de manière à ce que l’occupation de la RAM ne soit pas prohibitive. Dès lors, les limites du logiciel sont déterminées par les capacités de la machine utilisée.

TANAGRA se situe précisément dans la seconde catégorie. Il charge toutes les données en mémoire, sous une forme encodée. Il est intéressant d’analyser les temps de traitements sur un fichier de taille (relativement) respectable. Nous décrivons cela dans ce didacticiel en mettant en exergue l’importation des données et l’induction d’un arbre de décision avec la méthode ID3.

Mots clés : temps de traitement, capacité de traitement, grandes bases de données, arbres de décision
Composants : Supervised learning, ID3
Lien : fr_Tanagra_Big_Dataset.pdf
Données : covtype.zip