mercredi 19 mars 2008

Importer un fichier Weka dans Sipina

WEKA est un logiciel de Data Mining libre très populaire dans la communauté « Machine Learning ». Il intègre un grand nombre de méthodes, articulées essentiellement autour des approches supervisées et non supervisées.

WEKA possède un format de fichier propriétaire (*.ARFF), qui est un format texte, avec des spécifications ad hoc pour documenter les variables. Importer un fichier ARFF ne pose donc pas de problèmes particuliers, dès lors que l’on sait appréhender un fichier texte.

Dans ce didacticiel, nous montrons comment charger un fichier ARFF dans SIPINA. L’importation est directe, il s’agit simplement de connaître la bonne procédure. Nous profitons de cet exemple pour montrer comment subdiviser aléatoirement un ensemble de données pour : construire l’arbre sur l’échantillon d’apprentissage, l’évaluer sur l’échantillon test. Nous utilisons la méthode C4.5 (Quinlan, 1993).

Mots clés : WEKA, format de fichier ARFF, arbres de décision, C4.5, subdivision apprentissage et test, évaluation des classifieurs
Lien : fr_sipina_weka_file_format.pdf
Données : ionosphere.arff

anti_bug_fck