jeudi 27 mars 2008

Tanagra en ligne de commande

L’expérimentation est indissociable du data Mining. Une grande partie de notre travail est de déterminer les paramètres adaptés, tester des configurations différentes, comparer des performances d’algorithmes sur les mêmes données, reproduire des traitements sur des fichiers de données similaires.

A l’évidence, la définition de traitements sous forme de diagramme, appelé pompeusement « programmation visuelle », n’est absolument pas adaptée dans ce contexte. Il faudrait disposer d’un langage de programmation avec tous les attributs associés : boucles, branchement conditionnel, etc.

Avant d’en arriver à ce stade, nous pouvons quand même tirer parti de certaines fonctionnalités de Tanagra pour monter des expérimentations. En effet, il est possible de lancer directement le logiciel en ligne de commande. Il nous suffit donc de définir un diagramme type, enregistré au format TDM (qui est un fichier texte rappelons-le, aisément manipulable en dehors du logiciel), et de le transmettre à Tanagra.

On peut même aller plus loin en définissant des traitements par lots dans un fichier .BAT (pour le DOS). Différentes sessions de Tanagra sont lancés, les résultats sont sauvegardés régulièrement. C’est la démarche que nous proposons dans ce didacticiel. Nous étudions les performances comparées du modèle bayesien naïf, avec et sans sélection de variables, sur des fichiers de structure similaire.

Enfin, nous ne l’abordons pas dans ce tutoriel, mais si nous souhaitons véritablement monter des expérimentations à grande échelle. La solution passe par l’écriture d’un programme simple qui génère automatiquement les fichiers TDM avec les configurations souhaités, et qui les transmet à Tanagra. Les résultats sont collectés au fur et à mesure. Le nombre de variantes que l’on peut tester ainsi devient très important.

Mots clés : traitements automatisés, expérimentation
Composants : Supervised Learning, Naive bayes, Cross validation, FCBF filtering
Lien : dr_utiliser_tanagra_en_mode_batch.pdf
Données : tanagra_batch_execution.zip