jeudi 20 mars 2008

Sauver et charger des parties du diagramme

Bien souvent, nous utilisons les mêmes séquences de traitements lorsque nous traitons, avec des objectifs identiques, des bases de données présentant des caractéristiques similaires.

Prenons le cas de l’apprentissage supervisé, il s’agit de définir la variable à prédire et les variables prédictives, mettre en place la méthode d’apprentissage, et valider la chaîne à l’aide d’une technique de ré échantillonnage. L’analyse peut être complétée par une étape de sélection de variables. Il s’agit bien là d’une démarche type qui peut être transposée dans tout problème d’apprentissage supervisé. Il serait intéressant de pouvoir créer, une fois pour toutes, ce « super composant » constitué d’un enchaînement standardisé. L’objectif est de pouvoir le reproduire facilement lors de l’exploration d’autres fichiers.

Il est possible de sauvegarder dans un fichier externe une fraction du diagramme dans TANAGRA. On pourra le charger dans un autre contexte pour définir les mêmes traitements types. On peut le voir comme un module de programme partageable. Il faut bien entendu que les configurations soient compatibles.

Dans ce didacticiel, nous traitons un problème de prédiction où tous les descripteurs sont discrets. Nous utilisons le modèle d’indépendance conditionnelle. Nous voulons comparer les performances du classifieur, avec et sans FCBF (Yu et Liu, 2003), une méthode de sélection de variables. Les manipulations sont décomposées en 3 phases : (1) création du diagramme type sur un des fichiers de données ; (2) sauvegarde de la fraction du diagramme que l’on veut partager ; (3) importation de la fraction dans un autre diagramme, traitant un autre fichier de données.

Cette fonctionnalité peut être vue comme une généralisation du copier coller. A la différence que nous pouvons travailler sur plusieurs diagrammes différents. Elle ouvre des perspectives intéressantes. On pourrait demander à des experts de définir des séquences de traitements types qui seront distribuées aux utilisateurs.

Mots clés : sauvegarde du diagramme, copier coller, comparaison de classifieurs, apprentissage supervisé, validation croisée, modèle d’indépendance conditionnelle, sélection de variables, FCBF
Composants : Supervised learning, Naive Bayes, Cross validation
Lien : fr_Tanagra_Diagram_Save_Subdiagram.pdf
Données : congressvote_zoo.zip
Voir aussi : Copier coller dans le diagramme