jeudi 20 mars 2008

Déploiement de modèles avec Tanagra

Le déploiement des modèles est une activité clé du Data Mining. Dans le cas de l’apprentissage supervisé, il s’agit de classer de nouveaux individus à partir des valeurs connues des variables prédictives introduites dans le modèle. Dans le cas de l’analyse factorielle, il s’agit de fournir les coordonnées factorielles d’un individu à partir de la description dans l’espace initial. Dans le cas de la classification automatique (clustering), il s’agit de définir le groupe d’appartenance d’un individu supplémentaire, etc.

Sipina s’appuie sur un dispositif relativement simple pour cette tâche. On peut appliquer un arbre de décision sur un nouveau fichier. Comme les données ne subissent pas de transformations intermédiaires avant l’apprentissage supervisé, la correspondance entre les variables du fichier de données servant à élaborer le modèle et les variables disponibles pour le déploiement est relativement aisée.

Dans le cas de Tanagra, la situation est autrement plus complexe pour deux raisons : c’est un logiciel généraliste, intégrant des techniques de nature différentes ; le concept de la chaîne de traitements implique une succession de transformations. Prenons un exemple d’apprentissage supervisé pour fixer les idées. Les descripteurs sont initialement composés de variables quantitatives et qualitatives. Nous discrétisons tout d’abord les variables quantitatives. Puis, nous intégrons les variables discrétisées et les variables déjà qualitatives dans une analyse en composantes multiples. Les axes factoriels deviennent alors les entrées de l’analyse discriminante.

Lorsque nous voulons déployer le modèle sur un nouveau fichier de données, seules les variables originelles sont décrites. Il nous faudrait donc reproduire la séquence des opérations en effectuant le déploiement à partir de tous les opérateurs intermédiaires c.-à-d. appliquer la discrétisation sur les variables quantitatives en utilisant les paramètres calculés en apprentissage, calculer les coordonnées factorielles, effectuer la prédiction de l’analyse discriminante enfin. Cela peut être très rapidement inextricable...

Tanagra réalise bien toutes ces opérations lors du déploiement d’une chaîne de traitements complexe. Mais pour éviter de tomber dans un dispositif qui ressemblerait rapidement à une usine à gaz, le fichier doit être préparé d’une manière particulière, afin que les opérations intermédiaires soient correctement réalisées.

Ce didacticiel montre comment doit être organisé le fichier de données pour que le déploiement soit réalisé efficacement. Nous illustrons notre propos avec un exemple assez simple. Mais la démarche peut être généralisée à des chaînes de traitements complexes.

Mots clés : déploiement de modèles, arbres de décision, CART, exportation des données
Composants : Supervised learning, C-RT, Select examples, View dataset, Export dataset
Lien : fr_Tanagra_Deployment.pdf
Données : tanagra_deployment_files.zip