mardi 6 janvier 2009

Coûts de mauvais classement en apprentissage supervisé

Tout le monde s’accorde à dire que l’intégration des coûts de mauvais classement est un aspect incontournable de la pratique du Data Mining. Diagnostiquer une maladie chez un patient sain ne produit pas les mêmes conséquences que de prédire la bonne santé chez un individu malade. Dans le premier cas, le patient sera soigné à tort, ou peut être demandera-t-on des analyses supplémentaires superflues ; dans le second cas, il ne sera pas soigné, au risque de voir son état se détériorer de manière irrémédiable. Pourtant, malgré son importance, le sujet est peu abordé, tant du point de vue théorique c.-à-d. comment intégrer les coûts dans l’évaluation des modèles (facile) que dans leur construction (un peu moins facile), que du point de vue pratique c.-à-d. comment les mettre en œuvre dans les logiciels.

La prise en compte des coûts lors de l’évaluation ne pose pas de problèmes particuliers. La prise en compte des coûts lors de l’élaboration du modèle de classement est moins connue. Plusieurs approches sont possibles.

Si les techniques existent, qu’en est-il de leur implémentation dans les logiciels libres ? Après investigations, on se rend compte que les logiciels qui les intègrent de manière naturelle sont très peu nombreux. Il semble que Weka soit l’un des rares à proposer des outils faciles à manipuler pour l’intégration des coûts. Ce constat nous a amené à introduire de nouveaux composants destinés à la prise en compte des coûts en apprentissage supervisé dans la version 1.4.29 de Tanagra.

Dans ce document, nous montrons la mise en œuvre de ces composants de Tanagra 1.4.29 sur un problème réel (réaliste). Nous avons également programmé ces mêmes procédures dans le logiciel R 2.8.0 (http://www.r-project.org/) pour donner une meilleure visibilité sur ce qui est implémenté. Nous comparerons nos résultats avec ceux de Weka 3.5.8. L’algorithme sous-jacent à toutes nos analyses sera un arbre de décision. Selon les logiciels, nous utiliserons C4.5, CART ou J48.

Mots clés : apprentissage supervisé, coûts de mauvais classement, arbres de décision, Weka 3.5.8, logiciel R 2.8.0, package rpart
Composants : CS-CRT, COST SENSITIVE LEARNING, COST SENSITIVE BAGGING, MULTICOST
Lien : fr_Tanagra_Cost_Sensitive_Learning.pdf
Données : dataset-dm-cup-2007.zip
Références :
J.H. Chauchat, R. Rakotomalala, M. Carloz, C. Pelletier, "Targeting Customer Groups using Gain and Cost Matrix: a Marketing Application", PKDD-2001.
J.H. Chauchat, R. Rakotomalala, "Cost sensitive C4.5"
Tutoriel Tanagra, "Apprentissage-test avec Sipina"