mercredi 2 avril 2008

Courbe ROC avec ORANGE, TANAGRA et WEKA

TANAGRA, ORANGE et WEKA sont trois logiciels de data mining gratuits. S’ils poursuivent le même objectif, permettre aux utilisateurs de définir une succession de traitements sur les données, ils présentent néanmoins des différences. C’est tout à fait normal. Leurs auteurs n’ont pas la même culture informatique, cela se traduit par des choix technologiques différents ; ils n’ont pas la même culture de la fouille de données, ce qui se traduit par un vocabulaire et par un mode de présentation des résultats parfois différents.

Au-delà de leurs propres spécificités, ces outils permettent de définir les mêmes analyses et par conséquent produisent les mêmes résultats. La comparaison sera d’autant plus aisée qu’ils adoptent le même mode de représentation graphique des séquences d’opérations, à l’aide d’un graphe pour ORANGE et WEKA, à l’aide d’un arbre pour TANAGRA : chaque sommet représente un traitement, le lien entre chaque sommet représente le flux de données.

Dans ce didacticiel, nous montrons la construction de la courbe ROC à partir d’une régression logistique. Quel que soit le logiciel utilisé, nous devons impérativement passer par les étapes suivantes :

+ Importer les données dans le logiciel ;
+ Calculer les statistiques descriptives pour se donner une idée de la nature des données ;
+ Définir le problème à résoudre, c.-à-d. choisir la variable à prédire (l’attribut « classe ») et les descripteurs ;
+ Définir la modalité « positive » de la variable à prédire ;
+ Subdiviser le fichier en données d’apprentissage (70% par exemple), servant à construire le modèle de prédiction, et en données test (30 %), pour construire la courbe ROC ;
+ Choisir l’algorithme d’apprentissage, nous voulons mettre en œuvre la régression logistique, selon la méthode réellement implémentée dans le logiciel, c’est le principal point de différenciation, nous pouvons obtenir des résultats légèrement différents ;
+ Lancer l’apprentissage et visualiser les résultats ;
+ Elaborer la courbe ROC sur les données en test afin d’évaluer les performances en classement.

La progression peut ne pas être la même pour chaque logiciel. Néanmoins, à un moment ou un autre, il faudra passer par chacune des étapes ci-dessus, de manière explicite ou non, pour arriver à nos fins.

On retrouve dans un autre didacticiel l’utilisation de la courbe ROC lorsque l’on souhaite comparer les performances de classifieurs.

Mots clés : apprentissage supervisé, courbe roc, évaluation des classifieurs, Weka, Orange, subdivision apprentissage test
Composants : More Univariate cont stat, Sampling, Supervised learning, Log-Reg TRIRLS, Scoring, Roc curve
Lien : fr_Tanagra_Orange_Weka_Roc_curve.pdf
Données : ds1_10.zip
Références :
R. Rakotomalala – « Courbe ROC »
T. Fawcet – « ROC Graphs : Notes and Practical Considerations of Researchers »