samedi 11 mai 2013

Classifieurs linéaires

L’apprentissage supervisé a pour objectif de mettre au jour une liaison fonctionnelle f(.) entre une variable cible Y (variable à prédire, variable expliquée, etc.) que l’on cherche à prédire et une ou plusieurs variables prédictives (les descripteurs, les variables explicatives, etc.) (X1, X2, ..., Xp). La fonction est paramétrée.

Dans ce tutoriel, nous étudions le comportement de 5 classifieurs linéaires sur des données artificielles. Les modèles linéaires sont des outils privilégiés de l’apprentissage supervisé. En effet, s’appuyant sur une simple combinaison linéaire des variables prédictives, ils présentent l’avantage de la simplicité : la lecture de l’influence de chaque descripteur est relativement facile (signes et valeurs des coefficients) ; les techniques d’apprentissage sont souvent rapides, même sur de très grandes bases de données. Nous nous intéresserons plus particulièrement à : (1) le modèle bayésien naïf (modèle d’indépendance conditionnelle), (2) l’analyse discriminante linéaire, (3) la régression logistique, (4) le perceptron simple, et (5) les machines à vaste marge (SVM, support vector machine).

L’expérimentation a été entièrement menée sous le logiciel R. Nous montrons également la mise en oeuvre de ces différentes techniques avec les logiciels Tanagra, Knime, Orange, RapidMiner et Weka.

Mots clés : modèles linéaires, bayésien naïf, modèle d'indépendance conditionnelle, analyse discriminante prédictive, régression logistique, perceptron, réseaux de neurones, svm linéaire, arbres de décision, rpart, random forest, forêts aléatoires, k-nn, k-ppv, plus proches voisins, package e1071, package MASS, package nnet, package lattice, package rpart, package rf, package class
Composants : NAIVE BAYES CONTINUOUS, LINEAR DISCRIMINANT ANALYSIS, BINARY LOGISTIC REGRESSION, MULTILAYER PERCEPTRON, SVM
Lien : fr_Tanagra_Linear_Classifier.pdf
Données : linear_classifier.zip
Références :
Wikipedia, "Linear Classifier".