vendredi 21 mars 2008

Scoring avec la régression logistique

Un autre exemple de ciblage marketing, l’objectif toujours est d’associer un score à chaque individu permettant de les trier selon leur appétence à un produit.

Par rapport au didacticiel précédent, nous avons deux particularités : on utilise la régression logistique binaire, une méthode très populaire dans le scoring ; le ratio nombre de variables sur nombre d’individus est très élevé, nous imposant une sélection de variables sévère.

L’échantillon est subdivisé en 2 parties, nous construisons le modèle sur la partie apprentissage, nous l’évaluons sur la partie test. Nous utilisons la courbe lift pour comparer les approches. Plus précisément, nous comptabilisons le nombre de positifs que nous arrivons à détecter dans une cible de 300 individus.

Deux conclusions s’imposent dans cet exemple. (1) La sélection de variables diminue considérablement le nombre de descripteurs sans dégrader la qualité du scoring. (2) Selon que l’on adopte une recherche forward ou backward, nous n’obtenons, ni le même nombre de variables, ni les mêmes variables. Mais la qualité du ciblage est quasi identique.

Ce dernier résultat laisse souvent perplexe les praticiens : quel modèle choisir au final ? On pourrait déjà adopter la solution comportant le plus petit nombre de variables. Ca a le mérite de trancher. Mais, à mon sens, il faut surtout voir ces approches comme des outils fournissant des scénarios. Charge à nous, avec une expertise autre que purement statistique (banquier, médecin, etc.), de choisir par la suite la solution la plus appropriée, en adéquation avec les connaissances et les contraintes du domaine.

Mots clés : scoring, ciblage marketing, régression logistique
Composants : Supervised learning, Binary logistic regression, Select examples, Scoring, Lift curve, Forward-logit, Backward-logit
Lien : fr_Tanagra_Variable_Selection_Binary_Logistic_Regression.pdf
Données : dataset_scoring_bank.xls
Références :
R. Rakotomalala – « Ciblage marketing – Construire la courbe Lift »
R. Rakotomalala – « Régression logistique »