jeudi 20 mars 2008

Ciblage marketing (scoring) – Coil challenge

Le ciblage en Data Mining consiste à constituer des groupes d’individus dans lequel nous maximisons le nombre d’éléments « positifs ». L’exemple le plus souvent cité est l’entreprise qui veut faire la promotion d’un produit en envoyant un courrier à ses clients. Les « positifs » sont les personnes qui vont répondre positivement à l’offre. La cible constitue les prospects, les individus contactés. Pour des questions de coûts, il n’est pas possible de solliciter tous les clients. Il faut que dans la cible souhaitée, limitée par un budget souvent, la proportion de personnes positives soit le plus élevé possible.

Parfois, la démarche est inversée : l’entreprise fixe un objectif en parts de marchés, nombre de clients positifs à retrouver, on s’appuiera sur le scoring pour déterminer la cible de plus petite taille possible afin d’obtenir ce résultat.

Au final, nous sommes bien dans un problématique d’apprentissage supervisé à 2 classes : on veut différencier les positifs des négatifs. A la différence qu’il ne s’agit pas prédire absolument l’étiquette des individus, mais plutôt de leur attribuer un score (de positivité) qui permet de trier la base selon l’appétence du client au produit proposé. La matrice de confusion et le taux d’erreur n’ont plus de sens dans ce contexte. On préfèrera un outil spécifique, la COURBE LIFT (GAIN CHART), pour définir la part de marché obtenue à budget fixé, ou inversement, déterminer le budget nécessaire pour obtenir une part de marché fixée.

Ce didacticiel montre la mise en œuvre du scoring dans Tanagra à l’aide de l’analyse discriminante. Les données proviennent d’une compétition qui a été organisée en 2000 (CoIL Challenge 2000) : il s’agissait de repérer parmi les clients d’une compagnie d’assurance, ceux qui vont prendre une police d’assurance pour leur caravane.

Les résultats du concours ont montré que les méthodes avec un biais de représentation linéaire (type analyse discriminante, régression logistique ou modèle d’indépendance conditionnelle [Naive Bayes]) se comportent très bien dans le scoring. C’est par ailleurs ce que constatent tous les jours les chargés d’études qui travaillent dans le domaine. Les méthodes plus complexes sont rarement meilleures. De plus, elles pâtissent d’un défaut rédhibitoire, il est difficile de discerner le rôle des variables dans la détection des positifs.

Enfin, par rapport au descriptif proposé dans le didacticiel, Tanagra (version 1.4.21 et +) affiche directement maintenant la courbe lift dans un onglet supplémentaire de la fenêtre d'affichage.

Mots clés : scoring, ciblage marketing, analyse discriminante, courbe lift, gain chart
Composants : Supervised learning, Linear discriminant analysis, Select examples, Scoring, Lift curve
Lien : fr_Tanagra_Scoring.pdf
Données : tcidata.zip
Référence : R. Rakotomalala – « Ciblage marketing – Construire la courbe Lift »