jeudi 31 mars 2011

Classifieur Bayesien Naïf - Diaporama

Le classifieur bayesien naïf (le modèle d'indépendance conditionnelle) est très populaire en recherche (text mining, etc.), mais peu utilisée par les praticiens du data mining en entreprise (études marketing). Pourtant, la technique cumule les qualités : incrémentalité, capacité à traiter de très grandes bases (tant en nombre de lignes que de colonnes), simplicité des calculs (ce qui fait peut être son succès auprès des informaticiens), performances comparables aux autres techniques supervisées. Une des raisons de cette défection est qu'elle est mal comprise. Beaucoup pensent qu'il n'est pas possible d'en déduire un modèle explicite facile à déployer. Quand on regarde ce que propose le standard PMML pour son intégration dans les systèmes d'information, on peut effectivement s'interroger sur son intérêt. Ajouté à cela, l'interprétation des résultats qui est inhérente à toute étude, c.-à-d. l'analyse de la relation de chaque prédicteur avec la variable cible, semble bien compromise également.

Pourtant, à bien y regarder, on se rend compte que l'on peut facilement dériver un modèle explicite sous forme de combinaisons linéaires des prédicteurs. Nous avions implémenté cette approche dans Tanagra. Nous avons montré dans plusieurs tutoriels (cf. références) l'intérêt de ces calculs supplémentaires relativement simples finalement. Dans cette optique, le classifieur bayesien naïf se pose comme un challenger tout à fait valable des techniques populaires telles que la régression logistique. A l'époque des dits tutoriels, Tanagra était le seul logiciel libre (ou à accès gratuit) à proposer la présentation des modèles sous cette forme. Je ne sais pas aujourd'hui.

Ce diaporama, qui me servira de support pour mes cours, vient présenter la méthode de manière unifiée (prédicteurs quantitatifs et qualitatifs). A terme, il constituera un chapitre d'un ouvrage consacré à l'analyse discriminante prédictive.

Diaporama imprimable : Classifieur Bayesien Naïf
Références :
Tutoriel Tanagra, "Le classifieur Bayesien Naïf revisité"
Tutoriel Tanagra, "Bayesien Naïf pour Prédicteurs Continus"