mardi 29 avril 2014

Régression linéaire pour le classement

Ces slides font suite au tutoriel consacré à l’utilisation de la régression linéaire multiple dans un problème de classement. La trame est la même. On montre (1) que la démarche est tout à fait licite lorsque la variable cible est binaire, il existe une passerelle avec l’analyse discriminante linéaire ; (2) les tests d’évaluation globale du modèle et de pertinence des variables sont applicables.

Mots clés : apprentissage supervisé, discrimination, classement, régression linéaire multiple, analyse discriminante linéaire, significativité globale du modèle, significativité individuelle des coefficients, R2, lambda de wilks
Lien : regression_multiple_pour_le_classement.pdf
Références :
Tutoriel Tanagra, "Analyse discriminante et régression linéaire", avril 2014.

dimanche 20 avril 2014

Analyse discriminante et régression linéaire

Bien que s’inscrivant toutes deux dans le cadre de l’analyse prédictive, l’analyse discriminante linéaire et la régression linéaire multiple répondent à des problématiques différentes. La première cherche à prédire une variable cible qualitative nominale à partir d’un ensemble de variables prédictives quantitatives (ou qualitatives recodées en indicatrices numériques). Pour la seconde, la variable cible est quantitative. La finalité, les calculs sous-jacents et le mécanisme inférentiel ne sont pas les mêmes.

Pourtant, de nombreux auteurs indiquent qu’il y a des similarités entre ces deux approches. Mieux même, dans le cas particulier d’une variable cible binaire, il est possible de reproduire à l’identique les sorties de l’analyse discriminante à partir des résultats de la régression.

Dans ce tutoriel, nous décrivons les connexions entre les deux approches dans le cas d’une variable cible binaire. Nous détaillons les formules permettant de retrouver les coefficients de l’analyse discriminante à partir de ceux de la régression linéaire. Il apparaît que, si l’équivalence est totale lorsque les classes sont équilibrées, il est nécessaire d’introduire une correction additionnelle de la constante lorsque les effectifs ne sont pas identiques dans les deux groupes. La formule correspondante est explicitée. Nous réalisons les calculs sous Tanagra (classes équilibrées) et sous R (classes non équilibrées).

Mots clés : analyse discriminante prédictive, analyse discriminante linéaire, régression linéaire multiple, lambda de wilks, distance de mahalanobis, fonction score, classifieur linéaire, sas, proc discrim, proc stepdisc
Composants : LINEAR DISCRIMINANT ANALYSIS, MULTIPLE LINEAR REGRESSION
Lien : fr_Tanagra_LDA_and_Regression.pdf
Données : lda_regression.zip
Références :
C.J. Huberty, S. Olejnik, « Applied MANOVA and Discriminant Analysis »,Wiley, 2006.
R. Tomassone, M. Danzart, J.J. Daudin, J.P. Masson, « Discrimination et Classement », Masson, 1988.

samedi 12 avril 2014

Text mining avec Knime et RapidMiner

L’approche statistique du « text mining » consiste à transformer une collection de documents textuels en une matrice de valeurs numériques sur laquelle nous pouvons appliquer les techniques d’analyse de données. Bien évidemment, d’autres prismes existent. Je préfère prendre mes précautions avant la levée de bouclier des linguistes et autres tenants des approches sémantiques. Il y a de la place pour tout le monde.

Dans ce tutoriel, je reprends un des exercices de catégorisation de textes (fouille de textes) que j’encadre en Master SISE  du Département Informatique et Statistique de l’Université Lumière Lyon 2. Nous effectuons la totalité des opérations sous R. L’utilisation des packages spécialisés ‘XML’ et ‘tm’ facilitent grandement les opérations, avouons-le. Je me suis demandé s’il était possible de réaliser les mêmes traitements à l’aide d’autres logiciels libres. J’ai beaucoup cherché. Trouver de la documentation qui corresponde véritablement à ce que je souhaitais mettre en place n’a pas été facile (et encore, je savais exactement ce qu’il y avait à faire, ça aide pour les recherche sur le web). J’ai finalement réussi à reproduire (à peu près) la totalité de la séance sous les logiciels Knime 2.9.1 et RapidMiner 5.3.

Mots clés : text mining, fouille de textes, catégorisation de textes, arbres de décision, j48, svm linéaire, base reuters, format XML, stemming, stopwords, matrice documents-termes
Lien : fr_Tanagra_Text_Mining.pdf
Données : text_mining_tutorial.zip
Références :
Wikipedia, "Document classification".
S. Weiss, N. Indurkhya, T. Zhang, "Fundamentals of Predictive Text Mining", Springer, 2010.