samedi 12 avril 2014

Text mining avec Knime et RapidMiner

L’approche statistique du « text mining » consiste à transformer une collection de documents textuels en une matrice de valeurs numériques sur laquelle nous pouvons appliquer les techniques d’analyse de données. Bien évidemment, d’autres prismes existent. Je préfère prendre mes précautions avant la levée de bouclier des linguistes et autres tenants des approches sémantiques. Il y a de la place pour tout le monde.

Dans ce tutoriel, je reprends un des exercices de catégorisation de textes (fouille de textes) que j’encadre en Master SISE  du Département Informatique et Statistique de l’Université Lumière Lyon 2. Nous effectuons la totalité des opérations sous R. L’utilisation des packages spécialisés ‘XML’ et ‘tm’ facilitent grandement les opérations, avouons-le. Je me suis demandé s’il était possible de réaliser les mêmes traitements à l’aide d’autres logiciels libres. J’ai beaucoup cherché. Trouver de la documentation qui corresponde véritablement à ce que je souhaitais mettre en place n’a pas été facile (et encore, je savais exactement ce qu’il y avait à faire, ça aide pour les recherche sur le web). J’ai finalement réussi à reproduire (à peu près) la totalité de la séance sous les logiciels Knime 2.9.1 et RapidMiner 5.3.

Mots clés : text mining, fouille de textes, catégorisation de textes, arbres de décision, j48, svm linéaire, base reuters, format XML, stemming, stopwords, matrice documents-termes
Lien : fr_Tanagra_Text_Mining.pdf
Données : text_mining_tutorial.zip
Références :
Wikipedia, "Document classification".
S. Weiss, N. Indurkhya, T. Zhang, "Fundamentals of Predictive Text Mining", Springer, 2010.