mardi 24 janvier 2017

Les expression régulières sous R

La manipulation de documents textuels en text mining implique de nombreuses opérations de recherche, de remplacement, de nettoyage, de découpage… Il s’agit donc de pouvoir effectuer des requêtes sur du contenu qui n’est pas structuré comme le serait une base de données.

Les expressions régulières constituent un outil privilégié dans ce contexte. Elles correspondent à des modèles (motifs) qui permettent de décrire des ensembles de chaînes de caractères. Les outils tels que grep() ou gsub() de R par exemple savent les mettre à profit pour effectuer des recherches ou des rechercher / remplacer dans les documents. Le dispositif peut s’appliquer au traitement de textes bruts totalement non structurés ; il peut faire merveille également dans l’exploitation des documents semi-structurés tels que les fichiers logs.

Dans ce support de cours, je décris succinctement les idées sous-jacentes aux expressions régulières et les principaux éléments de syntaxe. Un exemple réaliste de recherche dans des SMS possiblement délictueux permet d’appréhender pleinement leur intérêt.

Mots clés : text mining, fouille de textes, expressions régulières, grep, gsub, posix étendu, perl, analyse des fichiers logs
Document : Expressions régulières sous R
Fichiers : Données et programme R
Références :
Zyntrax-Info, "Regular Expressions – User Guide".
Jwang, "Utilisation des expressions régulières sous R".

mercredi 18 janvier 2017

Fouille d'opinions et analyse des sentiments - Diapos

Savoir ce que pensent les "gens" (électeurs, clients, concurrents, etc.) est fondamental pour les décideurs (partis politiques, entreprise, etc.). Le web 2.0 (on parle aussi de médias sociaux ou de réseaux sociaux numériques) est un terrain privilégié pour recueillir à moindre coût l’opinion et le sentiment de tout un chacun, par rapport à une décision ou un projet politique, par rapport à un produit, etc.

Dans ce support de cours, nous décrivons les enjeux et les méthodes de la fouille d’opinions (opinion mining) et, de sa déclinaison la plus usuelle, l’analyse des sentiments (sentiment analysis). Nous sommes bien dans le domaine du text mining puisque nous travaillons à partir de données textuelles. Mais les spécificités du web peuvent amener des points de vue et des outils qui permettent d’enrichir l’analyse. Nous nous attarderons notamment sur la plateforme de microblogage Twitter, support de communication particulièrement populaire aujourd’hui.

Mots clés : text mining, fouille de textes, web mining, opinion mining, sentiment analysis, analyse des tweets
Document : Opinion mining et sentiment analysis
Références :
Aggarwal C., Zhai C., "Mining Text Data", Springer, 2012.
Russell M.A., "Mining the Social Web – Data Mining Facebook, Twitter, Linkedin, Google+, Github, and more", O’Reilly, 2013.

jeudi 5 janvier 2017

Bonne année 2017 - Bilan 2016

L’année 2016 s’achève, 2017 commence. Je vous souhaite à tous une belle et heureuse année 2017.

Un petit bilan chiffré concernant l'activité organisée autour du projet Tanagra pour l'année écoulée. L'ensemble des sites (logiciel, support de cours, ouvrages, tutoriels) a été visité 264.045 fois en 2016, soit 721 visites par jour.

Depuis la mise en place du compteur Google Analytics (01 février 2008), le groupe de sites a été visité 2.111.078 fois, soit 649 visites par jour.

Par rapport à l’année dernière (2015), les visiteurs viennent toujours en majorité de la France (50%), du Maghreb (16%) et de l’Afrique francophone. Les pages de supports de cours ont toujours autant de succès. La page dédiée à la Programmation Statistique sous Python monte en puissance avec 31 visites par jour, mais reste loin de la Programmation R (141 sessions journalières) ou du Data Mining (126). Il reste une marge de progression.

36 posts de supports de cours et tutoriels en français ont été réalisés cette année, 10 en anglais (hum… il y a du boulot…). Le programme de remise à niveau pour l’accession au Master SISE a été mon principal projet cet été.

En cette nouvelle année, je souhaite le meilleur à tous les passionnés de Data Science, de Statistique et d’Informatique.

Ricco.
Diaporama : Tanagra - Bilan 2016