lundi 7 septembre 2009

Tanagra - Séminaire au L3I

Un très sympathique séminaire au sein du laboratoire L3I (Laboratoire Informatique, Image et Interaction) de l’Université de la Rochelle a été l’occasion de faire le point sur Tanagra et de le positionner par rapport aux principaux outils libres. Un petit bilan numérique a été fait également. Sur la période 01-09-2008 au 31-08-2009 (une année), l’ensemble des sites web qui gravitent autour de Tanagra, comprenant le site du logiciel mais aussi les sites de tutoriels et de supports de cours, a enregistré 171.697 visites, soit 470 visites par jour. Une grande partie vient de France (77.117) ; puis vient le Maghreb (11.603 – Algérie, 10.855 – Maroc et 7543 – Tunisie)... (voir le pdf pour plus de précisions). Je suis très content que ce travail contribue à la diffusion de la connaissance.

Voici le résumé de l’exposé.

Titre : Tanagra - logiciels libres, spécificités et applications
Auteur : Ricco Rakotomalala, Laboratoire ERIC, Université Lyon 2

Avec internet, les logiciels libres (gratuits) connaissent un essor sans précédent. Dans le domaine du Data Mining et de l'apprentissage automatique, les outils développés par les chercheurs dans les laboratoires, uniquement connus des initiés, sont maintenant mondialement diffusés à moindre coût. Ce succès croissant introduit des contraintes. De nouvelles exigences en matière de qualité apparaissent. Il est impensable de mettre à la disposition d'autres chercheurs ou d'utilisateurs néophytes, un outil totalement abscons ou, plus grave encore, qui n'effectue pas les calculs correctement. Finalement, ces dernières années, les logiciels libres à grande diffusion intégrant tout le cycle du Data Mining (accès aux données, préparation et sélection de variables, apprentissage automatique, validation et déploiement) sont assez rares. Ces outils partagent une particularité essentielle en recherche : le code source est accessible, tout le monde a la possibilité de vérifier ce qui est réellement codé.

Dans notre exposé, nous présenterons le logiciel Tanagra que nous avons développé. Dans un premier temps, nous essaierons de mettre en avant les spécifications qui ont conduit à son élaboration, son évolution au fil du temps, et les éléments périphériques qui accompagnent sa diffusion. Dans un deuxième temps, nous le comparerons aux principaux logiciels libres, largement reconnus dans notre communauté : Orange, Knime, R, RapidMiner, Weka. Nous nous baserons principalement sur les étapes clés du Data Mining pour évaluer les solutions qui ont été mises en place par les différents outils. Des petits exemples didactiques permettront de juger de leur comportement réel. Enfin, dans un troisième temps, pour donner un tour concret à notre exposé, nous détaillerons l'utilisation de notre outil lors d'une collaboration avec un laboratoire externe, non spécialiste du Data Mining, où l'objectif initial était de classer automatiquement des planctons à partir d'images. Nous constaterons qu'au delà de la simple application des algorithmes, l'utilisation d'une plate-forme complète permet d'élargir l'horizon d'analyse et de mieux préciser les objectifs d'une étude.

Mots clés : data mining, logiciel libre, Tanagra, applications
PDF du séminaire : Tanagra