dimanche 17 août 2014

Nouveaux arbres interactifs dans SPAD 8

Les arbres de décision interactifs font partie de la panoplie d’outils privilégiés du data miner . D’une part parce que l’induction par arbres en elle-même est une méthode intéressante : elle se positionne honorablement par rapport aux autres techniques prédictives en termes de performance ; elle fournit une connaissance intelligible, facilement interprétable ; ses conditions d’utilisation sont particulièrement larges, aucune hypothèse sur les distribution n’est nécessaire, nous pouvons directement mixer les variables prédictives quantitatives et qualitatives, elle sait effectuer les codages les plus appropriés en fonction de la variable cible. D’autre part, du fait qu’elle soit interactive, elle donne la possibilité aux experts du domaine de guider l’exploration des solutions en accord avec des connaissances qui ne sont pas directement disponibles dans les données traitées. De fait, tous les grands éditeurs de logiciels de statistique et de data mining se doivent de proposer les outils – c’est un vrai critère de différenciation entre les logiciels – qui permettent aux utilisateurs d’interagir avec l’arbre de décision élaboré au préalable par les approches bien connues telles que CHAID, CART, C4.5 ou leurs variantes.

J’avais déjà présenté les arbres de décision de la version 7 de SPAD précédemment (janvier 2010). Aujourd’hui, je décris le module proposé par SPAD 8. En effet, il a connu une évolution importante, tant en qualité graphique, qu’en matière d’utilisabilité (grosso modo, un mix d’efficacité et d’ergonomie). Il me semblait intéressant d’étudier cette nouvelle mouture pour cerner ce que nous pouvons faire avec les arbres de décision interactifs. Je me concentre sur les fonctionnalités d’exploration dans ce tutoriel. Pour ce qui est du stockage du modèle et de son déploiement, le mieux est de lire/relire le précédent document.

Mots clés : arbres de décision interactifs, induction interactive, SPAD 8
Lien : fr_Tanagra_Arbres_Spad_8.pdf
Données : faible poids bebes.xlsx
Références
:
Logiciel SPAD, SPAD.
Tutoriel Tanagra, "Arbres de décision interactifs avec SPAD", Janvier 2010.
R. Rakotomalala, "Arbres de décision", Revue Modulad, n°33, 2005.

dimanche 10 août 2014

Etude du logiciel Sipina

Dans le cadre du transfert du contenu de l’ancienne version française du site de Sipina, j’ai redécouvert un projet réalisé par des étudiants de Master 2 (DESS) il y a une douzaine d’années.

Le document liste les principaux menus du logiciel. Une étude comparative de quelques algorithmes d'induction d'arbres sur un même jeu de données est réalisée. Les étudiants ont surtout eu le mérite de manipuler un logiciel que je n’avais absolument pas documenté à l'époque, un véritable tour de force.

Petit commentaire important. Sipina intégrait des méthodes ensemblistes (bagging, boosting, arcing) que j’ai décidé de désactiver par la suite, n’étant pas très satisfait du mode opérationnel de cette fonctionnalité. Le document étant antérieur à cette modification, ces outils y sont décrits.

Les méthodes ensemblistes sont aujourd'hui disponibles de manière générique dans Tanagra. Elles peuvent s’appliquer à tout algorithme d’apprentissage supervisé.

Mots-clés : sipina, arbres de décision
Référence : C. Levieux, M. Fihue, « Etude du logiciel SIPINA (Version Expérimentale) », sous la direction de P.L. Gonzales, DESS d’Ingénierie et de Statistique, Année 2001-2002.

vendredi 8 août 2014

Nouveau site web pour Sipina (FR)

Le logiciel SIPINA est sur le web depuis le milieu des années 90. Le site, toujours actif aujourd’hui, a été exclusivement en anglais pendant très longtemps. Une version française a été mise en ligne en 2008. J’avais fait le choix d’un hébergeur de blog gratuit pour des raisons de maintenance et d’organisation. Récemment les conditions générales de l’hébergeur ont évolué. Il s’autorise à intégrer quelques espaces publicitaires sur les blogs des utilisateurs gratuits. Depuis début août, une énorme annonce orne la page de garde du site, masquant presque totalement  (sur les ordinateurs à faible résolution) le texte de présentation.

Bon, je peux comprendre qu’une entreprise ait besoin de ressources pour fonctionner. Mais, pour ma part, cette nouvelle situation ne me convient pas. Parce que ce n’était pas le deal initial. Parce que je ne souhaite pas associer Sipina, ni Tanagra, à une forme quelconque de monétisation. La solution la plus simple a donc été de transférer le contenu du site sur un nouveau serveur. Dorénavant, l’URL à utiliser – à partir d’août 2014 – sera : http://sipina-arbres-de-decision.blogspot.fr/

Ce n’est pas plus mal. Ca m’a pris un peu de temps, mais finalement cette transition aura été l’occasion pour moi de réorganiser la présentation, en mettant en valeur les documents importants pour la prise en main de Sipina, et ceux qui caractérisent le mieux les particularités du logiciel.

L’ancien site restera actif pendant une courte période encore, le temps de vérifier que tout a bien été récupéré.

Mots clés : sipina, site web en français
Référence : http://sipina-arbres-de-decision.blogspot.fr/

jeudi 7 août 2014

L'add-in Sipina pour Excel 2007 et 2010

Ce tutoriel décrit succinctement l’installation de l’add-in "sipina.xla" dans Excel 2007. La transposition à Excel 2010 est immédiate. Un document similaire existe pour Tanagra. Il m’a semblé néanmoins nécessaire de repréciser la démarche, notamment parce que plusieurs internautes m’en ont fait la demande. D’autres didacticiels existent pour les versions antérieures d’Excel (1997 à 2003) et pour le tableur Calc d’Open Office et de Libre Office.

Mots-clés : importation des données, fichier excel, macro complémentaire, add-in, add-on, xls, xlsx
Lien : fr_sipina_excel_addin.pdf
Données : heart.xls
Références:
Tutoriel Tanagra, "Les add-ins Tanagra et Sipina pour Excel 2016", juin 2016.
Tutoriel Tanagra, "L'add-in Tanagra pour Excel 2007 et 2010", août 2010.