mardi 28 octobre 2014

Induction par arbre avec WinIDAMS

WinIDAMS (Internationally Developed Data Analysis and Management Software Package) est un logiciel de statistique développé sous l’égide de l’UNESCO. J’en avais dessiné les contours récemment (« Statistiques avec WinIDAMS », octobre 2014). J’avais remarqué durant cette étude la procédure SEARCH consacrée à l’apprentissage par arbre. Elle intègre les arbres de décision et de régression, ainsi qu’une méthode que l’on voit peu dans les logiciels, et qui s’apparente à une régression par morceaux. Plutôt que d’incorporer la description de SEARCH dans le document générique consacré à WinIDAMS, j’ai préféré écrire un tutoriel à part car plusieurs éléments avaient attiré mon attention.

(1) L’outil propose des sorties qui permettent de retracer le processus de construction de l’arbre. (2) Cette caractéristique est d’autant plus intéressante que la documentation technique décrit les formules utilisées avec force détail (« WinIDAMS Reference Manual (release 1.3) », april 2008 ; Chapter 56, « Searching for structure »). Nous pourrons ainsi de reproduire les calculs intermédiaires pour comprendre pleinement la teneur des méthodes. (3) J’avoue avoir été d’autant plus curieux d’étudier la procédure que j’avais remarqué parmi les contributeurs des auteurs qui ont énormément œuvré dans la popularisation de l’induction par arbre, notamment J.N. Morgan et J. Sonquist qui comptent parmi les références les plus anciennes et les plus prolifiques dans le domaine. Mieux appréhender leur vision ne peut qu’améliorer notre compréhension de ces méthodes. (4) Enfin, la troisième option proposée par SEARCH (Analysis = Regression) correspond à une méthode que je n’ai jamais rencontré dans d’autres outils. Forcément, cela m’a interpelé. De par ma trajectoire scientifique, je suis toujours très curieux de tout ce qui touche aux arbres.

Ce tutoriel décrit les tenants et aboutissants des 3 options (CHI, MEANS, REGRESSION) de la procédure SEARCH de WinIDAMS.

Mots clés : arbre de décision, arbre de régression, régression linéaire, variation
Lien : fr_Tanagra_WinIDAMS_Tree_Induction.pdf
Données : tree_winidams.zip
Références :
UNESCO, "WinIDAMS 1.3 Reference Manual", 2008.
WinIDAMS Advanced Guide, "Example 10: Searching for Structure".

jeudi 16 octobre 2014

Statistiques avec WinIDAMS

WinIDAMS (Internationally Developed Data Analysis and Management Software Package) est un logiciel de statistique développée sous l’égide de l’UNESCO. Le projet prend ses sources dans les années 70. Mais la première mouture réellement estampillée IDAMS date de la fin des années 80. Deux versions sont développées en parallèle : l’une pour les ordinateurs IBM Mainframe, l’autre pour les PC sous MS-DOS . L’idée est de fédérer (comme Roger du même nom) les spécialistes de différents pays pour développer un outil qui exprime la quintessence du savoir statistique. J’avoue avoir eu le vertige lorsque j’ai consulté pour la première fois la liste des contributeurs. Cornaqué par un tel aréopage d’experts internationaux, l’outil devrait présenter de très grandes qualités.

Ce tutoriel décrit la mise en œuvre de WinIDAMS sur un fichier exemple. Nous porterons une attention particulière à l’’importation des données car le logiciel procède de manière assez singulière. Puis, nous effectuerons une rapide découverte de quelques méthodes exploratoires en précisant pour chacune d’elles le paramétrage et la lecture (d’une partie) des résultats. Nous mettrons en parallèle les sorties d’autres logiciels tels que Tanagra et SAS.

Mots clés : classification automatique, typologie, clustering, CAH, proc cluster, analyse discriminante, proc discrim, analyse en composantes principales, factor analysis, proc factor, sas
Composants : HAC, PRINCIPAL COMPONENT ANALYSIS, CANONICAL DISCRIMINANT ANALYSIS, LINEAR DISCRIMINANT ANALYSIS
Lien : fr_Tanagra_WinIDAMS.pdf
Données : winidams_pottery.zip
Références :
UNESCO, "WinIDAMS 1.3 Reference Manual", 2008.

jeudi 2 octobre 2014

La discrétisation des variables quantitatives (slides)

La discrétisation est une opération de recodage. Elle consiste à transformer une variable quantitative en une qualitative ordinale. Elle procède par découpage en intervalles. Deux questions clés se posent alors durant le processus : (1) combien d’intervalles (de classes) faut-il produire ? (2) comment déterminer les seuils (les bornes) de découpage.

Cette opération rentre dans le cadre de la préparation des données. Elle rend possible l’utilisation des techniques statistiques qui ne traitent que les variables qualitatives (ex. induction de règles, construction des grilles de score…) ; elle permet d’harmoniser les bases lorsque nous faisons face à des tableaux hétérogènes (avec un mix de variables qualitatives et quantitatives) ; elle permet également de nettoyer les données en éliminant par exemple l’influence exagérée des données aberrantes.

Je décris dans ce support les enjeux et la démarche de discrétisation. Le point le plus important à retenir est qu’il faut absolument utiliser toute l’information disponible pour obtenir des résultats satisfaisants. Nous devons notamment exploiter pleinement la variable cible lorsque nous nous plaçons dans un schéma d’apprentissage supervisé.

Mots clés : discrétisation, chi-merge, mdlp, mdlpc, intervalles de fréquences égales, intervalles de largeurs égales, arbres de décision, arbres de régression, package discretization, logiciel R
Composants Tanagra :  EQFREQ DISC, EQWIDTH DISC, MDLPC
Lien : Discrétisation
Références :
Tutoriel Tanagra, "Discrétisation - Comparaison de logiciels", février 2010.
Tutoriel Tanagra, "Discrétisation contextuelle - La méthode MDLPC", mars 2008.