lundi 30 août 2010

Connexion Sipina/Excel via OLE [XL-SIPINA]

La connexion entre un logiciel de data mining et Excel (et plus généralement les tableurs) est un enjeu fort. Nous l'avions maintes fois abordée dans nos didacticiels. Au fil du temps, la solution basée sur l'utilisation des macros complémentaires (add-in) s'est imposée, tant pour SIPINA que pour TANAGRA. Elle est simple, fiable, performante. Elle ne nécessite pas développer des versions spécifiques. La connexion avec Excel est une simple fonctionnalité additionnelle de la distribution standard.

Avant de parvenir à cette solution, nous avions exploré différentes pistes. Dans ce didacticiel, nous présentons la solution XL-SIPINA basée sur la technologie OLE de Microsoft. A contre-pied des macros complémentaires, cette version de SIPINA choisit d'intégrer Excel dans le logiciel de Data Mining. Le dispositif fonctionne plutôt bien. Néanmoins, il a finalement été abandonné pour deux raisons : (1) nous étions obligé de développer/compiler des versions spéciales qui ne fonctionnent que si Excel est présent sur la machine de l'utilisateur ; (2) les temps de transferts " objet Excel - Sipina " via OLE s'avèrent dissuasifs lorsque la taille de la base augmente.

Il faut donc prendre XL-SIPINA comme un exercice de style. Il y a toujours un peu de nostalgie lorsque je fais un retour en arrière sur des voies que j'ai explorées et que j'ai finalement abandonnées. Peut être d'ailleurs ne suis-je pas allé totalement au bout des choses.

Dernière remarque. A l'origine, l'application a été développée à l'aide d'Office 97. Je me rends compte qu'elle reste d'actualité encore aujourd'hui, elle fonctionne parfaitement avec Office 2010.

Mots-clés : excel, tableur, sipina, xls, xlsx, xl-sipina, arbres de décision
Logiciel : XL-SIPINA
Didacticiel : fr_xls_sipina.pdf
Données : autos

vendredi 27 août 2010

L'add-in Tanagra pour Excel 2007 et 2010

La macro complémentaire (" add-in " en anglais) " tanagra.xla " participe grandement à la diffusion du logiciel Tanagra. Le principe est simple, il s'agit d'intégrer un menu Tanagra dans Excel. Ainsi l'utilisateur peut lancer les calculs statistiques sans avoir à quitter le tableur. Pour simple qu'elle soit, cette fonctionnalité facilite le travail du data miner. Le tableur est un des outils les plus utilisés pour la préparation des données (cf. KDNuggets Polls: Tools / Languages for Data Cleaning - 2008). En intégrant le logiciel de data mining dans cet environnement, on évite au praticien des manipulations répétitives et fastidieuses : importation, exportation, vérifier la compatibilité des formats, etc.

L'installation de l'add-in sous Office XP (valable de Office 1997 à Office 2003) est décrite dans un de nos didacticiels. La procédure devient caduque dans Office 2007 et Office 2010 dans la mesure où les menus d'Excel ont été réorganisés. Pourtant la macro reste opérationnelle. Il est dommage que les utilisateurs ne puissent pas en profiter.

Dans ce didacticiel, nous détaillons la démarche à suivre pour intégrer la macro Tanagra dans les nouvelles versions d'Excel. Nous nous concentrerons sur Office 2007 dans un premier temps, nous verrons que la procédure est aussi valable pour Office 2010. Ce passage à des versions récentes d'Excel n'est absolument pas anodin. En effet, par rapport aux précédentes, elles peuvent gérer un nombre plus important de lignes et de colonnes. Nous pouvons ainsi traiter une base allant jusqu'à 1.048.575 observations (la première ligne correspond aux noms des variables) et 16.384 variables.

Nous traiterons pour notre part une base comportant 100.000 observations et 22 variables. Il s'agit d'une version du fichier "waveform" bien connu des informaticiens. Notons que ce fichier, de par le nombre de lignes, ne peut pas être manipulé par les versions antérieures d'Excel.

La procédure décrite dans ce document est également valable pour la macro complémentaire associée au logiciel SIPINA (sipina.xla).

Mots-clés : importation des données, fichier excel, macro complémentaire, add-in, add-on, xls, xlsx
Composants : VIEW DATASET
Lien : fr_Tanagra_Add_In_Excel_2007_2010.pdf
Données : wave100k.xlsx
Références:
Tutoriel Tanagra,  "Les add-ins Tanagra et Sipina pour Excel 2016", juin 2016.
Tutoriel Tanagra, "Importation fichier XLS (Excel) - Macro complémentaire".
Tutoriel Tanagra, "Connexion Open Office Calc".
Tutoriel Tanagra, "Connexion Open Office Calc sous Linux".
Tutoriel Tanagra, "Connexion Excel - Sipina"