vendredi 13 juin 2014

L'add-in Real Statistics pour Excel

Excel – je dirais plutôt le tableur de manière générique - est un des outils favoris des « data scientist ». Les sondages Kdnuggets sur la question le confirment. Il arrive systématiquement dans les 3 premiers logiciels les plus utilisés ces dernières années. Les raisons de ce succès ont été maintes fois évoquées sur ce blog : il est très répandu, tout le monde sait le manipuler, c’est un instrument puissant pour la mise en forme et la préparation des données.

Excel est moins à son avantage lorsqu’il s’agit d’effectuer des calculs statistiques. D’aucuns pointent du doigt son manque de précision et la relative pauvreté de sa bibliothèque de fonctions statistiques et d’analyse de données. Les add-ins (ou add-on, macros complémentaires) semblent alors constituer une solution privilégiée pour associer les calculs spécialisés aux fonctionnalités usuelles des tableurs.

La librairie « Real Statistics » du Dr Charles Zaiontz est une solution simple comme je les aime. La copie d’un fichier « RealStats-2007.xlam » (pour la version 2007 d’Excel) suffit pour disposer pleinement de toutes les fonctionnalités. Il n’y a pas d’installation fastidieuse à réaliser, avec des bibliothèques à tiroirs que l’on est obligé de chercher à droite et à gauche. La macro complémentaire se suffit à elle-même, elle ne repose pas sur une DLL compilée. Grâce à cette autonomie, il a été possible de multiplier les versions pour les différentes configurations d’Excel (des add-ins existent pour Excel 2013, 2010, versions antérieures à Excel 2003, version pour Mac). Les résultats des calculs statistiques sont insérés dans les feuilles de calculs sous forme de formules s’appuyant sur des fonctions standards d’Excel (ex. les opérations matricielles, nous pouvons ainsi retracer les étapes des traitements) ou de nouvelles fonctions spécifiques intégrées dans la librairie, que nous pouvons appeler directement dans d’autres feuilles de calculs. Il y a donc deux manières d’utiliser l’add-in : soit, comme nous le ferons dans ce tutoriel, exploiter les boîtes de dialogue dédiées permettant de spécifier les données à traiter et paramétrer les méthodes ; soit en appelant directement les nouvelles fonctions disponibles.

« Real Statistics » est une excellente librairie, à conseiller aux personnes qui souhaitent travailler exclusivement dans l’environnement Excel pour réaliser les traitements statistiques. Elle est d’autant plus intéressante qu’elle est accompagnée d’une documentation particulièrement riche, permettant de comprendre dans le détail la teneur de chaque méthode. Nous décrivons dans ce tutoriel le mode opératoire de l’add-in et, dans certains cas, nous comparons les résultats avec ceux de Tanagra 1.4.50.

Mots clés : excel, tableur, test d'indépendance du khi-2, comparaison de moyennes, test de mann-whitney, test de comparaison pour échantillons appariés, test des rangs signés de wilcoxon, anova à 1 facteur, régression linéaire, régression logistique, manova, analyse en composantes principales
Composants :  CONTINGENCY CHI-SQUARE, THEIL U, T-TEST, T-TEST UNEQUAL VARIANCE, MANN-WHITNEY COMPARISON, MULTIPLE LINEAR REGRESSION, WILCOXON SIGNED RANKS TEST, ONE-WAY ANOVA, PRINCIPAL COMPONENT ANALYSIS, BINARY LOGISTIC REGRESSION, ONE-WAY MANOVA, BOX'S M TEST, PAIRED T-TEST, KRUSKAL-WALLIS 1-WAY ANOVA
Lien : fr_Tanagra_Real_Statistics.pdf
Données : credit_approval_real_statistics.xlsx
Références :
Dr. Charles Zaiontz, "Real Statistics Using Excel".