lundi 11 novembre 2013

Scilab et R - Performances comparées

Nous avons fait connaissance du logiciel Scilab dans un précédent tutoriel . Nous étions arrivés à la conclusion qu’il se positionnait très bien comme une alternative à R dans le domaine du data mining même si, en matière de nombre de bibliothèques de méthodes statistiques et de data mining, il restait largement en retrait.

Dans ce second volet, nous nous intéressons aux performances de Scilab lors du traitement d’un grand fichier avec 500.000 observations et 22 variables. « Grand fichier » étant tout à fait relatif, nous le confrontons à la référence R pour mieux situer son comportement. Deux critères sont utilisés pour effectuer les comparaisons : l’occupation mémoire du logiciel mesurée dans le gestionnaire de tâches Windows, le temps de traitement à chaque étape du processus.

Il serait vain d’espérer obtenir une vision exhaustive. Pour délimiter notre champ d’étude, nous avons établi un scénario ultra-classique de data mining : charger un fichier de données, construire le modèle prédictif avec l’analyse discriminante linéaire, calculer la matrice de confusion et  le taux d’erreur en resubstitution . Bien évidemment, l’étude est forcément parcellaire. Il apparaît que Scilab semble moins à son avantage dans la gestion des données. Il est largement au niveau en revanche en ce qui concerne les traitements, cette dernière appréciation étant toutefois tributaire des packages ou toolbox utilisés.

Mots-clés : scilab, toolbox, nan, analyse discriminante prédictive, analyse discriminante linéaire, logiciel R, analyse prédictive, sipina
Didacticiel : fr_Tanagra_Scilab_R_Comparison.pdf
Données : waveform_scilab_r.zip
Références :
Scilab - https://www.scilab.org/fr
Michaël Baudin, "Introduction à Scilab", Developpez.com.