mercredi 29 mars 2017

Open source et data science

Je dois faire un exposé le 31 mars 2017 à l’occasion des 45 ans du DUT STID de Vannes. L’idée est de faire un état de l’art sur les logiciels open source de data science.

A priori, le schéma est très simple : il faut faire un travail de recensement dans un premier temps, puis établir une série de critères qui permettent de comparer les outils. De nombreuses publications portant sur le même sujet ont adopté ce plan. Dans le cas présent, l’affaire est un peu plus difficile parce que je ne dispose que de 30 minutes. Bouffer le temps de présentation par une longue litanie des outils peu ou prou connus, ou par des tableaux au kilomètre, forcément confus parce que trop larges, ne me paraît pas très judicieux.

J’ai donc préféré adopter une approche plus dynamique : cadrer effectivement le sujet en présentant les critères important permettant de les caractériser, parler de deux études disponibles sur le site KDnuggets qui donnent une photographie assez précise du positionnement des différentes outils disponibles, et faire un focus sur R et Python qui sont incontournables aujourd’hui en montrant ce que l’on peut faire avec ces logiciels à travers les projets POC réalisés par mes étudiants du Master SISE.

Voici les slides que j’utiliserai le jour dit.

Mots clés : logiciel, data science, open source, logiciel r, python, projets étudiants
Document : Open Source et data science
Références :
Master SISE, « Etude des logiciels de data science », octobre 2016.
Piatetsky G., « R, Python Duel As Top Analytics, Data Science Software », KDnuggets 2016 Software Poll Results, June 2016.
Piatetsky G., « Gartner 2017 Magic Quadrant for Data Science Platforms: gainers and losers », KDnuggets, February 2017.