dimanche 18 mai 2014

Du Data Mining au Big Data

Ces dernières années de nouveaux termes très « fashion » sont apparus dans le domaine de l’exploitation des données en vue de la prise de décision. On parle de « data science », du métier de « data scientist », de « big analytics », de « predictive analytics », « d’open data », de « social media mining », etc. On les place souvent dans le nouveau contexte du « big data ».

A bien y regarder dans les articles où il en est question, parmi les principaux enjeux figurent le stockage, le traitement, l’analyse et la valorisation des données massives (big data), le respect de la vie privée, la sécurisation des informations. Est-ce si nouveau que cela ? Est-ce que cela mérite autant d’effervescence ? Ou bien est-ce seulement un replâtrage par rapport à l’analyse de données et aux statistiques exploratoires, comme ont eu tendance à le dire les statisticiens lorsque le phénomène data mining est apparu à l’orée des années 90.

L’affaire est d’importance en ce qui concerne notre Département Informatique et Statistique. Notre offre de formation couvre entres autres la statistique et le data mining (SISE), l’informatique décisionnelle (business intelligence, IIDEE), la sécurité informatique (OPSIE). Domaines que l’on cite très souvent dans le contexte du « big data ».  Est-ce suffisant dans le futur ? Faut-il présenter un nouveau diplôme spécifiquement estampillé « big data » ? Ou bien doit-on veiller surtout à renouveler à bon escient nos maquettes comme nous le faisons tous les 5 ans lors des campagnes d’habilitation ? Est-ce qu’il y a matière à introduire de nouveaux enseignements dans cette perspective, des cours concrets avec un savoir et un savoir faire à prodiguer à nos étudiants, des compétences qu’ils pourront valoriser dans leur vie professionnelle ? Ou bien doit-on se contenter de présentations générales positionnant la nouvelle configuration de la gestion, du traitement et de l’exploitation des données ?

Il est difficile voire impossible d’avoir une position tranchée. Pour l’heure, je partage avec vous le fruit de mes réflexions que j’ai livrées lors d’une présentation récente. J’ai placé le big data dans la perspective d’une évolution du « knowldege discovery » (« data science » devrait-on dire alors ?) liée au progrès technologique, avec notamment l’impact considérable des nouvelles technologies et du web sur la circulation de l’information. Ce support vaut aussi pour les très nombreux liens internet que j’ai consultés durant la préparation de mon exposé. Il préfigure le prisme que j’utiliserai dans mon cours d’introduction au data mining (devrais-je dire désormais « introduction au big data » ?).

Mots clés : data mining, big data, data science, data scientist, big analytics, predictive analytics, open data
Lien : Du Data Mining au Big Data - Enjeux et opportunités
Références :
M.P. Hamel D. Marguerite, "Analyse des big data – Quels usages, quels défis", La note d’analyse, Commissariat Général à la Stratégie et à la Prospective, Département Questions Sociales, N°8, Novembre 2013.
Anne Lauvergeon et al., "Ambition 7 : La valorisation des données massives (Big Data)", in « Un principe et sept ambitions pour l’innovation - Rapport de la commission Innovation 2030 », Octobre 2013.