Comme expliqué dans un des posts précédents, j’avais participé récemment à la conférence "De la statistique à la data science" à l’occasion des 45 ans du DUT STID de Vannes. On était plusieurs à présenter. Les vidéos sont aujourd’hui en ligne, je me fais un plaisir de les partager sur ce blog.
Pour une fois que je sortais de mon environnement habituel (ça n'arrive vraiment pas souvent), il me tenait à cœur de mettre en valeur le travail de nos étudiants.
Références / Slides : Open source et data science
Ce blog recense les documents pédagogiques consacrés à la data science, machine learning et big data. Les outils sont principalement les logiciels Tanagra, R et Python. [04 nov. 2022] Suite à la panne du serveur de fichiers, les posts antérieurs à mai 2015 ont été perdus, les liens sont cassés. J'ai dû créer un site à part avec les archives (depuis 2004) et les bons liens ; j'y fais figurer également les nouveaux tutoriels depuis mars 2024. Voir "Nouveau Site" ci-dessous. Ricco.
samedi 29 avril 2017
mercredi 26 avril 2017
Probabilités et quantiles sous Excel, R et Python
J’utilise indistinctement Excel (en conjonction avec Tanagra ou Sipina), R et Python pour mes travaux dirigés (TD) de data mining et de statistique à l’Université. Souvent, je demande aux étudiants de procéder à des tests d’hypothèses pour éprouver la significativité d’un ou plusieurs coefficients dans un modèle prédictif, ou encore pour calculer les intervalles de confiance de prédiction en régression, etc.
Nous sommes sur machine, il est bien évidemment hors de question d’aller consulter les tables statistiques pour obtenir les quantiles ou les p-value des lois de probabilités couramment utilisées. Dans ce tutoriel, je présente les principales fonctions pour les lois normales, Student, KHI-2 et Fisher. Je me suis en effet rendu compte que les étudiants avaient parfois du mal à faire la correspondance entre la lecture des tables et l’utilisation des fonctions qu’ils ont du mal à identifier dans les logiciels. C’est aussi l’occasion pour nous de vérifier les équivalences entre les fonctions proposées par Excel, R (package stats) et Python (package scipy). Ouf ! Du moins sur les quelques exemples illustratifs de notre document, les résultats sont parfaitement cohérents.
Mots-clés : excel, r, package stats, python, package scipy, probabilités, p-value, p-valeur, valeur-p, quantile, fractile, loi normale, loi de student, loi du khi-2, loi de fisher
Document : Calcul des probabilités et quantiles
Nous sommes sur machine, il est bien évidemment hors de question d’aller consulter les tables statistiques pour obtenir les quantiles ou les p-value des lois de probabilités couramment utilisées. Dans ce tutoriel, je présente les principales fonctions pour les lois normales, Student, KHI-2 et Fisher. Je me suis en effet rendu compte que les étudiants avaient parfois du mal à faire la correspondance entre la lecture des tables et l’utilisation des fonctions qu’ils ont du mal à identifier dans les logiciels. C’est aussi l’occasion pour nous de vérifier les équivalences entre les fonctions proposées par Excel, R (package stats) et Python (package scipy). Ouf ! Du moins sur les quelques exemples illustratifs de notre document, les résultats sont parfaitement cohérents.
Mots-clés : excel, r, package stats, python, package scipy, probabilités, p-value, p-valeur, valeur-p, quantile, fractile, loi normale, loi de student, loi du khi-2, loi de fisher
Document : Calcul des probabilités et quantiles
mardi 11 avril 2017
Détection de communautés sous Python
La détection de communautés dans les réseaux sociaux a pour objectif d’identifier les groupes d’individus entretenant des relations privilégiées. Ce thème connaît une recrudescence d’intérêt ces dernières années avec le développement des médiaux sociaux (Twitter, Facebook, etc.), multipliant les opportunités d’interactions entre les individus. Un réseau social est souvent représenté par un graphe où les sommets (nœuds) représentent les individus, les liens qu’il entretiennent sont matérialisés par les arêtes. Une communauté correspond à un groupe de nœuds présentant une forte densité de connexions.
Ce tutoriel vient en complément de mon support de cours accessible en ligne qui nous servira de référence. Nous nous plaçons dans une situation particulière où le graphe est non orienté, les liaisons entre les individus – lorsqu’elles existent – sont symétriques et non pondérées c.-à-d. les connexions ont tous la même intensité.
Nous travaillerons sous Python et nous utiliserons le package igraph.
Mots clés : web mining, fouille du web, réseaux sociaux, communautés, python, package igraph
Document : Détection de communautés sous Python
Données : Données Karaté et code prog. Python
Références :
Rakotomalala R., "Détection de communautés - Diapos", mars 2017.
Ce tutoriel vient en complément de mon support de cours accessible en ligne qui nous servira de référence. Nous nous plaçons dans une situation particulière où le graphe est non orienté, les liaisons entre les individus – lorsqu’elles existent – sont symétriques et non pondérées c.-à-d. les connexions ont tous la même intensité.
Nous travaillerons sous Python et nous utiliserons le package igraph.
Mots clés : web mining, fouille du web, réseaux sociaux, communautés, python, package igraph
Document : Détection de communautés sous Python
Données : Données Karaté et code prog. Python
Références :
Rakotomalala R., "Détection de communautés - Diapos", mars 2017.
Inscription à :
Articles (Atom)