Tutoriels Tanagra pour le Data Mining, le Machine Learning et la Data Science

Ce blog recense les supports de cours et didacticiels consacrés à la pratique de la data science, machine learning et big data analytics. Les outils mis en avant sont les logiciels Tanagra, R et Python. [04 nov. 2022] Suite à la panne du serveur d'hébergement des fichiers, les posts antérieurs à mai 2015 ont été perdus, de nombreux liens sont cassés. J'ai dû créer un site à part avec les archives, complet, avec les liens corrigés. Voir l'item "Archives" ci-dessous. Bonne lecture à tous. Ricco.

lundi 1 novembre 2021

(Vidéo) Subdivision train-test avec scikit-learn

Cette vidéo montre comment subdiviser aléatoirement un jeu de données en échantillons d'apprentissage et de test à l'aide de la fonction train_test_split(.) de la librairie "scikit-learn". J'essaie de mettre l'accent sur plusieurs aspects qui me paraissent important : l'organisation des données à présenter au module, le rôle des paramètres (train_size, random_state, stratify), les structures de données obtenues en sortie. Quelques statistiques descriptives simples permettent de s'assurer de la régularité du partitionnement.

Mots-clés : python, scikit-learn, train_test_split
Vidéo : Train test split
Code Python + Données : Breast Dataset
Références :
"Python - Machine learning avec scikit-learn", septembre 2015.

Pages

lundi 1 novembre 2021

(Vidéo) Subdivision train-test avec scikit-learn