Dans cette vidéo, je montre comment subdiviser aléatoirement un dataset en échantillons d'apprentissage et de test. Le dispositif repose sur la génération aléatoire d'un index sans aucun rapport avec le problème à traiter. Il sert à désigner les observations appartenant à l'apprentissage. L'échantillon test est obtenu par opposition à cet index, en exploitant le mécanisme des indices négatifs sous R. Les données sont ensuite utilisées dans un processus de modélisation par arbres de décision à l'aide du package "rpart".
Mots-clés : logiciel R, train set, training set, learning set, test set
Vidéo : Subdivision train-test avec R
Données et programme : Partition apprentissage-test
Références :
"Apprentissage-test avec Orange, Tanagra et Weka", avril 2008.
"(Vidéo) Subdivision train-test pour les comparaisons", novembre 2020.