J'explore Python chaque jour, chaque semaine. Mon objectif est de pouvoir l'utiliser de manière indifférenciée avec R dans mes cours de machine learning (data mining) à l'Université.
Dans cette veine, je reprends étape par étape un précédent tutoriel consacré à la classification automatique sous R. Nous constatons, pour ce qui est du clustering avec la CAH et les K-Means en tous les cas, que les deux logiciels sont équivalents. Les commandes sont similaires, non pas dans leur syntaxe, mais dans leur mode opératoire. Et les résultats sont identiques, mis à part les k-means qui sont heuristiques par nature.
Nous utilisons les packages SciPy et Scikit-learn.
Mots clés : logiciel R, classification ascendante hiérarchique, CAH, méthode des centres mobiles, k-means, package scipy, package scikit-learn, analyse en composantes principales, ACP
Composants : linkage, dendrogram, fcluster, kmeans
Lien : cah et k-means avec Python
Données : cah_kmeans_avec_python.zip
Références :
Tutoriel Tanagra, "Classification automatique sous R", octobre 2015.
Ce blog recense les supports de cours et didacticiels consacrés à la pratique de la data science, machine learning et big data analytics. Les outils mis en avant sont les logiciels Tanagra, R et Python. [04 nov. 2022] Suite à la panne du serveur d'hébergement des fichiers, les posts antérieurs à mai 2015 ont été perdus, de nombreux liens sont cassés. J'ai dû créer un site à part avec les archives, complet, avec les liens corrigés. Voir l'item "Archives" ci-dessous. Bonne lecture à tous. Ricco.