Ce tutoriel vient en complément du support de cours consacré à la détection des anomalies ("Détection des anomalies", décembre 2019). Nous nous intéressons à deux aspects du domaine : la détection des observations atypiques ou déviantes dans une base, on parle de "outlier" ; par rapport à un jeu de données de référence non-pollué (qui joue le rôle d'ensemble d'apprentissage), l'identification des nouveautés parmi des individus supplémentaires, au sens où leurs caractéristiques s'en écartent significativement, on parle de "novelty".
Nous utiliserons la librairie "Scikit-Learn" (Novelty and Outler Detection) pour mener notre étude, avec en particulier les classes de calcul EllipticEnvelope et LocalOutlierFactor.
Mots-clés : anomalies, points atypiques, points aberrants, nouveautés, outlier, novelty, package scikit-learn
Didacticiel : Détection des outliers et novelties
Code source + données : Cars
Références :
Tutoriel Tanagra, "Détection des anomalies - Diapos", décembre 2019.
Ce blog recense les documents pédagogiques consacrés à la data science, machine learning et big data. Les outils sont principalement les logiciels Tanagra, R et Python. [04 nov. 2022] Suite à la panne du serveur de fichiers, les posts antérieurs à mai 2015 ont été perdus, les liens sont cassés. J'ai dû créer un site à part avec les archives (depuis 2004) et les bons liens ; j'y fais figurer également les nouveaux tutoriels depuis mars 2024. Voir "Nouveau Site" ci-dessous. Ricco.