samedi 24 mai 2008

Détection (univariée) des points aberrants

Dans le processus Data Mining, la détection et le traitement des points aberrants sont incontournables lors de la préparation des données, ou même après coup, pour analyser et valider les résultats.

On parle de point aberrant (point atypique) lorsque qu’un individu prend une valeur exceptionnelle sur une variable (ex. un client d’une banque aurait 158 ans) ou sur des combinaisons de variables (ex. un athlète de 12 ans aurait effectué le 100 m en 10 secondes). Ces points sont problématiques car ils peuvent biaiser les résultats, notamment pour les méthodes basées sur des distances entre individus, ou plus dramatiquement encore, des distances par rapport à des barycentres. Il importe donc d’identifier ces individus et de les considérer attentivement.

Dans ce didacticiel, nous présentons le composant UNIVARIATE OUTLIER DETECTION destiné à détecter les points atypiques sur chacune des variables, prises individuellement.

Les techniques intégrées dans ce composant sont largement inspirées du texte sur le site de NIST. Nous essayerons de les combiner au mieux avec les statistiques descriptives dans ce document. On se rendra vite compte que des stratégies simples, notamment les approches graphiques, sont au moins aussi intéressantes finalement. Les techniques numériques ne sont réellement décisives que dans le cadre du traitement automatisé de fichiers comportant de très nombreuses colonnes. Dans ce cas, leurs indications nous permettent de nous orienter rapidement vers les variables à problèmes.

Enfin, notre composant choisit d’exclure les observations atypiques. C’est une solution possible mais ce n’est certainement pas la panacée. Il y a d’autres stratégies : la transformation des données, en rendant symétrique la distribution, on atténue l’écartement des queues de distribution ; une transformation plus radicale encore, le passage au rangs ; l’utilisation de techniques appropriées, peu sensibles aux points aberrants (ex. dans le data mining, plutôt qu’une analyse discriminante, on préfèrera les arbres de décision s’il y a profusion de points atypiques)...

Mots clés : point aberrant, point atypique
Composants : MORE UNIVARIATE CONT STAT, SCATTERPLOT WITH LABEL, UNIVARIATE OUTLIER DETECTION, UNIVARIATE CONT STAT
Lien : fr_Tanagra_Outliers_Detection.pdf
Données : body_mass_index.xls
Référence :
NIST/SEMATECH, « e-Handbook of Statistical Methods », Section 7.1.6, « What are outliers in the data ? »
R. High, "Dealing with 'Outliers': How to Maintain Your Data's Integrity"