mercredi 2 avril 2008

Points aberrants et influents dans la régression

La validation est une étape clé de la modélisation. S’agissant de la régression linéaire multiple, parmi les multiples évaluations à mettre en place figure l’analyse des résidus, plus particulièrement la détection des points aberrants et influents.

La distinction entre points aberrants et points influents n’est pas toujours comprise. Pour simplifier, nous dirons que les points aberrants correspondent à des observations hors normes, c.-à-d. ne correspondant pas à la population étudiée. Il peut s’agir d’un comportement très particulier, par exemple un senior qui se présente à l’épreuve du bac. Ces points peuvent fausser les résultats de la régression.

Les points influents correspondent aux observations qui pèsent significativement, voire exagérément, sur les calculs. Ils déterminent, dans une proportion à évaluer, les résultats de la régression. Il convient de les considérer avec précaution au moins pour interpréter correctement les coefficients obtenus. Dans certains cas, on peut considérer qu’une observation pèse trop sur la régression au point d’altérer les paramètres estimés.

Concernant la détection des points aberrants et influents dans la régression, il existe un très grand nombre de documents en ligne, de qualité assez inégale malheureusement. Nous avons donc complètement documenté les indicateurs implémentés dans Tanagra (voir références). Il est important de bien comprendre le sens à donner à ces indicateurs, et ils sont nombreux, pour interpréter correctement les résultats.

Enfin, pour éviter les confusions autour des définitions des indicateurs (la définition des résidus standardisés, studentisés, internes ou externes, est par exemple assez fluctuante d’un logiciel à l’autre), nous cadrons nos calculs par rapport à deux logiciels reconnus dans le monde scientifique, SAS et le logiciel gratuit R. Nous procèderons de la manière suivante : dans un premier temps, nous affichons les données et les résultats issus de la documentation de SAS, ils nous serviront de référence ; puis nous décrivons la procédure sous TANAGRA ; enfin, nous décrirons la démarche à suivre sous R.

Les données sont issues de la documentation de SAS, disponible en ligne. L’objectif est d’expliquer la population US (USPopulation) à partir de l’année (Year) et du carré de l’année (YearSq). Nous mettrons essentiellement l’accent sur la mise en œuvre des calculs et la comparaison de résultats dans ce didacticiel.

Mots clés : régression linéaire multiple, points influents, points aberrants, points atypiques, résidus standardisés, résidus studentisés, leverage, dffits, distance de cook, covratio, dfbetas, logiciel R
Composants : Multiple linear regression, Outlier detection, DfBetas
Lien : fr_Tanagra_Outlier_Influential_Points_for_Regression.pdf
Données : USPopulation.xls
Références :
R. Rakotomalala, « Pratique de la régression linéaire multiple – Diagnostic et sélection de variables », Université Lumière Lyon 2.
SAS STAT User’s Guide, « The REG Procedure – Predicted and Residual Values »