dimanche 20 septembre 2009

Pratique de la Régression Linéaire Multiple

Le véritable travail du statisticien commence après la première mise en oeuvre de la régression linéaire multiple sur un fichier de données. Après ces calculs, qu'on lance toujours "pour voir", il faut se poser la question de la pertinence des résultats, vérifier le rôle de chaque variable, interpréter les coefficients, etc.

En schématisant, la modélisation statistique passe par plusieurs étapes : proposer une solution (une configuration de l'équation de régression), estimer les paramètres, diagnostiquer, comprendre les résultats, réfléchir à une formulation concurrente.

Dans ce support, nous mettrons l'accent, sans se limiter à ces points, sur deux aspects de ce processus : le diagnostic de la régression à l'aide de l'analyse des résidus, il peut être réalisé avec des tests statistiques, mais aussi avec des outils graphiques simples ; l'amélioration du modèle à l'aide de la sélection de variables, elle permet entre autres de se dégager du piège de la colinéarité entre les variables exogènes.

Mots-clés : régression linéaire simple et multiple, étude des résidus, points aberrants et points influents, colinéarité et sélection de variables, variables exogènes qualitatives, rupture de structure
Techniques décrites : test de durbin-watson, test des séquences, qraphique qq-plot, test de symétrie des résidus, test de jarque-bera, résidu standardisé, résidu studentisé, dffits, distance de cook, dfbetas, covratio, sélection forward, backward, stepwise, codage centerd effect, codage cornered effect, test de chow
Ouvrage : Pratique de la régression linéaire multiple – Diagnostic et sélection de variables