dimanche 9 mars 2008

Sélection forward - Crime dataset

La sélection de variables est une opération primordiale dans la régression linéaire multiple. Il s'agit tout d'abord d'écarter les variables non pertinentes dans le processus d'explication de la variable endogène. Mais il s'agit également de traiter le cas des variables redondantes, emmenant le même type d'information, fortement corrélées au point d'empêcher le calcul correct des coefficients et de leurs caractéristiques (écart type notamment). C'est le problème de la colinéarité des exogènes.

Ce didacticiel montre la mise en œuvre d'une technique simple de sélection de variables. La sélection est séquentielle, en ajoutant au fur et à mesure une explication additionnelle significative au regard des variables déjà introduites : on parle de sélection forward. Ce processus peut s'interpréter de différentes manières. Une lecture en termes de corrélation partielle est peut être la plus séduisante : à chaque étape on cherche la variable exogène la plus corrélée avec l'endogène après soustraction de l'information emmenée par les variables sélectionnées à l'étape précédente.

Dans ce didacticiel, nous voulons expliquer la criminalité dans 47 états des USA en 1960 à partir des indicateurs socio-économiques (taux de chômage, revenu moyen, etc.).

Mots clés : régression linéaire multiple, économétrie, sélection de variables, sélection forward, stepwise, colinéarité, corrélation partielle
Composants : View Dataset, Multiple linear regression,
Lien : fr_Tanagra_Forward_Selection_Regression.pdf
Données : crime_dataset_from_DASL.xls
Références :
Cours économétrie L3 IDS Lyon 2-- Cours Econométrie
Pratique de la régression -- La régression dans la_pratique