mercredi 2 avril 2008

Colinéarité et régression

Un des plus gros écueils de la régression est la colinéarité c.-à-d. les variables exogènes sont excessivement corrélées. Les coefficients deviennent incohérents, en contradiction avec les connaissances du domaine. Des variables, a priori très importantes, paraissent non significatives, elles sont par conséquent éliminées à tort.

Il importe de déterminer s’il y a colinéarité dans la régression que nous menons. Cela se manifeste de différentes manières. Les résultats sont très instables, une petite modification des observations entraîne une forte modification des paramètres estimés. Les signes et les valeurs des paramètres sont incohérents, par rapport aux autres variables et par rapport aux connaissances du domaine. Enfin, des variables paraissent non pertinentes à cause d’une variance mal estimée. Le test de nullité des coefficients, le t de Student, renvoie des valeurs faussées. Généralement, pour détecter la colinéarité, nous nous appuyons sur des calculs simples tels que la comparaison du signe de la corrélation brute « endogène-exogène » avec le signe du coefficient dans la régression ; la comparaison du carré de la même corrélation avec le coefficient de détermination de la régression.

Par la suite, il faut proposer des solutions pour obtenir des solutions consistantes. Dans ce didacticiel, nous étudierons trois approches destinées à surmonter la colinéarité : la sélection de variables, la régression sur les composantes orthogonales, la régression PLS.

Dans le cas de la régression PLS, nous montrons comment introduire les composants qui permettent de sélectionner le bon nombre d’axes et de calculer les intervalles de confiance des coefficients. Deux problèmes difficiles, sur lesquels nous n’avons pas de solutions immédiates. Les outils proposés dans Tanagra sont basés sur des techniques de ré échantillonnage.

Mots clés : régression linéaire multiple, économétrie, colinéairité, sélection de variables, analyse en composantes principales, régression pls1
Composants : Multiple linear regression, Linear Correlation, Forward Entry Regression, Principal Component Analysis, PLS Regression, PLS Selection, PLS Conf. Interval
Lien : fr_Tanagra_Regression_Colinearity.pdf
Données : car_consumption_colinearity_regression.xls
Références :
R. Rakotomalala, « Pratique de la régression linéaire multiple – Diagnostic et sélection de variables », Université Lumière Lyon 2.
S. Vancolen, « La régression PLS », Groupe de Statistique, Université de Neuchâtel.