vendredi 11 février 2011

Régression linéaire - Lecture des résultats

La régression linéaire multiple est une technique de modélisation statistique. Elle vise à prédire et expliquer les valeurs prises par une variable endogène quantitative Y à partir de p variables exogènes X1, …, Xp, quantitatives ou qualitatives rendues binaires par recodage.

Dans ce tutoriel, à travers un exemple de prédiction de la consommation des véhicules à partir de leur poids, de leur cylindrée et de leur puissance, nous décrirons les sorties de TANAGRA en leur associant les formules utilisées. Nous mettrons en avant le rôle de la matrice (X'X)^(-1) fournie depuis la version 1.4.38. Elle est importante car elle tient une place centrale dans les tests généralisés sur les coefficients. Nous en accomplirons quelques uns manuellement avec le tableur Excel.

Dans un deuxième temps, nous réaliserons la régression à l'aide du logiciel R. Nous mettrons en parallèle ses résultats avec ceux de TANAGRA. Nous identifierons les objets qui fournissent les informations nécessaires aux différents post-traitements, notamment les tests généralisés. Nous effectuerons alors les calculs réalisés précédemment dans Excel directement dans R.

Mots clés : régression linéaire multiple, logiciel R, lm, tests généralisés, tests de conformité, tests de comparaison
Composants : MULTIPLE LINEAR REGRESSION
Lien : fr_Tanagra_Multiple_Regression_Results.pdf
Données : cars_consumption.zip
Références :
R. Rakotomalala, Régression linéaire multiple - Diaporama

vendredi 4 février 2011

Tanagra - Version 1.4.38

Quelques corrections mineures pour la version 1.4.38 de Tanagra.

Les codes couleurs des tests de normalité ont été harmonisés (NORMALITY TEST). Selon la procédure, les couleurs associées aux p-value n'étaient pas cohérents, induisant en erreur le praticien. Ce problème m'a été signalé par M. Laurent Garmendia.

Suite à des indications de M. Oanh Chau, je me suis rendu compte que la standardisation des variables pour la HAC (classification ascendante hiérarchique) était basée sur l'écart-type d'échantillon. Ce n'est pas une erreur en soi. Mais du coup, la somme des indices de niveau dans le dendrogramme ne coïncidait pas avec la TSS (total sum of squares). C'est plus gênant. L'écart est surtout perceptible sur les petits fichiers, il s'estompe lorsque l'effectif augmente. La correction a été introduite, maintenant le « BSS ratio » vaut bien 1 lorsque nous avons la partition triviale c.-à-d. un individu par groupe.

La régression linéaire multiple (MULTIPLE LINEAR REGRESSION) fournit maintenant la matrice (X'X)^(-1). Elle permet de déduire la matrice de variance covariance des coefficients (en la pré-multipliant par la variance estimée de l'erreur). Elle rentre aussi dans les tests généralisés sur les coefficients : les tests de conformité simultanés; les tests de combinaisons linéaires. Ces tests sont décrits (entres autres) dans les diaporamas de mes enseignements d'économétrie en Licence IDS.

Enfin, les sorties de l'analyse discriminante descriptive (CANONICAL DISCRIMINANT ANALYSIS) ont été complétées. Les barycentres des groupes (Group centroïds) sur les axes factoriels sont directement fournies.

Merci infiniment à toutes les personnes qui, par leurs commentaires ou leurs suggestions, m'aident à améliorer quotidiennement le travail que je mets en ligne (logiciel, documents).

Page de téléchargement de Tanagra : setup