dimanche 9 mars 2008

Analyse discriminante descriptive - Vins de Bordeaux

L'analyse discriminante est une technique statistique qui cherche à décrire, expliquer et prédire l'appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...) d'un ensemble d'observations (individus, exemples, ...) à partir d'une série de variables prédictives (descripteurs, variables exogènes, ...).

On distingue généralement deux approches, qui peuvent se rejoindre : l'analyse discriminante descriptive, que nous étudions dans ce didacticiel, et l'analyse discriminante prédictive que nous étudierons dans d'autres circonstances.

L'analyse factorielle discriminante, ou analyse discriminante descriptive, vise à produire un nouveau système de représentation, des variables latentes formées à partir de combinaisons linéaires des variables prédictives, qui permettent de discerner le plus possible les groupes d'individus. En ce sens, elle se rapproche de l'analyse factorielle car elle permet de proposer une représentation graphique dans un espace réduit, plus particulièrement de l'analyse en composantes principales calculée sur les centres de gravité conditionnels des nuages de points avec une métrique particulière. On parle également d'analyse canonique discriminante, notamment dans les logiciels anglo-saxons.

Ce didacticiel, nous cherchons à décrire la qualité des vins du beaujolais à partir de variables météorologiques. TANAGRA indique à la sortie les axes factoriels significatifs, les corrélations totales, intra et inter groupes, qui permettent de les interpréter. Cet exemple est tiré de l'ouvrage de M. Tenenhaus (1996).

Mots clés : analyse factorielle discriminante, analyse discriminante descriptive
Composants : Canonical discriminant analysis, Scatterplot
Lien : fr_Tanagra_Canonical_Discriminant_Analysis.pdf
Données : wine_quality.xls
Références :
M. Tenenhaus, " Méthodes statistiques en gestion ", Dunod, 1996 ; page 244.
Wikipédia -- Analyse discriminante