mercredi 26 mars 2008

Analyse discriminante sur axes principaux

L’analyse discriminante linéaire possède des qualités évidentes, maintes fois décrites dans de nombreuses publications. Elle souffre toutefois d’une faiblesse criante, elle nécessite l’inversion de la matrice de variance covariance intra-classes. Lorsque la matrice est singulière, le logiciel plante, au moins on sait à quoi s’en tenir. La situation est plus complexe lorsqu’elle est quasi singulière, la technique est très instable et propose des solutions erratiques. Cette situation arrive fréquemment lorsque le nombre de variables se rapproche dangereusement du nombre d’observations, ou lorsque certains prédicteurs sont fortement corrélés.

La régularisation permet de contrôler cette instabilité. Dans leur ouvrage, Lebart et al. (2000) présentent plusieurs techniques. Nous retenons l’analyse discriminante sur axes principaux dans ce didacticiel.

La démarche est la suivante : nous réalisons une analyse en composantes principales sur les variables initiales, nous éliminons les axes correspondant à des valeurs propres nulles ou proches de 0, puis nous réalisons une analyse discriminante sur les facteurs qui ont été retenus.

L’idée sous jacente est de procéder à un lissage où l’on essaie d’épurer les données pour ne retenir que l’information « utile ». Les perturbations annexes, correspondant aux fluctuations d’échantillonnage, traduites par les derniers axes à très faible variance, sont éliminées.

Dans notre exemple, la solution semble idyllique. Cela n’est pas étonnant, nous avons utilisé le fichier « ondes » de Breiman et al. (1984) qui sont en réalité des données synthétiques. La solution est particulièrement adaptée.

Dans la pratique, si cette technique de régularisation permet de stabiliser l’apprentissage, éliminant le problème d’inversion de matrice hasardeuse, elle ne constitue pas pour autant la solution miracle. En effet, les axes principaux de l’ACP sont construits sans tenir compte de l’étiquette des observations. Il y a des cas où cela peut être totalement inapproprié.

Mots clés : régularisation, analyse discriminante linéaire, analyse discriminante prédictive, analyse en composantes principales, ACP
Composants : Supervised Learning, Linear discriminant analysis, Principal Component Analysis, Scatterplot, Train-test
Lien : dr_utiliser_axes_factoriels_descripteurs.pdf
Données : dr_waveform.bdm
Références :
L. Lebart, A. Morineau, M. Piron, « Statistique exploratoire multidimensionnelle », Dunod, 2000 ; pages 269 à 275.
Wikipédia , « Analyse discriminante linéaire »