mardi 12 juin 2012

Tanagra - Version 1.4.45

Plusieurs nouveautés autour de l’analyse en composantes principales (ACP).

PRINCIPAL COMPONENT ANALYSIS. Sorties additionnelles pour le composant : Dessin de la scree plot et de la courbe de l’inertie expliquée ;  ACP normée – Aide à la détection du nombre d’axes avec les seuils de Kaiser-Guttman, de Karlis-Saporta-Spinaki, test des bâtons brisés de Legendre-Legendre ; ACP normée – test de Bartlett et indice KMO (indice MSA de Kaiser-Mayer-Olkin) si le déterminant de la matrice des corrélations est supérieur à 1E-45 ; ACP normée – Affichage de la matrice des corrélations brutes et des corrélations partielles.

PARALLEL ANALYSIS. Le composant calcule la distribution des valeurs propres pour un jeu de données généré aléatoirement. Il procède par randomisation. Il s’applique à l’analyse en composantes principales et l’analyse des correspondances multiples. Un facteur est considéré significatif si sa valeur propre est supérieure au quantile d’ordre 0.95 (paramétrable).

BOOTSTRAP EIGENVALUES. Calcul par ré-échantillonnage bootstrap de l’intervalle de variation des valeurs propres. Un axe est significatif si sa valeur propre est supérieure à un seuil qui dépend de la méthode sous-jacente (ACP ou ACM), ou si la borne basse de la valeur propre d’un axe est supérieure à la borne haute de la suivante. Le niveau de confiance 0.90 est paramétrable. S’applique à l’analyse en composantes principales et l’analyse des correspondances multiples.

JITTERING. S’applique aux composants de visualisation de nuages de points (SCATTERPLOT, CORRELATION SCATTERPLOT, SCATTERPLOT WITH LABEL, VIEW MULTIPLE SCATTERPLOT). Modifie très légèrement, aléatoirement, la position des points dans le nuage pour que l’utilisateur puisse identifier les superpositions.

RANDOM FOREST. Libération de la mémoire non utilisée après apprentissage des arbres de décision. Dans un apprentissage simple, cela ne porte pas à conséquence. En revanche, dans les méthodes ensemble (BAGGING, BOOSTING, et les RANDOM FOREST) où l’on empile un très grand nombre d’arbres, les capacités de calcul sont très largement améliorées. Merci à Vincent Pisetta de m’avoir signalé cet écueil.

Page de téléchargement : setup