dimanche 19 juillet 2020

Pratique des Méthodes Factorielles avec Python

Ca faisait un moment que j'avais envie de le faire mais des multiples contraintes m'en avaient toujours empêché. Enfin j'ai pu travailler activement à la rédaction livre d'un consacré à l'analyse factorielle. J'ai fait la synthèse dans un ensemble que j'espère cohérent ce que j'ai pu écrire sur les méthodes factorielles ces quinze dernières années. Le plan est relativement classique. Nous présentons tour à tour les différentes techniques qui font référence dans le domaine (ACP, MDS, AFC, ACM, AFDM).

Par rapport à la très abondante littérature qui existe (tant en ouvrages qu'en supports accessibles en ligne), fidèle à mon habitude, j'ai essayé de me démarquer en évitant déjà d'abreuver le lecteur de succession de formules matricielles arides, en simplifiant la présentation des techniques (ce n'est pas le plus facile), en retraçant dans le détail les aspects calculatoires à l'aide d'exemples illustratifs, en utilisant le langage Python et ses librairies scientifiques standards (numpy, scipy, scikit-learn).

Nous utilisons en particulier la librairie "fanalysis" d'Olivier Garcia (ancien du Master SISE, promotion 2000), accessible sur GitHub, qui fait référence aujourd'hui pour l'analyse factorielle avec Python. Elle est en adéquation avec les pratiques décrites dans les ouvrages phares de l'analyse de données (cf. la bibliographie). Quelques requêtes Google semblent montrer (juin 2020) qu'il y a peu d'outils et de documentation sur ce créneau, qui correspond pourtant à une véritable attente si j'en juge aux accès sur mon site des tutoriels où les documents relatifs aux méthodes factorielles d'une part, à la pratique de la data science sous Python d'autre part, font partie de ceux qui sont le plus téléchargés. A chaque étape, nous calibrerons les résultats en les comparant à ceux de SAS (proc princomp, proc factor, proc corresp), R (factominer, ade4, ca, pcamixdata, psych)  et TANAGRA (avec les composants de l'onglet "Factorial Analysis").

Bien sûr, les programmes (notebooks Jupyter) et les données accompagnent la diffusion de l'ouvrage.

Mots-clés : analyse factorielle, méthodes factorielles, analyse en composantes principales, ACP, positionnement multidimensionnel, mds, multidimensional scaling, analyse factorielle des correspondances, AFC, analyse des correspondances multiples, ACM, AFCM, analyse factorielle des données mixtes, python, jupyter notebook
Ouvrage : Pratique de l'analyse factorielle
Notebooks Jupyter : Notebooks Analyse Factorielle
Données exemples : Data Méthodes Factorielles
Site de référence : Cours Analyse Factorielle