Dans certains domaines (ex. santé), il est primordial de comprendre la nature des relations entre les explicatives et la variable cible dans un modèle prédictif, parce qu'il faut justifier l'affectation réalisée en prédiction, parce que le modèle doit être validé par l'expert métier, parce que nous souhaitons tout simplement disposer d'une visibilité sur la pertinence des variables utilisées, etc. Les classifieurs linéaires ou encore les méthodes à base de règles se positionnent plutôt avantageusement dans cette optique. C'est moins le cas en ce qui concernent les réseaux de neurones ou encore les méthodes ensemblistes qui, pour aussi performantes qu'elles soient, se comportent comme des boîtes noires et produisent des résultats dont nous avons du mal à cerner la teneur.
Dans ce support de cours, nous nous intéressons aux outils agnostiques pour l'interprétation des modèles. "Agnostique" dans le sens où ils peuvent s'appliquer à tout type d'algorithme prédictif sans avoir à se pencher sur leurs mécanismes internes d'affectation. Il vient synthétiser et compléter plusieurs tutoriels qui abordaient le sujet sous plusieurs angles à l'aide de différents logiciels et/ou librairies.
Mots-clés : python, scikit-learn, shap, h2o, permutation feature importance, partial dependence plot, pdp, individual conditional expectation, ice, shapley values, shapley additive explanations
Support de cours : Interprétation des modèles
Références :
C. Molnar, "Interpretable Machine Learning", version 21/02/2022.
"(Vidéo) Outils pour l'interprétation des modèles", avril 2021.
"(Vidéo) Model Explainability par H2O", avril 2021.