samedi 23 mai 2015

Pratique de la régression - Version 2.1

Miraculeusement, je vais disposer de plus d’heures pour le cours d’Économétrie - Modélisation statistique en L3 IDS. Les bonnes nouvelles vous donnent toujours du cœur à l’ouvrage. Je me suis demandé comment je pouvais faire évoluer ce cours pour tirer parti de cette nouvelle configuration.

La première piste est d’étoffer les TD où nous avancions un peu à marche forcée, je le reconnais. Avec des séances supplémentaires, nous pourrons aborder plus de sujets, mais aussi élargir la panoplie des logiciels utilisés. Je suis persuadé que faire travailler les étudiants sur différents outils est une très bonne manière… de les détacher des outils justement, de prendre de la hauteur pour s’attacher à l’essentiel. Quand on sait vraiment conduire, que ce soit une 2 CV ou une Lamborghini, on saura faire. Après, il y a des spécificités qu’il faut savoir exploiter, mais c’est après, lorsqu’on veut approfondir. On sait très bien qu’il y a des choses qu’on pourra faire avec une 2 CV mais pas avec une Lamborghini, et inversement.

La seconde piste est de compléter le cours en abordant /approfondissant certains thèmes. La question de la direction à prendre se pose. Beaucoup de domaines sont déjà abordés, comment élargir sans semer en route les étudiants ? Après réflexion, les pistes de l’ANOVA et ANCOVA me paraissent les plus intéressantes - et les moins déroutantes - en utilisant le prisme de la régression sur variables qualitatives, nominales et ordinales. Les étudiants verront ces sujets (ANOVA, etc.) dans la suite de leur cursus. En adoptant délibérément l’éclairage de la régression, on évite la redondance, tout en leur permettant de consolider leurs compétences en terme d’analyse.

Dans cette nouvelle version 2.1 du fascicule consacré à la « Pratique de la Régression Linéaire Multiple », je me suis donc attelé à compléter le chapitre 4 consacré à la régression sur variables exogènes qualitatives, qui passe à 57 pages maintenant. J’ai bénéficié de l’éclairage additionnel de la page Régression de l’IDRE (Institute for Digital Research and Education - UCLA) où la question de la régression sur exogènes qualitatives est brillamment exploré avec des exemples traités sous les logiciels SAS et R. C’est Byzance. J’ai intégré les thèmes les plus intéressants dans le chapitre existant (qui a été un peu réorganisé en conséquence), en reproduisant les calculs - sur les données du fascicule - sous Excel.

Mots-clés : régression sur exogènes qualitatives, anova, ancova, comparaison de moyennes, analyse des interactions, analyse de contrastes
Ouvrage : Ricco Rakotomalala, « Pratique de la Régression Multiple - Diagnostic et sélection de variables - Version 2.1 », Mai 2015.
Données : Dataset - Pratique de la régression
Références : Ma page de cours « Économétrie ».

mardi 19 mai 2015

Reconnaissance faciale et détection de l’âge

A cette époque de la saison, je réfléchis aux thèmes des projets big data que je pourrais proposer à mes étudiants du Master SISE (Statistique et Informatique) l’année prochaine. Je dois toujours composer avec deux contraintes opposées : il faut que les sujets soient assez classiques pour que les étudiants puissent consolider leurs acquis ; mais il faut aussi qu’ils soient assez innovants pour titiller leur intérêt,  pour les faire sortir des sentiers battus, rechercher de l’information par eux-mêmes, défricher un terrain inconnu afin d’apprendre à discerner l’essentiel de l’accessoire.

Mon rôle dans cette histoire consiste à cerner suffisamment chaque thème afin de déterminer d’une part son intérêt pédagogique, d’autre part la faisabilité du projet dans le temps qui est imparti, environ 1 mois sachant que les étudiants doivent dans le même temps suivre les cours, travailler sur les projets des autres matières, voire passer les épreuves validant certains UE (Unité d’Enseignement). Il ne s’agit pas de les envoyer au casse-pipe sans filet.

Cette année, entres autres projets potentiels, j’ai décidé de m’intéresser à la reconnaissance faciale. Ce n’est pas très nouveau en soi, mais nous faisons rarement travailler nos étudiants là-dessus, je me dis que le terrain peut s’avérer fertile. En me documentant sérieusement sur la question, je suis tombé sur un article décrivant un nouvel outil - tout bonnement extraordinaire - mis en ligne par Microsoft. Il détermine automatiquement votre âge et votre sexe à partir de votre photo. On va nettement plus loin que la simple reconnaissance dans ce cas. Bien évidemment, j’ai multiplié les tests : photos prises de face, de biais, éclairage fort, faible, pénombre, contre-jour, visage rasé de près ou pas, etc. A force, on devine à peu près les critères qui peuvent jouer. J’avoue surtout avoir passé un moment particulièrement amusant en testant différentes photos et noter l’âge proposé pour chaque configuration. Au passage, Microsoft dit qu’il ne conserve pas les photos soumises. Heureusement car, dans le cas contraire, ils auraient eu là  une occasion unique de se constituer une base de photos d’identité mondiale. Bon, dans le même temps, des plaisantins doivent s’ingénier à tester leurs animaux domestiques, leurs voitures, ou que sais-je encore, je n’ose même pas imaginer.

Peut-être qu’on n’ira pas jusqu’à ce stade dans les projets  - détection de l’âge et du sexe à partir de photos d’identité - avec mes étudiants. Mais il y a clairement matière à travailler dans le domaine. J’ai même lu récemment qu’on pouvait effectuer la reconnaissance faciale… de dos (ce n'est pas vraiment ça quand on lit l'article, mais l'idée est amusante). On n’arrête pas le progrès, on n’arrête pas l’imagination des ingénieurs surtout.

Testez-vous : quel est votre âge ?
Mots-clés : reconnaissance faciale, traitement d’images, image mining, big data analytics, fouille de données complexes