Régression avancée
Cours
Projet
Plus qu'un projet le sujet de l'année se décompose en une série d'exercices disponible sur la page projet2015
Travaux dirigés
A propos des contrastes: une manière de comprendre le recodage des variables qualitatives engendré par un contraste, il est possible d'utiliser l'instruction model.matrix(model), qui montre la matrice de design X utiliser pour faire la régression.
Dans une régression logistique, l'exponentiel de l'intercept peut s'interpréter comme l'odd ratio
P(Y)/(1-P(Y)), c'est à dire rapport de proportion hors tout effet fixe X observé.
Dans le formalisme R, Y~X1+X2 - 1 permet de faire une régression sans intercept.
Quelques jeux de données issus de packages R:
Partiel
Livres de référence disponible sur le web
De nos jours, le problème n'est pas tant de trouver de l'information que de sélectionner une information de qualité. Voici quelques références qui pourront vous servir de guides fiables:
-
-
Apprentissage statistique Maintenant disponible gratuitement sur le web, le livre “The elements of statistical learning” donne une vision de très nombreuses méthodes d'apprentissage et détaille donc plusieurs types de regression.
-
Guides d'introduction à R
R pour les débutants de Emmanuel Paradis. Une introduction très agréable, orienté pour le traitement des données.
simpleR de John Verzani, dédié au traitement statistique.
-
Projets encadrés supplémentaires
Projet de comparaison
Les méthodes de régression pénalisée (chapitre 3 du livre de Hastie et Tibshirani - shrinkage method) permettent de réaliser simultanément estimation et sélection des paramètres du modèle.
Lisez les sections du livre “The elements of statistical learning” (et tout autre source que vous jugerez intéressante) concernant le LASSO (régression linéaire pénalisée)
charger la library R glmnet
Etudiez un jeu de données en utilisant régression classique (logistique ou linéaire) et régression pénalisée (Ecrivez moi et je vous enverrai le jeu de données par retour de courrier).
Pièges et solutions en sélection de variables
Le projet vise à évaluer quelques problèmes communs de sur-apprentissage liés à la sélection de variables en apprentissage (régression et discrimination).
Nous partirons des papiers de Juha Reunanen,
http://users.tkk.fi/u/jsreunan/publ/
Méthodes
Nous considérerons
les k plus proches voisins pour la classification,
la régression linéaire pour la régression.
Données
Questions
Article 1: Overfitting in Making Comparisons Between Variable Selection Methods
Article 1
Programmer un validation croisée à k plis (folds) qui permette d'évaluer une méthode de discrimination ou de régression.
Tester cette validation croisée pour estimer l'erreur en prédiction
Programmer et tester une méthode de sélection avant simple (SFS, Sequential Forward Selection) qui utilise l'erreur en validation croisée comme critère de sélection sur
un jeu de données lié à un problème de discrimination et sur
un jeu de données lié à un problème de régression.
Programmer et tester une sélection avant flottante (SFFS, Sequential Forward Floating Sélection)
Comparer les deux méthodes en vous inspirant des techniques utilisées dans l'article
Article 2: A Pitfall in Determining the Optimal Feature Subset Size
Article 2
Utiliser une double validation croisée (interne, externe) pour mettre en évidence l'optimisme de la sélection utilisant uniquement une validation simple.
Illustrer le phénomène sur un problème de régression et un problème de classification