Table of Contents

Régression avancée

Cours

Projet

Plus qu'un projet le sujet de l'année se décompose en une série d'exercices disponible sur la page projet2015

Travaux dirigés

A propos des contrastes: une manière de comprendre le recodage des variables qualitatives engendré par un contraste, il est possible d'utiliser l'instruction model.matrix(model), qui montre la matrice de design X utiliser pour faire la régression.

Dans une régression logistique, l'exponentiel de l'intercept peut s'interpréter comme l'odd ratio P(Y)/(1-P(Y)), c'est à dire rapport de proportion hors tout effet fixe X observé.

Dans le formalisme R, Y~X1+X2 - 1 permet de faire une régression sans intercept.

Quelques jeux de données issus de packages R:

Partiel

Livres de référence disponible sur le web

De nos jours, le problème n'est pas tant de trouver de l'information que de sélectionner une information de qualité. Voici quelques références qui pourront vous servir de guides fiables:

Guides d'introduction à R

Projets encadrés supplémentaires

Projet de comparaison

Les méthodes de régression pénalisée (chapitre 3 du livre de Hastie et Tibshirani - shrinkage method) permettent de réaliser simultanément estimation et sélection des paramètres du modèle.

  1. Lisez les sections du livre “The elements of statistical learning” (et tout autre source que vous jugerez intéressante) concernant le LASSO (régression linéaire pénalisée)
  2. charger la library R glmnet
  3. Etudiez un jeu de données en utilisant régression classique (logistique ou linéaire) et régression pénalisée (Ecrivez moi et je vous enverrai le jeu de données par retour de courrier).

Pièges et solutions en sélection de variables

Le projet vise à évaluer quelques problèmes communs de sur-apprentissage liés à la sélection de variables en apprentissage (régression et discrimination).

Nous partirons des papiers de Juha Reunanen,

http://users.tkk.fi/u/jsreunan/publ/

Méthodes

Nous considérerons

  1. les k plus proches voisins pour la classification,
  2. la régression linéaire pour la régression.

Données

dépot UCI

Questions

Article 1: Overfitting in Making Comparisons Between Variable Selection Methods

Article 1

  1. Programmer un validation croisée à k plis (folds) qui permette d'évaluer une méthode de discrimination ou de régression.
  2. Tester cette validation croisée pour estimer l'erreur en prédiction
  3. Programmer et tester une méthode de sélection avant simple (SFS, Sequential Forward Selection) qui utilise l'erreur en validation croisée comme critère de sélection sur
    1. un jeu de données lié à un problème de discrimination et sur
    2. un jeu de données lié à un problème de régression.
  4. Programmer et tester une sélection avant flottante (SFFS, Sequential Forward Floating Sélection)
  5. Comparer les deux méthodes en vous inspirant des techniques utilisées dans l'article

Article 2: A Pitfall in Determining the Optimal Feature Subset Size

Article 2

  1. Utiliser une double validation croisée (interne, externe) pour mettre en évidence l'optimisme de la sélection utilisant uniquement une validation simple.
  2. Illustrer le phénomène sur un problème de régression et un problème de classification