Cours
Projet
Travaux dirigés
Livres de référence disponible sur le web
Guides d'introduction à R
Projets encadrés supplémentaires
Méthodes
Données
Questions
Article 1: Overfitting in Making Comparisons Between Variable Selection Methods
Article 2: A Pitfall in Determining the Optimal Feature Subset Size

Régression avancée

Cours

Projet

Plus qu'un projet le sujet de l'année se décompose en une série d'exercices disponible sur la page projet2015

Travaux dirigés

A propos des contrastes: une manière de comprendre le recodage des variables qualitatives engendré par un contraste, il est possible d'utiliser l'instruction model.matrix(model), qui montre la matrice de design X utiliser pour faire la régression.

Dans une régression logistique, l'exponentiel de l'intercept peut s'interpréter comme l'odd ratio P(Y)/(1-P(Y)), c'est à dire rapport de proportion hors tout effet fixe X observé.

Dans le formalisme R, Y~X1+X2 - 1 permet de faire une régression sans intercept.

Quelques jeux de données issus de packages R:

Partiel

Examen 2011

Livres de référence disponible sur le web

De nos jours, le problème n'est pas tant de trouver de l'information que de sélectionner une information de qualité. Voici quelques références qui pourront vous servir de guides fiables:

Modèle linéaire et R Le livre de Faraway est extrêment pratique et donne profusion d'exemples en R
Modèle linéaire Généralisé
Apprentissage statistique Maintenant disponible gratuitement sur le web, le livre “The elements of statistical learning” donne une vision de très nombreuses méthodes d'apprentissage et détaille donc plusieurs types de regression.
Modèlisation statistique et apprentissage , un cours en français de Philippe Besse.

Guides d'introduction à R

R pour les débutants de Emmanuel Paradis. Une introduction très agréable, orienté pour le traitement des données.
simpleR de John Verzani, dédié au traitement statistique.
Fiche résumé des commandes usuelles en R

Projets encadrés supplémentaires

Projet de comparaison

Les méthodes de régression pénalisée (chapitre 3 du livre de Hastie et Tibshirani - shrinkage method) permettent de réaliser simultanément estimation et sélection des paramètres du modèle.

Lisez les sections du livre “The elements of statistical learning” (et tout autre source que vous jugerez intéressante) concernant le LASSO (régression linéaire pénalisée)
charger la library R glmnet
Etudiez un jeu de données en utilisant régression classique (logistique ou linéaire) et régression pénalisée (Ecrivez moi et je vous enverrai le jeu de données par retour de courrier).

Pièges et solutions en sélection de variables

Le projet vise à évaluer quelques problèmes communs de sur-apprentissage liés à la sélection de variables en apprentissage (régression et discrimination).

Nous partirons des papiers de Juha Reunanen,

http://users.tkk.fi/u/jsreunan/publ/

Méthodes

Nous considérerons

les k plus proches voisins pour la classification,
la régression linéaire pour la régression.

Données

dépot UCI

Questions

Article 1: Overfitting in Making Comparisons Between Variable Selection Methods

Article 1

Programmer un validation croisée à k plis (folds) qui permette d'évaluer une méthode de discrimination ou de régression.
Tester cette validation croisée pour estimer l'erreur en prédiction
Programmer et tester une méthode de sélection avant simple (SFS, Sequential Forward Selection) qui utilise l'erreur en validation croisée comme critère de sélection sur
1. un jeu de données lié à un problème de discrimination et sur
2. un jeu de données lié à un problème de régression.
Programmer et tester une sélection avant flottante (SFFS, Sequential Forward Floating Sélection)
Comparer les deux méthodes en vous inspirant des techniques utilisées dans l'article

Article 2: A Pitfall in Determining the Optimal Feature Subset Size

Article 2

Utiliser une double validation croisée (interne, externe) pour mettre en évidence l'optimisme de la sélection utilisant uniquement une validation simple.
Illustrer le phénomène sur un problème de régression et un problème de classification

Table of Contents