Choisir librement un jeu de données adapté à la régression linéaire multivarié et qui contienne au moins une dizaine de prédicteurs, par exemple
Traiter le jeu de données choisi à l'aide d'un modèle linéaire multivarié. Utiliser diverses méthodes de sélection de variable (stepwise, forward/backward selection) et de régression biaisées (ridge/Lasso/etc) pour proposer un modèle qui vous semblera adéquate. Évaluer l'erreur de prédiction commise (avec validation croisée, ensemble test/apprentissage). Vous pourrez comparer vos modèles avec celui des moindres carrés quand cela est possible, pour lequel les techniques habituelles adaptées au modèle linéaire (bootstrap, régression robuste, analyse des résidus, etc.) peuvent être envisagées.
Pour chacun des jeux de données, vous commencerez par une étude de statistiques descriptives : posez-vous des questions sur les données, en trouvez des pistes à l'aide d'histogrammes, de nuages de points, boîtes à moustaches, moyennes, variances, etc. Si vous choisissez d'ôter des données, recomposer l'échantillon, cela peut être une bonne idée, mais justifiez-le !
Vous pourrez vous faire les dents sur les données prostates afin de tester la validité des scripts R
implémentés. Nous allons retrouver les résultats du livre The Elements of Statistical Learning - 2nd Edition en testant les modèles sur les données de cancer de la prostate.
x
, une matrice de réponses y
et un vecteur set
indiquant l'appartenance à l'ensemble de d'apprentissage.
Nous dérivons l'estimateur des moindres carrés, son biais, sa variance et mettons en place le test d'hypothèse fondé sur le Z-score pour décider de la nullité d'un paramètre. Un script R
complet et commenté implémente ces résultats.
Nous dérivons l'estimateur de la régression ridge, qui pénalise la taille des coefficients à estimer, réduisant donc la variance mais augmentant le biais par rapport au moindres carrés.
Nous présentons les critères du Lasso, de l'elastic-net, du group-lasso et de l'adaptive Lasso. Nous montrons comment les calculer en pratique sous R
. On étudie le problème des données prostate
.
Sous R
, ces problèmes peuvent être résolus à l'aide des packages lars
, glmnet
et grplasso
.
Nous présentons la validation croisée comme estimation de l'erreur de prédiction. Nous montrons comment l'appliquer au choix du paramètre de pénalisation dans les méthodes ridge et Lasso. Ceci se généralise facilement aux autres méthodes étudiées.
Modèle linéaire avec R
Un livre dévolu à la pratique de la régression sous R.
Apprentisssage Statistique
Un livre de référence disponible gratuitement au format PDF (à voir en particulier: les chapitres 3 et 7 pour la régression linéaire pénalisée et la validation croisée)
L'article fondateur du Lasso
Tibshirani, R. (1996), Regression shrinkage an selection via the Lasso, Journal of the Royal Statistical Society, vol. 58, pp 267–288, preprint,
Algorithme de résolution
Un article répertoriant les méthodes de type Lasso, group-Lasso, Elastic-Net, etc. pouvant être résolu via un algorithme très simple de descente de coordonnées (le lecture des premières pages est suffisante pour vous).
Friedman, J. and Hastie, T. and Hoefling, H. and Tibshirani, R. (2007), Pathwise coordinate optimization, vol. 1, pp 302–332, Annals of Applied Statistics, preprint.