0% ont trouvé ce document utile (0 vote)

122 vues39 pages

Ridge

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

122 vues39 pages

Ridge

Transféré par

rahmouneimad949

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Méthodes de Régression Avancées

0.6
●

0.4
●

●
Coefficients

●
● ●
●
●
● ●
●
● ●
0.2

●
● ●
● ●
● ●
● ● ●
● ● ●
●
● ● ●
● ●
● ● ●
●
●● ●
● ●
●● ● ●
●● ● ● ●
●
●● ● ●
●
●● ●
●● ●● ●
●● ●● ●
●● ● ●
●
●●●● ●●
●●
● ●
●
●●
● ●●● ● ● ● ● ● ● ●
●
●● ●●● ● ● ●
●
● ● ● ●
●●
● ●●● ●● ●
● ● ●
●
●●
● ●●● ●●● ● ●
●●
●
● ●●● ●●●●●●●
●●
●
●
●
●
●●
●
●●
●●●●● ●●●●●●●●●●●●● ●
● ●
●
●
●●
●
● ●
●●
●● ●●●●● ●●● ● ● ●
●● ● ●
● ●●● ● ●
●
●● ●
●
●●
● ● ●
●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●●
●● ●
●●
●
●●
● ●●
●●
●● ●●●● ●● ● ● ● ●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●●
●
●●
●●●●●● ●●●●●●●●●●●●●●●● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
●●
●●
●●
●●
●
●● ●
●●
● ●●●●●●●● ●●●●●●● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●
●●●●●●●● ●●●●●●●●● ●●●
●
●
● ●
●●
●
●
●●
●
●●● ●●
●●
●●
●
●
●
●●
●
●●
●
● ●●●
●
● ●
●● ●●●●●●●
●●
●
●●
●●
●
●
●●●
●
●●
●
●●
●
●●
●
●● ●●●●●●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●●
●
●
●
●●
●●
●●
●●
●●●●●●●●● ● ●
●
●
●●
●
●●
●
●●
●●
●
●●
●
●
●●
●
●●
●●
●
●
●●
●
●
●●
●
●
●
●
● ●●
●●●●●●●●●●●●●●●●●●●●●●●●●
0.0

●
●
●●
●●
●
●●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●●
●●
●●
●●
● ●● ● ● ● ●
●●
● ● ●
● ● ● ●
●
● ●
●
●
●

0 2 4 6 8

Estimated Degrees of Freedom

Yannig Goude

EDF R&D
Comme nous l’avons vu précédemment, l’estimateur des Moindres Carrés
Ordinaires (MCO) est la solution de:
n
X
minp (yi − xi β)2 = minp ||Y − X β||2
β∈R β∈R
i=1

Et s’écrit:

βb = (X 0 X )−1 X 0 Y
sous l’hypothèse que X est de plein rang
Rq: on considèrera ici que les variables sont centrées pour plus de commodité.
En pratique, cet estimateur ne fonctionne pas:
I si les x.,j sont corréléees entre elles, X n’est pas de plein rang
I si p >> n

dans ces cas X 0 X doit être régularisée pour pouvoir être inversée et on ajoute
une pénalisation → ridge, lasso...
Régression Ridge:
On résout le pb:
n
X
minp (yi − xi β)2 + λ||β||2
β∈R
i=1

équivalent au pb suivant -dual, Lagrange-:

n
X
minp (yi − xi β)2
β∈R
i=1

s. c. ||β||2 6 t
Rq:
I bijection entre t et λ
I les solution du pb ne sont pas invariante par changement d’échelle,
usuellement on standardise les variables avant
I les variables sont centrées (∼ on ne pénalise pas la constante)
l’estimateur des coefficients de la régression ridge est donné par:

βbridge = (X 0 X + λI )−1 X 0 Y
C’est un estimateur biaisé de β!
b

I
E(βbridge ) = (X 0 X + λI )−1 X 0 X E(β)
b = β − λ(X 0 X + λI )−1 β

I
Var (βbridge ) = σ 2 (X 0 X + λI )−1 X 0 X (X 0 X + λI )−1
Preuve:
Pn
I g (β) =
i=1 (yi − xi β)2 + λβ 0 β
I dg
dβ
= 20 (X β − Y ) + 2λβ
I s’annule en (X 0 X + λ)β = X 0 Y
I soit en β = (X 0 X + λ)−1 X 0 Y
Preuve:
Pn
I g (β) =
i=1 (yi − xi β)2 + λβ 0 β
I dg
dβ
= 20 (X β − Y ) + 2λβ
I s’annule en (X 0 X + λ)β = X 0 Y
I soit en β = (X 0 X + λ)−1 X 0 Y
Preuve:
Pn
I g (β) =
i=1 (yi − xi β)2 + λβ 0 β
I dg
dβ
= 20 (X β − Y ) + 2λβ
I s’annule en (X 0 X + λ)β = X 0 Y
I soit en β = (X 0 X + λ)−1 X 0 Y
Preuve:
Pn
I g (β) =
i=1 (yi − xi β)2 + λβ 0 β
I dg
dβ
= 20 (X β − Y ) + 2λβ
I s’annule en (X 0 X + λ)β = X 0 Y
I soit en β = (X 0 X + λ)−1 X 0 Y
bridge est biaisé, son biais vaut −λ(X 0 X + λI )−1 β
I β
I l’inversion de X 0 X est remplacée par celle de (X 0 X + λI ), estimation plus
robuste si les variables explicatives sont corrélées empiriquement

Intuition:
I pénaliser permet de réduire l’espace S: réduire la variance (grande dans
les cas évoqué) mais augmente le biais
I le compromis biais-variance revient à trouver la bonne pénalité λ

Choix de λ: VC, GCV, pénalisation (AIC, BIC, Cp), rééchantillonage,

bootstrap, analyse du λ-path...
Degrés de liberté estimés
On généralise la notion de degrés de liberté du linéaire
b0 = (X T X )−1 X T y
I sans pénalisation: β
bλ = (X T X + λj Sj )−1 X T y
P
I avec pénalisation: β

I β
bλ = Fλ βb0

Où X
Fλ = (X T X + λj Sj )−1 X T X

tr (Fλ ): degrés de liberté estimés

on a également par simple calcul matriciel: tr (Fλ ) = tr (Hλ ), ou
Hλ = X (X 0 X + λI )−1 X 0
Exemple:Prostate Data -voir Hastie, Tibshirani, Friedman 2009-

réponse: lpsa log(prostate specific antigen)

var. expl.: lcavol log(cancer volume); lweight log(prostate
weight); age; lbph log(benign prostatic hyperplasia amount);
svi seminal vesicle invasion; lcp log(capsular
penetration);gleason Gleason score; pgg45 percentage Gleason
scores 4 or 5
Exemple de λ-path obtenu sur ces données

0.6
lcavol lbph gleason ●

lweight svi pgg45

age lcp
●

●
0.4

●
Coefficients

●
● ●
●
●
● ●
●
● ●
0.2

●
● ●
● ●
● ●
● ● ●
● ● ●
●
● ● ●
● ●
● ● ●
●● ● ●
●● ● ●
●● ●
●●● ● ● ●
●
●
●● ● ● ●
●● ●● ●
●● ●● ●
●● ●● ● ●
●
●●●● ●● ● ●
●
●●
● ●●● ● ● ● ● ● ● ●
●
●● ●●● ● ● ●
●
● ● ● ●
●●
● ●●● ●● ● ● ●
●
●●
● ●●● ●●●●●●
●●
●● ● ●
●●
●
● ●●●
●●
●
●
●
●
●●
●
●●
●●●●● ●●●●●●●●●●●●● ●
● ●
●●
●
● ●
●● ●●● ●● ● ●
●
●●
●●
●
● ●
●
●●
●●
●●
●
●●
●●
●●●●●● ●●●●●● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
●●
●● ●●
●●
●
●● ●●
●●
●● ●●● ●●● ● ● ● ● ●
● ●
● ●
●
●●
●
●●
●
●●
●●
●
●●
●●●
● ●
●●●●●● ●●●●●●●●●●●●●● ●● ● ● ● ● ● ● ●
● ● ● ● ● ● ●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●●
●●
●●
●●
●
●●
●●●●●●●● ●●●●●●●●●●●● ● ● ● ● ● ● ● ● ● ●
●
●
●●●
●
●● ●
●●
●
● ●
●●
●●●
● ●●●●●●●●●● ●
●
●
●●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●●
●●
●●
● ●●●● ●
●
●
●
●●
●
●●
●
● ●●
●
●●
●●
●● ●●●●●●
●●
●
●●
●●
●
●
●●●
●
●●
●
●●
●
●●
●
●● ●●●●●●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●●
●
●
●
●●
●●
●●
●●
●●●●●●●●● ● ●
●
●
●●
●
●●
●
●●
●●
●
●●
●
●
●●
●
●●
●●
●
●
●●
●
●
●●
●
●
●
●
● ●
●●
●●●●●●●●●●●●●●●●●●●●●●●● ●
0.0

●
●
●●
●●
●
●●
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●●
●●
●●
●
● ●● ● ● ● ●
●●
● ● ●
● ● ● ●
●
● ●
●
●
●

0 2 4 6 8

Estimated Degrees of Freedom

0.6
lcavol lbph gleason ●

lweight svi pgg45

age lcp
●

●
0.4

●
Ridge Coefficients

●
● ●
●
●
● ●
●
● ●
0.2

●
● ●
● ●
● ●
● ● ●
● ● ●
●
● ● ●
● ●
● ● ●
●
●● ●
● ●
●● ● ●
●●● ● ● ●
●
● ●
●● ● ● ●
●● ●● ●
●● ●● ●
●● ●● ● ●
●
●●●● ●● ● ●
●
●●
● ●●● ● ● ● ● ● ● ●
●
●● ●●● ● ● ●
●
● ● ● ●
●
● ●●● ●● ● ● ●
●●
●
● ●●● ●●
●● ● ●
●●
●
●● ●●● ●●●●●●
●●
●
●
●
●
●●
●
●●
●●●●● ●●●●●●●●●●●●● ●
● ●
●
●
●●
●
● ●
●●
●● ●●●●● ●●●●●● ● ● ●
●
●
●● ●
●●
● ●
●●●● ● ● ●
● ● ● ● ● ●
●●
●●
● ●●
●
●●
●● ●
●
● ●
● ●
●●●
●
●●●●
●
●●● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●●
●
●●
●●●●●● ●●●●●●●●●●●●●● ●● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
●
●
●●
●●
●
●●
●
●● ●
●●
● ●●●●●●● ●●●●●●●●●●●●● ● ● ● ●
●●
●●
●●
●●
●
●
●● ●
●●
●●
● ●
●●
●●
● ●● ● ●
●
●
●
●
●●
●●
●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●●
●●
●●
●●●●●●●●●● ●●●● ●
●●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●●
●
●●
●
●●
●●
●
●●
●●
●●
●●●●●●●●●●
●● ●●
●
●● ●●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●●
●
●
●
●●
●●
●●
●●
●●●●●●●●● ● ●
●
●
●●
●
●●
●
●●
●●
●
●●
●
●
●●
●
●●
●●
●
●
●●
●
●
●●
●
●
●
●
● ●
●●
●●●●●●●●●●●●●●●●●●●●●●●● ●
0.0

0 2 4 6 8

Estimated Degrees of Freedom

Exemples:

●
●

●
2
●

●
●
● ●●
●
● ●
● ●●● ●
●
● ● ● ●
● ●● ● ● ●
1

● ● ● ●●●● ●
● ●●
● ●
● ●● ●●
●
● ● ● ● ● ●
● ● ●●● ● ● ●
● ●
● ● ●●
●
●● ●● ● ●
● ● ●
● ● ●●●
● ●
● ● ●●
● ● ● ● ●
● ● ●● ● ●
●● ●●● ●● ●●
log lpsa

● ● ●
●● ●● ● ●●●
● ● ●
●●●● ●
● ●● ●●
●● ● ● ●●
● ●●●● ●● ● ● ● ● ● ●● ●
● ●● ● ●●●
●●● ●
●● ● ●
●●●●
● ●
● ● ●●
0

● ● ● ● ●
● ● ● ● ●
● ●
● ● ● ●
● ● ●
●
●● ●
● ●
●
−2

● ● ●

−2 −1 0 1 2

lcavol
Régression Lasso -least absolute shrinkage and selection operator-:
On résout le pb:
n
X
minp (yi − xi β)2 + λ|β|
β∈R
i=1
Pp
Avec |β| = j=1 |βj |
équivalent au pb suivant:
n
X
minp (yi − xi β)2
β∈R
i=1

s. c. |β|2 6 t
Problème similaire à ridge mais la pénalité L2 de ridge est ici remplacée par une
pénalité en norme L1 : la solution de ce problème n’est plus linéaire en y

La pénalité L1 a comme propriété de ”tronquer” les coefficients faibles, donc de

les mettre à 0. Cela permet une sorte de choix de modèle.
0.6
lcavol lbph gleason ●

lweight svi pgg45

● ●
age lcp ●
● ●

●
0.4

●
Lasso Coefficients

● ●
0.2

●
●
●
●
● ●
●
●
● ● ● ●
●
● ● ●
●
●
●
0.0

● ● ● ● ●
● ● ● ●
●

●
●

0 2 4 6 8

Estimated Degrees of Freedom

0.6

0.6
lcavol lbph gleason ●
lcavol lbph gleason ●

lweight svi pgg45 lweight svi pgg45

● ●
age lcp age lcp ●
● ● ●

● ●
0.4

0.4
●

●
●

Lasso Coefficients
Ridge Coefficients

●
● ● ●
●
●
● ●
●
● ●
● ●
0.2

0.2
●
● ● ●
●
●
●
●
●
● ●
●
●
● ● ● ●
●
●
●
● ● ●
●●
●
● ●
●
●
● ●
●● ●
●
●
● ●
●● ● ● ●
●●
●● ● ● ●
● ● ●
●● ●● ●
●● ●● ●
●● ●
●●
●●●●
●●●
●●
●●
● ●
● ●
● ● ● ●
●● ● ● ● ● ● ● ●

●
●
●
●
●
●
●●
●
●
●●
●●●
●●●
●●●
●●●●● ●
●
● ● ● ● ● ● ●
● ●
● ●
●●
●
● ●●● ●●●●●●●● ●
●
●
●
●
●
●●
● ●
●●●●● ●●●●●●● ●●●●● ● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●
●●
●
●●●
●●●●● ●●●●●●
●●
● ● ● ● ● ● ● ● ●
●
●
● ● ●
●
● ● ● ● ● ●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●●
●●
●●
●●
●
●●● ●● ● ●
●●●●● ●●●●●●●●●●●●●●●● ● ● ● ● ● ● ● ●
● ●
●
● ●
●
● ● ● ● ● ● ● ●
●●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●●
●●
●●
●
●●
●●
●●●●●●●● ●●●●●●●●●●●●●●● ● ● ● ● ● ●
●
●●
●●
●
● ●
●
●●
●●
●
●●
●●
●●
● ●●●●●●●●● ●●● ●
●
●
●
●●
●●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●●
●●
●●
●
●●●●●●●
●●●●●●●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●●
●
●●
●●
●●
●●
●●
●●
●●●●●●● ● ● ●
●
●
●●
●●
●
●●
●●
●
●
●● ●●
●●●●●●●●●●●●●●●●●●●●●●●●●
0.0

●●

0.0
●●
●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●●
●●
●●
●
●●
●
●
●
●●
●●
●
●● ●● ● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
●
● ● ●
●
● ●
●
●
● ●
●
●
●

● ●

0 2 4 6 8 0 2 4 6 8

Estimated Degrees of Freedom Estimated Degrees of Freedom

Algorithme LARS: Least Angle Regression
l’algorithme LARS a été introduit par Efron et Al. (2004). Il permet d’obtenir
rapidement le λ-path.
L’intuition derrière l’algorithme est la même que pour la régression stepwise: 0
chaque étape on identifie la ”meilleure” variable à inclure dans le modèle
-active set-.
Il s’inspire de la ”stagewise regression”. On suppose ici que les variables y et x
sont centrées réduites, on note µb = X β.
b

1. initialisation à µ
b=0
2. calcul des corrélations cb = X 0 (y − µ j = argmax |b
b) puis de b cj |
b←µ
3. mise à jour µ b + ε sign cbj
4. retour à l’étape 1

avec ε une ”petite” constante à choisir.

Algorithme LARS: Least Angle Regression

b = 0, βb0 = 0
1. initialisation à µ
2. r = y − µ
b, xj la variable la plus corrélée à r
3. faire varier βj de 0 dans la direction cj = xj0 r jusqu’à ce qu’une variable xk
soit plus corrélée à r que xj , |ck | > |cj |
4. faire varier βj et βk (de 0) dans la direction δ = (X 0 X )−1 X 0 r jusqu’à ce
qu’une variable xl soit plus corrélée à r

Si Ak l’ensemble des variables inclues dans le modèle à l’étape k de

l’algorithme, βbAk le vecteur de coefficients associé.
0
rk = y − XAk βAk le résidu à cette étape et δk = (XA k
XAk )−1 XA
0
r . Les
k k
coefficients évoluent ainsi: βAk = βAk + γδk .
I l’évolution des coefficients est donc linéaire par morceau, à chaque
morceau correspond l’ajout d’une nouvelle variable
I γ, le ”pas” de l’algorithme à chaque étape est calculable à l’avance
(dépend de la covariance des variables): gain d’efficacité par rapport à la
reg. stagewise

La puissance de LARS est de déterminer l’ensemble des coefficients pour toutes

les valeurs de λ pour le cout de la régression linéaire sur l’ensemble des
variables.
0.6
lcavol lbph gleason ●

lweight svi pgg45

● ●
age lcp ●
● ●

●
0.4

●
LARS Coefficients

● ●
0.2

●
●
●
●
● ●
●
●
● ● ● ●
●
● ● ●
●
●
●
0.0

● ● ● ● ●
● ● ● ●
●

●
●

0 2 4 6 8

Estimated Degrees of Freedom

Régression sur composantes principales: PCR
Le principe de cette méthode est de:
I calculer les vecteurs propres de la matrice X 0 X /n
I classer ces vecteurs par leurs valeurs propres
I sélectionner le nombre de vecteurs propres (le nombre de ”variables” dans
la régression) à inclure dans le modèle
I
SVD
On transforme ici la matrice des var. explicatives X (n lignes, p colonnes) en
effectuant une décomposition en valeurs singulières (SVD, pour Singular Value
Decomposition).

X = UDV 0
avec
I U matrice orthogonale n × p
I V matrice orthogonale p × p
I D matrice diagonale dont les éléments di sont d1 > d2 > ... > dp > 0
I si au moins une valeur dj = 0, alors X est singulière
Alors la régression linéaire de Y sur X s’écrit:

yb = X βb = X (X 0 X )−1 X 0 Y = UU 0 Y
U étant une base orthogonale de l’espace engendré par X , U 0 Y les coefficients
de la projection de Y sur cette base
Les composantes principales de X sont les vecteurs propres de la matrice de
covariance: X 0 X /n (rappelons que l’on a centré les variables).
Celle-ci s’exprime, après décomposition SVD et à un facteur 1/n près:

X 0 X = (VDU 0 )(UDV 0 ) = VD 2 V 0
Les vecteurs propres vj sont également appelés direction de karhunen-loeve de
X.
Avantage: simplification, accélération des calculs, possibilité de conserver
seulement les axes ”importants” de la matrice de covariance
La projection de X sur la j e composante principale vj vaut:

zj = Xvj = UDV 0 vj = uj dj
on a aisément: Var(z1 ) > Var(z2 ) > ... > Var(zp )
La première composante d’un jeux de données X est la direction qui maximise
la variance des données projetées.
●

3
● ●
● ●
●

● ●
●

2
●●
●
●
● ●
●
●
●● ● ● ●
●
● ●

● ●
● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ● ●
● ●●
1

● ●
● ● ●● ● ●
● ●
●
●● ● ●
● ●●
●
● ● ●
● ●● ● ● ● ●
● ● ● ●
● ●●● ● ● ●
● ●
● ● ●● ● ● ●
● ● ● ●● ● ●
●●● ●
● ● ●
● ● ●●
●
●● ● ● ● ● ● ●
● ● ●● ●
●●
●
● ●
X2

●● ●
● ● ●
● ● ● ● ●
● ●
● ● ●
● ● ●●
0

● ● ●
● ●
● ● ● ●●●
● ● ● ● ●
●● ● ● ●
● ● ● ●
● ● ● ●
● ● ●
●
● ● ● ●● ●
● ● ● ●
● ● ●
● ● ● ●
●
● ● ●
● ● ●
● ● ●
● ●● ●
● ● ●
● ● ● ● ●
● ●
● ●
● ● ●
−1

● ●
● ● ●
●
● ● ● ●● ●
● ● ● ● ●●
● ● ●
●
● ● ● ●
● ●
● ● ●
● ●
● ● ●
● ●
●
● ●
● ●
● ●●
●
−2

● ● ●
● ●
●
● ●
● ●
● ●

●
−3

−3 −2 −1 0 1 2 3

X1
Pour la régression sur composante principale, on procède ainsi:
I calcul de la SVD de X
I les composantes principales sont obtenus par: zj = Xvj = uj dj
I les coefficients de projection sur ces composantes sont donnés par:
β = D −1 U 0 Y
I on sélectionne les ”premières composantes”: graphe des valeurs propres
dj puis critère du coude par exemple, sélection de modèles emboités
Lien avec la régression ridge
On a vu que pour la régression ridge:

X βbridge = X (X 0 X + λI )−1 X 0 y
replacing with the SVD of X we have:

X βbridge = UDV 0 (VD 2 V 0 + λI )−1 VDU 0 y

= UD(D 2 + λI )−1 DU 0 y
Soit:
p
X dj2
X βbridge = uj uj0 y
j=1
dj2+λ
dj2
Comme λ > 0, dj2 +λ
6 1: les coefficients de la régression linéaire classique sur
les PC sont simplement réduits de ce facteur. Les coefficients associés aux
valeurs propres les plus faibles sont les plus réduits.
Shrinkage

0.0 0.2 0.4 0.6 0.8 1.0

0
●
●

2
●
●

4
●

d
●

6
● ●

8
●
●

10
Choix du paramètre de pénalisation
On procède, de même que pour les procédures de choix de modèle vu en
régression linéaire simple:
I validation croisée
I critère du coude
I critère de ”pénalisation” dépendant -souvent proportionnel- de la
dimension du modèle (le nombre de degrés de liberté): ici on a besoin
d’un estimateur de ce degré de liberté qui n’est pas simplement le nombre
de paramètre comme ds la régression
Validation croisée
De même que pour la régression on a une expression du critère de VC:
X Hi,j (λ)
fb−i = yj
1 − Hi,i
j6=i

et
n
1 X (yi − fbλ )2
CV (λ) =
n i=1 (1 − Hi,i )2
D’ou en utilisant l’estimateur du degré de liberté introduit pour la ridge
regression:
n
1 X (yi − fbλ )2
GCV (λ) =
n i=1 (1 − tr (H)/n)2
le critère de VC est donc une moyenne de l’erreur d’estimation pondérée par
”l’importance” de chaque observation. Le GCV est une erreur de VC dans
laquelle chaque observation à le même ”poids”.
Cp de Mallows
On considère le modèle y = f + ε, fb = Hy
||f − fb||2 = ||f − Hy ||2 = ||y − Hy − ε||2
= ||y − Hy ||2 + ||ε||2 − 2ε0 (y − Hy )
= ||y − Hy ||2 + ||ε||2 − 2ε0 (f + ε) + 2ε0 (Hf + hε)
D’ou:
E ||f − fb||2 = E ||y − Hy ||2 + nσ 2 − 2nσ 2 + 2E (ε0 Hε)

E ||f − fb||2 = E ||y − Hy ||2 − nσ 2 + 2tr (H)σ 2

L’heuristique de mallows vue en régression linéaire se généralise ici et on peut
choisir le modèle qui minimise:

||y − Hy ||2 − nσ 2 + 2tr (H)σ 2

ie qui minimise Cp (λ) = ||y − Hy ||2 /n + 2tr (H)σ 2 /n Si on ne connait pas σ 2 ,
b = ||Y − Hλ∗ Y ||2 /(n − tr (Hλ∗ )) avec λ∗ relativement ”petit”.
on l’estime par σ
Comparaison du GCV et du Cp:

I Cp = 1
Pn b 2 2σ2 tr (Hλ )
n i=1 (yi − f ) + n
Pn b)2 /(1 − tr (H)/n)2
I GCV (λ) = 1 (yi − f
n i=1

En utilisant l’approximation: 1/(1 − tr (H)/n) ∼ 1 + 2tr (H)/n on obtient:

n n
1X tr (H) X
GCV (λ) = (yi − fb)2 + 2 2 (yi − fb)2
n i=1 n i=1

On remarque que le GCV est proche du critère de Mallows pour lequel on

c2 = Pn (yi − fb)2 /n
prendrait comme estimateur de la variance σ i=1
Degrés de liberté
Une définition générale de la notion de degrés liberté est donnée par:
n
1 X
df (b
y) = Cov(yi , ybi )
Σ2 i=1
Cette définition est valable pour toute méthode d’estimation-prévision. Plus yb
se rapproche des données -plus on ”apprend” les données- plus df (b y ) est grand.
Degrés de liberté
I dans le cas de la régression linéaire, on a aisément: df (b
y ) = k le nombre
de variable dans le modèle
I ridge: on retrouve df (b
y ) = tr (Hλ ) à faire
I dans le cas de la régresion ”best subset”: pas calculable aisément mais
intuitivement on sent que df (b
y ) > k même si on a sélectionné que k
variable dans le modèle
I lasso: pour l’algorithme LAR, à la k e étape de l’algorithme df (b
y) = k
Degrés de liberté
n
1 X
df (b
y) = Cov(yi , ybi )
σ 2 i=1
n n
1 X X
df (b
y) = Cov(yi , Hi,j yj )
σ 2 i=1 j=1
n
1 X
df (b
y) = 2
Hi,i Var(yi )
σ i=1

Vous aimerez peut-être aussi

Introduction à la régression linéaire
100% (1)
Introduction à la régression linéaire
147 pages
LASSO - Regressions FR
Pas encore d'évaluation
LASSO - Regressions FR
51 pages
Projet - Régression Linéaire Multiple (MKDiallo - OHaidara - MBKa)
Pas encore d'évaluation
Projet - Régression Linéaire Multiple (MKDiallo - OHaidara - MBKa)
15 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
6 pages
Statistique 1 : Concepts et Outils
Pas encore d'évaluation
Statistique 1 : Concepts et Outils
135 pages
22-23-DSE-ENTREPRENARIAT 1 - Relevé - Notes - 1A
Pas encore d'évaluation
22-23-DSE-ENTREPRENARIAT 1 - Relevé - Notes - 1A
2 pages
22-23-AC-ROAD Prog - Orientes - Objets - VF
Pas encore d'évaluation
22-23-AC-ROAD Prog - Orientes - Objets - VF
2 pages
Théorie des Jeux pour Étudiants en Économie
Pas encore d'évaluation
Théorie des Jeux pour Étudiants en Économie
30 pages
Régression Logistique en Santé
Pas encore d'évaluation
Régression Logistique en Santé
8 pages
Modèle linéaire : principes et applications
Pas encore d'évaluation
Modèle linéaire : principes et applications
155 pages
Memoire
Pas encore d'évaluation
Memoire
40 pages
Simulation de la loi normale sur Matlab
Pas encore d'évaluation
Simulation de la loi normale sur Matlab
10 pages
Optimisation Linéaire : Concepts et Méthodes
100% (1)
Optimisation Linéaire : Concepts et Méthodes
209 pages
Optimisation par Descente du Gradient
100% (1)
Optimisation par Descente du Gradient
9 pages
Regression
Pas encore d'évaluation
Regression
19 pages
Algorithmes et Complexité pour l'Agrégation
100% (1)
Algorithmes et Complexité pour l'Agrégation
82 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Machine - Learning - Classification
Pas encore d'évaluation
Machine - Learning - Classification
34 pages
Evaluation Et Séléction Du Modèle 2
Pas encore d'évaluation
Evaluation Et Séléction Du Modèle 2
36 pages
Stochastiques
Pas encore d'évaluation
Stochastiques
220 pages
Arbre de Décision en Fouille de Données
100% (1)
Arbre de Décision en Fouille de Données
14 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
131 pages
Thèse Complète Elong
Pas encore d'évaluation
Thèse Complète Elong
120 pages
Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
49 pages
Réseaux Neurones : Histoire et Applications
Pas encore d'évaluation
Réseaux Neurones : Histoire et Applications
56 pages
Chapitre 3 - Classification Supervisé
Pas encore d'évaluation
Chapitre 3 - Classification Supervisé
31 pages
Méthodes de Décomposition en Optimisation
Pas encore d'évaluation
Méthodes de Décomposition en Optimisation
48 pages
Introduction aux SVM et Classification Binaire
Pas encore d'évaluation
Introduction aux SVM et Classification Binaire
50 pages
Forets
Pas encore d'évaluation
Forets
19 pages
Processus Ornstein-Uhlenbeck : Modèles et Applications
Pas encore d'évaluation
Processus Ornstein-Uhlenbeck : Modèles et Applications
13 pages
Classification Hiérarchique de Points
Pas encore d'évaluation
Classification Hiérarchique de Points
2 pages
Sondages électoraux au Maroc : Base de données
Pas encore d'évaluation
Sondages électoraux au Maroc : Base de données
2 pages
Techniques de validation croisée en géostatistique
Pas encore d'évaluation
Techniques de validation croisée en géostatistique
9 pages
5 - Moindres Carres
Pas encore d'évaluation
5 - Moindres Carres
36 pages
Exercices2024-2
Pas encore d'évaluation
Exercices2024-2
2 pages
Corrigé de régression linéaire simple
Pas encore d'évaluation
Corrigé de régression linéaire simple
9 pages
Classification d'Images par Apprentissage Artificiel
100% (1)
Classification d'Images par Apprentissage Artificiel
7 pages
Modélisation des Systèmes Complexes
100% (1)
Modélisation des Systèmes Complexes
126 pages
Introduction aux Processus Stochastiques
Pas encore d'évaluation
Introduction aux Processus Stochastiques
22 pages
Méthodes itératives et matrices positives
Pas encore d'évaluation
Méthodes itératives et matrices positives
6 pages
04-Optimisation Combinatoire
Pas encore d'évaluation
04-Optimisation Combinatoire
36 pages
Cours de Machine Learning - Séance N°5 Méthodes D'ensemble
Pas encore d'évaluation
Cours de Machine Learning - Séance N°5 Méthodes D'ensemble
20 pages
An Numerique
Pas encore d'évaluation
An Numerique
168 pages
Introduction aux Réseaux CNN
Pas encore d'évaluation
Introduction aux Réseaux CNN
8 pages
Examen Apprentissage Statistique Juillet 2023
Pas encore d'évaluation
Examen Apprentissage Statistique Juillet 2023
13 pages
Exercices Prolog pour Génie Informatique
Pas encore d'évaluation
Exercices Prolog pour Génie Informatique
2 pages
Feature Engineering en Machine Learning
Pas encore d'évaluation
Feature Engineering en Machine Learning
37 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
Introduction à l'analyse de survie
Pas encore d'évaluation
Introduction à l'analyse de survie
22 pages
Inf 316
Pas encore d'évaluation
Inf 316
37 pages
Examen Analyse des Données - SMA S5
Pas encore d'évaluation
Examen Analyse des Données - SMA S5
4 pages
Régression Linéaire : Concepts et Estimations
Pas encore d'évaluation
Régression Linéaire : Concepts et Estimations
28 pages
Statistiques Fondamentales
100% (1)
Statistiques Fondamentales
98 pages
Cou Ecn
Pas encore d'évaluation
Cou Ecn
63 pages
Cours de Régression Linéaire - Rennes 2
100% (1)
Cours de Régression Linéaire - Rennes 2
86 pages
M1 Stat
Pas encore d'évaluation
M1 Stat
100 pages
13 Regression Linéaire
Pas encore d'évaluation
13 Regression Linéaire
25 pages
Cours de Régression Linéaire à Rennes 2
Pas encore d'évaluation
Cours de Régression Linéaire à Rennes 2
127 pages
Chap 1 Vocabulaire Et Tableaux de La Statistique
100% (1)
Chap 1 Vocabulaire Et Tableaux de La Statistique
16 pages
Corrigé Exercice 2 Statistique Descriptive
Pas encore d'évaluation
Corrigé Exercice 2 Statistique Descriptive
2 pages
Prévisions de Ventes et Analyse Statistique
Pas encore d'évaluation
Prévisions de Ventes et Analyse Statistique
6 pages
Stat Desc SE S1 2021 Partie2
Pas encore d'évaluation
Stat Desc SE S1 2021 Partie2
58 pages
CM4 - HPS3U34 - Version Rédigée
Pas encore d'évaluation
CM4 - HPS3U34 - Version Rédigée
17 pages
Regression Linéaire
Pas encore d'évaluation
Regression Linéaire
33 pages
Corrigé de l'exercice 8 de statistique
Pas encore d'évaluation
Corrigé de l'exercice 8 de statistique
4 pages
ANOVAFR171206
Pas encore d'évaluation
ANOVAFR171206
50 pages
Introduction à la régression multiple
100% (2)
Introduction à la régression multiple
60 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
30 pages
Exercises 5
Pas encore d'évaluation
Exercises 5
2 pages
Biostatistique L3 An-B
Pas encore d'évaluation
Biostatistique L3 An-B
19 pages
MANUEL STATISTIQUE DESCRIPTIVE Teams
Pas encore d'évaluation
MANUEL STATISTIQUE DESCRIPTIVE Teams
32 pages
Examen 2 Groupe 2
Pas encore d'évaluation
Examen 2 Groupe 2
6 pages
Régression simple avec R : TD 3 Econométrie
Pas encore d'évaluation
Régression simple avec R : TD 3 Econométrie
6 pages
Analyse des Ventes et Tendances
Pas encore d'évaluation
Analyse des Ventes et Tendances
4 pages
Impact du PIB sur le Chômage : Étude 1987-2022
Pas encore d'évaluation
Impact du PIB sur le Chômage : Étude 1987-2022
7 pages
Exo Finace Foucher Risque PDF
Pas encore d'évaluation
Exo Finace Foucher Risque PDF
7 pages
Machine Learning Regression Logistique
Pas encore d'évaluation
Machine Learning Regression Logistique
22 pages
Analyse de Variance À Plusieurs Facteurs
Pas encore d'évaluation
Analyse de Variance À Plusieurs Facteurs
18 pages
Régression Linéaire Simple avec R
Pas encore d'évaluation
Régression Linéaire Simple avec R
9 pages
COURS ADD Ajustement Linéaire Et Corrélation PDF
Pas encore d'évaluation
COURS ADD Ajustement Linéaire Et Corrélation PDF
16 pages
Analyse de la consommation d'énergie globale
Pas encore d'évaluation
Analyse de la consommation d'énergie globale
30 pages
Étude de conformité des micromètres et pieds à coulisse
Pas encore d'évaluation
Étude de conformité des micromètres et pieds à coulisse
6 pages
Statistique Bivariée et Corrélation
Pas encore d'évaluation
Statistique Bivariée et Corrélation
10 pages
Questions D'économétrie
Pas encore d'évaluation
Questions D'économétrie
7 pages
Paramètres de Dispersion en Statistiques
Pas encore d'évaluation
Paramètres de Dispersion en Statistiques
12 pages
Epc 2022
Pas encore d'évaluation
Epc 2022
46 pages
Série 02
Pas encore d'évaluation
Série 02
3 pages