Sparse models

Sparse linear models
Daisuke Yoneoka
October 20, 2014
Daisuke Yoneoka Sparse linear models October 20, 2014 1 / 21

Notations
Dj
! γ はbit vector で, 特徴量j が関連ある場合はγj = 1, それ以外は0.
!! ∥γ∥0 =
は=1 γj l0 pseudo-norm.
! ∥γ∥1 =
!Dj
=1 |γj | はl1 norm.
! ∥γ∥2 = (
!Dj
=1 γ2
j )1/2 はl2 norm.
! subderivative (劣微分): 凸関数f : I → R のθ0 で劣微分と
は,f(θ) − f(θ0) ≥ g(θ − θ0) θ ∈ I を満足するg の集合
! NLL: negative log likelihood, NLL(θ) ≡ −
!N i=1 log p(yi|xi, θ)

l1 regularization: basics
l0 (i.e.∥w∥0) は凸関数でない, 連続でもない! →凸関数近似!
! p(γ|D) を求めることの難しさのいくらかはγ ∈ {0, 1} と離散であること
! Prior p(w) を連続な分布(ラプラス分布) で近似する.
p(w|λ) =
D!
j=1
Lap(wj |0, 1/λ) ∝
D!
j=1
e−λ∥wj∥
! 罰則付き尤度はf(w) = logp(D|w) − log p(w|λ) = NLL(w) + λ∥w∥1.
! これはargminwNLL(w) + λ∥w∥0 というnon-convex なl0 の目的関数の凸関数近似
と考えられる
! Linear regression の場合(Known as BPDN (basis pursuit denoising))
! f(w) =
!Ni
=1 −
1
2σ2 (yi − (wT xi))2 + λ∥w∥1 = RSS(w) + λ′∥w∥1
! ただし,λ′ = 2λσ2
! Prior に０平均ラプラス分布をおいて,MAP 推定することをl1 正則化と呼ぶ

なぜl1 正則化はスパースなのか？
Linear regression に限定するがGLM 一般に拡張可能
! 目的関数はminwRSS(w) + λ∥w∥1 ⇔ LASSO: minwRSS(w)s.t. λ∥w∥1 ≤ B
! B 小→ λ 大
! これは, Quadratic program (QP) となっている.
! ちなみにminwRSS(w) + λ∥w∥22
⇔ RIDGE: minwRSS(w)s.t. λ∥w∥22
≤ B
Figure: 13.3; l1 (left) vs l2 (right) regularization

Optimality conditions for lasso
Lasso はnon-smooth optimization (微分不可能最適化) の例.
目的関数はminwRSS(w) + λ∥w∥1
! 第一項の微分は∂
∂wj
RSS(w) = ajwj − cj .
ただしaj = 2
"n
i=1 x2
ij, cj = 2
"n
i=1 xij(yi − wT−
jxi,−j)
# $% &
j とj なしの残差の内積
! cj はj 番目の特徴量がy の予測にどれだけ関連しているかを表現
! 全体の劣微分は
∂wj f(w) = (ajwj − cj) + λ∂wj ∥w∥1 =
⎧⎪⎨
⎪⎩
{ajwj − cj − λ} if wj < 0
[−cj − λ,−cj + λ] if wj = 0
{ajwj − cj + λ} if wj > 0
Matrix form で書くと, XT (Xw − y)j # $% &
RSS の微分の部分
∈
⎧⎪⎨
⎪⎩
{−λ} if wj < 0
[−λ, λ] if wj = 0
{λ} if wj > 0

Optimality conditions for lasso (Cont. 2)
cj の値によって∂wj f(w) = 0 の解として定義されるˆ wj の値は３パターン
! cj < −λ: 特徴量は残差と強く負の相関, 劣微分はˆ wj =
cj + λ
aj
< 0 において0.
! cj ∈ [−λ, λ]: 特徴量は残差と弱く相関, 劣微分はˆ wj = 0 において0.
! cj > −λ: 特徴量は残差と強く相関, 劣微分はˆ wj =
cj − λ
aj
> 0 において0.
つまり、ˆ wj (cj) =
⎧⎪⎪⎪⎪⎨
⎪⎪⎪⎪⎩
cj + λ
aj
if cj < −λ
0 if cj ∈ [−λ, λ]
cj − λ
if cj > λ
aj
⇔ ˆ wj (cj) = soft(
cj
aj
;
λ
aj
)
ただし、soft はsoft thresholding で定義はsoft(a; δ) ≡ sign(a)(|a|−δ)+

Optimality conditions for lasso (Cont. 3)
LASSO (Tibshirani, 1996) は結局,
! λ = 0 のときˆ w はOLS と一緒
! λ > λmax のときˆ w = 0 (ただしλmax = ∥XT y∥∞ = max|yT x:,j |)
! この計算方法は,(XT y)j ∈ [−λ, λ] ならば0 が最適であることを利用
! 一般的にはλmax = max|∇jNLL(0)|

LS, lasso (l1), ridge (l2), subset selection (l0) の比較
X は正規直交, つまりXTX = I を仮定しておくと,
RSS(w) = ∥y − Xw∥2 = yT y + wTXTXw − 2wTXT y
= const +
+
k
w2k
− 2
+
k
+
i
wkxiyi
! OLS 解はˆ wOLS
k = xT:
ky
! Ridge 解はˆ wridge
k =
ˆ wOLS
k
1 + λ
! Lasso 解はsign( ˆ wOLS
k )
,
| ˆ wOLS
k |−
λ
2
-
+
! subset selection 解はˆ wSS
k =
.
ˆ wOLS
k if rank(| ˆ wOLS
k |) ≤ K
0 otherwise

正則化パス
特徴量ごとにˆ w(λ) とλ の値をプロットしたもの
! Lasso はD > N の場合でも
N までしか変数選択できない
! Elastic net なら
ばD までの数の変数選択可能

モデル選択
モデル選択の一致性について(cf. AIC, BIC, MDL などの情報量基準論争)
定義: (正しいモデルが含まれているという前提の下で) N →∞で正しいモデルのパラメータセット
が選択されること
! debiasing:
Lasso でnon-zero と推定された特徴量を用いて再度OLS
(必要. なぜなら,Lasso では関係ある係数もないものも
縮小推定しているから)
! クロスバリデーションで予測精度でλ 決定.
これは,true モデルを選択できる値になるとは限らない.
(なぜならLasso は縮小推定になっているので, 重要
な特徴量を残すためにはλ は少し大きめに取る必要があるから)
! 関係ない特徴量も含めるのでfalse positive が多くなる
! モデル選択の一致性がない! (Meinshausen, 2006)
! Ch.13.6.2 でper-dimension によるλ のチューニングを紹
介(選択の一致性あり)
! 欠点: データが少し変わっただけで結果が変わる(Bayesian approach の方がrobust)
! Bolasso (Bach, 2008): Bootstrap で解決: stability selection of inclusion probability
(Meinshausen, 2010) を計算必要

ラプラス分布を事前分布に持つsparse linear model のBayes 推測
! これまでの例は所謂MAP 推定
! posterior のmode はsparse だが, mean やmedian はそうでない
! posterior のmean を入れたほうが予測二乗誤差を小さくできる
! Elad, 2009 はspike-slab model でposterior mean の方が予測性能がいい事を証明
! ただし, 計算量は高価

l1 正則化のアルゴリズム
二乗ロス関数の最適化に限定する. (その他のロス関数へも拡張可能)
! Coordinate descent: 一気に最適化でなく, その他全てをfix して1 つだけ最適化
w∗j = argminzf(w + zej) − f(w)
(z はj 番目が1 のunit ベクトル)
! 一次元の最適化が解析的に解ける場合に有効
! 1 つづつしか最適化できないので収束が遅い
! shooting アルゴリズム(Fu, 1998, Wu, 2008) (ex. logit の場合はYaun, 2010):

l1 正則化のアルゴリズム(Cont. 2)
! Active set 法
! Coordinate descent の幾つかまとめて最適化するバージョン
! ただし, どれを固定し, どれをupdate するか決定しなければならないので大変
! warm starting: もしλk ≈ λk−1 ならば, ˆ w(λk) はˆ w(λk−1) から簡単に計算できる
! 仮にある値λ∗ の時の解が知りたいとすると,warm starting を使うとλmax から探し始めてλ まで至るアルゴリズムとなる∗ . (Continuation method or homotopy method)
! これはいきなりλ∗ を計算する(cold starting) よりλ∗ が小さい場合, 効率的な場合が多い!
! LARS (least angle regression and shrinkage): homotopy method の一種
! Step 1: λ はy と最も強く相関する１つの特徴量だけから計算できるものを初期値にする
! Step 2: rk = y − X:,Fkwk で定義される残差に対する最初の特徴量と同じだけの相関をも
つ２つ目の特徴量が見つかるまでλ を減らしていく. (Fk はk 番目のactive set)
! least angle を考えることで解析的に次のλ を計算可能
! Step 3: 全ての変数が追加されるまで繰り返す
! このとき,Lasso のsolution path みたいなものを描くためには特徴量を”取り除く”ことが
可能であることが必要
! LAR: LARS に似ているが特徴量を”取り除く”ことを許さない場合. (ちょっと速
く,OLS と同じコストでO(NDmin(N,D))
! greedy forward search やleast square boosting とも呼ばれる

Proximal and gradient projection methods
22
凸な目的関数f(θ) = L(θ) + R(θ) を考える. (L(θ) はロス関数で凸で微分可能, R(θ) は正
則化項で凸だが微分可能とは限らない)
! 例えば,f(θ) = R(θ) + 1/2∥θ − y∥のようなとき(L(θ) = RSS(θ) で計画行列が
X = I のとき)
! 凸関数R のproximal operator の導入: proxR(y) = argminz
/
R(z) + 1/2∥z − y∥22
0
! 直感的にはz をy に近づけながらR を小さくしていく
! iterative な最適化の中で使う場合は, y をθk にして使う
Ex. Lasso 問題のときL(θ) = RSS(θ),R(θ) = IC(θ) とできる.
(ただし,C = θ : ∥θ∥1 ≤ B かつIC(θ) ≡
.
0 if θ ∈ C
+∞ otherwise
)
以下, どのようにしてR のproximal operator を計算するかを見ていく.

Proximal operator
Proximal operator は以下のように表現可能. (計算時間はO(D) (Duchi, 2008))
! R(θ) = λ∥θ∥1 のとき: proxR(θ) = soft(θ, λ) (soft-thresholding)
! R(θ) = λ∥θ∥0 のとき: proxR(θ) = hard(θ,√2λ) (hard-thresholding)
! ただし,hard(u, a) ≡ uI(|u| > a)
! R(θ) = IC(θ) のとき: proxR(θ) = argminz∈C∥z − θ∥22
= projC(θ) (C への射影)
! C が超立方体のとき(i.e., C = θ : lj ≤ θj ≤ uj ): projC(θ)j =
⎧⎪⎨
⎪⎩
lj if θj ≤ lj
θj if lj ≤ θj ≤ uj
uj if θj ≥ uj
! C が超球のとき(i.e., C = θ : ∥θ∥2 ≤ 1): projC(θ)j =
⎧
⎨
⎩
θ
∥θ∥2
if ∥θ∥2 > 1
θ otherwise
! C が1-norm 球のとき(i.e., C = θ : ∥θ∥1 ≤ 1): projC(θ)j = soft(θ, λ)
! ただし, λ は∥θ∥1 ≤ 1 のとき0. それ以外の時は!
j=1 −Dmax(|θj|−λ, 0) = 1 の解で定義
される

Proximal gradient method
Proximal operator をどうやって勾配法のなかで使うかを示す.
θ の更新アルゴリズムは二次近似θk+1 = argminzR(z) + L(θk) + gT
k (z − θk) +
1
2tk ∥z − θk∥22
(ただし,gk = ∇L(θk),tk はこの下, 最後の項はL のヘシアンの近似∇2L(θk) ≈
1
tk
I)
⇔ θk+1 = argminz
&
tkR(z) +
1
2 ∥z − uk∥22
'
= proxtkR(uk). (where uk = θk − tkgk)
! R(θ) = 0 のとき: gradient descent とおなじ
! R(θ) = IC(θ) のとき: projected gradient descent とおなじ
! R(θ) = λ∥θ∥1 のとき: iterative soft thresholding とおなじ
22
tk もしくはαk = 1/tk の選び方について
! αkI が∇2L(θ) の良い近似になっていると仮定すると,αk(θk − θk−≈ gk − gk−1) が成立
1 ! したがってαk = argminα∥α(θk − θk−1 − (gk − gk−1))∥=
(θk − θk−1)T (gk − gk−1)
(θk − θk−1)T (θk − θk−1)
を解けば良い. (Barzilai-Borwein (BB) or Spectral stepsize)
! BB stepsize とiterative soft thresholding とhomotopy method を合わせるとBPDN (basis
pursuit denoising) を速く解ける(SpaRSA アルゴリズム)

Nesteov’s method
θk の周りではなく別の所で二次近似してやるともっと速いproximal gradient descent が得
られる.
θk+1 = proxtkR(φk − tkgk)
gk = ∇L(φk)
φk = θk +
k − 1
k + 2
(θk − θk−1)
Nester’s method とiterative soft thresholding とhomotopy method を合わせるとBPDN
(basis pursuit denoising) を速く解ける. (FISTA アルゴリズム(fast iterative shrinkage
thresholding algorithm))

Lasso のEM アルゴリズム
Laplace 分布をGaussian scale mixture (GSM) で表現する.
Lap(wj |0, 1/γ) =
γ
2
e−γ|wj | =
!
N(wj |0, τ2
j )Ga(τ2
j |1,
γ2
2
)dτ2
j
これを用いれば, 同時分布は
p(y,w, τ, σ2|X) = N(y|Xw, σ2IN)N(w|0,Dτ )IG(σ2|aσ, bσ)
⎡
⎣
*
j
Ga(τ2
j |1,γ2/2)
⎤
⎦
∝ (σ2)−N/2 exp
&
−
1
2σ2 ∥y − Xw∥22
'
|D−1/2
τ exp
&
−
1
2
wTDτw
'
(σ2)aσ+1
exp(−bσ/σ)
*
j
exp(−
γ2
2
τ2
j )
ただし,Dτ = diag(τ2
j ) でX は標準化,y はcentered されているのでoffset 項は無視可能.
EM アルゴリズムで考える(Figueiredo, 2003)
! E step: τ2
j ,σ2 を推定する
! M step: w に関して最適化する
! 実はこのˆ w はLasso 推定量と同じになる

Why EM?
l1 のMAP 推定のアルゴリズムは沢山あるのに, なんであえてEM なのか？
! probit やrobust linear model などの推定量を計算しやすい
! 分散に関してGa(τ 2
j |1,γ2/2) 以外のprior も考えやすい
! Bayesian lasso を使えばfull posterior p(w|D) を計算しやすい

目的関数, E/M step
! 罰則付き対数尤度関数は
lc(w) = −
1
2σ2 ∥y − Xw∥22
−
1
2
wT Λw + const. (ただし,λ = diag(
1
τ2
j
) で精度行列)
! E step
! まずはE[
1
τ2
j |wj ] の計算を考える
! E[
1
τ2
j |wj] = −log
"
N(wj |0, τ2
j )p(τ2
j )dτ2
j
|wj |
を直接計算する
! もしくは, p(1/τ2
j |w,D) = InverseGaussian
#$
γ2
w2
j
,γ2
%
とすると,E[
1
τ2
j |wj] =
γ
|wj |
! 結局,¯Λ= diag(E[1/τ2
1 ], . . . ,E[1/τ2D
])
! 次にσ2 の推定を考える.
! posterior はp(σ2|D,w) = IG(aσ + (N)2, bσ +
1
2
(y − X ˆ w)T (y − X ˆ w)) = IG(aN, bN)
! したがってE[1/σ2] =
an
bN ≡ ¯ω

目的関数, E/M step (Cont.)
! M step
! ˆ w = argmaxw −
1
2
¯ω∥y − Xw∥22
−
1
2
wTΛw を計算したい
! これはガウシアンprior のもとでMAP 推定: ˆ w = (σ2¯Λ+XTX)−1XT y
! 注意: Sparse 性を考えているのでwj のほとんどが0 ⇔ τ2
j のほとんどが0.
! このとき, ¯Λ
の逆行列の計算が不安定
! SVD 分解が使える! (i.e., X = UDV T ): ˆ w = ΨV (V TΨV +
1
¯ω
D−2)−1D−1UT y
! 　ただし, Ψ = ¯Λ−1 = diag(
1
E[1/τ2
j ]
) = diag( |wj |
−log
"
N(wj |0, τ2
j )p(τ2
j )dτ2
j
)
! Note; Lasso の目的関数は凸なので常にglobal optim に理論的には到達可能.
! だが, 数値計算的に不可能なことが多い!
! 例えば,M step でˆ wj = 0 としたとき, E step ではτ2
j = 0 と推定し結果としてˆ wj = 0 として
しまい, この間違いは修正不可能になる! (Hunter, 2005)

Sparse models

More Related Content

What's hot (20)

Similar to Sparse models (20)

More from Daisuke Yoneoka (17)

Sparse models