SlideShare a Scribd company logo
特徴選択のためのLasso解列挙(AAAI’17)
原 聡1,2、前原 貴憲3
1
ERATO感謝祭 Season IV
1) 国立情報学研究所
2) JST, ERATO, 河原林巨大グラフプロジェクト
3) 理研AIP
研究背景
2
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
3
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
n しかし、機械学習に完璧はありえない。
• 有限のデータから学習する以上、ある程度のエラーは起こりうる。
• データ由来・学習手法由来のバイアスがのることがある。
4
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
n しかし、機械学習に完璧はありえない。
• 有限のデータから学習する以上、ある程度のエラーは起こりうる。
• データ由来・学習手法由来のバイアスがのることがある。
5
機械学習は時として間違える。
機械学習がミスすると。。。
研究背景:機械学習がミスすると。。。
6
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
研究背景:機械学習がミスすると。。。
7
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 理想的には
8
自分の理解が
間違っていたかも。
調べ直そう。
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 最悪の場合は
9
このモデルは
間違っている!
こんなモデル
使えるか!!
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 最悪の場合は
10
このモデルは
間違っている!
こんなモデル
使えるか!!
悲劇
たとえ精度の高いモデルでも、
ユーザの信頼が得られないと
使われない。
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
!?
機械学習モデル
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
11
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
12
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
13
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
14
Xという病気に関連す
る項目は。。。
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
15
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
16
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
「体重」と「血糖値」
う〜ん?
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
17
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
「体重」と「血糖値」
う〜ん?
「体重」と「血圧」
これだ!!
Lasso
18
Lassoによる特徴選択
スパース線形回帰問題
Given: 入出力のペア 𝑥", 𝑦" ∈ ℝ'×ℝ	 𝑖 = 1, 2, … , 𝑁
Find: 回帰係数𝛽 ∈ ℝ' s.t. 𝑥"
1
𝛽 ≈ 𝑦	(𝑖 = 1, 2, … , 𝑁)
ただし、𝛽は非ゼロ要素が少ない(スパース)
n スパース性
• 物理的要請
- 大量の特徴量のうち、効く特徴量は少ないはずという直感。
• 解釈性向上
- 解から意味のある特徴量を見出したい。変数の絞込み。
解法:Lasso回帰( ℓ6正則化)
𝛽∗ = argmin
>
	
1
2
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6
• Lasso解𝛽∗はスパース。supp(𝛽∗) = {𝑖 ∶ 𝛽"
∗
≠ 0}が重要な特徴量。
19
Lassoの理論的正当性:復元定理
Lasso解:𝛽∗ = argmin
>
	
6
A
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6
適当な設定の元で、Lasso解𝛽∗は真のパラメータ𝛽Lのサポート(非
零要素)を高い確率で復元する。
n 仮定
• 真のモデルが𝑦 = 𝑋𝛽L + 𝑤;	𝛽Lはスパース, 𝑤 ∼ 𝑁(0, 𝜎A)
• 正則化パラメータ𝜌は十分小さい。
• 𝑋の各行は十分独立(高相関な特徴量はない)。
n 上記仮定の元で、高い確率で真のパラメータ𝛽Lのサポートが復
元できる。
supp(𝛽∗) = 	supp(𝛽L)
20
Lassoの限界:重要な特徴量を見落とす。
n 高次元データでは、類似した特徴量が存在することが多い。
• 類似特徴量のうち、どれを使っても同等の予測精度のモデルが作れる。
• 「𝑋の各行は十分独立(高相関な特徴量はない)」という仮定が成立しない
場合に相当。
→このような場合、Lassoは類似特徴量の一部だけを使い残りを無
視する。
n Lassoの限界:類似特徴量の中の重要な特徴量を見落とす。
• 例えば、「身長」と「体重」のような相関の高い特徴量のうち、片方(例えば
「身長」)だけを使ったモデルを出力する。
→「体重」を見落とす。「体重」を使ったモデルを期待するユーザとの間に齟
齬が起きる。
n 本研究:「身長」、「体重」それぞれを使ったモデルを両方出力す
る。
21
本研究の成果:Lasso解の列挙
成果1:アルゴリズム
Lassoの解を目的関数値の昇順にサポートを列挙するアルゴリズム。
列挙した解からユーザに気に入った解を選んでもらう。
成果2:列挙版の復元定理
正則化パラメータ𝜌が十分小さければ、適当な個数だけ解を列挙すれば真の
パラメータ𝛽Lのサポートを復元するものが見つかる。
- どれがサポート復元するかは特定不能(なんらかの別基準が必要)。
- 何個列挙すればいいかは問題依存(傾向は理論的にわかる)。
副次的な成果
Lassoで得られた特徴量を安易に信頼するのは危険。
実データで、実際に同等な解が無数に存在することを確認。
22
問題の定式化と提案法
23
問題の定式化:Lasso解の列挙
n 解のサポートを𝑆 ⊆ {𝑥6, 𝑥A, … , 𝑥'}に制限したLasso:
Lasso 𝑆 = min
>
	
6
A
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6	 s.t. supp 𝛽 ⊆ 𝑆
問題:Lasso解の列挙
Lasso 𝑆 の小さい順に極小の𝑆を𝑘個列挙する。
(極小:supp 𝛽 = 𝑆となるもの。それ以外は冗長。)
【注意】正則化パスに基づいた解の列挙ではない。
• 正則化パスでは疎な解から密な解へと𝜌を変化させた時の解を列挙する。
• 本問題では𝜌固定の元で、目的関数値が昇順になるように解のサポートを列
挙する。
• 𝑥6, 𝑥A, 𝑥V , 𝑥6, 𝑥A, 𝑥W , 𝑥6, 𝑥W, 𝑥X , 𝑥6, 𝑥A , …
24
最適解での目的関数値をLasso 𝑆 とする。
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
25
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート 𝑺を入力して、特徴量の集合 𝑻が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
26
解の候補
Lasso
ソルバ
𝑇 = 𝑥6, 𝑥A, 𝑥V
出力
𝑆 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑺からを 𝒕を取り除いた 𝑺
= 𝑺 ∖ {𝒕}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
27
解の候補
𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
28
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
29
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
30
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐿𝑎𝑠𝑠𝑜(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
31
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)出力
𝑇A = 𝑥A, 𝑥V, 𝑥X
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑺からを 𝒕を取り除いた 𝑺
= 𝑺 ∖ {𝒕}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
32
解の候補
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)
𝑇A = 𝑥A, 𝑥V, 𝑥X
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆V

= 𝑥W, 𝑥V, 𝑥X
𝑆X

= 𝑥A, 𝑥W, 𝑥X
𝑆j

= 𝑥A, 𝑥W, 𝑥V	
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズムの妥当性
定理
提案法によりLasso 𝑆 の小さい順に極小の𝑆を列挙できる。
n 不要な探索をスキップすることで、提案法を効率化できる。
• 既に探索した𝑆を重複して探索しないようにする。取り除く変数の履歴を保
持する。
• 探索したことのない𝑆	についても、Lassoの最適性条件から解が既に探索
済みのものと一致することが判定できることがある。
33
列挙版の復元定理
定理概略
適当な仮定の元で、十分たくさん列挙すれば、高い確率で列挙した解の中に
supp(𝛽L)が含まれる。
n 適当な仮定・⾼い確率:
• 正則化パラメータ𝜌は⼗分⼩さい(𝛽Lの⾮ゼロ成分を下からバウンド)。
• ノイズが⼩さいほど確率は⾼い。
n 列挙個数について⾔えること:
• 正則化パラメータ𝜌が⼩さいほど列挙すべき要素が増える。
• 𝑋の独⽴性が低い(高相関の特徴量が多い)ほど列挙すべき要素が増え
る。
34
実験結果
35
実験1. シロイズナの開花
n Thaliana gene expression data (Atwell et al. ’10):
どの遺伝⼦が開花に効くかを知りたい。
• 𝑥 ∈	ℝA6j6Wk:遺伝⼦各パターンが⽣起しているかどうか(2 値)
• 𝑦 ∈ ℝ:発現量
• データ数(個体数):134
36
50個列挙しても、目的関数値は0.05%
しか増加しなかった。
大域解が6個あった。
解のサポートのサイズは
大体40~45くらい。
大域解が複数ある = 単純にLassoを適用すると、6個のうちの1つが見つかるだけ。他の特徴量は見落とす。
実験2. ニュース記事の分類
n 20 Newsgroups Data (Lang’95); ibm vs mac
ニュース記事を二つのカテゴリに分類するのに特徴的な単語を知りたい。
• 𝑥 ∈	ℝ66jVl:単語の発現(実数値、tf-idf)
• 𝑦 ∈ {ibm, mac}	:記事のカテゴリ(2値)
• データ数(投稿数):1168
→ 分類問題なので、ロジスティック回帰に提案法を適用。
37
大域解にあった語 列挙解で置き換わった語
drive, os, diskのようなibmマシン(Windows
機)に特有の単語が見落とされていたのが
見つかった。
040, 610のようなmacマシン(型番)に特有
の単語が見落とされていたのが見つかった。
まとめ
n 問題意識:ユーザに信頼される特徴選択をしたい。
• 単一の特徴選択結果を出力するのでなく、複数の結果を列挙して出力す
る。
n 「Lasso解のサポート列挙」として問題を定式化した。
n Lawlerの𝑘-best フレームワークを適⽤した効率的なアルゴリズ
ムを設計。
n 列挙版のスパース復元定理を証明した。
• どれだけ列挙するかは問題パラメタ依存。
n 実験より,実際の特徴選択問題には「同じくらいの品質の解が
⼤量に存在する」ことを確認。
• Lasso で得られた特徴量を安易に信じるのは危険。
38
GitHub: sato9hara/LassoVariants
補足資料
39
列挙版の復元定理(完全版)
n 仮定:𝑦 = 𝑋𝛽L + 𝑤; 𝛽Lスパース, 𝑤 ∼ 𝑁(0, 𝜎^2)
• 𝑋𝛽L − 𝑦 A ≤ 𝛿 𝑋𝛽∗ − 𝑦 A for some 𝛿 ≥ 0
• 𝑋𝛽∗ − 𝑦 A ≤ 𝜖 for some 𝜖 ≥ 0
• ∀𝑢 ≠ 0 with 𝑋𝑢 A ≤ 1 + 𝛿 𝜖, 𝑢vw 6 ≤ 𝛾 𝑢vwy 6	for some 𝛾 ≥
max{1, 𝛿A}
定理1:No False Inclusion
By enumerating solutions up to 𝐿 𝛽 ℓ ≥ 𝛾𝐿(𝛽∗), we can find 𝛽 { , 𝑆 { ,
1 ≤ 𝑘 ≤ ℓ such that supp 𝛽 { ⊆ supp 𝛽L ⊆ 𝑆 { and 𝐿 𝛽 { ≤ 𝐿(𝛽L).
定理2:No False Exclusion
Let 𝛽 { , 𝑆 { be an enumerated solution where supp 𝛽 { ⊆
supp 𝛽L ⊆ 𝑆 { . If 𝑋vw
1
𝑋vw is invertible, then we have
supp 𝛽 { 	⊇ 𝑖 ∶ 𝛽"
L
> 2𝜌 𝑋vw
1
𝑋vw
~6
•
with probability 1	 − 𝑆L	 exp −𝜌A/2𝜎 𝜆ƒ„… 𝑋vw
1
𝑋vw .
40

More Related Content

What's hot (20)

グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
 
Graphic Notes on Linear Algebra and Data Science
Graphic Notes on Linear Algebra and Data ScienceGraphic Notes on Linear Algebra and Data Science
Graphic Notes on Linear Algebra and Data Science
Kenji Hiranabe
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索
Shiga University, RIKEN
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
Shushi Namba
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
Classi.corp
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編
Hiroshi Shimizu
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
Yu Tamura
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
ohken
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
Masaru Tokuoka
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
Yuya Takashina
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
 
Graphic Notes on Linear Algebra and Data Science
Graphic Notes on Linear Algebra and Data ScienceGraphic Notes on Linear Algebra and Data Science
Graphic Notes on Linear Algebra and Data Science
Kenji Hiranabe
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索
Shiga University, RIKEN
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
 
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
Shushi Namba
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
Classi.corp
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編
Hiroshi Shimizu
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
Yu Tamura
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
ohken
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
Masaru Tokuoka
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
 

Similar to 特徴選択のためのLasso解列挙 (20)

機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
Satoshi Hara
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
 
Sparse models
Sparse modelsSparse models
Sparse models
Daisuke Yoneoka
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
Tomoshige Nakamura
 
20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁
Tomoshige Nakamura
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
Tomoshige Nakamura
 
[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...
shima o
 
LPマスターへの道
LPマスターへの道LPマスターへの道
LPマスターへの道
KoseiTeramoto
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Kota Mori
 
Introduction of "the alternate features search" using R
Introduction of  "the alternate features search" using RIntroduction of  "the alternate features search" using R
Introduction of "the alternate features search" using R
Satoshi Kato
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
Shoichi Taguchi
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
 
スパース推定
スパース推定スパース推定
スパース推定
y-uti
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
Akira Miyazawa
 
Introduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths ProblemIntroduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths Problem
Naoya Ito
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
Satoshi Hara
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
Satoshi Kato
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
Taiji Suzuki
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
Tomoshige Nakamura
 
20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁
Tomoshige Nakamura
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
Tomoshige Nakamura
 
[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...
shima o
 
LPマスターへの道
LPマスターへの道LPマスターへの道
LPマスターへの道
KoseiTeramoto
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Kota Mori
 
Introduction of "the alternate features search" using R
Introduction of  "the alternate features search" using RIntroduction of  "the alternate features search" using R
Introduction of "the alternate features search" using R
Satoshi Kato
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
Shoichi Taguchi
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
Satoshi Hara
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
 
スパース推定
スパース推定スパース推定
スパース推定
y-uti
 
Introduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths ProblemIntroduction to Algorithms#24 Shortest-Paths Problem
Introduction to Algorithms#24 Shortest-Paths Problem
Naoya Ito
 

More from Satoshi Hara (10)

Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its Reliability
Satoshi Hara
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
Satoshi Hara
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
Satoshi Hara
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
Satoshi Hara
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
Satoshi Hara
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Satoshi Hara
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Satoshi Hara
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as Explanation
Satoshi Hara
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
Satoshi Hara
 
Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its Reliability
Satoshi Hara
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
Satoshi Hara
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
Satoshi Hara
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
Satoshi Hara
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
Satoshi Hara
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Satoshi Hara
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Satoshi Hara
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as Explanation
Satoshi Hara
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
Satoshi Hara
 

特徴選択のためのLasso解列挙