強化学習の基礎的な考え方と問題の分類

Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA Co., Ltd.
システム本部
AI システム部 AI 研究開発第三グループ
甲野佑
強化学習の基礎的な考え⽅と問題の分類

甲野佑
所属 : 株式会社ディー・エヌ・エー AI システム部 AI 研究開発第三グループ
東京電機⼤学理⼯学部講師 (兼業)
研究 : 強化学習，”逆転転オセロニア” への応⽤
興味：神経科学，認知科学に基づいた階層型 RL アーキテクチャ
〜2017年3⽉: ⼤学で強化学習の研究してきました
2017年4⽉〜: 強化学習を応⽤したゲーム AI の研究開発をしています
2018年4⽉〜: 東京電機⼤学にて⼈⼯知能についての授業をしています
⾃⼰紹介
2

3
【前提として】
前半は既存発表スライドによる基礎概念の説明
(https://www.slideshare.net/yukono1/ss-102843951)
(https://www.slideshare.net/yukono1/ai-82646808)
↓
後半は応⽤時の強化学習課題の作り⽅
本スライドはもう少し整理してからアップロード予定
今回のテーマ

4
強化学習とは
・報酬を最⼤化する⽅策を獲得するのが⽬的
・基本は動物が芸を覚えるのと同じ
- 当該の⾏動の選択分布(⽅策)の良し悪しを環境との相互作⽤から学習
- 収益が良かったらその⾏動を取る確率が上がり，悪かったら下がる
→ 基本の理屈は単純
状態：ランプ点灯行動：ボタン押下報酬：エサ獲得
強化
基本的には鳩の条件付け実験 ”スキナー箱” そのもの

5
強化学習と教師あり学習の対応関係
教師あり学習と同じ
教師あり学習と異なる
⽬的はともかく具体的な学習では関数近似をしている
- 今後得られる収益予測に対する回帰 (価値関数の学習)
- ⾏動選択に対する多クラス分類 (⽅策分布の学習)
環境に対する主体的なデータ※のサンプリングが前提
※ データ＝ (状態, ⾏動) → (次状態) (報酬) の状態遷移軌跡

6
⽬的
教師あり学習強化学習教師なし学習
環境 or データ
教師信号⼊⼒信号
データは所与
報酬観測状態観測
データは自分で収集
⼊⼒信号
データは所与
損失関数報酬の定義条件・制約
法則発⾒適応⾏動完璧な予測
データ所与である前提と異なり，強化学習は
環境を探索して主体的にデータを獲得しつつ⾏動⽅策を最適化
※ わかりやすさ重視で簡略化

7
教師あり学習と同じ
教師あり学習と異なる
⽬的はともかく具体的な学習では関数近似をしている
- 今後得られる収益予測に対する回帰 (価値関数の学習)
- ⾏動選択に対する多クラス分類 (⽅策分布の学習)
環境に対する主体的なデータ※のサンプリングが前提
※ データ＝ (状態, ⾏動) → (次状態) (報酬) の状態遷移軌跡
- 動的なサンプリングなのでデータが⼤量に取得しにくい
- 収益に対する bias and variance trade-oﬀ
- サンプリングされるデータが強化学習エージェント⾃⾝の現
⾏動⽅針 (⽅策) に依存
- この⾃⼰依存性が強化学習を難しくしている

8
基本的強化学習概念
実⽤向き → バンディット問題・⽂脈付きバンディット問題
応⽤事例は限定的だが保証有 → テーブル型強化学習
⾼度な応⽤に向けた技術 → (関数近似) 強化学習 e.g. DQN 等
⽂脈付き
バンディット問題
バンディット問題
教師あり学習
(⾮時系列)
強化学習
(関数近似使⽤)
テーブル型
強化学習
状態系列＝軌跡
VS
単発状態
環境観測 (サンプリング) で状態表現を取得
VS
テーブル形式での状態の完全な表現が所与報酬による評価
VS
教師信号
最も単純な強化学習課題であるバンディット問題との関係
※ わかりやすさ重視で簡略化 ※VS の内側概念の⽅が問題クラスが広い
Littman, M. L. Reinforcement learning improves behaviour from evaluative feedback. Nature, 521, (7553), 445-451. 2015.

9
強化学習と教師あり学習の対応関係のまとめ
⽬的はともかくやっていることは概ね回帰かクラス分類課題に落とし
込める
- つまり深層ニューラルネット等の⾼度な関数近似を利⽤可能
- 深層ニューラルネットを関数近似に利⽤した強化学習を深層強
化学習と呼ぶ
教師あり学習を既に知っている強化学習の初学者にとって複雑に感じ
る点は以下による
- データは⾃分で環境からサンプリングしなければいけない
- ターゲット (教師あり学習でいう教師信号) が⾃⼰依存

10
・学習が難しい，学習コストが⾼い
・シミュレータ開発コストが⾼い
・リアリティーギャップ
・タスク間の汎⽤性
・マルチタスクが苦⼿
・不完全情報 (不完全観測)
・(本質的に) 時系列依存
・マルチエージェント
・[深層学習由来の問題] 価値関数の学習の困難さ
すぐ思いつくだけでも沢⼭存在
細かい問題の羅列は ↓
(https://www.slideshare.net/yukono1/ss-102843951)
現在の強化学習の主要な課題

11
バンディット問題を使った応⽤
広告A
を提⽰
ユーザー
の来訪
広告B
を提⽰
提⽰された広告をユーザーがクリックする or しない
A/B テストが有名，例：ユーザーに対してどの広告を提⽰するか
ユーザー全体に対する⽬的(クリック率など)の最⼤化が⽬的
↓
試⾏錯誤して⽬的を最⼤化する広告の提⽰割合を調整するのが AI の役⽬

12
バンディット問題を使った応⽤
⽂脈付きバンディット問題：ユーザーごとに適切な広告を提⽰
広告A
を提⽰
ユーザー
の来訪
広告B
を提⽰
A/B テストが有名，例：ユーザーに対してどの広告を提⽰するか
ユーザー全体に対する⽬的(クリック率など)の最⼤化が⽬的
提⽰された広告をユーザーがクリックする or しない
広告A
を提⽰
男性/20代
広告B
を提⽰
広告A
を提⽰
⼥性/30代
広告B
を提⽰
広告A
を提⽰
⼥性/20代
広告B
を提⽰
広告A
を提⽰
男性/40代
広告B
を提⽰
ユーザー属性(特徴量)を細かく定義，類似度に応じて広告の好嫌を共有

13
⽂脈付きバンディット問題を知らずに応⽤はできない(かも？)
広告A
を提⽰
閲覧者
広告B
を提⽰
知っている⼈には退屈な話・・・しかし，
⽂脈付きバンディット問題は深層強化学習応⽤時に必要な知⾒を教えてくれる
・状態の特徴量設計の重要さ
・アルゴリズムの評価とシミュレーション
閲覧者 a
閲覧者 b 閲覧者 d
閲覧者 c
閲覧者 f
潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする or しない
閲覧者 e

14
バンディット問題の⼿法
試⾏錯誤しないと新規広告を含めた最良の配信⽅法はわからない
うまく試⾏錯誤するような評価⽅法
→ UCB 系アルゴリズム，Thompson Sampling がメジャー
ユーザーの属性，類似度を定義する特徴量の設計が重要
探索報酬で真の報酬推定に
反する⾏動を促進
評価の未知度合いを上乗せ
試⾏していくと減少
A B< A B>
試⾏錯誤：UCB系
A B
情報の共有：LinUCB 等
特
徴
1
特
徴
2
特
徴
3
特
徴
4
特
徴
5
特
徴
1
特
徴
2
特
徴
3
特
徴
4
特
徴
5
ユーザーの持つ特徴の評価の和
ユーザー間の同じ特徴の評価は
共有される
<

15
バンディットアルゴリズムの評価と環境
実際に試してみないとアルゴリズム，ハイパーパラメータ，特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明
→ 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい
→ 過去のデータを使ってシミュレーション
広告A
を提⽰
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 c
閲覧者 f
実環境：潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする or しない
閲覧者 e

広告A
を提⽰
16
実際に試してみないとアルゴリズム，ハイパーパラメータ，特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明
→ 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい
→ 過去のデータを使ってシミュレーション
→ 過去のデータからは実績データと異なる選択の正確な評価ができない
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 c
閲覧者 f
過去のユーザーデータ
ほか多数
サンプリング
過去のユーザー履歴：過去の提⽰広告を閲覧者がクリックした or しなかった
閲覧者 e
←過去に提⽰した広告
現学習中のアルゴリズム
はこちらを提⽰するかも→

広告A
を提⽰
17
閲覧者
広告B
を提⽰
閲覧者 a
閲覧者 c
閲覧者 f
過去のユーザーデータ
ほか多数
サンプリング
報酬の混合モデル
過去のデータから作られた閲覧者と広告のクリック(報酬)予測モデルと
＋
過去のデータからクリック実績を当時のサンプリング分布で補正した報酬値
閲覧者 e
←過去に提⽰した広告
現学習中のアルゴリズム
はこちらを提⽰するかも→
→ シミュレーション環境を教師あり学習で作成してアルゴリズムを評価
Li, L., et al. Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms. Proceedings
of the fourth ACM international conference on Web search and data mining. 2011.

18
強化学習の応⽤事例
※ 上記の系列 (状態と⾏動の遷移軌跡) が強化学習を考える上での情報の単位
ユーザー
からの質問
AI
の応答
ユーザー
からの応答
AI
の応答
状態 1 ⾏動状態 2 ⾏動
状態遷移
建物や
揺れの状態
ダンパー
の調整
建物や
揺れの状態
ダンパー
の調整
建物の揺れの⼩ささ
ユーザーの評価
報酬関数
強化学習の基本：
対話課題：
耐震ダンパー制御：
状態遷移
状態遷移
※ Seq2Seq で⽂字列⽣成を事前学習後

19
強化学習と動的計画法とその利点
ある制約(MDP)を前提に，単発の意思決定 × 多段階にして探索空間を削減
動的計画法(Dynamic Programming, DP)の基本的考え⽅
全ての⼿順のパターンを試す単発の選択を何度も繰り返し試す
次状態次状態
マルコフ決定過程(MDP) 現在参照している状態の情報のみから
次にどの状態に遷移するか決まる予測可能
(確率的な場合も)
時系列を次が予測可能な情報単位に分割できる
状態⾏動⾏動

× 繰り返し計算
20
次状態次状態
単発の意思決定の最適化
状態⾏動⾏動
報酬
× 状態の数 (多段階，環境全体)
MDP の導⼊による問題の変換，状態の定義と遷移確率が⾃明なら動的計画法
強化学習と繰り返し
収束するまで繰り返す

21
離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う
π Rπ⽅策⽅策の評価 (収益)
⽅策(⾏動の選択分布)の評価に基づいて良い⽅策を探索/最適化する
⽅策(⾏動の選択分布)の良さを実際の⾏動結果から評価する
π’ Rπ⽅策⽅策の評価 (収益)
全てはこの反復で成り⽴っている
難しく⾒えてもこのなんらかの近似でしかない
評価をサンプル：環境モデルが不明だからサンプリング
⽅策の修正

22
次状態次状態
状態⾏動⾏動
強化学習の本質は繰り返し，ゆえに⾼コスト
単発の意思決定 × 多段階 × 繰り返し試⾏錯誤
反復回数が多いため状態の数や状態遷移数は少ないほど学習が容易
報酬
× 試⾏錯誤

23
次状態次状態
状態⾏動⾏動
強化学習の本質は繰り返し，ゆえに⾼コスト
単発の意思決定 × 多段階 × 繰り返し試⾏錯誤
反復回数が多いため状態の数や状態遷移数は少ないほど学習が容易
報酬
× 試⾏錯誤

× 繰り返し計算 × 試⾏錯誤
24
次状態次状態
状態⾏動⾏動
報酬
状態⾏動⾏動
状態⾏動⾏動
状態が類似 → 知識の共有
・類似を定義する特徴量
・知識をうまく共有する近似関数
の設計
↑
深層学習が⼀応解決
(油断は禁物)
状態の数に対する反復の効率化
→ 類似した状態への知識(反復結果)の転移
→

25
MDPと状態の特徴量の定義
状態
t
⾏動
状態
t+1
⾏動
状態遷移
⼀つ前の状態⾏動のみから次の状態が決まる
→ 1 階マルコフ連鎖 (単純マルコフ)
→ 現在の情報からのみ⾏動を最適化できる
→ 次状態が予測可能な⼊⼒が必要
・画像情報 (ゲーム)
・各種センサー情報 (運動制御など)
・＋などから作られた特徴量

状態
t-2
⾏動
状態
t-1
⾏動
26
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
N 個の状態⾏動から次の状態が決まる
→ N 階マルコフ連鎖
→ 過去の情報を覚えていないと⾏動を最適化できない
ここで発⽣する問題
・過去の状態⾏動の組み合わせが爆発
- たとえ近似関数を使ってもパラメータ数が指数的に増加
・過去をどの程度の⻑さで覚えておくべきかがわからない
・全て覚えておくのが⼤変 (学習データの巨⼤化)

状態
t-2
⾏動
状態
t-1
⾏動
27
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
状態遷移を予測するのに必要な情報だけを特徴量として設計することで
状態を圧縮して組合せ爆発を防ぐ
※ RNN を⽤いて時系列を学習する⽅法もあるが学習の難易度は上がる
過去を代替えする
状態の特徴量 t
状態
t
⾏動
状態
t+1
⾏動
状態遷移

状態
t-2
⾏動
状態
t-1
⾏動
28
状態
t
⾏動
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動
間の⾏動や遷移が決まりきった系列(スキル・お作法・テクニック)なら
その複数の⾏動系列をひとつの⾏動として⾒なすこともできる
状態
t+1
⾏動
状態遷移
状態
t-3
⾏動 = ある決まった状態⾏動系列 (スキル等)
e.g. 短期的なルールベース⾏動
状態特徴と⾏動の単位をうまく設計して問題を，
・⽂脈付きバンディット問題
・できるだけ短い状態遷移系列の問題
に近づけて，学習の繰り返し回数が減少，学習しやすくさせる

29
強化学習として解くのに必要なものと困難さ
(1) シミュレータ
課題環境のモデリング
(2) 報酬関数
⽬的の定義
(1) と (3) はデータサイエンスを駆使して作成する必要がある
他が不完全な設計でも⾼度な (4) の導⼊で解消できる可能性も
(3) 状態特徴の定義
特徴量の設計
(4) 強化学習アルゴリズム
解き⽅，他の不⾜を吸収可能
現実の問題に対処しようとすると (1) と (2) が作りにくい
ユーザーから
の質問 (3)
AI
の応答
ユーザーから
の応答 (3)
AI
の応答
ユーザーの評価 (2)
対話課題：
⼈間の応答モデル？ (1)

30
シミュレータの問題
⾏動 A 状態⾏動 B
状態 a
状態 b 状態 d
状態 c
状態 f
過去に得られた状態データ群
ほか多数
サンプリング
報酬モデル
状態 e
← 実際にとった⾏動
シミュレータ要素
通常の強化学習では状態遷移の概念が加わる
→ シミュレータはなるべく正確に遷移パターンを模倣する必要がある
先ほどの⽂脈付きバンディット問題の評価を強化学習課題と捉えると・・・

31
シミュレータの問題
報酬
状態遷移
シミュレータ
膨⼤な反復回数が必要なので，シミュレータが⾼速であれば学習が早まる
→ それだけ学習時におけるシミュレータは重要な役割
強化学習⼀般：

32
ゲームの場合
ゲーム
ステータス 1
コントローラ
操作
ゲーム
ステータス 2
コントローラ
操作
ゲームスコア等
状態遷移
⾼速ゲームロジック
ゲームであれば描画などを切り離した
⾼速なゲームロジックで学習シミュレータを作成
ゲーム開発チームとの連携が必要
もちろん DQN などのようにゲーム画⾯をそのまま使っても良い
(ゲーム進⾏が遅い＝学習時間も遅くなる)
IMPALA や R2D2 などの分散型強化学習で
シミュレータからの情報を並列化的にサンプリングすることで効率化
(⾼いエンジニアリングスキルが必要)
ゲーム：

33
耐震ダンパー制御の場合
建物や
揺れの状態
ダンパー
の調整
建物や
揺れの状態
ダンパー
の調整
建物の揺れの⼩ささ
耐震ダンパー制御：
状態遷移
物理シミュレータ
耐震実験データ
膨⼤な揺れのパターン建物の特性建物の揺れ幅等
参考 URL : https://inforium.nttdata.com/foresight/ai-vibration-control.html
数理的な解析からモデルを作成
⾼度な解析での状態遷移モデルの作成
揺れのパターンより建物の特性が優位という知⾒の発⾒が重要
→ 状態の特徴量設計にも活きる

34
“対話”など極めてモデル化の難しい課題の場合
ユーザー
からの質問
AI の
応答
ユーザー
からの応答
AI の
応答
ユーザーの評価
対話課題：
状態遷移
オンラインな実環境
現実の⼈間という複雑すぎてモデルの作成が困難である場合，
オンラインな実験環境で試すしかない
→ 学習環境と実運⽤環境のズレは少ないが，データ数が稼げない
映画チケットの予約等，⽐較的ドメインが固定された課題では
ルールベースの応答 bot (シミュレータ) を相⼿に学習
同じ⾃然⾔語課題でも翻訳では BLEU 等の指標を収益として強化学習する
BLEU 等の翻訳指標は直接損失関数にできない (勾配計算不能) ので
系列⽣成の学習に強化学習を利⽤する (MIXER 等)
Ranzato, M. A, Chopra, S., Auli, M., Zaremba, W. Sequence level training with recurrent neural networks. arXiv preprint arXiv:
1511.06732. 2015. https://arxiv.org/abs/1511.06732
Li, X., Chen, Y. N., Li, L., Gao, J., Celikyilmaz, A., End-to-End Task-Completion Neural Dialogue SystemsIJCNLP. 2017.
https://arxiv.org/abs/1703.01008

35
複雑なロボットの運動制御の場合 (より複雑な課題として)
報酬
状態遷移
シミュレータ
少なからず乖離が存在する
どんな課題でも特徴量設計は重要
ロボットの運動制御ではそれ以上にアルゴリズムに依存することが多い
・シミュレータの完成度も重要だが限界がある
・各関節の⾏動の組み合わせが複雑すぎる
- AI が選択する関節の出⼒値は連続的な分布で近似
- 有名な TRPO や PPO などの⽅策勾配法を使って⽅策分布を学習
・明らかに無意味な⾏動パターンも多い
複雑なので無意味な⾏動パターンが多い

36
報酬
状態遷移
シミュレータ
激しく乖離
→ 実環境より難しくなる
→ 結果，ロバストな⽅策を学習
何らかの統計情報・データ
強⼒なノイズ＋
あらかじめシミュレータが強いランダム性を持つものとして設計
そのようなランダム性に対処していくとノイズに強い頑健な⽅策を学習
(場当たり的な) シミュレータ側の⼯夫
シミュレータと実環境のギャップへの対処

37
逆強化学習
報酬
エキスパートの報酬モデル
エキスパートのデモンストレーションの実験データ
逆強化学習アルゴリズムで報酬関数を作成
エキスパートの挙動を再現するような⾏動が優先されるような報酬
→ 無意味な⾏動をあまり取らなくなる
→ 学習の効率が良くなる
報酬関数の⼯夫
逆強化学習や転移学習に複雑な⾏動探索を簡略化し，学習を効率化する

38
転移学習
報酬
複雑な⾏動を覚えた
コントローラ
⽐較的単純な複数のタスク
物を掴む課題移動する課題物を置く課題
各タスクで学習した意味のある⾏動を
コントローラに埋め込む (転移学習)
無意味な⾏動を防ぎ探索空間を削減
より単純にあらかじめ単純なタスクで基礎的な⾏動をマルチタスク学習して
そのパラメータを初期パラメータとして流⽤するのも転移学習
タスク段階的に難しくして繰り返す場合，カリキュラム学習とも呼ばれる
逆強化学習や転移学習に複雑な⾏動探索を簡略化し，学習を効率化する

39
マルチエージェント
・マルチエージェント強化学習
- 1 つの環境の中で複数のエージェントが⾏動する事を前提
• エージェントは個別に⽬的を持ったり
• 敵対したり
• 協⼒したり
- マルチエージェトの例
• 対戦型ゲーム
• 公道での⾃動運転，渋滞の解消
• その他社会性が関係する課題全て
・基本的には Self-play が前提となる
- 不完全情報を含む場合はゲーム⽊依存になる場合が多い
- 複雑で巨⼤なゲーム⽊を簡略化する⼿法を応⽤
- 多⼈数ゲーム (e.g. ポーカー) AI 系技術

40
Self-play のイメージ
過去の⾃⾝やデータ
環境内の他
エージェント
学習
エージェント
対戦・学習
過去G
過去A
過去B
過去D
過去C
過去E
過去F
⾃⾝ or 選択を保存
ランダムに過去の⾃信を選択 or 平均的な⾃分の振る舞いを学習
⽬的(報酬関数)が異なるエージェントごとに学習して
環境の構成要員として更新し続ける
シミュレータ
＋
状態

41
× エージェントの数
× 繰り返し計算 × 試⾏錯誤
次状態次状態
状態⾏動⾏動
Self-play は繰り返しの繰り返しなので更に反復回数が更に膨⼤になる
影響が弱いなら環境側としてモデリングしてしまう⼿段はある
→ シミュレータの状態遷移として多数のエージェントを環境として背景化
→ 環境の複雑さとしてシミュレータに押し付けている (正確さには⽋ける)
マルチエージェント
or
環境内の他
エージェント
シミュレータ
環境の遷移
のモデル
今まではこちらだけ
を考えていた
何らかの統計情報・データ
例：過去の対戦情報

阻害⾏動
42
報酬
状態遷移
シミュレータ
学習エージェント：
マルチエージェントの技術は単⼀エージェントの強化学習にも使える
学習エージェントの⾏動を阻害するように学習する
敵対エージェントと競い合うように学習することで
結果的に未知の状況にも強い頑健な⽅策を学習できる
強化学習アルゴリズム側の⼯夫
マルチエージェントとロバストな⽅策
敵対学習エージェント：
Pinto, L., et al. Robust Adversarial Reinforcement Learning. https://arxiv.org/abs/1703.02702. 2017.

43
問題の分解の仕⽅のまとめ
・強化学習応⽤時の問題の分割
- 応⽤したい問題にとって(1)(2)(3)(4)が何かを把握すること
・いずれかの不⾜を他に押し付けるために問題の定義を書き換えることも重要
- 実際に使う (4) を決めるためには (1)(2)(3)をしっかり整理検討
- (1)(2)(3) をどう定義すべきかは複数の (4) の知識が必要
• 問題を強化学習に落とし込むのも上記の繰り返し
• ⼀般的データサイエンスと強化学習のアルゴリズム知⾒が両⽅必要
(1) シミュレータ
課題環境のモデリング
(2) 報酬関数
⽬的の定義
(3) 状態特徴の定義
特徴量の設計
(4) 強化学習アルゴリズム
解き⽅，他の不⾜を吸収可能

強化学習の基礎的な考え方と問題の分類

Recommended

More Related Content

What's hot (20)

Similar to 強化学習の基礎的な考え方と問題の分類 (20)

強化学習の基礎的な考え方と問題の分類